Strukturelle Modelle in der Bildverarbeitung Expectation Maximization für MRF-s

(1)

Strukturelle Modelle in der Bildverarbeitung Expectation Maximization für MRF-s

D. Schlesinger – TUD/INF/KI/IS

(2)

Gegeben sei ein Modellp(x,y;θ) mit:

beobachteten Variablenx, verborgenen Variableny und einem Parameterθ Gegeben sei eine unvollständige LernstichprobeL= (x¹,x². . .x^|L|).

Maximum Likelihood Prinzip:

lnp(L;θ) =

X

l

ln

X

y

p(x^l,y;θ)→max

θ

Expectation Maximization Algorithmus:

E: Berechne

α^(t)_l (y) =p(y|x^l;θ^(t)) für alle Musterlund alle Werte vony.

M: Maximiere

θ^(t+1)= arg max

θ

X

l

X

y

α^(t)_l (y)·lnp(x^l,y;θ)

(3)

EM für MRF-s

ysind Labellings,θ≡g,qseien gegeben (müssen nicht gelernt werden) p(x,y;g) = 1

Zexp

−E(x,y;g)

, E(x,y;g) =

X

r

qr(xr,yr) +

X

rr⁰

g_rr0(yr,y_r0)

E-Schritt ist dasselbe, wie im allgemeinen Fall, d.h. man definiereα^(t)_l (y) =p(y|x^l;g^(t)).

Man berücksichtige aber, dass es jetzt nicht möglich ist, alle Zahlen α explizit zu halten (es sind zu viel). Diese Zahlen sind nur ein „Hilfskonstrukt“, der es erlaubt, die Optimierungsaufgabe für den M-Schritt abzuleiten.

M-Schritt – das Modell einsetzen:

F=

X

l

X

y

α^(t)_l (y)·lnp(xl,y;g) =

X

l

X

y

α^(t)_l (y)·

−E(x^l,y;g)−lnZ

=

−

X

l

X

y

α^(t)_l (y)·E(x^l,y;g)−

X

l

X

y

α^(t)_l (y)·lnZ→max

g

(4)

Derzweite Termist

X

l

X

y

α^(t)_l (y)·lnZ=

X

l

h

lnZ·

X

y

α^(t)_l (y)

i

=

X

l

lnZ=|L| ·lnZ

und die Ableitung davon nach einemg_rr0(k,k⁰) ist

|L| · ∂lnZ

∂g_rr0(k,k⁰)=−|L| ·p(yr=k,y_r0=k⁰) (siehe vorige Vorlesung).

Dererste Termist

(Achtung!!! Bei der Vorlesung war die Ableitung an der Tafel etwas ungenau):

F⁰=

X

l

X

y

α^(t)_l (y)·E(x^l,y;g) =

X

l

X

y

α^(t)_l (y)·

hX

r

qr(x_r^l,yr) +

X

rr⁰

g_rr0(yr,y_r0)

i

und die Ableitung davon nach einemgrr⁰(k,k⁰) ist

∂F⁰

∂g_rr0(k,k⁰) =

X

l

X

y

α^(t)_l (y)·∂E(x^l,y;g)

∂g_rr0(k,k⁰) =

X

l

X

y

α^(t)_l (y)·1I(yr=k,y_r0=k⁰)

(5)

EM für MRF-s

Man erinnere daran, dassα-s a-posteriori Wahrscheinlichkeiten sind, d.h.

X

l

X

y

α^(t)_l (y)·1I(yr=k,y_r0=k⁰) =

=

X

l

X

y

p(y|x^l;g^(t))·1I(yr=k,y_r0=k⁰) =

X

l

p(yr=k,y_r0=k⁰|x^l;g^(t))

Folglich ist es gar nicht notwendig alle α-s (a-posteriori Wahrscheinlichkeiten für jedes Labelling) explizit zu halten, weil im M-Schritt nur die marginalen Wahrscheinlichkeits- werte benötigt sind.

Alles zusammen

– der Gradient der Optimierungsaufgabe für den M-Schritt (normiert auf|L|):

∂F

∂grr⁰(k,k⁰)=− 1

|L|

X

l

p(yr=k,yr⁰=k⁰|x^l;g^(t)) +p(yr=k,yr⁰=k⁰)

Diese Formel sieht zehr ähnlich dem Gradienten des Likelihoods aus (siehe vorige Vorle- sung). Der Hauptunterschied besteht darin, dass sich jetzt der erste Term des Gradienten wehrend des M-Schrittes nicht ändert. Beim Gradienten Verfahren wird dieser Term in jedem Gradienten-Schritt neu berechnet.

(6)

Gradienten Verfahren:

1) Berechne die a-posteriorip(. . .|x^l) 2) Berechne die a-priorip(. . .) 3) Berechne den Gradienten

„p(. . .)−p(. . .|x^l)“

4) Gehe in Richtung Gradienten Iteriere 1)-4) bis Konvergenz

EM-Algorithmus:

E: Berechne die a-posteriorip(. . .|x^l) M: 2) Berechne die a-priorip(. . .)

3) Berechne den Gradienten

„p(. . .)−p(. . .|x^l)“

4) Gehe in Richtung Gradienten Iteriere 2)-4) bis Konvergenz Iteriere E-M bis Konvergenz

– Führt man im M-Schritt (2-4 rechts) nur einen Gradienten Schritt durch, so entspricht das exakt dem Gradienten Verfahren

– Gradienten Verfahren ist etwas schneller

– EM-Algorithmus ist etwas stabiler (erinnere an das „Krater“-Beispiel)