Strukturelle Modelle in der Bildverarbeitung Maximum Likelihood für MRF-s

(1)

Strukturelle Modelle in der Bildverarbeitung Maximum Likelihood für MRF-s

D. Schlesinger – TUD/INF/KI/IS

D. Schlesinger SMBV: Maximum Likelihood für MRF-s() 1 / 5

(2)

Überwachtes Lernen

Das Modell (kein HMM – nury, nur paarweise kanten-spezifische Termeg):

p(y) = 1 Zexp

−E(y)

mitE(y) =

X

rr⁰∈E

g_rr0(yr,y_r0),Z=

X

y

exp

−E(y)

Gegeben sei eine LernstichprobeL= (y¹,y². . .y^|L|), ML:p(L)→max.

p(L) =

Y

l

p(y^l) =

Y

l

1 Zexp

−E(y^l)

→max

g

Lorarithmieren:

F= lnp(L) =

X

l

−E(y^l)−lnZ

=−

X

l

E(y^l)− |L| ·lnZ→max

g

Der erste Term:

X

l

E(y^l) =

X

l

X

rr⁰

g_rr0(yr,y_r0) =

X

rr⁰

X

kk⁰

X

l:y^l_r=k,y^l r0=k⁰

g_rr0(k,k⁰) =

=

X

rr⁰

X

kk⁰

nrr⁰(k,k⁰)grr⁰(k,k⁰)

mit den Häufigkeitenn_rr0(k,k⁰) aus der Lernstichprobe.

(3)

Überwachtes Lernen

Ableitung (nach einem bestimmten Parameterg_rr0(k,k⁰)):

∂F

∂g_rr0(k,k⁰)=−n_rr0(k,k⁰)− |L| · ∂lnZ

∂g_rr0(k,k⁰)

Für denzweiten TermKettenregel anwenden:

∂lnZ

∂g_rr0(k,k⁰)= 1 Z

X

y

exp

−E(y)

· − ∂E(y)

∂g_rr0(k,k⁰)=

=−

X

y

1 Zexp

−E(y)

· ∂E(y)

∂grr⁰(k,k⁰)=−

X

y

p(y)· ∂E(y)

∂grr⁰(k,k⁰) =

=

X

y

p(y)·1I(yr=k,yr⁰=k⁰) =p(yr=k,yr⁰=k⁰)

Alles zusammen – Ableitung des Log-Likelihood nach einem Parameter (normiert auf|L|):

∂F

∂g_rr0(k,k⁰) =−n_rr0(k,k⁰)

|L| +p(yr=k,y_r0=k⁰)

Der Gradient ist die Differenz zwischen „soll“- und „ist“-Wahrscheinlichkeiten.

Der Likelihood ist maximal, wenn diese übereinstimmen.

Gradienten Verfahren:n_rr0(·) sind gegeben,p(·) z.B. mit dem Gibbs Sampling schätzen.

(4)

Unüberwachtes Lernen (Gradienten Verfahren)

Das Modell:p(x,y) = 1/Z·exp

−E(x,y)

,

Lernstichprobe ist unvollständig (nur Beobachtungenx), d.h.L= (x¹,x². . .x^|L|).

ML-Prinzip ist dasselbe:p(L)→max p(L) =

Y

l

p(x^l) =

Y

l

X

y

p(x^l,y) =

Y

l

X

y

1 Z ·exp

−E(x^l,y)

.

1/Z aus

P

y ausklammern und logarithmieren:

F=

X

l

h

ln

X

y

exp

−E(x^l,y)

−lnZ

i

=

X

l

ln

X

y

exp

−E(x^l,y)

− |L| ·lnZ

Ableitung desersten Termsnach einem Parameter (Kettenregel):

∂F⁰

∂g_rr0(k,k⁰) =

X

l

"

1

P

y⁰exp

−E(x^l,y⁰)

^·

X

y

exp

−E(x^l,y)

· − ∂E(x^l,y)

∂g_rr0(k,k⁰)

#

=

X

l

X

y

exp

−E(x^l,y)

P

y⁰exp

−E(x^l,y⁰)

^{· −}

∂E(x^l,y)

∂g_rr0(k,k⁰)

Man multipliziere sowohl den Zähler als auch den Nenner vomQuotientmit 1/Z

(5)

Unüberwachtes Lernen (Gradienten Verfahren)

. . .=

X

l

X

y

1/Z·exp

−E(x^l,y)

P

y⁰1/Z·exp

_−E(x_l

,y⁰)

^{· −}

∂E(x^l,y)

∂g_rr0(k,k⁰)=

=

X

l

X

y

p(x^l,y)

P

y⁰p(x^l,y⁰)· − ∂E(x^l,y)

∂g_rr0(k,k⁰)=

X

l

X

y

p(x^l,y)

p(x^l) · − ∂E(x^l,y)

∂g_rr0(k,k⁰) =

=

X

l

X

y

p(y|x^l)· − ∂E(x^l,y)

∂g_rr0(k,k⁰) =−

X

l

X

y

p(y|x^l)·1I(yr=k,y_r0=k⁰) =

=−

X

l

p(yr=k,y_r0=k⁰|x^l)

Die Ableitung von lnZ ist analog zum überwachten Fall.

Alles zusammen (normiert auf|L|):

∂lnp(L)

∂g_rr0(k,k⁰) =−1/|L|

X

l

p(yr=k,y_r0=k⁰|x^l) +p(yr=k,y_r0=k⁰)

Wie im überwachten Fall ist der Gradient die Differenz zwischen marginalen Wahrschein- lichkeiten. Im Gegensatz zum überwachten Fall (die Häufigkeitenn_rr0(·) sind bekannt) sind die „soll“-Wahrscheinlichkeiten nicht gegeben. Diese müssen jetzt auch wie die a- priori Wahrscheinlichkeiten geschätzt werden (z.B. mit dem Gibbs Sampling).