Strukturelle Modelle in der Bildverarbeitung Maximum Likelihood für MRF-s
D. Schlesinger – TUD/INF/KI/IS
D. Schlesinger SMBV: Maximum Likelihood für MRF-s() 1 / 5
Überwachtes Lernen
Das Modell (kein HMM – nury, nur paarweise kanten-spezifische Termeg):
p(y) = 1 Zexp
−E(y)
mitE(y) =
X
rr0∈E
grr0(yr,yr0),Z=
X
y
exp
−E(y)
Gegeben sei eine LernstichprobeL= (y1,y2. . .y|L|), ML:p(L)→max.
p(L) =
Y
l
p(yl) =
Y
l
1 Zexp
−E(yl)
→max
g
Lorarithmieren:
F= lnp(L) =
X
l
−E(yl)−lnZ=−
X
l
E(yl)− |L| ·lnZ→max
g
Der erste Term:
X
l
E(yl) =
X
l
X
rr0
grr0(yr,yr0) =
X
rr0
X
kk0
X
l:ylr=k,yl r0=k0
grr0(k,k0) =
=
X
rr0
X
kk0
nrr0(k,k0)grr0(k,k0)
mit den Häufigkeitennrr0(k,k0) aus der Lernstichprobe.
D. Schlesinger SMBV: Maximum Likelihood für MRF-s() 2 / 5
Überwachtes Lernen
Ableitung (nach einem bestimmten Parametergrr0(k,k0)):
∂F
∂grr0(k,k0)=−nrr0(k,k0)− |L| · ∂lnZ
∂grr0(k,k0)
Für denzweiten TermKettenregel anwenden:
∂lnZ
∂grr0(k,k0)= 1 Z
X
y
exp
−E(y)
· − ∂E(y)
∂grr0(k,k0)=
=−
X
y
1 Zexp
−E(y)
· ∂E(y)
∂grr0(k,k0)=−
X
y
p(y)· ∂E(y)
∂grr0(k,k0) =
=
X
y
p(y)·1I(yr=k,yr0=k0) =p(yr=k,yr0=k0)
Alles zusammen – Ableitung des Log-Likelihood nach einem Parameter (normiert auf|L|):
∂F
∂grr0(k,k0) =−nrr0(k,k0)
|L| +p(yr=k,yr0=k0)
Der Gradient ist die Differenz zwischen „soll“- und „ist“-Wahrscheinlichkeiten.
Der Likelihood ist maximal, wenn diese übereinstimmen.
Gradienten Verfahren:nrr0(·) sind gegeben,p(·) z.B. mit dem Gibbs Sampling schätzen.
D. Schlesinger SMBV: Maximum Likelihood für MRF-s() 3 / 5
Unüberwachtes Lernen (Gradienten Verfahren)
Das Modell:p(x,y) = 1/Z·exp
−E(x,y)
,
Lernstichprobe ist unvollständig (nur Beobachtungenx), d.h.L= (x1,x2. . .x|L|).
ML-Prinzip ist dasselbe:p(L)→max p(L) =
Y
l
p(xl) =
Y
l
X
y
p(xl,y) =
Y
l
X
y
1 Z ·exp
−E(xl,y)
.
1/Z aus
P
y ausklammern und logarithmieren:
F=
X
l
h
ln
X
y
exp
−E(xl,y)
−lnZ
i
=
X
l
ln
X
y
exp
−E(xl,y)
− |L| ·lnZ
Ableitung desersten Termsnach einem Parameter (Kettenregel):
∂F0
∂grr0(k,k0) =
X
l
"
1
P
y0exp
−E(xl,y0)
·X
y
exp
−E(xl,y)
· − ∂E(xl,y)
∂grr0(k,k0)
#
=
=
X
l
X
y
exp
−E(xl,y)
P
y0exp
−E(xl,y0)
· −∂E(xl,y)
∂grr0(k,k0)
Man multipliziere sowohl den Zähler als auch den Nenner vomQuotientmit 1/Z
D. Schlesinger SMBV: Maximum Likelihood für MRF-s() 4 / 5
Unüberwachtes Lernen (Gradienten Verfahren)
. . .=
X
l
X
y
1/Z·exp
−E(xl,y)
P
y01/Z·exp
−E(xl,y0)
· −∂E(xl,y)
∂grr0(k,k0)=
=
X
l
X
y
p(xl,y)
P
y0p(xl,y0)· − ∂E(xl,y)
∂grr0(k,k0)=
X
l
X
y
p(xl,y)
p(xl) · − ∂E(xl,y)
∂grr0(k,k0) =
=
X
l
X
y
p(y|xl)· − ∂E(xl,y)
∂grr0(k,k0) =−
X
l
X
y
p(y|xl)·1I(yr=k,yr0=k0) =
=−
X
l
p(yr=k,yr0=k0|xl)
Die Ableitung von lnZ ist analog zum überwachten Fall.
Alles zusammen (normiert auf|L|):
∂lnp(L)
∂grr0(k,k0) =−1/|L|
X
l
p(yr=k,yr0=k0|xl) +p(yr=k,yr0=k0)
Wie im überwachten Fall ist der Gradient die Differenz zwischen marginalen Wahrschein- lichkeiten. Im Gegensatz zum überwachten Fall (die Häufigkeitennrr0(·) sind bekannt) sind die „soll“-Wahrscheinlichkeiten nicht gegeben. Diese müssen jetzt auch wie die a- priori Wahrscheinlichkeiten geschätzt werden (z.B. mit dem Gibbs Sampling).
D. Schlesinger SMBV: Maximum Likelihood für MRF-s() 5 / 5