• Keine Ergebnisse gefunden

Strukturelle Modelle in der Bildverarbeitung Maximum Likelihood für MRF-s

N/A
N/A
Protected

Academic year: 2022

Aktie "Strukturelle Modelle in der Bildverarbeitung Maximum Likelihood für MRF-s"

Copied!
5
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Strukturelle Modelle in der Bildverarbeitung Maximum Likelihood für MRF-s

D. Schlesinger – TUD/INF/KI/IS

D. Schlesinger SMBV: Maximum Likelihood für MRF-s() 1 / 5

(2)

Überwachtes Lernen

Das Modell (kein HMM – nury, nur paarweise kanten-spezifische Termeg):

p(y) = 1 Zexp

−E(y)

mitE(y) =

X

rr0∈E

grr0(yr,yr0),Z=

X

y

exp

−E(y)

Gegeben sei eine LernstichprobeL= (y1,y2. . .y|L|), ML:p(L)→max.

p(L) =

Y

l

p(yl) =

Y

l

1 Zexp

−E(yl)

→max

g

Lorarithmieren:

F= lnp(L) =

X

l

−E(yl)−lnZ

=−

X

l

E(yl)− |L| ·lnZ→max

g

Der erste Term:

X

l

E(yl) =

X

l

X

rr0

grr0(yr,yr0) =

X

rr0

X

kk0

X

l:ylr=k,yl r0=k0

grr0(k,k0) =

=

X

rr0

X

kk0

nrr0(k,k0)grr0(k,k0)

mit den Häufigkeitennrr0(k,k0) aus der Lernstichprobe.

D. Schlesinger SMBV: Maximum Likelihood für MRF-s() 2 / 5

(3)

Überwachtes Lernen

Ableitung (nach einem bestimmten Parametergrr0(k,k0)):

∂F

∂grr0(k,k0)=−nrr0(k,k0)− |L| · lnZ

∂grr0(k,k0)

Für denzweiten TermKettenregel anwenden:

lnZ

∂grr0(k,k0)= 1 Z

X

y

exp

−E(y)

· − ∂E(y)

∂grr0(k,k0)=

=−

X

y

1 Zexp

−E(y)

· ∂E(y)

∂grr0(k,k0)=−

X

y

p(y)· ∂E(y)

∂grr0(k,k0) =

=

X

y

p(y)·1I(yr=k,yr0=k0) =p(yr=k,yr0=k0)

Alles zusammen – Ableitung des Log-Likelihood nach einem Parameter (normiert auf|L|):

∂F

∂grr0(k,k0) =−nrr0(k,k0)

|L| +p(yr=k,yr0=k0)

Der Gradient ist die Differenz zwischen „soll“- und „ist“-Wahrscheinlichkeiten.

Der Likelihood ist maximal, wenn diese übereinstimmen.

Gradienten Verfahren:nrr0(·) sind gegeben,p(·) z.B. mit dem Gibbs Sampling schätzen.

D. Schlesinger SMBV: Maximum Likelihood für MRF-s() 3 / 5

(4)

Unüberwachtes Lernen (Gradienten Verfahren)

Das Modell:p(x,y) = 1/Z·exp

−E(x,y)

,

Lernstichprobe ist unvollständig (nur Beobachtungenx), d.h.L= (x1,x2. . .x|L|).

ML-Prinzip ist dasselbe:p(L)→max p(L) =

Y

l

p(xl) =

Y

l

X

y

p(xl,y) =

Y

l

X

y

1 Z ·exp

−E(xl,y)

.

1/Z aus

P

y ausklammern und logarithmieren:

F=

X

l

h

ln

X

y

exp

−E(xl,y)

−lnZ

i

=

X

l

ln

X

y

exp

−E(xl,y)

− |L| ·lnZ

Ableitung desersten Termsnach einem Parameter (Kettenregel):

∂F0

∂grr0(k,k0) =

X

l

"

1

P

y0exp

−E(xl,y0)

·

X

y

exp

−E(xl,y)

· − ∂E(xl,y)

∂grr0(k,k0)

#

=

=

X

l

X

y

exp

−E(xl,y)

P

y0exp

−E(xl,y0)

· −

∂E(xl,y)

∂grr0(k,k0)

Man multipliziere sowohl den Zähler als auch den Nenner vomQuotientmit 1/Z

D. Schlesinger SMBV: Maximum Likelihood für MRF-s() 4 / 5

(5)

Unüberwachtes Lernen (Gradienten Verfahren)

. . .=

X

l

X

y

1/Z·exp

−E(xl,y)

P

y01/Z·exp

−E(xl

,y0)

· −

∂E(xl,y)

∂grr0(k,k0)=

=

X

l

X

y

p(xl,y)

P

y0p(xl,y0)· − ∂E(xl,y)

∂grr0(k,k0)=

X

l

X

y

p(xl,y)

p(xl) · − ∂E(xl,y)

∂grr0(k,k0) =

=

X

l

X

y

p(y|xl)· − ∂E(xl,y)

∂grr0(k,k0) =−

X

l

X

y

p(y|xl)·1I(yr=k,yr0=k0) =

=−

X

l

p(yr=k,yr0=k0|xl)

Die Ableitung von lnZ ist analog zum überwachten Fall.

Alles zusammen (normiert auf|L|):

lnp(L)

∂grr0(k,k0) =−1/|L|

X

l

p(yr=k,yr0=k0|xl) +p(yr=k,yr0=k0)

Wie im überwachten Fall ist der Gradient die Differenz zwischen marginalen Wahrschein- lichkeiten. Im Gegensatz zum überwachten Fall (die Häufigkeitennrr0(·) sind bekannt) sind die „soll“-Wahrscheinlichkeiten nicht gegeben. Diese müssen jetzt auch wie die a- priori Wahrscheinlichkeiten geschätzt werden (z.B. mit dem Gibbs Sampling).

D. Schlesinger SMBV: Maximum Likelihood für MRF-s() 5 / 5

Referenzen

ÄHNLICHE DOKUMENTE

Strukturelle Modelle in der Bildverarbeitung Markovsche Ketten

Wenn aber dabei die marginal constraints erfüllt sind, dann doch (aber nur für Bäume).... In zwei Worten – es ist dasselbe, wie

Es gibt näherungsweise weniger effiziente Algorithmen für SumProd Probleme auf allgemeinen Graphen... K = {0,1}) submodulare MinSum Probleme, MinCut Multilabel submodulare

Sind aber alle Kantenkosten eines MinCut Problems nicht negativ, so ist das MinCut polynomiell lösbar.. MinCut Problem wird in das entsprechende MaxFlow

– Für jedes Label der ursprünglichen Aufgabe wird eine binäre Variable eingeführt (einen Knoten im Graphen der neuen Aufgabe). – Die neuen Knoten werden mit „speziellen“ Kanten

Beispiel: ICM – die Umgebung eines Labellings sind diejenigen, die sich vom aktuellen nur durch das Label in einem Knoten unterscheiden. Anwendungsbeispiel: Stereo – y 0 ist

Selbst wenn die Optimale reellwertige Lösung mit einer diskreten übereinstimmt, ist es aufgrund sehr höher Dimension nicht möglich, das LP-Problem effizient zu lösen...

Oft braucht man beim Lernen um vieles (z.B. Konsistenz des statistischen Modells) nicht zu kümmern → Algorithmen werden einfacher (Beispiel –