Strukturelle Modelle in der Bildverarbeitung Markovsche Ketten, Lernen nach dem Maximum Likelihood Prinzip

(1)

Strukturelle Modelle in der Bildverarbeitung

Markovsche Ketten, Lernen nach dem Maximum Likelihood Prinzip

D. Schlesinger – TUD/INF/KI/IS

– Maximum Likelihood Prinzip (allgemein) – ML für Markovsche Ketten (überwacht) – Unüberwachtes Lernen, EM Algorithmus – EM für Markovsche Ketten

D. Schlesinger () SMBV: Markovsche Ketten, ML 1 / 15

(2)

Lernen

Das übergeordnete Thema – Lernen

Gegeben sei eine parametrisierte Klasse (Familie) der Wahrscheinlichkeitsverteilungen, d.h.P(x; Θ)∈ P.

Beispiel – die Menge aller Gaussiane imRⁿ p(x;µ, σ) = 1

(√

2πσ)ⁿexp

h

−kx−µk² 2σ²

i

,

parametrisiert mit dem Mittelwertµ∈Rⁿundσ∈R, d.h. Θ = (µ, σ)

Eine Lernstichprobe steht zur Verfügung: z.B.L= (x¹,x², . . . ,x^|L|) mitx^l∈Rⁿ. Man entscheide sich für eine Wahrscheinlichkeitsverteilung aus der vorgegebenen Familie, d.h. für einen Parametersatz (z.B. Θ^∗= (µ^∗, σ^∗) für den Gaussian).

(3)

Maximum Likelihood Prinzip

Die Lernstichprobe ist eine Realisierung der unbekannten Wahrscheinlichkeitsverteilung, sie ist entsprechend der Wahrscheinlichkeitsverteilung gewürfelt.

⇓

Das, was beobachtet wird, hat hohe Wahrscheinlichkeit

⇓

Maximiere die Wahrscheinlichkeit der Lernstichprobe bezüglich der Parameter:

p(L; Θ)→max

Θ

(4)

Diskrete Wahrscheinlichkeitsverteilungen

Allgemeine diskrete Wahrscheinlichkeitsverteilung fürk∈K, d.h. Θ =p(k)∈R^|K|,p(k)≥0,

P

kp(k) = 1.

LernstichprobeL= (k¹,k², . . . ,k^|L|),k^l∈K.

Annahme (sehr oft):

Die Elemente der Lernstichprobe werden unabhängig von einander generiert.

ML:

p(L; Θ) =

Y

l

p(k^l) =

Y

k

Y

l:k^l=k

p(k) =

Y

k

p(k)^n(k)

mit den Häufigkeitenn(k) der Wertekin der Lernstichprobe.

lnp(L; Θ) =

X

k

n(k) lnp(k)→max

p

oder (bei einer unendlichen Lernstichprobe) lnp(L; Θ) =

X

k

p^∗(k) lnp(k)→max

p

(5)

Das Schannonsche Lemma

X

i

ailnxi→max

x , s.t. xi≥0 ∀i,

X

i

xi= 1 mit ai≥0

Methode der Lagrange Koeffizienten:

F=

X

i

ailnxi+λ

X

i

xi−1

→min

λ max

x

dF dxi

=ai

xi

+λ= 0 dF

λ =

X

i

xi−1 = 0 xi=c·ai

X

i

c·ai−1 = 0 xi= ai

P

i⁰a_i0

Die optimale Wahrscheinlichkeitsverteilung für das Beispiel 1:

Zähle, wieviel mal jedeskin der Lernstichprobe vorhanden ist und normiere auf 1.

(6)

Wahrscheinlichketsdichten

Zum Beispiel Gaussian, d.h. eine parametrisierte Wahrscheinlichketsdichte p(x;µ, σ) = 1

(√

2πσ)ⁿexp

h

−kx−µk² 2σ²

i

,

d.h. Θ = (µ, σ), mitµ∈Rⁿ,σ∈R.

LernstichprobeL= (x¹,x², . . . ,x^|L|) – jeder Wert vonxist nur ein Mal (?) vorhanden.

ML:

lnp(L;µ, σ) =

X

l

h

−nlnσ−kx^l−µk² 2σ²

i

=

=−|L| ·n·lnσ− 1 2σ²

X

l

kx^l−µk²→max

µ,σ

dlnp(L;µ, σ)

dµ = 0 ⇒ µ= 1

|L|

X

l

x^l dlnp(L;µ, σ)

dσ = 0 ⇒ σ= 1

n· |L|

X

l

kx^l−µk²

(7)

ML für Markovsche Ketten

Das Modell:

p(x,y; Θ) =p(y1)·

n

Y

i=2

p(yi|yi−1)·

n

Y

i=1

p(xi|yi) Unbekannte Parameter: Θ = (q1,gi,qi) mit

– Startwahrscheinlichkeitsverteilungq1(k) (entsprichtp(y1)),

– Übergangswahrscheinlichkeitsverteilungengi(k,k⁰) (entsprechenp(yi|yi−1)), – Bedingte Wahrscheinlichkeitsverteilungenqi(c,k) (entsprechenp(xi|yi)).

Lernstichprobe:L= (x¹,y¹),(x²,y²). . .(x^l,y^l)

Likelihood:

lnp(L,Θ) =

X

l

lnp(x^l,y^l; Θ) =

X

l

"

lnq1(y₁^l) +

n

X

i=2

lngi(y^l_i,y_i−1^l ) +

n

X

i=1

lnqi(x_i^l,y^l_i)

#

X

l

lnq1(y₁^l) +

n

X

i=2

X

l

lngi(y^l_i,y_i−1^l ) +

n

X

i=1

X

l

lnqi(x_i^l,y_i^l)→max

Θ

Jeder Summand kann unabhängig von anderen optimiert werden!!!

(8)

ML für Markovsche Ketten

X

l

lnq1(y₁^l) =

X

k

X

l:y^l₁=k

lnq1(y₁^l) =

X

k

X

l:y^l₁=k

lnq1(k) =

X

k

n1(k) lnq1(k)→max

q₁

mit relativen Häufigkeitenn1(k) (in der Lernstichprobe) der Zustände im ersten Zeitpunkt.

Nach dem Schannonschen Lemma (daq1(k)≥0 und

P

kq1(k) = 1) q1(k)∼n1(k)

(Fast) Analog für alle Übergangsmatrizengi(k,k⁰):

X

l

lngi(y_i^l,y^l_i−1) =

X

k

X

k⁰

X

l:y^l_i=k,y_i−1=k⁰

lngi(k,k⁰) =

X

k

X

k⁰

ni(k,k⁰) lngi(k,k⁰)→max

gi

X

k

ni(k,k⁰) lngi(k,k⁰)→max

g_i

∀k⁰

⇒gi(k,k⁰)∼ni(k,k⁰)

Setze die Parameter des Modells auf die aus der Lernstichprobe entnommenen Statistiken.

(9)

Unüberwachtes Lernen, EM (Idee)

(Allgemein): Das Modell ist eine Wahrscheinlichkeitsverteilungp(x,k; Θ) für Paarex(Beobachtung) undk(Klasse)

In der Lernstichprobe ist die Information unvollständig – die Klasse wird nicht beobachtet, d.h.L= (x¹,x². . .x^l)

Die Aufgabe nach dem Maximum Likelihood Prinzip: lnp(L; Θ)→max

Θ

Die Idee – ein iteratives Verfahren:

1. „Erkennung“ (Vervollständigung der Daten): (x¹,x². . .x^l), Θ⇒„Klassen“

2. Überwachtes Lernen: „Klassen“, (x¹,x². . .x^l)⇒Θ

Achtung!!! Bayessche Erkennung ist nicht möglich, denn es gibt keine Kostenfunktion.

(10)

Unüberwachtes Lernen, EM (Ableitung)

lnp(L; Θ) =

X

l

lnp(x^l) =

X

l

ln

X

k

p(x^l,k; Θ)→max

Θ

Expectation-Maximization Algorithmus:

Man führt eine „Nahrhafte Eins“ wie folgt ein:

X

l

"

X

k

αl(k) lnp(k,x^l; Θ)−

X

k

αl(k) ln p(k,x^l; Θ)

P

k⁰p(k⁰,x^l; Θ)

#

mitαl(k)≥0,

P

kαl(k) = 1 für allel.

Dann ist dieser Ausdruck dem oberen äquivalent (Beweis nur für einen Musterx^l):

X

k

X

k

P

k⁰p(k⁰,x^l; Θ) =

X

k

h

αl(k) lnp(k,x^l; Θ)−αl(k) ln

X

k⁰

p(k⁰,x^l; Θ)

i

=

X

k

αl(k) ln

X

k⁰

p(k⁰,x^l; Θ) = ln

X

k⁰

p(k⁰,x^l; Θ)·

X

k

αl(k) = ln

X

k⁰

p(k⁰,x^l; Θ)

(11)

Unüberwachtes Lernen, EM-Algorithmus

lnp(L; Θ) =F(Θ, α)−G(Θ, α), mit F(Θ, α) =

X

l

X

k

αl(k) lnp(k,x^l; Θ)

G(Θ, α) =

X

l

X

k

P

k⁰p(k⁰,x^l; Θ) =

X

l

X

k

αl(k) lnp(k|x^l; Θ)

Man starte mit einem beliebigen Parametersatz Θ⁽⁰⁾und wiederhole:

ExpectationSchritt – „die Fehlenden Daten vervollständigen“:

Man wähleα^(t)so, dass das Maximum vonGbezüglich Θ genau an der Stelle Θ^(t)eintritt.

Laut Schannonsches Lemma:

α^(t)_l (k) =p(k|x^l; Θ^(t))

Achtung!!! Das ist keine Optimierung, das ist eine Abschätzung der oberen Schranke fürG.

MaximizationSchritt – „überwachtes Lernen“:

Man maximiereFbezüglich Θ:

Θ^(t+1)= arg max

Θ

F(Θ, α^(t))

(12)

Zusätzliche Bemerkungen

Der Maximum-Likelihood Schätzer istkonsistent,

d.h. er liefert die tatsächlichen Parameter bei unendlichen Lernstichproben.

Der Maximum-Likelihood Schätzer ist nicht immererwartungswerttreu,

d.h. bei endlichen Lernstichproben stimmt der Mittelwert des geschätzten Parameters nicht unbedingt mit dem tatsächlichen überein.

Beispiele: ML fürµist erwartungswerttreu, ML fürσ– nicht.

Expectation-Maximization Algorithmus konvergiert immer, aber nur zum lokalen Optimum (nicht global).

Ersetzt man im Expectation Schritt die Berechnung der a-posteriori Wahrscheinlichkeiten durch Erkennung, so erhält man etwas, was dem K-Means Algorithmus ähnlich ist. Oft nennt man das (fälschlicherweise) „EM-like Scheme“. Das istkeinML! Allerdings ist dies sehr populär, denn es ist unter Umständen viel einfacher anstatt der benötigten marginalen Verteilungen zum Beispiel MAP-Entscheidung zu berechnen.

(13)

EM für Markovsche Ketten

Das Modell:

p(x,y; Θ) =p(y1)·

n

Y

i=2

p(yi|yi−1)·

n

Y

i=1

p(xi|yi) Unbekannte Parameter: Θ = (q1,gi,qi) mit

– Startwahrscheinlichkeitsverteilungq1(k) (entsprichtp(y1)),

– Übergangswahrscheinlichkeitsverteilungengi(k,k⁰) (entsprechenp(yi|yi−1)), – Bedingte Wahrscheinlichkeitsverteilungenqi(c,k) (entsprechenp(xi|yi)).

Lernstichprobe: (jetzt anders!!!)L= (x¹,x². . .x^l)

Die nicht beobachtbaren Folgenyentsprechen den „Klassen“kim allgemeinen Fall – das, worüber summiert wird.

Likelihood:

lnp(L,Θ) =

X

l

lnp(x^l; Θ) =

X

l

ln

X

y

p(x^l,y; Θ)→max

Θ

Man führeαl(y)≥0 mit

P

yαl(y) = 1 für allel ein.

InExpectationSchritt setzt manαl(y) =p(y|x^l; Θ).

Dies ist technisch nicht möglich – nur Hilfskonstrukt.

(14)

EM für Markovsche Ketten

MaximizationSchritt:

X

l

X

y

αl(y) lnp(x^l,y; Θ) =

X

l

X

y

α_l(y)·

"

lnq1(y1) +

n

X

i=2

lngi(yi,yi−1) +

n

X

i=1

lnqi(x_i^l,yi)

#

=

X

k

α1(k) lnq1(k) +

n

X

i=2

X

kk⁰

αi(k,k⁰) lngi(k,k⁰) +

n

X

i=1

αi(c,k) lnqi(c,k)→max

Θ

mit

α1(k) =

X

l

X

y:y₁=k

αl(y) =

X

l

X

y:y₁=k

p(y|x^l; Θ) =

X

l

p(y1=k|x^l; Θ)

αi(k,k⁰) =

X

l

X

y:y_i=k,y_i−1=k⁰

αl(y) =

X

l

p(yi=k,yi−1=k⁰|x^l; Θ)

αi(c,k) =

X

l

X

y:y_i=k,x_i=c

αl(y) =

X

l

p(yi=k,xi=c|x^l; Θ)

Dieαl(y) werden nicht explizit benötigt, sondern nur die „marginalen“α-s.

Diese lassen sich effizient mit dem SumProd Algorithmus berechnen.

(15)

EM für Markovsche Ketten

Zusammenfassend:

Initialisiere die Parameterq₁⁽⁰⁾,g⁽⁰⁾_i undq⁽⁰⁾_i Wiederhole

1. Expectation: berechne

α₁(k) =

X

l

p(y₁=k|x^l;q^(t)₁ ,g^(t)_i ,q_i^(t))

αi(k,k⁰) =

X

l

p(yi=k,yi−1=k⁰|x^l;q^(t)₁ ,g_i^(t),q_i^(t))

α_i(c,k) =

X

l

p(y_i=k,x_i=c|x^l;q₁^(t),g_i^(t),q_i^(t))

mit dem SumProd Algorithmus.

2. Maximization: setze

q₁^(t+1)(k)∼α1(k) normiert so, dass

X

k

q₁^(t+1)(k) = 1

g^(t+1)_i (k,k⁰)∼αi(k,k⁰) normiert so, dass

X

k

g^(t+1)_i (k,k⁰) = 1 ∀k⁰

q_i^(t+1)(c,k)∼α_i(c,k) normiert so, dass

X

c

q_i^(t+1)(c,k) = 1 ∀k