Mustererkennung: Maximum Likelihood Prinzip

(1)

Mustererkennung: Maximum Likelihood Prinzip

(2)

Lernen, ML

Gegeben sei eine parametrisierte Klasse (Familie) der Wahrscheinlichkeitsverteilungen, d.h.P(x; Θ)∈ P.

Beispiel – die Menge aller Gaussiane imRⁿ p(x;µ, σ) = 1

(√

2πσ)ⁿexp

h

−kx−µk² 2σ²

i

,

parametrisiert mit dem Mittelwertµ∈Rⁿundσ∈R, d.h. Θ = (µ, σ)

Eine Lernstichprobe steht zur Verfügung: z.B.L= (x¹,x², . . . ,x^|L|) mitx^l∈Rⁿ. Man entscheide sich für eine Wahrscheinlichkeitsverteilung aus der vorgegebenen Familie, d.h. für einen Parametersatz (z.B. Θ^∗= (µ^∗, σ^∗) für den Gaussian).

Die Lernstichprobe ist eine Realisierung der unbekannten Wahrscheinlichkeitsverteilung, sie ist entsprechend der Wahrscheinlichkeitsverteilung gewürfelt.

⇒Das, was beobachtet wird, hat eine hohe Wahrscheinlichkeit

⇒Maximiere die Wahrscheinlichkeit der Lernstichprobe bezüglich der Parameter:

p(L; Θ)→max

Θ

(3)

Diskrete Wahrscheinlichkeitsverteilungen

Allgemeine diskrete Wahrscheinlichkeitsverteilung fürk∈K, d.h. Θ =p(k)∈R^|K|,p(k)≥0,

P

kp(k) = 1.

LernstichprobeL= (k¹,k², . . . ,k^|L|),k^l∈K.

Annahme (sehr oft):

Die Elemente der Lernstichprobe werden unabhängig von einander generiert.

ML:

p(L; Θ) =

Y

l

p(k^l) =

Y

k

Y

l:k^l=k

p(k) =

Y

k

p(k)^n(k)

mit den Häufigkeitenn(k) der Wertekin der Lernstichprobe.

lnp(L; Θ) =

X

k

n(k) lnp(k)→max

p

oder (bei einer unendlichen Lernstichprobe) lnp(L; Θ) =

X

k

p^∗(k) lnp(k)→max

p

(4)

Das Schannonsche Lemma

X

i

ailnxi→max

x , s.t. xi≥0 ∀i,

X

i

xi= 1 mit ai≥0

Methode der Lagrange Koeffizienten:

F=

X

i

ailnxi+λ

X

i

xi−1

→min

λ max

x

dF dxi

=ai

xi

+λ= 0 dF

λ =

X

i

xi−1 = 0 xi=c·ai

X

i

c·ai−1 = 0 xi= ai

P

i⁰a_i0

Die optimale Wahrscheinlichkeitsverteilung für das Beispiel 1:

Zähle, wieviel mal jedeskin der Lernstichprobe vorhanden ist und normiere auf 1.

(5)

Wahrscheinlichkeitsdichten

Zum Beispiel Gaussian, d.h. eine parametrisierte Wahrscheinlichkeitsdichte p(x;µ, σ) = 1

(√

2πσ)ⁿexp

h

−kx−µk² 2σ²

i

,

d.h. Θ = (µ, σ), mitµ∈Rⁿ,σ∈R.

LernstichprobeL= (x¹,x², . . . ,x^|L|) – jeder Wert vonxist nur ein Mal (?) vorhanden.

ML:

lnp(L;µ, σ) =

X

l

h

−nlnσ−kx^l−µk² 2σ²

i

=

=−|L| ·n·lnσ− 1 2σ²

X

l

kx^l−µk²→max

µ,σ

dlnp(L;µ, σ)

dµ = 0 ⇒ µ= 1

|L|

X

l

x^l dlnp(L;µ, σ)

dσ = 0 ⇒ σ= 1

n· |L|

X

l

kx^l−µk²

(6)

Gemischte Modelle für die Erkennung

Das für die Erkennung typische Modell:p(x,k; Θ) =p(k; Θa)·p(x|k; Θ_k), mit k∈K(Klassen, diskret) undx∈X(Beobachtung, allgemein).

Die unbekannten Parameter sind Θa=p(k) und Klassenspezifische Θk

Die Lernstichprobe besteht aus Paaren:L= (x¹,k¹),(x²,k²), . . . ,(x^|L|,k^|L|)

ML:

lnp(L; Θ) =

X

l

lnp(k^l) + lnp(x^l|k^l; Θ_kl)

=

X

k

n(k) lnp(k) +

X

k

X

l:k^l=k

lnp(x^l|k; Θ_k)→ max

p(k),Θ_k

Kann bezüglich Θa, Θ1, ... , Θ|K|getrennt optimiert werden.

Dies war ein überwachtes Lernen.

(7)

Unüberwachtes Lernen, Expectation-Maximization Algorithmus (Idee)

(Allgemein): Das Modell ist eine Wahrscheinlichkeitsverteilungp(x,k; Θ) für Paarex(Beobachtung) undk(Klasse)

In der Lernstichprobe ist die Information unvollständig – die Klasse wird nicht beobachtet, d.h.L= (x¹,x². . .x^l) Die Aufgabe nach dem Maximum Likelihood Prinzip:

lnp(L; Θ) =

X

l

lnp(x^l; Θ) =

X

l

ln

X

k

p(x^l,k; Θ)→max

Θ

Die Idee – ein iteratives Verfahren:

1. „Erkennung“ (Vervollständigung der Daten): (x¹,x². . .x^l), Θ⇒„Klassen“

2. Überwachtes Lernen: „Klassen“, (x¹,x². . .x^l)⇒Θ

Achtung!!! Bayessche Erkennung ist nicht möglich, denn es gibt keine Kostenfunktion.

(8)

Unüberwachtes Lernen, EM (Ableitung)

lnp(L; Θ) =

X

l

lnp(x^l) =

X

l

ln

X

k

p(x^l,k; Θ)→max

Θ

Expectation-Maximization Algorithmus:

Man führt eine „Nahrhafte Eins“ wie folgt ein:

X

l

"

X

k

αl(k) lnp(k,x^l; Θ)−

X

k

αl(k) ln p(k,x^l; Θ)

P

k⁰p(k⁰,x^l; Θ)

#

mitαl(k)≥0,

P

kαl(k) = 1 für allel.

Dann ist dieser Ausdruck dem oberen äquivalent (Beweis nur für einen Musterx^l):

X

k

X

k

P

k⁰p(k⁰,x^l; Θ) =

X

k

h

αl(k) lnp(k,x^l; Θ)−αl(k) ln

X

k⁰

p(k⁰,x^l; Θ)

i

=

X

k

αl(k) ln

X

k⁰

p(k⁰,x^l; Θ) = ln

X

k⁰

p(k⁰,x^l; Θ)·

X

k

αl(k) = ln

X

k⁰

p(k⁰,x^l; Θ)

(9)

Unüberwachtes Lernen, EM-Algorithmus

lnp(L; Θ) =F(Θ, α)−G(Θ, α), mit F(Θ, α) =

X

l

X

k

αl(k) lnp(k,x^l; Θ)

G(Θ, α) =

X

l

X

k

P

k⁰p(k⁰,x^l; Θ) =

X

l

X

k

αl(k) lnp(k|x^l; Θ)

Man starte mit einem beliebigen Parametersatz Θ⁽⁰⁾und wiederhole:

ExpectationSchritt – „die Fehlenden Daten vervollständigen“:

Man wähleα^(t)so, dass das Maximum vonGbezüglich Θ genau an der Stelle Θ^(t)eintritt.

Laut Schannonsches Lemma:

α^(t)_l (k) =p(k|x^l; Θ^(t))

Achtung!!! Das ist keine Optimierung, das ist eine Abschätzung der oberen Schranke fürG.

MaximizationSchritt – „überwachtes Lernen“:

Man maximiereFbezüglich Θ:

Θ^(t+1)= arg max

Θ

F(Θ, α^(t))

(10)

Zusätzliche Bemerkungen

Der Maximum-Likelihood Schätzer istkonsistent,

d.h. er liefert die tatsächlichen Parameter bei unendlichen Lernstichproben.

Der Maximum-Likelihood Schätzer ist nicht immererwartungswerttreu,

d.h. bei endlichen Lernstichproben stimmt der Mittelwert des geschätzten Parameters nicht unbedingt mit dem tatsächlichen überein.

Beispiele: ML fürµist erwartungswerttreu, ML fürσ– nicht.

Expectation-Maximization Algorithmus konvergiert immer, aber nur zum lokalen Optimum (nicht global).

Ersetzt man im Expectation Schritt die Berechnung der a-posteriori Wahrscheinlichkeiten durch Erkennung, so erhält man etwas, was dem K-Means Algorithmus ähnlich ist. Oft nennt man das (fälschlicherweise) „EM-like Scheme“. Das istkeinML! Allerdings ist dies sehr populär, denn es ist unter Umständen viel einfacher anstatt der benötigten marginalen Verteilungen zum Beispiel MAP-Entscheidung zu berechnen.