• Keine Ergebnisse gefunden

Mustererkennung: Maximum Likelihood Prinzip

N/A
N/A
Protected

Academic year: 2022

Aktie "Mustererkennung: Maximum Likelihood Prinzip"

Copied!
10
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Mustererkennung: Maximum Likelihood Prinzip

(2)

Lernen, ML

Gegeben sei eine parametrisierte Klasse (Familie) der Wahrscheinlichkeitsverteilungen, d.h.P(x; Θ)∈ P.

Beispiel – die Menge aller Gaussiane imRn p(x;µ, σ) = 1

(√

2πσ)nexp

h

−kx−µk22

i

,

parametrisiert mit dem Mittelwertµ∈Rnundσ∈R, d.h. Θ = (µ, σ)

Eine Lernstichprobe steht zur Verfügung: z.B.L= (x1,x2, . . . ,x|L|) mitxl∈Rn. Man entscheide sich für eine Wahrscheinlichkeitsverteilung aus der vorgegebenen Familie, d.h. für einen Parametersatz (z.B. Θ= (µ, σ) für den Gaussian).

Die Lernstichprobe ist eine Realisierung der unbekannten Wahrscheinlichkeitsverteilung, sie ist entsprechend der Wahrscheinlichkeitsverteilung gewürfelt.

⇒Das, was beobachtet wird, hat eine hohe Wahrscheinlichkeit

⇒Maximiere die Wahrscheinlichkeit der Lernstichprobe bezüglich der Parameter:

p(L; Θ)→max

Θ

(3)

Diskrete Wahrscheinlichkeitsverteilungen

Allgemeine diskrete Wahrscheinlichkeitsverteilung fürkK, d.h. Θ =p(k)∈R|K|,p(k)≥0,

P

kp(k) = 1.

LernstichprobeL= (k1,k2, . . . ,k|L|),klK.

Annahme (sehr oft):

Die Elemente der Lernstichprobe werden unabhängig von einander generiert.

ML:

p(L; Θ) =

Y

l

p(kl) =

Y

k

Y

l:kl=k

p(k) =

Y

k

p(k)n(k)

mit den Häufigkeitenn(k) der Wertekin der Lernstichprobe.

lnp(L; Θ) =

X

k

n(k) lnp(k)→max

p

oder (bei einer unendlichen Lernstichprobe) lnp(L; Θ) =

X

k

p(k) lnp(k)→max

p

(4)

Das Schannonsche Lemma

X

i

ailnxi→max

x , s.t. xi≥0 ∀i,

X

i

xi= 1 mit ai≥0

Methode der Lagrange Koeffizienten:

F=

X

i

ailnxi+λ

X

i

xi−1

→min

λ max

x

dF dxi

=ai

xi

+λ= 0 dF

λ =

X

i

xi−1 = 0 xi=c·ai

X

i

c·ai−1 = 0 xi= ai

P

i0ai0

Die optimale Wahrscheinlichkeitsverteilung für das Beispiel 1:

Zähle, wieviel mal jedeskin der Lernstichprobe vorhanden ist und normiere auf 1.

(5)

Wahrscheinlichkeitsdichten

Zum Beispiel Gaussian, d.h. eine parametrisierte Wahrscheinlichkeitsdichte p(x;µ, σ) = 1

(√

2πσ)nexp

h

−kx−µk22

i

,

d.h. Θ = (µ, σ), mitµ∈Rn,σ∈R.

LernstichprobeL= (x1,x2, . . . ,x|L|) – jeder Wert vonxist nur ein Mal (?) vorhanden.

ML:

lnp(L;µ, σ) =

X

l

h

−nlnσ−kxlµk22

i

=

=−|L| ·n·lnσ− 1 2σ2

X

l

kxlµk2→max

µ,σ

dlnp(L;µ, σ)

= 0 ⇒ µ= 1

|L|

X

l

xl dlnp(L;µ, σ)

= 0 ⇒ σ= 1

n· |L|

X

l

kxlµk2

(6)

Gemischte Modelle für die Erkennung

Das für die Erkennung typische Modell:p(x,k; Θ) =p(k; Θap(x|k; Θk), mit kK(Klassen, diskret) undxX(Beobachtung, allgemein).

Die unbekannten Parameter sind Θa=p(k) und Klassenspezifische Θk

Die Lernstichprobe besteht aus Paaren:L= (x1,k1),(x2,k2), . . . ,(x|L|,k|L|)

ML:

lnp(L; Θ) =

X

l

lnp(kl) + lnp(xl|kl; Θkl)

=

=

X

k

n(k) lnp(k) +

X

k

X

l:kl=k

lnp(xl|k; Θk)→ max

p(k),Θk

Kann bezüglich Θa, Θ1, ... , Θ|K|getrennt optimiert werden.

Dies war ein überwachtes Lernen.

(7)

Unüberwachtes Lernen, Expectation-Maximization Algorithmus (Idee)

(Allgemein): Das Modell ist eine Wahrscheinlichkeitsverteilungp(x,k; Θ) für Paarex(Beobachtung) undk(Klasse)

In der Lernstichprobe ist die Information unvollständig – die Klasse wird nicht beobachtet, d.h.L= (x1,x2. . .xl) Die Aufgabe nach dem Maximum Likelihood Prinzip:

lnp(L; Θ) =

X

l

lnp(xl; Θ) =

X

l

ln

X

k

p(xl,k; Θ)→max

Θ

Die Idee – ein iteratives Verfahren:

1. „Erkennung“ (Vervollständigung der Daten): (x1,x2. . .xl), Θ⇒„Klassen“

2. Überwachtes Lernen: „Klassen“, (x1,x2. . .xl)⇒Θ

Achtung!!! Bayessche Erkennung ist nicht möglich, denn es gibt keine Kostenfunktion.

(8)

Unüberwachtes Lernen, EM (Ableitung)

lnp(L; Θ) =

X

l

lnp(xl) =

X

l

ln

X

k

p(xl,k; Θ)→max

Θ

Expectation-Maximization Algorithmus:

Man führt eine „Nahrhafte Eins“ wie folgt ein:

X

l

"

X

k

αl(k) lnp(k,xl; Θ)−

X

k

αl(k) ln p(k,xl; Θ)

P

k0p(k0,xl; Θ)

#

mitαl(k)≥0,

P

kαl(k) = 1 für allel.

Dann ist dieser Ausdruck dem oberen äquivalent (Beweis nur für einen Musterxl):

X

k

αl(k) lnp(k,xl; Θ)−

X

k

αl(k) ln p(k,xl; Θ)

P

k0p(k0,xl; Θ) =

X

k

h

αl(k) lnp(k,xl; Θ)−

αl(k) lnp(k,xl; Θ)−αl(k) ln

X

k0

p(k0,xl; Θ)

i

=

X

k

αl(k) ln

X

k0

p(k0,xl; Θ) = ln

X

k0

p(k0,xl; Θ)·

X

k

αl(k) = ln

X

k0

p(k0,xl; Θ)

(9)

Unüberwachtes Lernen, EM-Algorithmus

lnp(L; Θ) =F(Θ, α)−G(Θ, α), mit F(Θ, α) =

X

l

X

k

αl(k) lnp(k,xl; Θ)

G(Θ, α) =

X

l

X

k

αl(k) ln p(k,xl; Θ)

P

k0p(k0,xl; Θ) =

X

l

X

k

αl(k) lnp(k|xl; Θ)

Man starte mit einem beliebigen Parametersatz Θ(0)und wiederhole:

ExpectationSchritt – „die Fehlenden Daten vervollständigen“:

Man wähleα(t)so, dass das Maximum vonGbezüglich Θ genau an der Stelle Θ(t)eintritt.

Laut Schannonsches Lemma:

α(t)l (k) =p(k|xl; Θ(t))

Achtung!!! Das ist keine Optimierung, das ist eine Abschätzung der oberen Schranke fürG.

MaximizationSchritt – „überwachtes Lernen“:

Man maximiereFbezüglich Θ:

Θ(t+1)= arg max

Θ

F(Θ, α(t))

(10)

Zusätzliche Bemerkungen

Der Maximum-Likelihood Schätzer istkonsistent,

d.h. er liefert die tatsächlichen Parameter bei unendlichen Lernstichproben.

Der Maximum-Likelihood Schätzer ist nicht immererwartungswerttreu,

d.h. bei endlichen Lernstichproben stimmt der Mittelwert des geschätzten Parameters nicht unbedingt mit dem tatsächlichen überein.

Beispiele: ML fürµist erwartungswerttreu, ML fürσ– nicht.

Expectation-Maximization Algorithmus konvergiert immer, aber nur zum lokalen Optimum (nicht global).

Ersetzt man im Expectation Schritt die Berechnung der a-posteriori Wahrscheinlichkeiten durch Erkennung, so erhält man etwas, was dem K-Means Algorithmus ähnlich ist. Oft nennt man das (fälschlicherweise) „EM-like Scheme“. Das istkeinML! Allerdings ist dies sehr populär, denn es ist unter Umständen viel einfacher anstatt der benötigten marginalen Verteilungen zum Beispiel MAP-Entscheidung zu berechnen.

Referenzen

ÄHNLICHE DOKUMENTE

Spektralmethoden Mathematik, FS

...oder wir suchen nach dem kritischen Wert...und testen das mit einer gewissen Irrtumswahrscheinlichkeit (Signifikanzni- veau) α.. maximal k Leute müssen Ketchup wollen, dann

Finden Sie die unbekannten Parameter nach dem Maxi- mum Likelihood Prinzip.. c) Finden Sie die Entscheidungsregel, die die Anzahl der Fehlklassifikationen auf der

bei endlichen Lernstichproben stimmt der Mittelwert des geschätzten Parameters nicht unbedingt mit dem tatsächlichen überein. Beispiele: ML für µ ist erwartungswerttreu, ML für σ

Finden Sie die unbekannten Parameter nach dem Maxi- mum Likelihood Prinzip.. c) Finden Sie die Entscheidungsregel, die die Anzahl der Fehlklassifikationen auf der

(Allgemein): Das Modell ist eine Wahrscheinlichkeitsverteilung p(x,k; Θ) für Paare x (Beobachtung) und k (Klasse). In der Lernstichprobe ist die Information unvollständig – die

[r]

Ubungen zur Linearen Algebra II ¨ Bergische Universit¨ at Wuppertal. Blatt