• Keine Ergebnisse gefunden

Wahrscheinlichste Zustandsfolge

N/A
N/A
Protected

Academic year: 2022

Aktie "Wahrscheinlichste Zustandsfolge"

Copied!
12
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Strukturelle Modelle in der Bildverarbeitung Markovsche Ketten III

D. Schlesinger – TUD/INF/KI/IS

– Wahrscheinlichste Zustandsfolge – Bayessche Entscheidungstheorie – Entscheidungsstrategien für HMM

(2)

Wahrscheinlichste Zustandsfolge

Allgemein: Gegeben sei ein HMM

p(x,y) =p(y1)

n

Y

i=2

p(yi|yi−1)

n

Y

i=1

p(xi|yi)

Man beobachtetx, man sage „etwas vernünftige“ übery.

Eine mögliche Wahl: Zustandsfolge, die die maximale a-posteriori Wahrscheinlichkeit hat:

y= arg max

y

p(y|x) = arg max

y

p(y)p(x|y)

p(x) = arg max

y

p(y)p(x|y) =

= arg max

y

"

p(y1)

n

Y

i=2

p(yi|yi−1)

n

Y

i=1

p(xi|yi)

#

=

= arg min

y

"

n

X

i=1

qi(yi) +

n

X

i=2

gi(yi,yi−1)

#

mit

q1(k) = lnp(k) + lnp(x1|k) qi(k) = lnp(xi|k) gi(k,k0) = lnp(yi|yi−1)

(3)

Wahrscheinlichste Zustandsfolge

Der Algorithmus für die Berechnung vony– Dynamische Optimierung.

Synonyme: Vitterbi, Dijkstra ...

Im Gegensatz zu Partition Funktion

wird nicht über alle Folgensummiert, sondernminimiert

die Bewertung einer Folge ist nicht einProdukt, sondern eineSumme

Dasselbe wie bei der Berechnung der Partition Funktion, nur in einem anderen Semiring SumProd⇔MinSum

(4)

Dynamische Optimierung

Die Idee – propagieren der Bellmanschen FunktionenFi mit Fi(k) =qi(k) + min

k0

Fi−1(k0) +gi(k0,k)

Sie repräsentieren die Kosten der besten Fortsetzungen auf den bereits bearbeiteten Teil des Problems.

(5)

Dynamische Optimierung (Ableitung)

min

y

"

n

X

i=1

qi(yi) +

n

X

i=2

gi(yi−1,yi)

#

=

min

y1

min

y2

. . .min

yn

"

n

X

i=1

qi(yi) +

n

X

i=2

gi(yi−1,yi)

#

=

min

y2 . . .min

yn

"

n

X

i=2

qi(yi) +

n

X

i=3

gi(yi−1,yi) + min

y1 q1(y1) +g2(y1,y2)

#

=

min

y2 . . .min

yn

"

n

X

i=2

qi(yi) +

n

X

i=3

gi(yi−1,yi) +F(y2)

#

=

min

y2 . . .min

yn

"

n

X

i=2

˜ qi(yi) +

n

X

i=3

gi(yi−1,yi)

#

mit ˜q2(k) =q2(k) +F(k), sonst unverändert, d.h. ˜qi(k) =qi(k) füri= 3. . .n.

(6)

Dynamische Optimierung (Algorithmus)

// Forward pass for i= 2 bis n

for k= 1 bis K best=∞ for k0= 1 bis K

if qi−1(k0) +gi(k0,k)<best

best=qi−1(k0) +gi(k0,k), pointeri(k) =k0 qi(k) =qi(k) +best

// Backward pass best=∞

for k= 1 bis K if qn(k)<best

best=qn(k), xn=k for i=n−1 bis 1

xi=pointeri+1(xi+1)

pointeri(k) ist der beste Vorgänger für den Zustandkimi-ten Knoten.

(7)

Dynamische Optimierung (Parallelisierung)

Zeitkomplexität:O(nK2) KProzessoren:

die Schleife überkkann parallelisiert werden→O(nK) Weitere Möglichkeit – mittlere Knoten Eliminieren.

min

y1 min

y2 min

y3

h

q1(y1) +g2(y1,y2) +q2(y2) +g3(y2,y3) +q3(y3)

i

= min

y1 min

y3

h

q1(y1) +q3(y3) + min

y2 g2(y1,y2) +q2(y2) +g3(y2,y3)

i

= min

y1 min

y3

h

q1(y1) +q3(y3) + ˜g(y1,y3)

i

n/2 Prozessoren:

die Eliminierungen können (fast) parallel ausgeführt werden→O(logn·K3) n/2·K2Prozessoren→O(logn·K)

(8)

Erkennung

Achtung!!! – etwas andere Bezeichnungen.

Gegeben sei zwei statistische Größen.

Typischerweise ist eine davon diskret (d.h.kK) und heißtKlasse.

Die andere ist allgemein (sehr oft kontinuierlich, d.h.x∈Rn) und heißtBeobachtung.

„Gegeben“ sei dieVerbundwahrscheinlichkeitsverteilungp(x,k).

Da die MengeKdiskret ist, wird oftp(x,k) durchp(x,k) =p(k)·p(x|k) spezifiziert.

Die Erkennungsaufgabe:

man beobachtetx, man sage etwas überk

– „welche Klasse hat die Beobachtungx verursacht“.

Für Markovsche Ketten ist die Menge der KlassenKdie Menge aller Zustandsfolgeny

(9)

Bayessche Entscheidung

Menge der EntscheidungenD, Entscheidungsstrategiee:XD KostenfunktionC:D×K→R

Das Bayessche Risiko:

R(e) =

X

x

X

k

p(x,k)·C e(x),k

→min

e

Spezialfall (fast immer) – die Menge der Entscheidungen ist nicht eingeschränkt:

R e(x)

=

X

k

p(x,k)·C e(x),k

→min

e(x)

Noch spezieller (sehr oft) –D=K

die Menge der Entscheidungen ist die Menge der Klassen:

k= arg min

k

X

k0

p(x,k0C(k,k0)

(10)

Maximum Aposteriori Entscheidung (MAP)

Die Kostenfunktion ist (die einfachste)

C(k,k0) = 1I(k6=k0) Daraus folgt die Maximum A-posteriori Entscheidung

R(k) =

X

k0

p(k0|x)·1I(k6=k0) =

X

k06=k

p(k0|x)·1 +p(k|x)·0 =

=

X

k0

p(k0|x)−p(k|x) = 1p(k|x)→min

k

p(k|x)→max

k

(11)

Additive Kostenfunktionen

Die Klasse ist ein Vektor ¯k= (k1,k2, . . . ,kn)∈Kn, die Entscheidungsmenge seiD=Kn Die a-posteriori Wahrscheinlichkeitp(k1,k2, . . . ,kn|x) sei „bekannt“.

Variante 1: MAP, d.h.C(¯k,¯k0) = 1I(¯k6= ¯k0)

¯k= (k1,k2, . . . ,kn)= arg max

¯k

p(k1,k2, . . . ,kn|x)

Variante 2: Kostenfunktionen gibt es für jeden Elementki: C(¯k,k¯0) =

X

i

ci(ki,ki0)

R(¯k) =

X

¯k0

"

p(¯k0|x)·

X

i

ci(ki,k0i)

#

=

X

i

X

¯k0

ci(ki,k0ip(¯k0|x) =

=

X

i

X

k

X

¯k0:ki0=k

ci(ki,k)·p(¯k0|x) =

=

X

i

X

k

ci(ki,k)

X

¯k0:ki0=k

p(¯k0|x) =

X

i

X

k

ci(ki,k)p(ki0=k|x)

(12)

Additive Kostenfunktionen

R(¯k) =

X

i

X

k

ci(ki,k)p(ki0=k|x)→min

¯k

X

k

ci(ki,k)p(ki0=k|x)→min

ki

1) Man berechne

p(ki=k) =

X

¯k:ki=k

p(¯k) ∀i,k

2) Man treffe die Entscheidung für alle Elemente „unabhängig“

ki= arg min

k

X

k0

p(ki0=k)·ci(k,k0)

Beispiele:

c(k,k0) = 1I(k6=k0) – Max-Marginal Entscheidungki= arg maxkp(k0i=k) c(k,k0) = (k−k0)2(mean square error) – Mittelwertki=

P

kk·p(ki0=k) usw.

Referenzen

ÄHNLICHE DOKUMENTE

On the other side, we prove that for other, practically relevant, semirings such as the Viterby semiring V , the tropical semiring T , the natural semiring N and the

We used mutation analysis to compare the fault detection ability of test suites that satisfy MC/DC, Multiple Condition Coverage (MCC), and the corresponding equation-extended

wird nicht über alle Folgen summiert, sondern minimiert.. die Bewertung einer Folge ist nicht ein Produkt, sondern

Zeigen Sie, dass für ein beliebiges OrAnd Problem ein „äquivalentes“ SumProd Problem konstruiert werden kann (ohne dabei ein MinSum Problem als Zwischenschritt zu verwenden) so,

Beispiel: ICM – die Umgebung eines Labellings sind diejenigen, die sich vom aktuellen nur durch das Label in einem Knoten unterscheiden. Anwendungsbeispiel: Stereo – y 0 ist

– however, if the initial task is submodular, works again (by MinCut with directed edges, example – Z-predicate) Pre-requisite for sub modularity – a complete order of labels

The user should normally enter the DATASHARE command line, after which DATASHARE will initialize, then the variable partition will return to DOS.. DATASHARE must

Für die statische Kennlinie einer Leistungsdiode ist die spannungsabhängige Strom- quelle nach Shockley in Reihe mit einem Vorwiderstand ein ausreichendes Modell, Bild 2..