Strukturelle Modelle in der Bildverarbeitung Markovsche Modelle auf Bäumen

(1)

Markovsche Modelle auf Bäumen

D. Schlesinger – TUD/INF/KI/IS

– Markovsche Modelle auf Bäumen – Dynamische Programmierung für Bäume – Lernen

– Dynamische Programmierung für allgemeine Graphen

D. Schlesinger () SMBV: Bäume 1 / 10

(2)

Markovsche Modelle auf Bäumen

Die „ gewöhnliche“ Parametrisierung (Ketten-ähnlich):

Die diskreten Variablenyi∈Ksind durchnummeriert,

jede Variable (außer einer – Wurzel) hat einen „Vorgänger“j(i)<i

Wahrscheinlichkeit einer Zustandskonfigurationy= (y1,y2. . .yn) ist

p(y) =p(y1)·

n

Y

i=2

p(yi|y_j(i))

(3)

Parametrisierung durch marginale Wahrscheinlichkeiten (auch Ketten-ähnlich):

p(y) =p(y1)·

n

Y

i=2

p(yi|y_j(i)) =p(y1)·

n

Y

i=2

p(yi,y_j(i)) p(y_j(i)) =

Q

i,j(i)

p(yi,yj(i))

Q

i

p(yi)ⁿ⁽ⁱ⁾⁻¹

n(i) ist die Anzahl der „zuyi benachbarten“ Variablen (Vorgänger oder Nachfolger).

Es gibt keine Wurzel mehr, die Variablen müssen nicht explizit nummeriert werden.

Gegeben sei ein zyklenfreier GraphV= (R,E) mit

– der MengeRder Knoten (r∈Rbezeichnet einen Knoten) – der MengeE={{r,r⁰}}der Kanten

yr ist die Zufallsvariable, die dem Knotenrentspricht.

p(y) =

Q

{r,r⁰}∈E

p(yr,yr⁰)

Q

r∈R

p(yr)^n(r)−1 =

Y

{r,r⁰}∈E

p(yr,y_r0)·

Y

r∈R

p(yr)^1−n(r)

(4)

Markovsche Modelle auf Bäumen

Und noch etwas allgemeiner:

p(y) = 1 Z

Y

{r,r⁰}∈E

grr⁰(yr,yr⁰)·

Y

r∈R

qr(yr) mit der Partition FunktionZ.

Zusätzliche Anmerkungen zu Parametrisierungen:

– Ausgangspunkt istp(y).

– Für eine beliebigep(y)existierenallep(yr),p(yr,y_r0),p(yr|y_r0) etc. (selbst wenn die entsprechende Kante nicht existiert).

– Für Bäume ergeben sich daraus verschiedene Parametrisierungen. Sie definierenein und dieselbeWahrscheinlichkeitsverteilungp(y). Sie sind aber von einandernicht unabhängig, z.B.p(yr|y_r⁰) in einer Parametrisierung sollp(yr,yr⁰) undp(yr⁰) in der anderen entsprechen.

– Vielmehr, ineinerParametrisierung sind die Parameter von einander nicht unbedingt unabhängig, z.B.

P

k⁰p(yr=k,yr⁰=k⁰) =p(yr=k) muss gelten (marginal constraints).

– Für einen beliebigen Satz vonqundgexistiert genaueinep(y), für einep(y) existierenmehrereParametrisierungen mitqundg.

– Entsprechenqundgirgendwelchen Wahrscheinlichkeitsverteilungen, so sind diese nicht unbedingt die marginalen von der daraus entstehendenp(y). Wenn aber dabei die marginal constraints erfüllt sind, dann doch (aber nur für Bäume).

(5)

In zwei Worten – es ist dasselbe, wie bei Ketten.

Variablen werden nach einander eliminiert (durch Bellmansche Funktionen ersetzt).

Dies funktioniert sowohl für SumProd Probleme (Partition Funktion, marginale Wahrscheinlichkeiten), als auch für die Suche nach der a-posteriori wahrscheinlichsten Zustandskonfiguration (MinSum Problem).

(6)

Lernen

Zusätzlich zum „ gewöhnlichen“ Lernen wird nach derBaumstrukturauch gesucht.

Gegeben sei eine Lernstichprobe der ZustandskonfigurationenL= (y¹,y². . .y^l) Gesucht wird:

– der Graph, d.h. die (zyklenfreie) Menge der KantenE, – die numerischen Parameterfür diesen Graphen, d.h.

- q_r(k) =p(y_r=k) für aller∈Rund

- g_rr0(k,k) =p(y_r=k,y_r0=k⁰) für alle{r,r⁰} ∈E

Die Menge der zu optimierenden Parameter hängt vom Graphen ab.

k

qr(k) = 1,

X

kk⁰

grr⁰(k,k⁰) = 1,

X

k⁰

grr⁰(k,k⁰) =qr(k)

(7)

„Verschachtelte“ Optimierung:

Zunächst betrachte man, die Aufgabe auf einem fixierten Baum,

dann setzt man die gefundene Lösung in die Optimierung bezüglich der Struktur ein.

Sei der Baum gegeben:

X

l

"

X

r∈R

1−n(r)

lnqr(y^l_r) +

X

rr⁰∈E

lngrr⁰(y_r^l,y_r^l0)

#

=

X

r∈R

Wegen den Nebenbedingungen ist es nicht möglich, die Summanden von einander getrennt zu optimieren. Ausweg:

– Gehe zu der Parametrisierung mit den bedingten Wahrscheinlichkeitsverteilungen.

Sie sind mit einander nicht gekoppelt.

– Beweisep(yr|y_r0) =p^∗(yr|y_r0) (durch das Schennonsche Lemma).

– Daraus ergibt sich automatischgrr⁰(k,k⁰) =p^∗_rr0(k,k⁰) undqr(k) =p^∗_r(k).

(8)

Lernen

Man setzeg_rr0(k,k⁰) =p^∗_rr0(k,k⁰) undqr(k) =p^∗_r(k) in die Zielfunktion ein:

X

r∈R

1−n(r)

P

r∈Rhängt von der Baumstruktur nicht ab. Man bezeichne c_rr0=

X

kk⁰

p^∗_rr0(k,k⁰) lnp^∗_rr0(k,k⁰)−

X

k

p^∗_r(k) lnp_r^∗(k)−

X

k

p_r^∗0(k) lnp_r^∗0(k)

Man erhält die Aufgabe der Suche nach dem maximalen aufspannenden Baum:

X

rr⁰∈E

c_rr0 →max

E

(9)

Man betrachte den folgenden Prozess der Erzeugung eines Graphen:

Die Knoten werden nach und nach in den Graphen eingefügt (ein Knoten am Anfang).

Der neu eingefügte Knoten wird mit einem vollverbundenen Teilgraphen durch die Kanten verbunden. Dieser vollverbundene Teilgraph besteht aus maximalwKnoten.

Nachdem alle Knoten eingefügt sind, werden manche Kanten entfernt.

Gegeben sei ein Graph. SeineBreite (treewidth) ist die kleinste Zahl w so, dass der Graph durch den wie oben beschriebenen Prozess erzeugt werden kann – partieller w-Baum.

Beispiele:

Ketten, Bäume:w= 1 Zyklen, Simple Netze:w= 2 Gitter:n×m:w= min(n,m)

Bei einem fixiertenwkann in polynomieller Zeit beantwortet werden, ob ein gegebener Graph die Breitewhat – polynomiell inn, allerdings exponentiell inw

→die Aufgabe der Bestimmung vonwist NP-vollständig.

(10)

Dynamische Programmierung für allgemeine Graphen

Die Idee der Dynamischen Programmierung: wenn die Reihenfolge der Knoten Bekannt ist, kann man die Knoten in der umgekehrten Reihenfolge eliminieren. Die Bellmansche Funktionen haben dabei die Ordnung maximalw, d.h.B:K^w→R.

Die Dynamische Programmierung hat die ZeitkomplexitätO(nK^w+1) Beispiele:

Kette: eliminiert wird der „erste“ Knoten,w= 1,B:K→R,O(nK²) Baum: eliminiert wird immer ein Blatt, alles andere – dasselbe

Zyklus: eliminiert wird ein beliebiger Knoten,w= 2,B:K×K→R,O(nK³) Das obige Beispiel:w= 3,B:K³→R,O(nK⁴)