Wissensentdeckung in Datenbanken Belief Propagation, Strukturlernen Nico Piatkowski und Uwe Ligges

(1)

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

Graphische Modelle

Wissensentdeckung in Datenbanken

Belief Propagation, Strukturlernen

Nico Piatkowski und Uwe Ligges

29.06.2017

1 von 13

(2)

Graphische Modelle

Überblick

Was bisher geschah...

Modellklassen Verlustfunktionen

Numerische Optimierung Regularisierung

Überanpassung SQL, Häufige Mengen SVM, xDA, Bäume, . . . Graphische Modelle Heute

Graphische Modelle—Inferenz und Strukturlernen

(3)

Graphische Modelle

Überblick

Was bisher geschah...

Modellklassen Verlustfunktionen

Numerische Optimierung Regularisierung

Überanpassung SQL, Häufige Mengen SVM, xDA, Bäume, . . . Graphische Modelle Heute

Graphische Modelle—Inferenz und Strukturlernen

2 von 13

(4)

1

3 2

4 Graphische Modelle

Mehr Eigenschaften von Graphen

Nachbarschaft: Für Knotenv∈V in GraphG= (V, E) N (v) = {u∈V ∣ {v, u} ∈E}

Pfad: Folge(v1, v2, . . . , vm)von Knoten in der sich kein Knoten wiederholt

Kreis: Pfad(v1, v2, . . . , vm)mit{v1, vm} ∈E Baum:

Graph ohne Kreise (“kreisfrei”) Maximale Cliquengröße=2

(5)

1

3 2

4

Graphische Modelle

3 von 13

(6)

1

3 2

4 Graphische Modelle

(7)

1

3 2

4

Graphische Modelle

3 von 13

(8)

Graphische Modelle

Gradient der Log-Likelihood von Exponentialfamilien Gegeben DatensatzD, Funktionφ(binär),

E˜[φ(X)] = (1/∣D∣) ∑_x∈Dφ(x),Pβ(x) =exp(⟨β, φ(x)⟩ −A(β)) Negative mittlere log-Likelihood:

`(β;D) = − 1

∣D∣

∑

x∈D

logPβ(x)

= − 1

∣D∣

∑

x∈D

⟨β, φ(x)⟩ +A(β)

= − ⟨β,E˜[φ(X)]⟩ +A(β) Partielle Ableitungnachβ_i:

∂`(β;D)

∂β_i = −E˜[φ(X)_i] +

∂

∂β_iA(β)

(9)

Graphische Modelle

`(β;D) = − 1

∣D∣

∑

x∈D

logPβ(x)

= − 1

∣D∣

∑

x∈D

⟨β, φ(x)⟩ +A(β)

∂`(β;D)

∂β_i = −E˜[φ(X)_i] +

∂

∂β_iA(β)

4 von 13

(10)

Graphische Modelle

`(β;D) = − 1

∣D∣

∑

x∈D

logPβ(x)

= − 1

∣D∣

∑

x∈D

⟨β, φ(x)⟩ +A(β)

∂`(β;D)

∂β_i = −E˜[φ(X)_i] +

∂

∂β_iA(β)

(11)

Graphische Modelle

`(β;D) = − 1

∣D∣

∑

x∈D

logPβ(x)

= − 1

∣D∣

∑

x∈D

⟨β, φ(x)⟩ +A(β)

∂`(β;D)

∂β_i = −E˜[φ(X)_i] +

∂

∂β_iA(β)

4 von 13

(12)

Graphische Modelle

`(β;D) = − 1

∣D∣

∑

x∈D

logPβ(x)

= − 1

∣D∣

∑

x∈D

⟨β, φ(x)⟩ +A(β)

∂`(β;D)

∂β_i = −E˜[φ(X)_i] +

∂

∂β_iA(β)

(13)

Graphische Modelle

`(β;D) = − 1

∣D∣

∑

x∈D

logPβ(x)

= − 1

∣D∣

∑

x∈D

⟨β, φ(x)⟩ +A(β)

∂`(β;D)

∂β_i = −E˜[φ(X)_i] +

∂

∂β_iA(β)

4 von 13

(14)

Graphische Modelle

Ableitung der Normalisierung

Erinnerung: Form vonA(β)(=logZ(β)) ist abhängig vonX (diskret?,reel?,endlich?).Hier:

∂

∂β_iA(β) = ∂

∂β_i log ∑

x∈X

exp(⟨β, φ(x)⟩)

= 1

Z(β)

∂

∂β_i ∑

x∈X

= 1 Z(β)

∑

x∈X

exp(⟨β, φ(x)⟩) ∂

∂β_i ⟨β, φ(x)⟩

= ∑

x∈X

exp(⟨β, φ(x)⟩ −A(β))φ(x)_i

=Eβ[φ(X)_i]

(15)

Graphische Modelle

∂

∂β_iA(β) = ∂

∂β_i log ∑

x∈X

= 1

Z(β)

∂

∂β_i ∑

x∈X

= 1 Z(β)

∑

x∈X

exp(⟨β, φ(x)⟩) ∂

∂β_i ⟨β, φ(x)⟩

= ∑

x∈X

=Eβ[φ(X)_i]

5 von 13

(16)

Graphische Modelle

∂

∂β_iA(β) = ∂

∂β_i log ∑

x∈X

= 1

Z(β)

∂

∂β_i ∑

x∈X

= 1 Z(β)

∑

x∈X

exp(⟨β, φ(x)⟩) ∂

∂β_i ⟨β, φ(x)⟩

= ∑

x∈X

=Eβ[φ(X)_i]

(17)

Graphische Modelle

∂

∂β_iA(β) = ∂

∂β_i log ∑

x∈X

= 1

Z(β)

∂

∂β_i ∑

x∈X

= 1 Z(β)

∑

x∈X

exp(⟨β, φ(x)⟩) ∂

∂β_i ⟨β, φ(x)⟩

= ∑

x∈X

=Eβ[φ(X)_i]

5 von 13

(18)

Graphische Modelle

∂

∂β_iA(β) = ∂

∂β_i log ∑

x∈X

= 1

Z(β)

∂

∂β_i ∑

x∈X

= 1 Z(β)

∑

x∈X

exp(⟨β, φ(x)⟩) ∂

∂β_i ⟨β, φ(x)⟩

= ∑

x∈X

=Eβ[φ(X)_i]

(19)

Graphische Modelle

∂

∂β_iA(β) = ∂

∂β_i log ∑

x∈X

= 1

Z(β)

∂

∂β_i ∑

x∈X

= 1 Z(β)

∑

x∈X

exp(⟨β, φ(x)⟩) ∂

∂β_i ⟨β, φ(x)⟩

= ∑

x∈X

=Eβ[φ(X)_i]

5 von 13

(20)

Graphische Modelle

Gradient der Log-Likelihood von Exponentialfamilien

Also gilt für diepartielle Ableitungnachβ_i:

∂`(β;D)

∂β_i = −E˜[φ(X)_i] +

∂

∂β_iA(β)

=Eβ[φ(X)_i] −E˜[φ(X)_i] Ableitung ist beschränkt ^∂`(β;D)_∂β

i ∈ [−1; 1] ⇒`ist Lipschitz stetig Man kann zeigen:∇`(β;D)auch Lipschitz stetig (L=2∣C (G)∣) Jetzt: Wie berechnet manEβ[φ(X)_i]?

Jedesientspricht einem Paar von Clique und Zustand, d.h.

φ(X)_i=φ(X)_C=yfür einC∈ C (g)undy∈ X_C

(21)

Graphische Modelle

∂`(β;D)

∂β_i = −E˜[φ(X)_i] +

∂

∂β_iA(β)

6 von 13

(22)

Graphische Modelle

∂`(β;D)

∂β_i = −E˜[φ(X)_i] +

∂

∂β_iA(β)

(23)

Graphische Modelle

Marginalisierung

WennZ binäre Zufallsvariable (Z = {0,1}), dann E[Z] =P(Z=1)

Ziel: Berechnung vonEβ[φ(X)_C=y] =P(X_C=y) Allgemein:

Pβ(X_C =y) = ∑

x∈XV∖C

Pβ(y,x)

Ausnutzen der Faktorisierung sowie der Distributivität:

Pβ(X_C =y) = 1 Z(β)

∑

x∈XV∖C

∏

U∈C(G)

exp(⟨β_U, φ_U(z_U)⟩) wobeiz= (y,x)undzU sind die Werte der Knoten inU ⊆V

7 von 13

(24)

Graphische Modelle

Marginalisierung

Pβ(X_C =y) = ∑

x∈XV∖C

Pβ(y,x)

Pβ(X_C =y) = 1 Z(β)

∑

x∈XV∖C

∏

U∈C(G)

(25)

Graphische Modelle

Marginalisierung

Pβ(X_C =y) = ∑

x∈XV∖C

Pβ(y,x)

Pβ(X_C =y) = 1 Z(β)

∑

x∈XV∖C

∏

U∈C(G)

7 von 13

(26)

Graphische Modelle

Marginalisierung in Bäumen

Ziel: Berechnung vonEβ[φ(X)_C=y] =P(X_C=y) WennGein Baum ist mitV = {1,2, . . . , n}, dann ist

Pβ(x) = 1 Z(β)

∏

uv∈E

exp(⟨β_uv, φ_uv(x_uv)⟩) und

Z(β) = ∑

x∈X

∏

uv∈E

exp(⟨β_uv, φuv(xuv)⟩)

= ∑

x1∈X₁

∑

x2∈X₂

⋅ ⋅ ⋅ ∑

xn∈X_n

∏

uv∈E

→Distributivität ausnutzen!

(27)

Graphische Modelle

Belief Propagation

Ziel: Berechnung vonEβ[φ(X)_C=y] =P(X_C=y) Z(β) = ∑

x1∈X₁

∑

x2∈X₂

⋅ ⋅ ⋅ ∑

xn∈X_n

∏

uv∈E

´¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¸¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¶

ψuv(xuv)

Distributivität ausnutzen. . . mv→u(x) = ∑

y∈Xv

ψuv(yx) ∏

w∈N (v)∖{u}

mw→v(y) Z(β) = ∑

y∈Xv

∏

w∈N (v)

mw→v(y) P(Xuv=xy) = ψuv(yx)

Z(β)

∏

w∈N (v)∖{u}

mw→v(y) ∏

w∈N (u)∖{v}

mw→u(y)

9 von 13

(28)

Graphische Modelle

Belief Propagation

x1∈X₁

∑

x2∈X₂

⋅ ⋅ ⋅ ∑

xn∈X_n

∏

uv∈E

´¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¸¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¶

ψuv(xuv)

y∈Xv

ψuv(yx) ∏

w∈N (v)∖{u}

mw→v(y) Z(β) = ∑

y∈Xv

∏

w∈N (v)

Z(β)

∏

w∈N (v)∖{u}

mw→v(y) ∏

w∈N (u)∖{v}

mw→u(y)

(29)

Graphische Modelle

Belief Propagation

x1∈X₁

∑

x2∈X₂

⋅ ⋅ ⋅ ∑

xn∈X_n

∏

uv∈E

´¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¸¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¶

ψuv(xuv)

y∈Xv

ψuv(yx) ∏

w∈N (v)∖{u}

mw→v(y) Z(β) = ∑

y∈Xv

∏

w∈N (v)

Z(β)

∏

w∈N (v)∖{u}

mw→v(y) ∏

w∈N (u)∖{v}

mw→u(y)

9 von 13

(30)

Graphische Modelle

Gibbs Sampling

Problem: Belief Propagation nur exakt wennGein Baum ist!

Idee: Erzeuge neue Stichprobe gemäßPβ und berechne µˆ_idurch “abzählen”

Aber: Wie erzeugt man neue Samples ausPβ(X)?

⇒Ausnutzung bedingter Unabhängigkeiten!

Beobachtung: Wenn ganze Nachbarschaft eines Knotensv beobachtet ist, kannPv(x∣x_{N (v)})einfach berechnet werden!

(31)

Graphische Modelle

Gibbs Sampling

Problem: Belief Propagation nur exakt wennGein Baum ist!

Idee: Erzeuge neue Stichprobe gemäßPβ und berechne µˆ_idurch “abzählen”

Aber: Wie erzeugt man neue Samples ausPβ(X)?

⇒Ausnutzung bedingter Unabhängigkeiten!

Beobachtung: Wenn ganze Nachbarschaft eines Knotensv beobachtet ist, kannPv(x∣x_{N (v)})einfach berechnet werden!

10 von 13

(32)

Graphische Modelle

Gibbs Sampling: Algorithmus

1 Erzeugexzufällig Gleichverteilt (das entsprichtNICHT Pβ!)

2 Besuche jeden Knotenv∈V und weise gemäß Pv(x∣x_{N (v)})neuen Wert zu

3 Wiederhole Schritt 2 so oft wie möglich

Man kann zeigen: Nach endlicher Anzahl von Schritten istxein echtes Sample ausPβ!

Dann: Nutze den Algorithmus um “viele” (so viele wie möglich) Samples zu erzeugen und berechneP(X_uv=xy)(für alle Kanten{v, u} ∈E) durch “abzählen”

(33)

Graphische Modelle

Gibbs Sampling: Algorithmus

1 Erzeugexzufällig Gleichverteilt (das entsprichtNICHT Pβ!)

2 Besuche jeden Knotenv∈V und weise gemäß Pv(x∣x_{N (v)})neuen Wert zu

3 Wiederhole Schritt 2 so oft wie möglich

Man kann zeigen: Nach endlicher Anzahl von Schritten istxein echtes Sample ausPβ!

Dann: Nutze den Algorithmus um “viele” (so viele wie möglich) Samples zu erzeugen und berechneP(X_uv=xy)(für alle Kanten{v, u} ∈E) durch “abzählen”

11 von 13

(34)

Graphische Modelle

Chow-Liu Bäume

Minimierung der Distanz zwischen optimalem Graph und

“bestem” BaumT

Hier: Distanz gemessen durch Kullback-Leiber Divergenz KL(P^∗,PT) = ∑

x∈X

P^∗(x)log P^∗(x) PT(x) Kann umgeform werden zu

KL(P^∗,PT) = −H(P^∗) + ∑

v∈V

H(P^∗v) − ∑

vu∈E(T)

I(X_v,X_u)

´¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¸¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¶

Maximaler Spannbaum!

mitI(Xv,Xu) =KL(Pvu,PvPu)(Allgemeines Maß für Unabhängigkeit!)

(35)

Graphische Modelle

Chow-Liu Bäume

Minimierung der Distanz zwischen optimalem Graph und

“bestem” BaumT

Hier: Distanz gemessen durch Kullback-Leiber Divergenz KL(P^∗,PT) = ∑

x∈X

P^∗(x)log P^∗(x) PT(x) Kann umgeform werden zu

KL(P^∗,PT) = −H(P^∗) + ∑

v∈V

H(P^∗v) − ∑

vu∈E(T)

I(X_v,X_u)

´¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¸¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¶

Maximaler Spannbaum!

mitI(Xv,Xu) =KL(Pvu,PvPu)(Allgemeines Maß für Unabhängigkeit!)

12 von 13

(36)

Graphische Modelle

Graphen mittels Regularisierung

Baobachtung: Sind ist kompletter Parametervektorβ_vueiner Kante=0, so hat diese Kante keinen Einfluss aufP(X =x)!

Idee: Minimiere`(β;D) +λ∥β∥₁

∥ ⋅ ∥₁ nicht differenzierbar!!→Proximaler Gradientenabstieg (nächste Woche)

Spoiler:

prox_λ∥⋅∥₁(β_i) =

⎧⎪

⎪⎪

⎪

⎨

⎪⎪

⎩

β_i−λ ,β_i>λ β_i+λ ,β_i< −λ 0 ,sonst