• Keine Ergebnisse gefunden

Wissensentdeckung in Datenbanken Belief Propagation, Strukturlernen Nico Piatkowski und Uwe Ligges

N/A
N/A
Protected

Academic year: 2022

Aktie "Wissensentdeckung in Datenbanken Belief Propagation, Strukturlernen Nico Piatkowski und Uwe Ligges"

Copied!
36
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

Graphische Modelle

Wissensentdeckung in Datenbanken

Belief Propagation, Strukturlernen

Nico Piatkowski und Uwe Ligges

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

29.06.2017

1 von 13

(2)

Graphische Modelle

Überblick

Was bisher geschah...

Modellklassen Verlustfunktionen

Numerische Optimierung Regularisierung

Überanpassung SQL, Häufige Mengen SVM, xDA, Bäume, . . . Graphische Modelle Heute

Graphische Modelle—Inferenz und Strukturlernen

(3)

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

Graphische Modelle

Überblick

Was bisher geschah...

Modellklassen Verlustfunktionen

Numerische Optimierung Regularisierung

Überanpassung SQL, Häufige Mengen SVM, xDA, Bäume, . . . Graphische Modelle Heute

Graphische Modelle—Inferenz und Strukturlernen

2 von 13

(4)

1

3 2

4 Graphische Modelle

Mehr Eigenschaften von Graphen

Nachbarschaft: Für Knotenv∈V in GraphG= (V, E) N (v) = {u∈V ∣ {v, u} ∈E}

Pfad: Folge(v1, v2, . . . , vm)von Knoten in der sich kein Knoten wiederholt

Kreis: Pfad(v1, v2, . . . , vm)mit{v1, vm} ∈E Baum:

Graph ohne Kreise (“kreisfrei”) Maximale Cliquengröße=2

(5)

1

3 2

4

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

Graphische Modelle

Mehr Eigenschaften von Graphen

Nachbarschaft: Für Knotenv∈V in GraphG= (V, E) N (v) = {u∈V ∣ {v, u} ∈E}

Pfad: Folge(v1, v2, . . . , vm)von Knoten in der sich kein Knoten wiederholt

Kreis: Pfad(v1, v2, . . . , vm)mit{v1, vm} ∈E Baum:

Graph ohne Kreise (“kreisfrei”) Maximale Cliquengröße=2

3 von 13

(6)

1

3 2

4 Graphische Modelle

Mehr Eigenschaften von Graphen

Nachbarschaft: Für Knotenv∈V in GraphG= (V, E) N (v) = {u∈V ∣ {v, u} ∈E}

Pfad: Folge(v1, v2, . . . , vm)von Knoten in der sich kein Knoten wiederholt

Kreis: Pfad(v1, v2, . . . , vm)mit{v1, vm} ∈E Baum:

Graph ohne Kreise (“kreisfrei”) Maximale Cliquengröße=2

(7)

1

3 2

4

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

Graphische Modelle

Mehr Eigenschaften von Graphen

Nachbarschaft: Für Knotenv∈V in GraphG= (V, E) N (v) = {u∈V ∣ {v, u} ∈E}

Pfad: Folge(v1, v2, . . . , vm)von Knoten in der sich kein Knoten wiederholt

Kreis: Pfad(v1, v2, . . . , vm)mit{v1, vm} ∈E Baum:

Graph ohne Kreise (“kreisfrei”) Maximale Cliquengröße=2

3 von 13

(8)

Graphische Modelle

Gradient der Log-Likelihood von Exponentialfamilien Gegeben DatensatzD, Funktionφ(binär),

E˜[φ(X)] = (1/∣D∣) ∑x∈Dφ(x),Pβ(x) =exp(⟨β, φ(x)⟩ −A(β)) Negative mittlere log-Likelihood:

`(β;D) = − 1

∣D∣

x∈D

logPβ(x)

= − 1

∣D∣

x∈D

⟨β, φ(x)⟩ +A(β)

= − ⟨β,E˜[φ(X)]⟩ +A(β) Partielle Ableitungnachβi:

∂`(β;D)

∂βi = −E˜[φ(X)i] +

∂βiA(β)

(9)

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

Graphische Modelle

Gradient der Log-Likelihood von Exponentialfamilien Gegeben DatensatzD, Funktionφ(binär),

E˜[φ(X)] = (1/∣D∣) ∑x∈Dφ(x),Pβ(x) =exp(⟨β, φ(x)⟩ −A(β)) Negative mittlere log-Likelihood:

`(β;D) = − 1

∣D∣

x∈D

logPβ(x)

= − 1

∣D∣

x∈D

⟨β, φ(x)⟩ +A(β)

= − ⟨β,E˜[φ(X)]⟩ +A(β) Partielle Ableitungnachβi:

∂`(β;D)

∂βi = −E˜[φ(X)i] +

∂βiA(β)

4 von 13

(10)

Graphische Modelle

Gradient der Log-Likelihood von Exponentialfamilien Gegeben DatensatzD, Funktionφ(binär),

E˜[φ(X)] = (1/∣D∣) ∑x∈Dφ(x),Pβ(x) =exp(⟨β, φ(x)⟩ −A(β)) Negative mittlere log-Likelihood:

`(β;D) = − 1

∣D∣

x∈D

logPβ(x)

= − 1

∣D∣

x∈D

⟨β, φ(x)⟩ +A(β)

= − ⟨β,E˜[φ(X)]⟩ +A(β) Partielle Ableitungnachβi:

∂`(β;D)

∂βi = −E˜[φ(X)i] +

∂βiA(β)

(11)

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

Graphische Modelle

Gradient der Log-Likelihood von Exponentialfamilien Gegeben DatensatzD, Funktionφ(binär),

E˜[φ(X)] = (1/∣D∣) ∑x∈Dφ(x),Pβ(x) =exp(⟨β, φ(x)⟩ −A(β)) Negative mittlere log-Likelihood:

`(β;D) = − 1

∣D∣

x∈D

logPβ(x)

= − 1

∣D∣

x∈D

⟨β, φ(x)⟩ +A(β)

= − ⟨β,E˜[φ(X)]⟩ +A(β) Partielle Ableitungnachβi:

∂`(β;D)

∂βi = −E˜[φ(X)i] +

∂βiA(β)

4 von 13

(12)

Graphische Modelle

Gradient der Log-Likelihood von Exponentialfamilien Gegeben DatensatzD, Funktionφ(binär),

E˜[φ(X)] = (1/∣D∣) ∑x∈Dφ(x),Pβ(x) =exp(⟨β, φ(x)⟩ −A(β)) Negative mittlere log-Likelihood:

`(β;D) = − 1

∣D∣

x∈D

logPβ(x)

= − 1

∣D∣

x∈D

⟨β, φ(x)⟩ +A(β)

= − ⟨β,E˜[φ(X)]⟩ +A(β) Partielle Ableitungnachβi:

∂`(β;D)

∂βi = −E˜[φ(X)i] +

∂βiA(β)

(13)

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

Graphische Modelle

Gradient der Log-Likelihood von Exponentialfamilien Gegeben DatensatzD, Funktionφ(binär),

E˜[φ(X)] = (1/∣D∣) ∑x∈Dφ(x),Pβ(x) =exp(⟨β, φ(x)⟩ −A(β)) Negative mittlere log-Likelihood:

`(β;D) = − 1

∣D∣

x∈D

logPβ(x)

= − 1

∣D∣

x∈D

⟨β, φ(x)⟩ +A(β)

= − ⟨β,E˜[φ(X)]⟩ +A(β) Partielle Ableitungnachβi:

∂`(β;D)

∂βi = −E˜[φ(X)i] +

∂βiA(β)

4 von 13

(14)

Graphische Modelle

Ableitung der Normalisierung

Erinnerung: Form vonA(β)(=logZ(β)) ist abhängig vonX (diskret?,reel?,endlich?).Hier:

∂βiA(β) = ∂

∂βi log ∑

x∈X

exp(⟨β, φ(x)⟩)

= 1

Z(β)

∂βi

x∈X

exp(⟨β, φ(x)⟩)

= 1 Z(β)

x∈X

exp(⟨β, φ(x)⟩) ∂

∂βi ⟨β, φ(x)⟩

= ∑

x∈X

exp(⟨β, φ(x)⟩ −A(β))φ(x)i

=Eβ[φ(X)i]

(15)

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

Graphische Modelle

Ableitung der Normalisierung

Erinnerung: Form vonA(β)(=logZ(β)) ist abhängig vonX (diskret?,reel?,endlich?).Hier:

∂βiA(β) = ∂

∂βi log ∑

x∈X

exp(⟨β, φ(x)⟩)

= 1

Z(β)

∂βi

x∈X

exp(⟨β, φ(x)⟩)

= 1 Z(β)

x∈X

exp(⟨β, φ(x)⟩) ∂

∂βi ⟨β, φ(x)⟩

= ∑

x∈X

exp(⟨β, φ(x)⟩ −A(β))φ(x)i

=Eβ[φ(X)i]

5 von 13

(16)

Graphische Modelle

Ableitung der Normalisierung

Erinnerung: Form vonA(β)(=logZ(β)) ist abhängig vonX (diskret?,reel?,endlich?).Hier:

∂βiA(β) = ∂

∂βi log ∑

x∈X

exp(⟨β, φ(x)⟩)

= 1

Z(β)

∂βi

x∈X

exp(⟨β, φ(x)⟩)

= 1 Z(β)

x∈X

exp(⟨β, φ(x)⟩) ∂

∂βi ⟨β, φ(x)⟩

= ∑

x∈X

exp(⟨β, φ(x)⟩ −A(β))φ(x)i

=Eβ[φ(X)i]

(17)

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

Graphische Modelle

Ableitung der Normalisierung

Erinnerung: Form vonA(β)(=logZ(β)) ist abhängig vonX (diskret?,reel?,endlich?).Hier:

∂βiA(β) = ∂

∂βi log ∑

x∈X

exp(⟨β, φ(x)⟩)

= 1

Z(β)

∂βi

x∈X

exp(⟨β, φ(x)⟩)

= 1 Z(β)

x∈X

exp(⟨β, φ(x)⟩) ∂

∂βi ⟨β, φ(x)⟩

= ∑

x∈X

exp(⟨β, φ(x)⟩ −A(β))φ(x)i

=Eβ[φ(X)i]

5 von 13

(18)

Graphische Modelle

Ableitung der Normalisierung

Erinnerung: Form vonA(β)(=logZ(β)) ist abhängig vonX (diskret?,reel?,endlich?).Hier:

∂βiA(β) = ∂

∂βi log ∑

x∈X

exp(⟨β, φ(x)⟩)

= 1

Z(β)

∂βi

x∈X

exp(⟨β, φ(x)⟩)

= 1 Z(β)

x∈X

exp(⟨β, φ(x)⟩) ∂

∂βi ⟨β, φ(x)⟩

= ∑

x∈X

exp(⟨β, φ(x)⟩ −A(β))φ(x)i

=Eβ[φ(X)i]

(19)

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

Graphische Modelle

Ableitung der Normalisierung

Erinnerung: Form vonA(β)(=logZ(β)) ist abhängig vonX (diskret?,reel?,endlich?).Hier:

∂βiA(β) = ∂

∂βi log ∑

x∈X

exp(⟨β, φ(x)⟩)

= 1

Z(β)

∂βi

x∈X

exp(⟨β, φ(x)⟩)

= 1 Z(β)

x∈X

exp(⟨β, φ(x)⟩) ∂

∂βi ⟨β, φ(x)⟩

= ∑

x∈X

exp(⟨β, φ(x)⟩ −A(β))φ(x)i

=Eβ[φ(X)i]

5 von 13

(20)

Graphische Modelle

Gradient der Log-Likelihood von Exponentialfamilien

Also gilt für diepartielle Ableitungnachβi:

∂`(β;D)

∂βi = −E˜[φ(X)i] +

∂βiA(β)

=Eβ[φ(X)i] −E˜[φ(X)i] Ableitung ist beschränkt ∂`(β;D)∂β

i ∈ [−1; 1] ⇒`ist Lipschitz stetig Man kann zeigen:∇`(β;D)auch Lipschitz stetig (L=2∣C (G)∣) Jetzt: Wie berechnet manEβ[φ(X)i]?

Jedesientspricht einem Paar von Clique und Zustand, d.h.

φ(X)i=φ(X)C=yfür einC∈ C (g)undy∈ XC

(21)

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

Graphische Modelle

Gradient der Log-Likelihood von Exponentialfamilien

Also gilt für diepartielle Ableitungnachβi:

∂`(β;D)

∂βi = −E˜[φ(X)i] +

∂βiA(β)

=Eβ[φ(X)i] −E˜[φ(X)i] Ableitung ist beschränkt ∂`(β;D)∂β

i ∈ [−1; 1] ⇒`ist Lipschitz stetig Man kann zeigen:∇`(β;D)auch Lipschitz stetig (L=2∣C (G)∣) Jetzt: Wie berechnet manEβ[φ(X)i]?

Jedesientspricht einem Paar von Clique und Zustand, d.h.

φ(X)i=φ(X)C=yfür einC∈ C (g)undy∈ XC

6 von 13

(22)

Graphische Modelle

Gradient der Log-Likelihood von Exponentialfamilien

Also gilt für diepartielle Ableitungnachβi:

∂`(β;D)

∂βi = −E˜[φ(X)i] +

∂βiA(β)

=Eβ[φ(X)i] −E˜[φ(X)i] Ableitung ist beschränkt ∂`(β;D)∂β

i ∈ [−1; 1] ⇒`ist Lipschitz stetig Man kann zeigen:∇`(β;D)auch Lipschitz stetig (L=2∣C (G)∣) Jetzt: Wie berechnet manEβ[φ(X)i]?

Jedesientspricht einem Paar von Clique und Zustand, d.h.

φ(X)i=φ(X)C=yfür einC∈ C (g)undy∈ XC

(23)

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

Graphische Modelle

Marginalisierung

WennZ binäre Zufallsvariable (Z = {0,1}), dann E[Z] =P(Z=1)

Ziel: Berechnung vonEβ[φ(X)C=y] =P(XC=y) Allgemein:

Pβ(XC =y) = ∑

x∈XV∖C

Pβ(y,x)

Ausnutzen der Faktorisierung sowie der Distributivität:

Pβ(XC =y) = 1 Z(β)

x∈XV∖C

U∈C(G)

exp(⟨βU, φU(zU)⟩) wobeiz= (y,x)undzU sind die Werte der Knoten inU ⊆V

7 von 13

(24)

Graphische Modelle

Marginalisierung

WennZ binäre Zufallsvariable (Z = {0,1}), dann E[Z] =P(Z=1)

Ziel: Berechnung vonEβ[φ(X)C=y] =P(XC=y) Allgemein:

Pβ(XC =y) = ∑

x∈XV∖C

Pβ(y,x)

Ausnutzen der Faktorisierung sowie der Distributivität:

Pβ(XC =y) = 1 Z(β)

x∈XV∖C

U∈C(G)

exp(⟨βU, φU(zU)⟩) wobeiz= (y,x)undzU sind die Werte der Knoten inU ⊆V

(25)

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

Graphische Modelle

Marginalisierung

WennZ binäre Zufallsvariable (Z = {0,1}), dann E[Z] =P(Z=1)

Ziel: Berechnung vonEβ[φ(X)C=y] =P(XC=y) Allgemein:

Pβ(XC =y) = ∑

x∈XV∖C

Pβ(y,x)

Ausnutzen der Faktorisierung sowie der Distributivität:

Pβ(XC =y) = 1 Z(β)

x∈XV∖C

U∈C(G)

exp(⟨βU, φU(zU)⟩) wobeiz= (y,x)undzU sind die Werte der Knoten inU ⊆V

7 von 13

(26)

Graphische Modelle

Marginalisierung in Bäumen

Ziel: Berechnung vonEβ[φ(X)C=y] =P(XC=y) WennGein Baum ist mitV = {1,2, . . . , n}, dann ist

Pβ(x) = 1 Z(β)

uv∈E

exp(⟨βuv, φuv(xuv)⟩) und

Z(β) = ∑

x∈X

uv∈E

exp(⟨βuv, φuv(xuv)⟩)

= ∑

x1∈X1

x2∈X2

⋅ ⋅ ⋅ ∑

xn∈Xn

uv∈E

exp(⟨βuv, φuv(xuv)⟩)

→Distributivität ausnutzen!

(27)

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

Graphische Modelle

Belief Propagation

Ziel: Berechnung vonEβ[φ(X)C=y] =P(XC=y) Z(β) = ∑

x1∈X1

x2∈X2

⋅ ⋅ ⋅ ∑

xn∈Xn

uv∈E

exp(⟨βuv, φuv(xuv)⟩)

´¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¸¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¶

ψuv(xuv)

Distributivität ausnutzen. . . mv→u(x) = ∑

y∈Xv

ψuv(yx) ∏

w∈N (v)∖{u}

mw→v(y) Z(β) = ∑

y∈Xv

w∈N (v)

mw→v(y) P(Xuv=xy) = ψuv(yx)

Z(β)

w∈N (v)∖{u}

mw→v(y) ∏

w∈N (u)∖{v}

mw→u(y)

9 von 13

(28)

Graphische Modelle

Belief Propagation

Ziel: Berechnung vonEβ[φ(X)C=y] =P(XC=y) Z(β) = ∑

x1∈X1

x2∈X2

⋅ ⋅ ⋅ ∑

xn∈Xn

uv∈E

exp(⟨βuv, φuv(xuv)⟩)

´¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¸¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¶

ψuv(xuv)

Distributivität ausnutzen. . . mv→u(x) = ∑

y∈Xv

ψuv(yx) ∏

w∈N (v)∖{u}

mw→v(y) Z(β) = ∑

y∈Xv

w∈N (v)

mw→v(y) P(Xuv=xy) = ψuv(yx)

Z(β)

w∈N (v)∖{u}

mw→v(y) ∏

w∈N (u)∖{v}

mw→u(y)

(29)

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

Graphische Modelle

Belief Propagation

Ziel: Berechnung vonEβ[φ(X)C=y] =P(XC=y) Z(β) = ∑

x1∈X1

x2∈X2

⋅ ⋅ ⋅ ∑

xn∈Xn

uv∈E

exp(⟨βuv, φuv(xuv)⟩)

´¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¸¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¶

ψuv(xuv)

Distributivität ausnutzen. . . mv→u(x) = ∑

y∈Xv

ψuv(yx) ∏

w∈N (v)∖{u}

mw→v(y) Z(β) = ∑

y∈Xv

w∈N (v)

mw→v(y) P(Xuv=xy) = ψuv(yx)

Z(β)

w∈N (v)∖{u}

mw→v(y) ∏

w∈N (u)∖{v}

mw→u(y)

9 von 13

(30)

Graphische Modelle

Gibbs Sampling

Problem: Belief Propagation nur exakt wennGein Baum ist!

Idee: Erzeuge neue Stichprobe gemäßPβ und berechne µˆidurch “abzählen”

Aber: Wie erzeugt man neue Samples ausPβ(X)?

⇒Ausnutzung bedingter Unabhängigkeiten!

Beobachtung: Wenn ganze Nachbarschaft eines Knotensv beobachtet ist, kannPv(x∣xN (v))einfach berechnet werden!

(31)

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

Graphische Modelle

Gibbs Sampling

Problem: Belief Propagation nur exakt wennGein Baum ist!

Idee: Erzeuge neue Stichprobe gemäßPβ und berechne µˆidurch “abzählen”

Aber: Wie erzeugt man neue Samples ausPβ(X)?

⇒Ausnutzung bedingter Unabhängigkeiten!

Beobachtung: Wenn ganze Nachbarschaft eines Knotensv beobachtet ist, kannPv(x∣xN (v))einfach berechnet werden!

10 von 13

(32)

Graphische Modelle

Gibbs Sampling: Algorithmus

1 Erzeugexzufällig Gleichverteilt (das entsprichtNICHT Pβ!)

2 Besuche jeden Knotenv∈V und weise gemäß Pv(x∣xN (v))neuen Wert zu

3 Wiederhole Schritt 2 so oft wie möglich

Man kann zeigen: Nach endlicher Anzahl von Schritten istxein echtes Sample ausPβ!

Dann: Nutze den Algorithmus um “viele” (so viele wie möglich) Samples zu erzeugen und berechneP(Xuv=xy)(für alle Kanten{v, u} ∈E) durch “abzählen”

(33)

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

Graphische Modelle

Gibbs Sampling: Algorithmus

1 Erzeugexzufällig Gleichverteilt (das entsprichtNICHT Pβ!)

2 Besuche jeden Knotenv∈V und weise gemäß Pv(x∣xN (v))neuen Wert zu

3 Wiederhole Schritt 2 so oft wie möglich

Man kann zeigen: Nach endlicher Anzahl von Schritten istxein echtes Sample ausPβ!

Dann: Nutze den Algorithmus um “viele” (so viele wie möglich) Samples zu erzeugen und berechneP(Xuv=xy)(für alle Kanten{v, u} ∈E) durch “abzählen”

11 von 13

(34)

Graphische Modelle

Chow-Liu Bäume

Minimierung der Distanz zwischen optimalem Graph und

“bestem” BaumT

Hier: Distanz gemessen durch Kullback-Leiber Divergenz KL(P,PT) = ∑

x∈X

P(x)log P(x) PT(x) Kann umgeform werden zu

KL(P,PT) = −H(P) + ∑

v∈V

H(Pv) − ∑

vu∈E(T)

I(Xv,Xu)

´¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¸¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¶

Maximaler Spannbaum!

mitI(Xv,Xu) =KL(Pvu,PvPu)(Allgemeines Maß für Unabhängigkeit!)

(35)

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

Graphische Modelle

Chow-Liu Bäume

Minimierung der Distanz zwischen optimalem Graph und

“bestem” BaumT

Hier: Distanz gemessen durch Kullback-Leiber Divergenz KL(P,PT) = ∑

x∈X

P(x)log P(x) PT(x) Kann umgeform werden zu

KL(P,PT) = −H(P) + ∑

v∈V

H(Pv) − ∑

vu∈E(T)

I(Xv,Xu)

´¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¸¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¶

Maximaler Spannbaum!

mitI(Xv,Xu) =KL(Pvu,PvPu)(Allgemeines Maß für Unabhängigkeit!)

12 von 13

(36)

Graphische Modelle

Graphen mittels Regularisierung

Baobachtung: Sind ist kompletter Parametervektorβvueiner Kante=0, so hat diese Kante keinen Einfluss aufP(X =x)!

Idee: Minimiere`(β;D) +λ∥β∥1

∥ ⋅ ∥1 nicht differenzierbar!!→Proximaler Gradientenabstieg (nächste Woche)

Spoiler:

proxλ∥⋅∥1i) =

⎧⎪

⎪⎪

⎪⎪

⎪⎪

βi−λ ,βi>λ βi+λ ,βi< −λ 0 ,sonst

Referenzen

ÄHNLICHE DOKUMENTE

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität

Erster Ordnung, mit Gradient Einfache Implementierung Geringer Ressourcenverbrauch Vergleichsweise langsame Konvergenz Zweiter Ordnung, mit Hesse-Matrix. Hoher

Relationale Datenbanken ≡ Menge von Tabellen Relationales Datenbankmanagementsystem erlaubt Anfrage und Manipulation von Daten mittels Structured Query Language (SQL).

Nutzung eine Ordnung auf den Items um jeder Transaktionen einen eindeutigen String zuzuordnen Häufigkeiten identischer Teilstrings können dann in einem Prefixbaum

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund..

baumberechnung sind die empirischen (aus den Daten bestimmte) Mutual- Informations zwischen den Knoten Gefundener Baum hat minimale. Kullback-Leibler Divergenz zum optimalen

Erste Schichten: Allgemein, lokale Representation Tiefe Schichten: Spezifisch,

The Elements of Statistical Learning; 14.3.6, 14.3.7 Graphical Models, Exponential Families, and Variational Inference; Example 3.5.. Merkmalsauswahl, Greedy Selection,