Wissensentdeckung in Datenbanken Strukturlernen, Merkmalsauswahl Nico Piatkowski und Uwe Ligges

(1)

Graphische Modelle

Wissensentdeckung in Datenbanken

Strukturlernen, Merkmalsauswahl

Nico Piatkowski und Uwe Ligges

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

27.06.2017

(2)

Graphische Modelle

Überblick

Was bisher geschah...

Modellklassen Verlustfunktionen

Numerische Optimierung Regularisierung

Überanpassung SQL, Häufige Mengen SVM, xDA, Bäume, . . . Graphische Modelle Heute

(3)

Graphische Modelle

Überblick

Was bisher geschah...

Modellklassen Verlustfunktionen

Numerische Optimierung Regularisierung

Überanpassung SQL, Häufige Mengen SVM, xDA, Bäume, . . . Graphische Modelle Heute

(4)

Graphische Modelle

Überblick

Wiederholung: Belief Propagation, Gibbs-Sampling Strukturlernen

Chow-Liu Bäumen Regularisierung Merkmalsauswahl

Forward-Selection Backward-Selection Regularisierung

(5)

Graphische Modelle

Belief Propagation

Ziel: Berechnung vonEβ[φ(X)_C=y] =P(X_C=y) Z(β) = ∑

x1∈X₁

∑

x2∈X₂

⋅ ⋅ ⋅ ∑

xn∈X_n

∏

uv∈E

exp(⟨β_uv, φuv(xuv)⟩)

´¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¸¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¶

ψuv(xuv)

Distributivität ausnutzen. . . mv→u(x) = ∑

y∈Xv

ψuv(yx) ∏

w∈N (v)∖{u}

mw→v(y) Z(β) = ∑

y∈Xv

∏

w∈N (v)

mw→v(y)

P(Xuv=xy) = ψuv(yx) Z(β)

∏

w∈N (v)∖{u}

mw→v(y) ∏

w∈N (u)∖{v}

mw→u(y)

(6)

Graphische Modelle

Belief Propagation

x1∈X₁

∑

x2∈X₂

⋅ ⋅ ⋅ ∑

xn∈X_n

∏

uv∈E

´¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¸¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¶

ψuv(xuv)

y∈Xv

ψuv(yx) ∏

w∈N (v)∖{u}

mw→v(y) Z(β) = ∑

y∈Xv

∏

w∈N (v)

mw→v(y) P(Xuv=xy) = ψuv(yx)

Z(β)

∏

w∈N (v)∖{u}

mw→v(y) ∏

w∈N (u)∖{v}

mw→u(y)

(7)

Graphische Modelle

Belief Propagation

x1∈X₁

∑

x2∈X₂

⋅ ⋅ ⋅ ∑

xn∈X_n

∏

uv∈E

´¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¸¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¶

ψuv(xuv)

y∈Xv

ψuv(yx) ∏

w∈N (v)∖{u}

mw→v(y) Z(β) = ∑

y∈Xv

∏

w∈N (v)

mw→v(y) P(Xuv=xy) = ψuv(yx)

Z(β)

∏

w∈N (v)∖{u}

mw→v(y) ∏

w∈N (u)∖{v}

mw→u(y)

(8)

Graphische Modelle

Gibbs Sampling: Algorithmus

1 Erzeugexzufällig Gleichverteilt (das entsprichtNICHT Pβ!)

2 Besuche jeden Knotenv∈V und weise gemäß Pv(x∣x_{N (v)})neuen Wert zu

3 Wiederhole Schritt 2 so oft wie möglich

Man kann zeigen: Nach endlicher Anzahl von Schritten istxein echtes Sample ausPβ!

Dann: Nutze den Algorithmus um “viele” (so viele wie möglich) Samples zu erzeugen und berechneP(X_uv=xy)(für alle Kanten{v, u} ∈E) durch “abzählen”

(9)

Graphische Modelle

Gibbs Sampling: Algorithmus

1 Erzeugexzufällig Gleichverteilt (das entsprichtNICHT Pβ!)

2 Besuche jeden Knotenv∈V und weise gemäß Pv(x∣x_{N (v)})neuen Wert zu

3 Wiederhole Schritt 2 so oft wie möglich

Man kann zeigen: Nach endlicher Anzahl von Schritten istxein echtes Sample ausPβ!

Dann: Nutze den Algorithmus um “viele” (so viele wie möglich) Samples zu erzeugen und berechneP(X_uv=xy)(für alle Kanten{v, u} ∈E) durch “abzählen”

(10)

Graphische Modelle

Chow-Liu Bäume

Minimierung der Distanz zwischen optimalem Graph und

“bestem” BaumT

Hier: Distanz gemessen durch Kullback-Leiber Divergenz

KL(P^∗,PT) = ∑

x∈X

P^∗(x)log P^∗(x) PT(x) Kann umgeform werden zu

KL(P^∗,PT) = −H(P^∗) + ∑

v∈V

H(P^∗v) − ∑

vu∈E(T)

I(X_v,X_u)

´¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¸¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¶

Maximaler Spannbaum!

mitI(Xv,Xu) =KL(Pvu,PvPu)(Allgemeines Maß für Unabhängigkeit!)

(11)

Graphische Modelle

Chow-Liu Bäume

Minimierung der Distanz zwischen optimalem Graph und

“bestem” BaumT

Hier: Distanz gemessen durch Kullback-Leiber Divergenz

KL(P^∗,PT) = ∑

x∈X

P^∗(x)log P^∗(x) PT(x) Kann umgeform werden zu

KL(P^∗,PT) = −H(P^∗) + ∑

v∈V

H(P^∗v) − ∑

vu∈E(T)

I(X_v,X_u)

´¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¸¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¶

Maximaler Spannbaum!

mitI(Xv,Xu) =KL(Pvu,PvPu)(Allgemeines Maß für Unabhängigkeit!)

(12)

Graphische Modelle

Graphen mittels Regularisierung

Baobachtung: Sind ist kompletter Parametervektorβ_vueiner Kante=0, so hat diese Kante keinen Einfluss aufP(X =x)!

Idee: Minimiere`(β;D) +λ∥β∥₁

∥ ⋅ ∥₁ nicht differenzierbar!!→Proximaler Gradientenabstieg

(nächste Woche) Spoiler:

prox_λ∥⋅∥₁(β_i) =

⎧⎪

⎪⎪

⎪

⎨

⎪⎪

⎩

β_i−λ ,β_i>λ β_i+λ ,β_i< −λ 0 ,sonst