• Keine Ergebnisse gefunden

Wissensentdeckung in Datenbanken Strukturlernen, Merkmalsauswahl Nico Piatkowski und Uwe Ligges

N/A
N/A
Protected

Academic year: 2022

Aktie "Wissensentdeckung in Datenbanken Strukturlernen, Merkmalsauswahl Nico Piatkowski und Uwe Ligges"

Copied!
12
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Graphische Modelle

Wissensentdeckung in Datenbanken

Strukturlernen, Merkmalsauswahl

Nico Piatkowski und Uwe Ligges

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

27.06.2017

(2)

Graphische Modelle

Überblick

Was bisher geschah...

Modellklassen Verlustfunktionen

Numerische Optimierung Regularisierung

Überanpassung SQL, Häufige Mengen SVM, xDA, Bäume, . . . Graphische Modelle Heute

Strukturlernen, Merkmalsauswahl

(3)

Graphische Modelle

Überblick

Was bisher geschah...

Modellklassen Verlustfunktionen

Numerische Optimierung Regularisierung

Überanpassung SQL, Häufige Mengen SVM, xDA, Bäume, . . . Graphische Modelle Heute

Strukturlernen, Merkmalsauswahl

(4)

Graphische Modelle

Überblick

Wiederholung: Belief Propagation, Gibbs-Sampling Strukturlernen

Chow-Liu Bäumen Regularisierung Merkmalsauswahl

Forward-Selection Backward-Selection Regularisierung

(5)

Graphische Modelle

Belief Propagation

Ziel: Berechnung vonEβ[φ(X)C=y] =P(XC=y) Z(β) = ∑

x1∈X1

x2∈X2

⋅ ⋅ ⋅ ∑

xn∈Xn

uv∈E

exp(⟨βuv, φuv(xuv)⟩)

´¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¸¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¶

ψuv(xuv)

Distributivität ausnutzen. . . mv→u(x) = ∑

y∈Xv

ψuv(yx) ∏

w∈N (v)∖{u}

mw→v(y) Z(β) = ∑

y∈Xv

w∈N (v)

mw→v(y)

P(Xuv=xy) = ψuv(yx) Z(β)

w∈N (v)∖{u}

mw→v(y) ∏

w∈N (u)∖{v}

mw→u(y)

(6)

Graphische Modelle

Belief Propagation

Ziel: Berechnung vonEβ[φ(X)C=y] =P(XC=y) Z(β) = ∑

x1∈X1

x2∈X2

⋅ ⋅ ⋅ ∑

xn∈Xn

uv∈E

exp(⟨βuv, φuv(xuv)⟩)

´¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¸¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¶

ψuv(xuv)

Distributivität ausnutzen. . . mv→u(x) = ∑

y∈Xv

ψuv(yx) ∏

w∈N (v)∖{u}

mw→v(y) Z(β) = ∑

y∈Xv

w∈N (v)

mw→v(y) P(Xuv=xy) = ψuv(yx)

Z(β)

w∈N (v)∖{u}

mw→v(y) ∏

w∈N (u)∖{v}

mw→u(y)

(7)

Graphische Modelle

Belief Propagation

Ziel: Berechnung vonEβ[φ(X)C=y] =P(XC=y) Z(β) = ∑

x1∈X1

x2∈X2

⋅ ⋅ ⋅ ∑

xn∈Xn

uv∈E

exp(⟨βuv, φuv(xuv)⟩)

´¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¸¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¶

ψuv(xuv)

Distributivität ausnutzen. . . mv→u(x) = ∑

y∈Xv

ψuv(yx) ∏

w∈N (v)∖{u}

mw→v(y) Z(β) = ∑

y∈Xv

w∈N (v)

mw→v(y) P(Xuv=xy) = ψuv(yx)

Z(β)

w∈N (v)∖{u}

mw→v(y) ∏

w∈N (u)∖{v}

mw→u(y)

(8)

Graphische Modelle

Gibbs Sampling: Algorithmus

1 Erzeugexzufällig Gleichverteilt (das entsprichtNICHT Pβ!)

2 Besuche jeden Knotenv∈V und weise gemäß Pv(x∣xN (v))neuen Wert zu

3 Wiederhole Schritt 2 so oft wie möglich

Man kann zeigen: Nach endlicher Anzahl von Schritten istxein echtes Sample ausPβ!

Dann: Nutze den Algorithmus um “viele” (so viele wie möglich) Samples zu erzeugen und berechneP(Xuv=xy)(für alle Kanten{v, u} ∈E) durch “abzählen”

(9)

Graphische Modelle

Gibbs Sampling: Algorithmus

1 Erzeugexzufällig Gleichverteilt (das entsprichtNICHT Pβ!)

2 Besuche jeden Knotenv∈V und weise gemäß Pv(x∣xN (v))neuen Wert zu

3 Wiederhole Schritt 2 so oft wie möglich

Man kann zeigen: Nach endlicher Anzahl von Schritten istxein echtes Sample ausPβ!

Dann: Nutze den Algorithmus um “viele” (so viele wie möglich) Samples zu erzeugen und berechneP(Xuv=xy)(für alle Kanten{v, u} ∈E) durch “abzählen”

(10)

Graphische Modelle

Chow-Liu Bäume

Minimierung der Distanz zwischen optimalem Graph und

“bestem” BaumT

Hier: Distanz gemessen durch Kullback-Leiber Divergenz

KL(P,PT) = ∑

x∈X

P(x)log P(x) PT(x) Kann umgeform werden zu

KL(P,PT) = −H(P) + ∑

v∈V

H(Pv) − ∑

vu∈E(T)

I(Xv,Xu)

´¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¸¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¶

Maximaler Spannbaum!

mitI(Xv,Xu) =KL(Pvu,PvPu)(Allgemeines Maß für Unabhängigkeit!)

(11)

Graphische Modelle

Chow-Liu Bäume

Minimierung der Distanz zwischen optimalem Graph und

“bestem” BaumT

Hier: Distanz gemessen durch Kullback-Leiber Divergenz

KL(P,PT) = ∑

x∈X

P(x)log P(x) PT(x) Kann umgeform werden zu

KL(P,PT) = −H(P) + ∑

v∈V

H(Pv) − ∑

vu∈E(T)

I(Xv,Xu)

´¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¸¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¶

Maximaler Spannbaum!

mitI(Xv,Xu) =KL(Pvu,PvPu)(Allgemeines Maß für Unabhängigkeit!)

(12)

Graphische Modelle

Graphen mittels Regularisierung

Baobachtung: Sind ist kompletter Parametervektorβvueiner Kante=0, so hat diese Kante keinen Einfluss aufP(X =x)!

Idee: Minimiere`(β;D) +λ∥β∥1

∥ ⋅ ∥1 nicht differenzierbar!!→Proximaler Gradientenabstieg

(nächste Woche) Spoiler:

proxλ∥⋅∥1i) =

⎧⎪

⎪⎪

⎪⎪

⎪⎪

βi−λ ,βi>λ βi+λ ,βi< −λ 0 ,sonst

Referenzen

ÄHNLICHE DOKUMENTE

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität

Erster Ordnung, mit Gradient Einfache Implementierung Geringer Ressourcenverbrauch Vergleichsweise langsame Konvergenz Zweiter Ordnung, mit Hesse-Matrix. Hoher

Relationale Datenbanken ≡ Menge von Tabellen Relationales Datenbankmanagementsystem erlaubt Anfrage und Manipulation von Daten mittels Structured Query Language (SQL).

Nutzung eine Ordnung auf den Items um jeder Transaktionen einen eindeutigen String zuzuordnen Häufigkeiten identischer Teilstrings können dann in einem Prefixbaum

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund..

baumberechnung sind die empirischen (aus den Daten bestimmte) Mutual- Informations zwischen den Knoten Gefundener Baum hat minimale. Kullback-Leibler Divergenz zum optimalen

Erste Schichten: Allgemein, lokale Representation Tiefe Schichten: Spezifisch,

The Elements of Statistical Learning; 14.3.6, 14.3.7 Graphical Models, Exponential Families, and Variational Inference; Example 3.5.. Merkmalsauswahl, Greedy Selection,