Wissensentdeckung in Datenbanken Merkmalsauswahl, Clustering Nico Piatkowski und Uwe Ligges

(1)

Wissensentdeckung in Datenbanken

Merkmalsauswahl, Clustering

Nico Piatkowski und Uwe Ligges

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

06.07.2017

1 von 19

(2)

Überblick

Strukturlernen—“Woher kommt der Graph?”

l1-Regularisierung

Merkmalsauswahl Greedy-Selection Regularisierung

Clustering

Problemstellung k-Means

DBSCAN (Dienstag) LDA (Dienstag)

2 von 19

(3)

Bestimmung der bedingten Unabhängigkeitsstruktur=Graph—Warum?

Der GraphGwird gebraucht, weil die suffiziente Statistikφ vonGabhängt.

Bei diskreten Daten, bestimmen dieKantenvonGund die ZustandsräumeX^vder Knoten, welche

Indikatorfunktionen inφvorkommen. (27.06.)

Data Mining / Wissensentdeckung:

Gegeben: Ein DatensatzD(Kunden, Produkte, Telefondaten, . . . )

Gesucht: “Zusammenhang” zwischen den Daten, welche Variablen werden durch welche anderen Variablen beeinflusst?

Falls Daten nicht diskret sind: diskretisieren, z.B. mittels Quantile oder Clustering (heute).

3 von 19

(4)

3 von 19

(5)

3 von 19

(6)

3 von 19

(7)

Bestimmung des Graphen

Dienstag: Chow-Liu Algorithmus Berechnet optimale Baumstruktur

Basiert auf Berechnung eines maximalen Spannbaums des vollständigen Graphen

Kantengewichte für die Spann-

baumberechnung sind die empirischen (aus den Daten bestimmte) Mutual- Informations zwischen den Knoten Gefundener Baum hat minimale

Kullback-Leibler Divergenz zum optimalen Graph Jetzt: Bestimmung vonGRegularisierung

4 von 19

(8)

4 von 19

(9)

4 von 19

(10)

4 von 19

(11)

4 von 19

(12)

Erinnerung: Regularisierung

minβ `(β;D) +λR(β)

Fakt: Regularisierung verschiebt das Optimum (hier:

Minimum) von`zu einem Punkt mit “besseren”

Eigenschaften

Welche Eigenschaften das sind, hängt von der konkreten Wahl vonR∶R^d→Rab.

5 von 19

(13)

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4

0 0.5 1 1.5 2

β_RSS β_RSS+l

2

Loss

β

RSS(β)+λ||β||₂² RSS(β) Erinnerung:l2-Regularisierung

6 von 19

(14)

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4

0 0.5 1 1.5 2

β_RSS β_RSS+l

1

Loss

β RSS(β)+λ||β||₁

RSS(β) Erinnerung:l1-Regularisierung

7 von 19

(15)

Graphen mittels Regularisierung

Baobachtung: Falls Parametervektorβ_{v,u}einer Kante=0, so hat diese Kante keinen Einfluss aufP(X=x)!

P(X=x) = ∏^{v,u}∈Eexp(⟨β_{v,u}, φ_{v,u}(x_{v,u})⟩)

∑^x^′^∈X∏^{v,u}∈Eexp(⟨β_{v,u}, φ_{v,u}(x^′_{v,u})⟩) Fallsβ_{v,u}=0für eine Kante{v, u}, so ist

exp(⟨β_{v,u}, φ_{v,u}(x_{v,u})⟩) =1.

8 von 19

(16)

Graphen mittels Regularisierung

Baobachtung: Falls Parametervektorβ_{v,u}einer Kante=0, so hat diese Kante keinen Einfluss aufP(X=x)!

P(X=x) = ∏^{v,u}∈Eexp(⟨β_{v,u}, φ_{v,u}(x_{v,u})⟩)

∑^x^′^∈X∏^{v,u}∈Eexp(⟨β_{v,u}, φ_{v,u}(x^′_{v,u})⟩) Fallsβ_{v,u}=0für eine Kante{v, u}, so ist

exp(⟨β_{v,u}, φ_{v,u}(x_{v,u})⟩) =1.

8 von 19

(17)

Graphen mittels Regularisierung (II)

∂

∂β_i∥β∥²2= ∂

∂β_i

d

∑i=1

β²_i = ∂

∂β_iβ²_i =2β_i Fallsβ_i>0:

∂

∂β_i∥β∥¹ = ∂

∂β_i

∑d i=1

∣β_i∣ = ∂

∂β_i

√

β²_i = β_i

∣β_i∣=1

Aber:∥ ⋅ ∥¹an0nicht differenzierbar(!)→Gradient kann nicht berechnet werden!!

9 von 19

(18)

∂

∂β_i∥β∥²2= ∂

∂β_i

d

∑i=1

β²_i = ∂

∂

∂β_i∥β∥¹ = ∂

∂β_i

∑d i=1

∣β_i∣ = ∂

∂β_i

√

β²_i = β_i

∣β_i∣=1

9 von 19

(19)

∂

∂β_i∥β∥²2= ∂

∂β_i

d

∑i=1

β²_i = ∂

∂

∂β_i∥β∥¹ = ∂

∂β_i

∑d i=1

∣β_i∣ = ∂

∂β_i

√

β²_i = β_i

∣β_i∣=1

9 von 19

(20)

Proximaler Gradientenabstieg

Falls Funktionf nicht differenzierbar: Für die Minimierung von F(β;D) =`(β^t;D) +f(β)

nutzen wir anstatt

β^t+1 =β^t−ηt∇F(β^t;D) jetzt

β^t+1=prox_f(β^t−ηt∇`(β^t;D))

FunktionF wird aufgeteilt in den differenzierbaren Teil`und

“Rest”f

10 von 19

(21)

Proximaler Gradientenabstieg

Falls Funktionf nicht differenzierbar: Für die Minimierung von F(β;D) =`(β^t;D) +f(β)

nutzen wir anstatt

β^t+1 =β^t−ηt∇F(β^t;D) jetzt

β^t+1=prox_f(β^t−ηt∇`(β^t;D))

FunktionF wird aufgeteilt in den differenzierbaren Teil`und

“Rest”f

10 von 19

(22)

Proximaler Gradientenabstieg fürl1-Regularisierung

Jetzt:f(⋅) =λ∥ ⋅ ∥1

prox_λ∥⋅∥₁(γ_i) =min

a {∥a∥¹+ 1

2λ∥a−γ_i∥²2} Lösung:

prox_λ∥⋅∥₁(γ_i) =⎧⎪⎪⎪⎪⎨

⎪⎪⎪⎪⎩

γ_i−λ ,γ_i>λ γ_i+λ ,γ_i< −λ 0 ,sonst Algorithmus zur Bestimmung vonG:

(1) Wähle vollständigen GraphenG^′(mit allen möglichen Kanten)

(2) Lösemin_β`(β;D) +λ∥β∥1 mittels proximalem Gradientenabstieg

(3) Entferne alle Kanten{v, u}mitβ_{v,u}=0ausG^′

11 von 19

(23)

Jetzt:f(⋅) =λ∥ ⋅ ∥1

a {∥a∥¹+ 1

prox_λ∥⋅∥₁(γ_i) =⎧⎪⎪⎪⎪⎨

⎪⎪⎪⎪⎩

11 von 19

(24)

Jetzt:f(⋅) =λ∥ ⋅ ∥1

a {∥a∥¹+ 1

prox_λ∥⋅∥₁(γ_i) =⎧⎪⎪⎪⎪⎨

⎪⎪⎪⎪⎩

11 von 19

(25)

Merkmalsauswahl

Das war’s mit graphischen Modellen, aber einige Ideen und Techniken werden wir wiedersehen..

Jetzt: Klassifikationsproblem auf Datensatz D = {(x, y)¹,(x, y)², . . . ,(x, y)^N}

Angenommenxist hochdimensional, z.B.n=1000000 Falls einige Dimensionen “unwichtig” sind (z.B. Rauschen, stark fehlerbehaftet, usw.), kann das die Klassifikation beeinträchtigen

In diesem Fall kann es helfen die unwichtigen oder störenden Variablen zu entfernen(!)

Die Auswahl relevanter Variablen heißt Merkmalsselektion oder Merkmalsauswahl.

12 von 19

(26)

Merkmalsauswahl

12 von 19

(27)

Merkmalsauswahl

12 von 19

(28)

Merkmalsauswahl

12 von 19

(29)

Merkmalsauswahl (II)

BeinVariablen gibt es insgesamt2ⁿmögliche

Merkmalsauswahlen→Für großenist der Rechenbedarf zu hoch

Erneut haben wir (hier) zwei Optionen:

(A) Greedy-Algorithms (B) Regularisierung ;-)

13 von 19

(30)

Merkmalsauswahl (II)

BeinVariablen gibt es insgesamt2ⁿmögliche

Merkmalsauswahlen→Für großenist der Rechenbedarf zu hoch

Erneut haben wir (hier) zwei Optionen:

(A) Greedy-Algorithms (B) Regularisierung ;-)

13 von 19

(31)

Greedy-Algorithms: Forward-Selection

Eingabe: Klassifikations- oder Regressionsproblem auf DatensatzD = {(x, y)¹,(x, y)², . . . ,(x, y)^N}mit

n-dimensionalen Datenvektorenxⁱ; beliebiges Modell (1) MerkmalsmengeM = ∅, GüteG= −∞

(2) Wähle neues Merkmal1≤i≤nund setzeM^′= {i} ∪M (3) Lerne Modell mit MerkmalsmengeM^′und berechne Güte

G^′(Kreuzvalidiert)

(4) FallsG^′>G:M =M^′undG=G^′

(5) Falls keines der Merkmale zu einer Verbesserung führt:

GibM aus und beende (6) Ansonsten: Gehe zu(2)

14 von 19

(32)

Greedy-Algorithms: Forward-Selection

n-dimensionalen Datenvektorenxⁱ; beliebiges Modell (1) MerkmalsmengeM = ∅, GüteG= −∞

(2) Wähle neues Merkmal1≤i≤nund setzeM^′= {i} ∪M (3) Lerne Modell mit MerkmalsmengeM^′und berechne Güte

G^′(Kreuzvalidiert)

(4) FallsG^′>G:M =M^′undG=G^′

(5) Falls keines der Merkmale zu einer Verbesserung führt:

GibM aus und beende (6) Ansonsten: Gehe zu(2)

14 von 19

(33)

Merkmalsauswahl mittelsl1-Regularisierung

n-dimensionalen Datenvektorenxⁱ; Lineares Modell mit Parametervektorβ∈Rⁿ;λ

(1) Lerne lineares Modell durch lösen von

minβ d

∑

i=1

(y− ⟨β,x⟩)²+λ∥β∥¹

mit proximalem Gradientenabstieg (2) Gib MerkmalsmengeM = {i∣β_i /=0}aus

Diese Prozedur heißt LASSO (Least Absolute Shrinkage And Selection Operator)

15 von 19

(34)

(1) Lerne lineares Modell durch lösen von minβ

d

∑

i=1

(y− ⟨β,x⟩)²+λ∥β∥¹ mit proximalem Gradientenabstieg

(2) Gib MerkmalsmengeM = {i∣β_i /=0}aus

15 von 19

(35)

(1) Lerne lineares Modell durch lösen von minβ

d

∑

i=1

(y− ⟨β,x⟩)²+λ∥β∥¹ mit proximalem Gradientenabstieg

(2) Gib MerkmalsmengeM = {i∣β_i /=0}aus

15 von 19

(36)

Clusteranalyse

Jetzt(und Dienstag):

Automatisches Gruppieren von Daten

16 von 19

(37)

k-Means / Lloyd’s Algorithmus

Eingabe: DatenD, Anzahl Clusterk, Metrik/Distanzmaß f∶ X × X →R⁺∪ {0}

(1) Weise jedem Punkt inDeinen zufälligen Cluster zu (2) Bestimme Clusterzentrumc(“Mittelpunkt”) jedes Clusters (3) Weise jedem Punktxden Cluster zu, dessen Mittelpunktc

am nächsten zuxist (mittelsf)

(4) Wiederhole Schritte 2 und 3 so lange, bis sich die Clusterzuweisung nicht mehr ändert oder Zeit aufgebraucht

Man kann zeigen: Minimiert Distanzen innerhalb der Cluster und maximiert Distanz zwischen den Clustern

17 von 19

(38)

k-Means / Lloyd’s Algorithmus

Eingabe: DatenD, Anzahl Clusterk, Metrik/Distanzmaß f∶ X × X →R⁺∪ {0}

(1) Weise jedem Punkt inDeinen zufälligen Cluster zu (2) Bestimme Clusterzentrumc(“Mittelpunkt”) jedes Clusters (3) Weise jedem Punktxden Cluster zu, dessen Mittelpunktc

am nächsten zuxist (mittelsf)

(4) Wiederhole Schritte 2 und 3 so lange, bis sich die Clusterzuweisung nicht mehr ändert oder Zeit aufgebraucht

Man kann zeigen: Minimiert Distanzen innerhalb der Cluster und maximiert Distanz zwischen den Clustern

17 von 19

(39)

Intuition: Auswahl vonkund Distanzmaß (I)

18 von 19

(40)

Intuition: Auswahl vonkund Distanzmaß (II)

19 von 19