Wissensentdeckung in Datenbanken Clustering (II) Nico Piatkowski und Uwe Ligges

(1)

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

Wissensentdeckung in Datenbanken

Clustering (II)

Nico Piatkowski und Uwe Ligges

11.07.2017

1 von 18

(2)

Zusammenfassung: Merkmalsauswahl

Sowohl bei Regressions- als auch bei

Klassifikationsproblemen, kann es helfen unwichtige Variablen vor dem Lernenauszuschließen.

Eine Greedy-Merkmalsauswahl verwaltet eine Menge von VariablenM

Das Verfahren paßt die MengeM iterativ an indem Variablen (basierend auf einerVerlustfunktion) hinzugeügt/entfernt werden

Forward-Selection: Die MengeM ist zu Anfang leer und wird in jeder Iteration großer

Backward-Selection: Die MengeM enthält zu Anfang alle Variablen und wird in jeder Iteration kleiner

(3)

Zusammenfassung: Merkmalsauswahl (II)

Sowohl bei Regressions- als auch bei

Klassifikationsproblemen, kann es helfen unwichtige Variablen vor dem Lernenauszuschließen.

Eine regularisierungsbasierte Merkmalsauswahl bevorzugt Modelle mit kleiner Norm

Im Falle derl1-Norm (LASSO regression) werden Modelle bevorzugt bei denen einige Modellparameter=0sind Im Falle linearer Modelle entspricht dies direkt einer Auswahl an Variablen

Nachdemdie Merkmale ausgewählt wurden, wird das eigentliche Modell gelernt

3 von 18

(4)

Überblick

Clustering

Wiederholung: Problemstellung Wiederholung:k-Means DBSCAN

LDA

(5)

Clusteranalyse

Automatisches Gruppieren von Daten

5 von 18

(6)

k-Means / Lloyd’s Algorithmus

Eingabe: DatenD, Anzahl Clusterk, Metrik/Distanzmaß f∶ X × X →R+∪ {0}

(1) Weise jedem Punkt inDeinen zufälligen Cluster zu (2) Bestimme Clusterzentrumc(“Mittelpunkt”) jedes Clusters (3) Weise jedem Punktxden Cluster zu, dessen Mittelpunktc

am nächsten zuxist (mittelsf)

(4) Wiederhole Schritte 2 und 3 so lange, bis sich die Clusterzuweisung nicht mehr ändert oder Zeit aufgebraucht

Man kann zeigen: Minimiert Distanzen innerhalb der Cluster und maximiert Distanz zwischen den Clustern

(7)

6 von 18

(8)

(9)

6 von 18

(10)

(11)

6 von 18

(12)

k-Means Verlustfunktion

Notation:

DatensatzDmit∣D∣ =N,n-dimensionalen Datenpunkten Metrik/Distanzmaßf ∶ X × X →R₊∪ {0}

Die MengeC= {c⁽¹⁾,c⁽²⁾, . . . ,c⁽^k⁾}enthält diek Clusterzentren

Optimierungsproblem:

C⊂Rminⁿ,∣C∣=k`(C;D) = min

C⊂Rⁿ,∣C∣=k∑

x∈D

minc∈C f(x,c)

(13)

k-Means Verlustfunktion (mit Euklidischem Abstand)

Jetzt:

Metrik/Distanzmaßf(x,y) = ∥x−y∥²2

Verlustfunktion:

`(C;D) = ∑

x∈D

minc∈C ∥x−c∥²2

∂

∂c⁽_jⁱ⁾

`(C;D) = ∑

x∈D

∂

∂c⁽_jⁱ⁾ minc∈C

∑n l=1

(x_l−c_l)²

= ∑

x∈Di

∂

∂c⁽_jⁱ⁾(xj−c⁽_jⁱ⁾)²

= ∑

x∈Di

2(c⁽_jⁱ⁾−xj)

Kurzschreibweise:Dⁱenthält Datenpunkt mit minimalem Abstand zu (Cluster)c_i

8 von 18

(14)

k-Means Verlustfunktion (mit Euklidischem Abstand)

Jetzt:

Metrik/Distanzmaßf(x,y) = ∥x−y∥²2

Verlustfunktion:

`(C;D) = ∑

x∈D

minc∈C ∥x−c∥²2

∂

∂c⁽_jⁱ⁾

`(C;D) = ∑

x∈D

∂

∂c⁽_jⁱ⁾ minc∈C

∑n l=1

(x_l−c_l)²

= ∑

x∈Di

∂

∂c⁽_jⁱ⁾(xj−c⁽_jⁱ⁾)²

= ∑

x∈Di

Kurzschreibweise:D enthält Datenpunkt mit minimalem

(15)

k-Means Verlustfunktion (mit Euklidischem Abstand) (II)

Es giltim Optimum:

`(C;D) =0= ∑

x∈Di

⇔0= ∣Di∣2c⁽_jⁱ⁾−2 ∑

x∈Di

x_j

1

∣Di∣ ∑x∈Di

xj =c⁽_jⁱ⁾

Also:

k-Means ist ein Optimierungsverfahren erster Ordnung (wie Gradientenabsteig!)

Aber: Zielfunktion ist nicht-konvex. Keine Konvergenz zum globalen Optimum!

9 von 18

(16)

k-Means Verlustfunktion (mit Euklidischem Abstand) (II)

Es giltim Optimum:

`(C;D) =0= ∑

x∈Di

⇔0= ∣Di∣2c⁽_jⁱ⁾−2 ∑

x∈Di

x_j

1

∣Di∣ ∑x∈Di

xj =c⁽_jⁱ⁾

Also:

k-Means ist ein Optimierungsverfahren erster Ordnung (wie Gradientenabsteig!)

Aber: Zielfunktion ist nicht-konvex. Keine Konvergenz zum globalen Optimum!

(17)

Beispiel: Daten(x)

10 von 18

(18)

Beispiel: Daten mit Klassen(x,y)

(19)

Beispiel:3-means, 1 Iteration

12 von 18

(20)

Beispiel:3-means, 10 Iterationen

(21)

Intuition: Auswahl vonkund Distanzmaß (II)

14 von 18

(22)

DBSCAN: Vermeidung vonk

Wie kann die Wahl vonkvermieden werden?

Neue Verlustfunktion(?) = neuer Algorithmus Kategorisierung der Punkte eines Datensatzes:

Kernpunkte Dichte-erreichbar Rauschen

Problemstellung mittels Nachbarschaftsgröße Mindestanzahl an NachbarnminP ts

(23)

15 von 18

(24)

(25)

DBSCAN Clustering

16 von 18

(26)

Clustern von Text

Menge von Dokumenten = Korpus Verschiedene Darstellungen denkbar:

Vorhandensein von Worten (Binärvektoren, Mengen) Anzahl von Worten (Bag-of-Words)

Term-Frequency-Inverse-Document-Frequency (TF-IDF)

tf idf_w,d= Häufigkeit Wortwin Dokumentd

max_d^′Häufigkeit Wortwin Dokumentd^′log N Nw

N_wist Anzahl Dok. mit Wortw;N ist Anzahl aller Dok.

k-means Clustering der obigen Darstellungen möglich Aber: Bei großem Vokabular sind alle Dokumente weit weg (“Fluch der hohen Dimensionen”)

(27)

Clustern von Text

Menge von Dokumenten = Korpus Verschiedene Darstellungen denkbar:

Vorhandensein von Worten (Binärvektoren, Mengen) Anzahl von Worten (Bag-of-Words)

Term-Frequency-Inverse-Document-Frequency (TF-IDF)

tf idf_w,d= Häufigkeit Wortwin Dokumentd

max_d^′Häufigkeit Wortwin Dokumentd^′log N Nw

N_wist Anzahl Dok. mit Wortw;N ist Anzahl aller Dok.

k-means Clustering der obigen Darstellungen möglich Aber: Bei großem Vokabular sind alle Dokumente weit weg (“Fluch der hohen Dimensionen”)

17 von 18

(28)

Clustern von Text mit Graphischen Modellen (Topic Models)

Idee: Datengenerierender Prozess von Dokumentdist:

Wähle Länge des DokumentsN_dausP(N_d∣λ)[Poisson]

Wähle Themenverteilungθ_dausP(θ_d∣α)[Dirichlet]

Erzeuge die Wortew=1. . . Nd:

Wähle ein Themaz_wausP(z_w∣θ)[Kategorisch]

Wähle ein Wort ausP(w∣z_w, β)[Kategorisch]

Lernen: Bestimmeλ, α, β, undθvia Expectation-Maximization (Maximum-Likelihood für unvollständige Daten)