• Keine Ergebnisse gefunden

Wissensentdeckung in Datenbanken Merkmalsauswahl, Clustering Nico Piatkowski und Uwe Ligges

N/A
N/A
Protected

Academic year: 2022

Aktie "Wissensentdeckung in Datenbanken Merkmalsauswahl, Clustering Nico Piatkowski und Uwe Ligges"

Copied!
40
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Wissensentdeckung in Datenbanken

Merkmalsauswahl, Clustering

Nico Piatkowski und Uwe Ligges

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

06.07.2017

1 von 19

(2)

Überblick

Strukturlernen—“Woher kommt der Graph?”

l1-Regularisierung

Merkmalsauswahl Greedy-Selection Regularisierung

Clustering

Problemstellung k-Means

DBSCAN (Dienstag) LDA (Dienstag)

2 von 19

(3)

Bestimmung der bedingten Unabhängigkeitsstruktur=Graph—Warum?

Der GraphGwird gebraucht, weil die suffiziente Statistikφ vonGabhängt.

Bei diskreten Daten, bestimmen dieKantenvonGund die ZustandsräumeXvder Knoten, welche

Indikatorfunktionen inφvorkommen. (27.06.)

Data Mining / Wissensentdeckung:

Gegeben: Ein DatensatzD(Kunden, Produkte, Telefondaten, . . . )

Gesucht: “Zusammenhang” zwischen den Daten, welche Variablen werden durch welche anderen Variablen beeinflusst?

Falls Daten nicht diskret sind: diskretisieren, z.B. mittels Quantile oder Clustering (heute).

3 von 19

(4)

Bestimmung der bedingten Unabhängigkeitsstruktur=Graph—Warum?

Der GraphGwird gebraucht, weil die suffiziente Statistikφ vonGabhängt.

Bei diskreten Daten, bestimmen dieKantenvonGund die ZustandsräumeXvder Knoten, welche

Indikatorfunktionen inφvorkommen. (27.06.)

Data Mining / Wissensentdeckung:

Gegeben: Ein DatensatzD(Kunden, Produkte, Telefondaten, . . . )

Gesucht: “Zusammenhang” zwischen den Daten, welche Variablen werden durch welche anderen Variablen beeinflusst?

Falls Daten nicht diskret sind: diskretisieren, z.B. mittels Quantile oder Clustering (heute).

3 von 19

(5)

Bestimmung der bedingten Unabhängigkeitsstruktur=Graph—Warum?

Der GraphGwird gebraucht, weil die suffiziente Statistikφ vonGabhängt.

Bei diskreten Daten, bestimmen dieKantenvonGund die ZustandsräumeXvder Knoten, welche

Indikatorfunktionen inφvorkommen. (27.06.)

Data Mining / Wissensentdeckung:

Gegeben: Ein DatensatzD(Kunden, Produkte, Telefondaten, . . . )

Gesucht: “Zusammenhang” zwischen den Daten, welche Variablen werden durch welche anderen Variablen beeinflusst?

Falls Daten nicht diskret sind: diskretisieren, z.B. mittels Quantile oder Clustering (heute).

3 von 19

(6)

Bestimmung der bedingten Unabhängigkeitsstruktur=Graph—Warum?

Der GraphGwird gebraucht, weil die suffiziente Statistikφ vonGabhängt.

Bei diskreten Daten, bestimmen dieKantenvonGund die ZustandsräumeXvder Knoten, welche

Indikatorfunktionen inφvorkommen. (27.06.)

Data Mining / Wissensentdeckung:

Gegeben: Ein DatensatzD(Kunden, Produkte, Telefondaten, . . . )

Gesucht: “Zusammenhang” zwischen den Daten, welche Variablen werden durch welche anderen Variablen beeinflusst?

Falls Daten nicht diskret sind: diskretisieren, z.B. mittels Quantile oder Clustering (heute).

3 von 19

(7)

Bestimmung des Graphen

Dienstag: Chow-Liu Algorithmus Berechnet optimale Baumstruktur

Basiert auf Berechnung eines maximalen Spannbaums des vollständigen Graphen

Kantengewichte für die Spann-

baumberechnung sind die empirischen (aus den Daten bestimmte) Mutual- Informations zwischen den Knoten Gefundener Baum hat minimale

Kullback-Leibler Divergenz zum optimalen Graph Jetzt: Bestimmung vonGRegularisierung

4 von 19

(8)

Bestimmung des Graphen

Dienstag: Chow-Liu Algorithmus Berechnet optimale Baumstruktur

Basiert auf Berechnung eines maximalen Spannbaums des vollständigen Graphen

Kantengewichte für die Spann-

baumberechnung sind die empirischen (aus den Daten bestimmte) Mutual- Informations zwischen den Knoten Gefundener Baum hat minimale

Kullback-Leibler Divergenz zum optimalen Graph Jetzt: Bestimmung vonGRegularisierung

4 von 19

(9)

Bestimmung des Graphen

Dienstag: Chow-Liu Algorithmus Berechnet optimale Baumstruktur

Basiert auf Berechnung eines maximalen Spannbaums des vollständigen Graphen

Kantengewichte für die Spann-

baumberechnung sind die empirischen (aus den Daten bestimmte) Mutual- Informations zwischen den Knoten Gefundener Baum hat minimale

Kullback-Leibler Divergenz zum optimalen Graph Jetzt: Bestimmung vonGRegularisierung

4 von 19

(10)

Bestimmung des Graphen

Dienstag: Chow-Liu Algorithmus Berechnet optimale Baumstruktur

Basiert auf Berechnung eines maximalen Spannbaums des vollständigen Graphen

Kantengewichte für die Spann-

baumberechnung sind die empirischen (aus den Daten bestimmte) Mutual- Informations zwischen den Knoten Gefundener Baum hat minimale

Kullback-Leibler Divergenz zum optimalen Graph Jetzt: Bestimmung vonGRegularisierung

4 von 19

(11)

Bestimmung des Graphen

Dienstag: Chow-Liu Algorithmus Berechnet optimale Baumstruktur

Basiert auf Berechnung eines maximalen Spannbaums des vollständigen Graphen

Kantengewichte für die Spann-

baumberechnung sind die empirischen (aus den Daten bestimmte) Mutual- Informations zwischen den Knoten Gefundener Baum hat minimale

Kullback-Leibler Divergenz zum optimalen Graph Jetzt: Bestimmung vonGRegularisierung

4 von 19

(12)

Erinnerung: Regularisierung

minβ `(β;D) +λR(β)

Fakt: Regularisierung verschiebt das Optimum (hier:

Minimum) von`zu einem Punkt mit “besseren”

Eigenschaften

Welche Eigenschaften das sind, hängt von der konkreten Wahl vonR∶Rd→Rab.

5 von 19

(13)

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4

0 0.5 1 1.5 2

βRSS βRSS+l

2

Loss

β

RSS(β)+λ||β||22 RSS(β) Erinnerung:l2-Regularisierung

6 von 19

(14)

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4

0 0.5 1 1.5 2

βRSS βRSS+l

1

Loss

β RSS(β)+λ||β||1

RSS(β) Erinnerung:l1-Regularisierung

7 von 19

(15)

Graphen mittels Regularisierung

Baobachtung: Falls Parametervektorβ{v,u}einer Kante=0, so hat diese Kante keinen Einfluss aufP(X=x)!

P(X=x) = ∏{v,u}∈Eexp(⟨β{v,u}, φ{v,u}(x{v,u})⟩)

x∈X{v,u}∈Eexp(⟨β{v,u}, φ{v,u}(x{v,u})⟩) Fallsβ{v,u}=0für eine Kante{v, u}, so ist

exp(⟨β{v,u}, φ{v,u}(x{v,u})⟩) =1.

8 von 19

(16)

Graphen mittels Regularisierung

Baobachtung: Falls Parametervektorβ{v,u}einer Kante=0, so hat diese Kante keinen Einfluss aufP(X=x)!

P(X=x) = ∏{v,u}∈Eexp(⟨β{v,u}, φ{v,u}(x{v,u})⟩)

x∈X{v,u}∈Eexp(⟨β{v,u}, φ{v,u}(x{v,u})⟩) Fallsβ{v,u}=0für eine Kante{v, u}, so ist

exp(⟨β{v,u}, φ{v,u}(x{v,u})⟩) =1.

8 von 19

(17)

Graphen mittels Regularisierung (II)

∂βi∥β∥22= ∂

∂βi

d

i=1

β2i = ∂

∂βiβ2i =2βi Fallsβi>0:

∂βi∥β∥1 = ∂

∂βi

d i=1

∣βi∣ = ∂

∂βi

β2i = βi

∣βi∣=1

Aber:∥ ⋅ ∥1an0nicht differenzierbar(!)→Gradient kann nicht berechnet werden!!

9 von 19

(18)

Graphen mittels Regularisierung (II)

∂βi∥β∥22= ∂

∂βi

d

i=1

β2i = ∂

∂βiβ2i =2βi Fallsβi>0:

∂βi∥β∥1 = ∂

∂βi

d i=1

∣βi∣ = ∂

∂βi

β2i = βi

∣βi∣=1

Aber:∥ ⋅ ∥1an0nicht differenzierbar(!)→Gradient kann nicht berechnet werden!!

9 von 19

(19)

Graphen mittels Regularisierung (II)

∂βi∥β∥22= ∂

∂βi

d

i=1

β2i = ∂

∂βiβ2i =2βi Fallsβi>0:

∂βi∥β∥1 = ∂

∂βi

d i=1

∣βi∣ = ∂

∂βi

β2i = βi

∣βi∣=1

Aber:∥ ⋅ ∥1an0nicht differenzierbar(!)→Gradient kann nicht berechnet werden!!

9 von 19

(20)

Proximaler Gradientenabstieg

Falls Funktionf nicht differenzierbar: Für die Minimierung von F(β;D) =`(βt;D) +f(β)

nutzen wir anstatt

βt+1t−ηt∇F(βt;D) jetzt

βt+1=proxft−ηt∇`(βt;D))

FunktionF wird aufgeteilt in den differenzierbaren Teil`und

“Rest”f

10 von 19

(21)

Proximaler Gradientenabstieg

Falls Funktionf nicht differenzierbar: Für die Minimierung von F(β;D) =`(βt;D) +f(β)

nutzen wir anstatt

βt+1t−ηt∇F(βt;D) jetzt

βt+1=proxft−ηt∇`(βt;D))

FunktionF wird aufgeteilt in den differenzierbaren Teil`und

“Rest”f

10 von 19

(22)

Proximaler Gradientenabstieg fürl1-Regularisierung

Jetzt:f(⋅) =λ∥ ⋅ ∥1

proxλ∥⋅∥1i) =min

a {∥a∥1+ 1

2λ∥a−γi22} Lösung:

proxλ∥⋅∥1i) =⎧⎪⎪⎪⎪⎨

⎪⎪⎪⎪⎩

γi−λ ,γi>λ γi+λ ,γi< −λ 0 ,sonst Algorithmus zur Bestimmung vonG:

(1) Wähle vollständigen GraphenG(mit allen möglichen Kanten)

(2) Löseminβ`(β;D) +λ∥β∥1 mittels proximalem Gradientenabstieg

(3) Entferne alle Kanten{v, u}mitβ{v,u}=0ausG

11 von 19

(23)

Proximaler Gradientenabstieg fürl1-Regularisierung

Jetzt:f(⋅) =λ∥ ⋅ ∥1

proxλ∥⋅∥1i) =min

a {∥a∥1+ 1

2λ∥a−γi22} Lösung:

proxλ∥⋅∥1i) =⎧⎪⎪⎪⎪⎨

⎪⎪⎪⎪⎩

γi−λ ,γi>λ γi+λ ,γi< −λ 0 ,sonst Algorithmus zur Bestimmung vonG:

(1) Wähle vollständigen GraphenG(mit allen möglichen Kanten)

(2) Löseminβ`(β;D) +λ∥β∥1 mittels proximalem Gradientenabstieg

(3) Entferne alle Kanten{v, u}mitβ{v,u}=0ausG

11 von 19

(24)

Proximaler Gradientenabstieg fürl1-Regularisierung

Jetzt:f(⋅) =λ∥ ⋅ ∥1

proxλ∥⋅∥1i) =min

a {∥a∥1+ 1

2λ∥a−γi22} Lösung:

proxλ∥⋅∥1i) =⎧⎪⎪⎪⎪⎨

⎪⎪⎪⎪⎩

γi−λ ,γi>λ γi+λ ,γi< −λ 0 ,sonst Algorithmus zur Bestimmung vonG:

(1) Wähle vollständigen GraphenG(mit allen möglichen Kanten)

(2) Löseminβ`(β;D) +λ∥β∥1 mittels proximalem Gradientenabstieg

(3) Entferne alle Kanten{v, u}mitβ{v,u}=0ausG

11 von 19

(25)

Merkmalsauswahl

Das war’s mit graphischen Modellen, aber einige Ideen und Techniken werden wir wiedersehen..

Jetzt: Klassifikationsproblem auf Datensatz D = {(x, y)1,(x, y)2, . . . ,(x, y)N}

Angenommenxist hochdimensional, z.B.n=1000000 Falls einige Dimensionen “unwichtig” sind (z.B. Rauschen, stark fehlerbehaftet, usw.), kann das die Klassifikation beeinträchtigen

In diesem Fall kann es helfen die unwichtigen oder störenden Variablen zu entfernen(!)

Die Auswahl relevanter Variablen heißt Merkmalsselektion oder Merkmalsauswahl.

12 von 19

(26)

Merkmalsauswahl

Das war’s mit graphischen Modellen, aber einige Ideen und Techniken werden wir wiedersehen..

Jetzt: Klassifikationsproblem auf Datensatz D = {(x, y)1,(x, y)2, . . . ,(x, y)N}

Angenommenxist hochdimensional, z.B.n=1000000 Falls einige Dimensionen “unwichtig” sind (z.B. Rauschen, stark fehlerbehaftet, usw.), kann das die Klassifikation beeinträchtigen

In diesem Fall kann es helfen die unwichtigen oder störenden Variablen zu entfernen(!)

Die Auswahl relevanter Variablen heißt Merkmalsselektion oder Merkmalsauswahl.

12 von 19

(27)

Merkmalsauswahl

Das war’s mit graphischen Modellen, aber einige Ideen und Techniken werden wir wiedersehen..

Jetzt: Klassifikationsproblem auf Datensatz D = {(x, y)1,(x, y)2, . . . ,(x, y)N}

Angenommenxist hochdimensional, z.B.n=1000000 Falls einige Dimensionen “unwichtig” sind (z.B. Rauschen, stark fehlerbehaftet, usw.), kann das die Klassifikation beeinträchtigen

In diesem Fall kann es helfen die unwichtigen oder störenden Variablen zu entfernen(!)

Die Auswahl relevanter Variablen heißt Merkmalsselektion oder Merkmalsauswahl.

12 von 19

(28)

Merkmalsauswahl

Das war’s mit graphischen Modellen, aber einige Ideen und Techniken werden wir wiedersehen..

Jetzt: Klassifikationsproblem auf Datensatz D = {(x, y)1,(x, y)2, . . . ,(x, y)N}

Angenommenxist hochdimensional, z.B.n=1000000 Falls einige Dimensionen “unwichtig” sind (z.B. Rauschen, stark fehlerbehaftet, usw.), kann das die Klassifikation beeinträchtigen

In diesem Fall kann es helfen die unwichtigen oder störenden Variablen zu entfernen(!)

Die Auswahl relevanter Variablen heißt Merkmalsselektion oder Merkmalsauswahl.

12 von 19

(29)

Merkmalsauswahl (II)

BeinVariablen gibt es insgesamt2nmögliche

Merkmalsauswahlen→Für großenist der Rechenbedarf zu hoch

Erneut haben wir (hier) zwei Optionen:

(A) Greedy-Algorithms (B) Regularisierung ;-)

13 von 19

(30)

Merkmalsauswahl (II)

BeinVariablen gibt es insgesamt2nmögliche

Merkmalsauswahlen→Für großenist der Rechenbedarf zu hoch

Erneut haben wir (hier) zwei Optionen:

(A) Greedy-Algorithms (B) Regularisierung ;-)

13 von 19

(31)

Greedy-Algorithms: Forward-Selection

Eingabe: Klassifikations- oder Regressionsproblem auf DatensatzD = {(x, y)1,(x, y)2, . . . ,(x, y)N}mit

n-dimensionalen Datenvektorenxi; beliebiges Modell (1) MerkmalsmengeM = ∅, GüteG= −∞

(2) Wähle neues Merkmal1≤i≤nund setzeM= {i} ∪M (3) Lerne Modell mit MerkmalsmengeMund berechne Güte

G(Kreuzvalidiert)

(4) FallsG>G:M =MundG=G

(5) Falls keines der Merkmale zu einer Verbesserung führt:

GibM aus und beende (6) Ansonsten: Gehe zu(2)

14 von 19

(32)

Greedy-Algorithms: Forward-Selection

Eingabe: Klassifikations- oder Regressionsproblem auf DatensatzD = {(x, y)1,(x, y)2, . . . ,(x, y)N}mit

n-dimensionalen Datenvektorenxi; beliebiges Modell (1) MerkmalsmengeM = ∅, GüteG= −∞

(2) Wähle neues Merkmal1≤i≤nund setzeM= {i} ∪M (3) Lerne Modell mit MerkmalsmengeMund berechne Güte

G(Kreuzvalidiert)

(4) FallsG>G:M =MundG=G

(5) Falls keines der Merkmale zu einer Verbesserung führt:

GibM aus und beende (6) Ansonsten: Gehe zu(2)

14 von 19

(33)

Merkmalsauswahl mittelsl1-Regularisierung

Eingabe: Klassifikations- oder Regressionsproblem auf DatensatzD = {(x, y)1,(x, y)2, . . . ,(x, y)N}mit

n-dimensionalen Datenvektorenxi; Lineares Modell mit Parametervektorβ∈Rn

(1) Lerne lineares Modell durch lösen von

minβ d

i=1

(y− ⟨β,x⟩)2+λ∥β∥1

mit proximalem Gradientenabstieg (2) Gib MerkmalsmengeM = {i∣βi /=0}aus

Diese Prozedur heißt LASSO (Least Absolute Shrinkage And Selection Operator)

15 von 19

(34)

Merkmalsauswahl mittelsl1-Regularisierung

Eingabe: Klassifikations- oder Regressionsproblem auf DatensatzD = {(x, y)1,(x, y)2, . . . ,(x, y)N}mit

n-dimensionalen Datenvektorenxi; Lineares Modell mit Parametervektorβ∈Rn

(1) Lerne lineares Modell durch lösen von minβ

d

i=1

(y− ⟨β,x⟩)2+λ∥β∥1 mit proximalem Gradientenabstieg

(2) Gib MerkmalsmengeM = {i∣βi /=0}aus

Diese Prozedur heißt LASSO (Least Absolute Shrinkage And Selection Operator)

15 von 19

(35)

Merkmalsauswahl mittelsl1-Regularisierung

Eingabe: Klassifikations- oder Regressionsproblem auf DatensatzD = {(x, y)1,(x, y)2, . . . ,(x, y)N}mit

n-dimensionalen Datenvektorenxi; Lineares Modell mit Parametervektorβ∈Rn

(1) Lerne lineares Modell durch lösen von minβ

d

i=1

(y− ⟨β,x⟩)2+λ∥β∥1 mit proximalem Gradientenabstieg

(2) Gib MerkmalsmengeM = {i∣βi /=0}aus

Diese Prozedur heißt LASSO (Least Absolute Shrinkage And Selection Operator)

15 von 19

(36)

Clusteranalyse

Jetzt(und Dienstag):

Automatisches Gruppieren von Daten

16 von 19

(37)

k-Means / Lloyd’s Algorithmus

Eingabe: DatenD, Anzahl Clusterk, Metrik/Distanzmaß f∶ X × X →R+∪ {0}

(1) Weise jedem Punkt inDeinen zufälligen Cluster zu (2) Bestimme Clusterzentrumc(“Mittelpunkt”) jedes Clusters (3) Weise jedem Punktxden Cluster zu, dessen Mittelpunktc

am nächsten zuxist (mittelsf)

(4) Wiederhole Schritte 2 und 3 so lange, bis sich die Clusterzuweisung nicht mehr ändert oder Zeit aufgebraucht

Man kann zeigen: Minimiert Distanzen innerhalb der Cluster und maximiert Distanz zwischen den Clustern

17 von 19

(38)

k-Means / Lloyd’s Algorithmus

Eingabe: DatenD, Anzahl Clusterk, Metrik/Distanzmaß f∶ X × X →R+∪ {0}

(1) Weise jedem Punkt inDeinen zufälligen Cluster zu (2) Bestimme Clusterzentrumc(“Mittelpunkt”) jedes Clusters (3) Weise jedem Punktxden Cluster zu, dessen Mittelpunktc

am nächsten zuxist (mittelsf)

(4) Wiederhole Schritte 2 und 3 so lange, bis sich die Clusterzuweisung nicht mehr ändert oder Zeit aufgebraucht

Man kann zeigen: Minimiert Distanzen innerhalb der Cluster und maximiert Distanz zwischen den Clustern

17 von 19

(39)

Intuition: Auswahl vonkund Distanzmaß (I)

18 von 19

(40)

Intuition: Auswahl vonkund Distanzmaß (II)

19 von 19

Referenzen

ÄHNLICHE DOKUMENTE

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität

Erster Ordnung, mit Gradient Einfache Implementierung Geringer Ressourcenverbrauch Vergleichsweise langsame Konvergenz Zweiter Ordnung, mit Hesse-Matrix. Hoher

Relationale Datenbanken ≡ Menge von Tabellen Relationales Datenbankmanagementsystem erlaubt Anfrage und Manipulation von Daten mittels Structured Query Language (SQL).

Nutzung eine Ordnung auf den Items um jeder Transaktionen einen eindeutigen String zuzuordnen Häufigkeiten identischer Teilstrings können dann in einem Prefixbaum

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund..

Neue Verlustfunktion(?) = neuer Algorithmus Kategorisierung der Punkte eines Datensatzes:. Kernpunkte

Es gibt m Klassen von Neuronen—alle Neuronen einer Klasse c verwenden den gleichen Gewichtsvektor β c Jedes Neuron jeder Klasse (=Filter) ist mit einem anderen h × h Ausschnitt

The Elements of Statistical Learning; 14.3.6, 14.3.7 Graphical Models, Exponential Families, and Variational Inference; Example 3.5.. Merkmalsauswahl, Greedy Selection,