Seminar Business IntelligenceTeil II: Data-Miningund Knowledge-Discovery

(1)

Seminar Business Intelligence Teil II: Data-Mining und

Knowledge-Discovery

Thema 3:

Klassifikation und Prädiktion

Vortrag von Philipp Breitbach

Klassifikation und Prädiktion

Übersicht

2. Grundlagen 1. Motivation

3. Entscheidungsbauminduktion 4. Bayes‘sche Klassifikation 5. Regression

6. Zusammenfassung und Ausblick

(2)

3

1. Motivation

Data-Mining: Auffinden von bisher unbekannten Beziehungen innerhalb einer Datenmenge

Prädiktion: Vorhersage unbekannter numerischer Attributwertevon Datentupeln

Klassifikation:

Æ Ist der neue Kunde einer Bank kreditwürdig – Ja oder Nein?

Æ Wie hoch ist das zukünftige Gehalt eines Studien- absolventen?

Einteilung von Datentupeln in endlich viele Kategorien, genannt Klassen

Klassifikation und Prädiktion 2. Grundlagen

2. Grundlagen

Zwei Phasender Klassifikation:

Phase 1: Bilden eines Modells, des so genannten Klassifikators, aus einer Menge von Trainingsdaten, den Trainingsproben Phase 2: Klassifikation unbekannter Probenmithilfe

des Klassifikators aus Phase 1, falls die Genauigkeit des Klassifikators akzeptabel ist

(3)

5

Phase 1

Trainingsproben

Input für Klassifikations-

algorithmus

Output Klassifikator

z.B. in Form von Klassifikationsregeln IF Alter=„31…40“

THEN kauft_Computer=„Ja“

„Ja“

Ausgez.

Ja

<=30 Matt Gamon

„Nein“

Ausgez.

Ja

>40 Andre Beau

„Ja“

Normal Ja

>40 Claire Phips

„Ja“

Normal

>40 Nein Susan Lake

„Ja“

Normal 31..40 Nein

Courtney Fox

„Nein“

Ausgez.

Nein

<=30 Bill Lee

„Nein“

Normal Nein

<=30 Sandy Jones

Kauft_Computer Kreditw.

Student Alter

Name

Klasse

Klassifikation und Prädiktion 2. Grundlagen

Phase 2

Ja Nein Ja Student

„Ja“

Hoch 31…40

Anne Yee

„Nein“

Niedrig

<=30 Sylvia Crest

„Nein“

Hoch

>40 Frank Jones

Kauft_Computer Kreditw.

Alter Name

Testproben

Klassifikator Unbekannte

Proben z.B.

(JohnHenri,31…40,Ja,Hoch) Kauft_Computer?

„Ja“

Genauigkeit=

7HVWSUREHQ

HUWH NODVVLIL]L

NRUUHNW Genauigkeit > α:

(z.B. α= 0,9)

Klassifikationsregeln können zur Klassifikation neuer Daten genutzt werden

Klasse

(4)

7

3. Entscheidungsbauminduktion

Entscheidungsbaumwird als Klassifikator verwendet

Blatteines Entscheidungsbaums enthält die Klasse, die einer unbekannten Probe zugeordnet wird

Klassifikationeiner unbekannten Probe:

Innerer Knoteneines Entscheidungsbaums enthält Test auf ein Attribut, das Testattributdieses Knotens

Baum wird entsprechend den Attributwerten der Probe durchlaufen und ordnet die Probe derjenigen Klasse zu, die im so erreichten Blatt enthalten ist

Klassifikation und Prädiktion 3. Entscheidungsbauminduktion

Beispiel: Entscheidungsbaum

Alter?

Kreditwürdigkeit?

Student?

„Ja“

„Nein“

„Nein“ „Ja“

: innere Knoten : Blätter

>40

Nein Ja Normal Ausgezeichnet

<=30

31…40

Einteilung in die beiden Klassen kauft_Computer=„Ja“und kauft_Computer=„Nein“

anhand der Attribute Alter, Student, und Kreditwürdigkeit

Klassifikation: Dem Wert des im inneren Knoten angegeben Attributs einer Probe entsprechend dem Pfad des Baums folgen, bis Blatt erreicht

ÆBlatt enthält die Klasse, der die Probe zugeordnet wird

(5)

9

Basisalgorithmus(1)

Algorithmus: Generiere_Entscheidungsbaum

Input: Menge der Trainingsproben, Proben; Menge der Testattributkandidaten, Attributliste

Output: Entscheidungsbaum (1)

(2) (3) (4) (5) (6) (7)

Bilde Knoten K

IfProbengehören alle zu Klasse CThen ReturnKals Blatt der Klasse C

IfAttributlisteist leer Then

ReturnKals Blatt der Klasse, die in Probenam häufigsten vorkommt Wähle Testattributals das Attribut aus Attributlistemit dem höchsten Informationsgewinn

Kennzeichne Knoten Kmit Testattribut

(9) (10) (11) (12) (13)

3. Entscheidungsbauminduktion

Basisalgorithmus(2)

(8) For Eachbekannten Wert a_ivon Testattribut

Füge Ast ausgehend von Knoten K mit Bedingung Testattribut = a_i hinzu

Setze S_igleich der Menge der Proben aus Probenmit Testattribut = a_i

IfS_iist leer Then

Füge ein Blatt gekennzeichnet mit der häufigsten Klasse in Probenhinzu

Füge den von Generiere_Entscheidungsbaum(S_i,

Attributliste - Testattribut)zurückgegebenen Teilbaum hinzu Else

(6)

11

Informationsbedarf

Seien:

SMenge von sProben;

s_iAnzahl der Proben von Saus C_i; p_irelative Häufigkeit der Klasse C_iin S;

C₁,…,C_nKlassen;

Ja Ausgez.

Ja

<=30 7

Nein Ausgez.

Ja

>40 6

Ja Normal Ja

>40 5

Ja Normal Nein

>40 4

Ja Normal Nein

31..40 3

Nein Ausgez.

Nein

<=30 2

Nein Normal Nein

<=30 1

Klasse Kreditw.

Student Alter

RID

Smit s=7

Informationsbedarf:

∑

=

−

= ⁿ

i

i i

n) p (p )

,...,s I(s

1

2

1 log

C₁: kauft_Computer=„Ja“mit s₁=4und p₁=4/7

C₂: kauft_Computer=„Nein“mit s₂=3und p₂=3/7

I(s₁,s₂)= I(4,3) = - 4/7log₂(4/7) – 3/7log₂(3/7) = 0,985

AAttribut mit vverschiedenen Werten;

S_jMenge der Proben aus Smit A = a_j; s_ijAnzahl der Proben aus S_j, die zu C_i gehören;

Entropie:

) ,..., ... (

)

( ₁

1 1

nj j v

j

nj

j I s s

s s A s

E

∑

=

+

= + 3. Entscheidungsbauminduktion

Entropie

Seien:

Ja Ausgez.

Ja

<=30 7

Nein Ausgez.

Ja

>40 6

Ja Normal Ja

>40 5

Ja Normal Nein

>40 4

Ja Normal Nein

31..40 3

Nein Ausgez.

Nein

<=30 2

Nein Normal Nein

<=30 1

Klasse Kreditw.

Student Alter

RID

I(s₁₁,s₂₁)= -1/3log₂(1/3) - 2/3log₂(2/3) = 0,918

I(s₁₂,s₂₂)= -1log₂(1) - 0log₂(0) = 0

I(s₁₃,s₂₃)= -2/3log₂(2/3) - 1/3log₂(1/3) = 0,918 E(Alter)= 3/7*0,918 + 1/7*0 + 3/7*0,918 =0,787 Alter= „<=30“: s₁₁= 1, s₂₁= 2;

Alter= „31…40“: s₁₂= 1, s₂₂= 0;

Alter= „>40“: s₁₃= 2, s₂₃= 1;

Informations- bedarf Gewichtung

(7)

13

Informationsgewinn

Informationsgewinn:

) ( ) ,..., (

)

( A I s

₁

s E A

Gewinn =

_n

−

Informations-

bedarf Entropie

Also: Gewinn(Alter)= I(4,3) – E(Alter) = 0,985 – 0,787 = 0,198 Analog: Gewinn(Student) = 0,020,

Gewinn(Kreditwürdigkeit) = 0,128

Aufgrund des höchsten Informationsgewinns Auswahl von Alterals Testattribut

Beispiel

Alter?

Nein Ausgez.

Nein

<=30

Ja Ausgez.

Ja

<=30

Nein Normal Nein

<=30

Klasse Kreditw.

Student

Alter Alter Student Kreditw. Klasse

Nein Ausgez.

Ja

>40

Ja Normal Ja

>40

Ja Normal Nein

>40

Ja Normal Nein

31..40

Klasse Kreditw.

Student Alter

<=30

31…40

>40

(8)

15

Baumbeschneidung

Widerspiegelung von Datenanomalien in vielen Ästen

Baumbeschneidung: Entfernen der unzuverlässigsten Äste Zwei Arten von Baumbeschneidung:

Prepruning: Vorzeitiges Beendendes Aufbaus von Ästen, die nicht zuverlässig genug sind

Postpruning: Entfernen von Ästeneines voll ausgebildeten Baums

Skalierbarkeitsbetrachtung

Skalierbarkeitder Algorithmen wichtig für das Data-Mining, da große Datenmengen klassifiziert werden müssen

Basisalgorithmus (u.a. übliche Algorithmen) nicht skalierbar, denn sobald die Trainingsmenge größer dem verfügbaren Hauptspeicher ist, wird die Leistung durch ständige Ein- und Auslagerung beeinträchtigt

Deshalb: Entwicklung von skalierbaren Algorithmen für das Data-Mining

Hier: Betrachtung der Algorithmen SLIQund SPRINT

(9)

17

SLIQ + SPRINT: Gemeinsamkeiten

Aufteilen aller Proben eines Knotens auf zwei Söhne (Schnitt) Numerische Attribute: Schnitt der Form A≤a

Kategorische Attribute: Schnitt der Form A∈A‘, A‘⊂{a₁,…,a_n} Nutzung des gini-Index: ^gini⁽^S⁾⁼¹⁻

∑

^p²^j

) ( )

( )

( ¹ ₁ ² gini S₂

n S n n gini S n

gini_split = +

Auswerten aller möglichen Schnitte für einen Knoten und Auswahl des Schnittes mit dem niedrigsten Schnittindex Verwendung von Attributlisten, die für numerische Attribute vorsortiert werden (Presorting) und auf dem Externspeicher gehalten werden

SLIQ

Attributlistenenthalten für alle Trainingsproben jeweils den entsprechenden Attributwert und RID(RecordIdentifier) und werden zu Beginn sortiert generiert (Presorting)

Zusätzlich Klassenlistemit RID, Klasse und Referenz auf zugehörigen Knoten des Baums

4 55

5 55

6 45

3 40

1 30

2 23

RID Alter

5 100

3 75

1 65

6 60

4 40

2 15

RID Gehalt

N1 G

6

N1 G

5

N1 B

4

N1 G

3

N1 B

2

N1 G

1

Knoten Klasse RID

G 60 45 6

G 100 55 5

B 40 55 4

G 75 40 3

B 15 23 2

G 65 30 1

Klasse Gehalt Alter RID

Trainingsproben Vorsortierte Attributlisten Klassenliste

(10)

19

SLIQ: Vorgehensweise

Sukzessives Aufbauen der einzelnen Ebenendes Baums Für jede Ebene:

• Durchlauf aller Attributlisten und Auswerten des Schnittindexmithilfe von für jeden Knoten gehaltenen Histogrammenan der aktuellen Position

• Für jeden Knoten der Ebene Auswahl des Schnitts mit dem kleinsten Schnittindexund Aufteilung der zugehörigen Proben auf linken und rechten Sohn entsprechend dem Schnitt

• Durchlauf der in Schnitten benutzten Attributlisten und Aktualisierung der Knotenreferenzenin der Klassenliste

• Lokale Terminierungfalls ein Knoten nur noch Proben einer Klasse enthält

SLIQ: Beispiel

4 55

5 55

6 45

3 40

1 30

2 23

RID Alter

N1 G

6

N1 G

5

N1 B

4

N1 G

3

N1 B

2

N1 G

1

Knoten Klasse RID

R L

G B

minN1(gini_Split):

Für Schnitt:

actN1(gini_split):

∑

−

=1 ²

)

(S p

gini

) ( )

( )

( ^L _L ^R _R

split gini S

n S n n gini S n

gini = +

Schnitt

4 2 R

0 0 L

G B

4/9 4/9 Alter≤22 4

1 R

0 1 L

G B

Alter≤23 4/15 4/15 3

1 R

1 1 L

G B

5/12 2

1 R

2 1 L

G B

4/9 1

1 R

3 1 L

G B

5/12 0

0 R

4 2 L

G B

4/9

Histogramme L und R halten Klassenverteilung für die Söhne

gini_Alter≤22(S) = 0/6 * gini(S_L) + 6/6 * gini(S_R)

= 0 * (1 – (0²+0²)) + 1 * (1 – ((2/6)²+ (4/6)²))

= 0 + 1 – (1/9 + 4/9) = 4/9

N1 N3 N2

N1 G

6

N1 G

5

N1 B

4

N1 G

3

N2 B

2

N1 G

1

Knoten Klasse RID

N1 G

6

N1 G

5

N1 B

4

N1 G

3

N2 B

2

N3 G

1

Knoten Klasse RID

N1 G

6

N1 G

5

N1 B

4

N3 G

3

N2 B

2

N3 G

1

Knoten Klasse RID

(11)

21

SPRINT

Attributlistenenthalten für alle Trainingsproben jeweils den

entsprechenden Attributwert, RID und die Klasseund werden auch zu Beginn sortiert generiert (Presorting)

Keinezusätzliche Klassenliste Attributlisten werden bei jedem Schnitt partitioniert Æ Eigene Attributlisten für

jeden Knoten

4 B 55

5 G 55

6 G 45

3 G 40

1 G 30

2 B 23

RID Klasse Alter

5 G 100

3 G 75

1 G 65

6 G 60

4 B 40

2 B 15

RID Klasse Gehalt

Vorsortierte Attributlisten für SPRINT

SPRINT: Vorgehensweise

Sukzessives Aufbauen der einzelnen Knotendes Baums Für jeden Knoten:

• Durchlauf aller Attributlisten des Knotensund Auswerten des Schnittindexmithilfe der Histogramme Lund R

• Auswahl des Schnitts mit dem kleinsten Schnittindex

• Partitionierung der Attributlisten des Knotens auf linken und rechten Sohn entsprechend dem ausgewählten Schnitt:

Æ Für die im Schnitt benutzte Attributliste AListe einfaches verschieben der einzelnen Einträge

Æ Für die anderen Attributlisten Probingder RID auf eine Hash-Tabelle, die bei der Partitionierung von AListefür alle Proben des linken Baums aufgebaut wird, um zu wissen, zu welchem Sohn der Eintrag verschoben werden muss

• Lokale Terminierung, falls ein Knoten nur Proben einer Klasse enthält

(12)

23

SLIQ + SPRINT: Performance

SLIQ bei „kleinen“ Datenmengen vergleichbar mit üblichen Algorithmen Vergleich zwischen SLIQ und üblichen Algorithmen bei sehr großen Datenmengen nicht lohnenswert

Deshalb: Vergleich von SLIQ und SPRINT SLIQ schneller als SPRINT

Aber: Thrashingsobald Klassenliste nicht in Hauptspeicher passt

Bei SPRINTlineare Abhängigkeit der Antwortzeit von der Größe der Trainingsmenge

ÆSPRINT vollständig skalierbar

4. Bayes‘sche Klassifikation

Anwendung des Satzes von Bayeszur Bestimmung der Wahrscheinlichkeiten p_i, dass eine Probe Xzur Klasse C_i gehört

Klassifikation von Xzu der Klasse mit höchstem p_i Naiver Bayes‘scher Klassifikator:

Annahme der klassenbedingten Unabhängigkeit Bayes‘sche Netze:

Modellierung von Abhängigkeiten

(13)

25

Stochastische Grundlagen

Seien: X = (x₁,…,x_n)unbekannte Probe;

HHypothese, dass Xzu Klasse Cgehört;

P(H|X): A-Posteriori-Wahrscheinlichkeit von H P(H): A-Priori-Wahrscheinlichkeit von H P(X|H): A-Posteriori-Wahrscheinlichkeit von X P(X): A-Priori-Wahrscheinlichkeit von X

Satz von Bayes:

) (

) ( )

| ) (

|

( P X

H P H X X P

H

P =

Beispiel: X = („rot“, „rund“); C = Apfel

Naiver Bayes‘scher Klassifikator

Seien: C₁,…,C_mKlassen; X = (x₁,…,x_n)unbekannte Probe Maximierung von P(C_i|X) Maximierung von

) (

) ( )

| (

X P

C P C X

P _i _i

Satz von Bayes

P(X) konstant für alle C_i: Maximierung von P(X|C_i)*P(C_i) Abschätzung von P(C_i) durch relative Häufigkeit p_ider Klasse C_iin der Trainingsmenge

Annahme der klassenbedingten Unabhängigkeit:

∏

₌

= ⁿ

k

i k

i P x C

C X P

1

)

| ( )

|

( _ÆDeswegen naiv

(14)

27

Berechnung der P(x

_k

|C

_i

)

Sei A_kdas x_kentsprechende Attribut A_kkategorisch:

s_ik= # Proben ausC_imit A_k= x_k s_i= # Proben aus C_i

Abschätzung von P(x_k|C_i) durch P(x_k|C_i) = s_ik/ s_i A_knumerisch:

2 2

2 ) (

2 ) 1

|

( ^Cⁱ

Ci k

i

x

C i

k C e

x

P ^σ

µ

σ π

− −

= Gauß-Verteilung

Ci

i σ

µc

Dabei sind und die aus den Trainingsproben der Klasse C_iermittelten Werte für Mittelwertund

Standardabweichung

Klassifikation und Prädiktion 4. Bayes‘sche Klassifikation

Beispiel

Ja Ausgez.

Ja

<=30 7

Nein Ausgez.

Ja

>40 6

Ja Normal Ja

>40 5

Ja Normal Nein

>40 4

Ja Normal Nein

31..40 3

Nein Ausgez.

Nein

<=30 2

Nein Normal Nein

<=30 1

Klasse Kreditw.

Student Alter

C₁: kauft_Computer=„Ja“mit s₁= 4undp₁= RID P(C₁) = 4/7

C₂: kauft_Computer=„Nein“mit s₂= 3undp₂= P(C₂) = 3/7

P(„31…40“|C₁) = s₁₁/ s₁= 1 / 4 P(„31…40|C₂) = s₂₁/ s₂= 0 / 3 =0

P(„Nein“|C₁) = s₁₂/ s₁= 2 / 4 = 1 / 2 P(„Nein“|C₂) = s₂₂/ s₂= 2 / 3

P(„Normal“|C₁) = s₁₃/ s₁= 3 / 4 P(„Normal“|C) = s / s = 1 / 3 Alter: s₁₁= 1; s₂₁= 0;

Student: s₁₂= 2, s₂₂= 2;

Kreditwürdigkeit: s₁₃= 3, s₂₃= 1;

Klassifikation von

X = („31…40“, „Nein“, „Normal“)

P(X|C₁) = P(x₁|C₁)*P(x₂|C₁)*P(x₃|C₁)

= 1 / 4 * 1 / 2 * 3 / 4 = 3 / 36 P(X|C₂) = P(x₁|C₂)*P(x₂|C₂)*P(x₃|C₂)

= 0 * 2 / 3 * 1 / 3 = 0 P(X|C₁)*P(C₁)= 3 / 36 * 4 / 7 = 1 / 21 P(X|C₂)*P(C₂) = 0 * 3 / 7 = 0

(15)

29

Lungenkrebs

Bayes‘sche Netze

Familiengeschichte Raucher

Lungenaufblähung

0,9 0,3 0,5 0,2

~LK

0,1 0,7 0,5 0,8 LK

~FG,~R

~FG,R FG,~R FG,R

Graphische Modellierung von Abhängigkeiten zwischen Attributen durch azyklischen gerichteten Graph

Attribut bei gegebenen direkten Vorgängernunabhängig von Nicht- Nachfolgern

CPT: ConditionalProbabilityTable CPTfür ein Attribut Aspeichert bedingte

Wahrscheinlichkeiten P(A|Vorgänger(A)) für jede Wertekombination der Vorgänger

Lungenkrebs

Zuordnung einer unbekannten Probe zu der Klasse mit höchstem P(C_i|X)

Æฬ 3&_L_9RUJ¦QJHU&_L

z.B. P(LK|FG,R) = 0,8 und P(~LK|FG,R) = 0,2 Wie erhält man die Werte P(C_i|Vorgänger(C_i))?

Trainieren Bayes‘scher Netze

3 Szenarien:

• Netzstruktur gegeben, keine fehlenden Werte

Æ Berechnung der P(A|Vorgänger(A)) ähnlich wie bei naivem Bayes‘schen Klassifikator

• Netzstruktur gegeben, aber fehlende Werte möglich

Æ Annäherung durch Gradientenabstieg

• Netzstruktur unbekannt

Æ Diskrete Optimierung

(16)

31

5. Regression

Verwendung zur Prädiktion, also der Vorhersage von numerischen Attributwerten

Rückführung eines Zielattributwertes einer unbekannten Probe auf die Verteilung einer analysierten Trainingsmenge

Hier: •Lineare Regression

•Multiple Regression

Lineare Regression

5. Regression

Modellierung einer Antwortvariablen Ydurch eine auf eine Schätzervariable Xangewendete lineare Funktion

Regressionsgleichung: Y= α+ β*X Regressionskoeffizienten

Methode der kleinsten Quadratezur Bestimmung der Regressionskoeffizienten:

∑ ∑

=

−

= _s −

i i

s

i i i

x x

y y x x

1

2 1

) (

) )(

β ( α = y−βx

x: Mittelwert der Werte der Schätzervariable Xin den Trainingsproben y: Mittelwert der Werte der Antwortvariable Yin den Trainingsproben x_i, y_i: Wert von Xbzw. Yder i-ten Trainingsprobe

(17)

33

Beispiel

33 1

72 13

64 9

57 8

30 3

Y - Gehalt (in 1000$) X – Berufserfah-

rung (Jahre)

Trainingsproben Mittelwert für X:8,8

Mittelwert für Y: 51,2

1 , ) 3

8 , 8 13 ( ...

) 8 , 8 3 ( ) 8 , 8 1 (

) 2 , 51 72 )(

8 , 8 13 ( ...

) 2 , 51 30 )(

8 , 8 3 ( ) 2 , 51 33 )(

8 , 8 1 (

2 2

2 =

− + +

− +

−

− + +

−

− +

−

= − β

9 , 23 ) 8 , 8 )(

1 , 3 ( 2 ,

51 − =

α=

Gehaltsvorhersage für Person mit X = 7Jahren Berufserfahrung:

Y= α+ β*X= 23,9 + 3,1*7 = 45,6

Multiple Regression

5. Regression

Erweiterung der linearen Regression auf mehrere Schätzer- variablen X₁,…,X_n

ÆModellierung von Ydurch mehrdimensionalen Attributvektor Multiple Regressionsgleichung:

Y = α+ β₁* X₁+ β₂* X₂+ … + β_n* X_n

Berechnung der Regressionskoeffizienten αund β₁,…,β_n ebenfalls mit Methode der kleinsten Quadrate

(18)

35

6. Zusammenfassung und Ausblick

Vorstellung der Klassifikationskonzepte Entscheidungsbaum- induktionund Bayes‘sche Klassifikation

Vorstellung des Prädiktionskonzeptes der linearen und multiplen Regression

Skalierbarkeitsbetrachtungen im Zusammenhang mit immer größeren Datenmengen (SLIQund SPRINT)

Weiterhin großes Interesse an schnelleren skalierbaren Algorithmen aufgrund des immensen Datenwachstums

Forschungsschwerpunkte: Klassifikation von nicht-relationalen Datenwie z.B. Textdokumenten, räumlichen Daten oder Multimedia-Daten