Klassifikation Thema: KlassifikationOS Data Mining SS10Madeleine Weiand1 • Vortragsthema

(1)

Klassifikation

(2)

Thema: Klassifikation

Begriff Klassifikation

• Abgrenzung

• Anforderungen

• Anwendungsgebiete Dimensionsreduktion Umsetzung in Software Vergleich der Algorithmen Quellenangaben

Fragen

Agenda

• Agenda

Klassifikatoren

• Entscheidungsbaum

• naive Bayes – Algorithmus

• Künstlich neuronale Netze

• k-nearest neighbour – Methode

• Support Vector Machine

I II

III

(3)

• eine Data-Mining-Methode, die der

Zusammenfassung von Datenobjekten zu disjunkten Klassen dient

• Klasse = Menge von zusammengehörigen Datenobjekten

• im Gegensatz zum Clustering müssen die Klassen bekannt sein

• zwei Phasen:

1. Lernphase

(4)

• möglichst korrekte Klassifizierung der Daten

• eine akzeptable Performance und Skalierbarkeit

• Ausreißern, fehlende Attribute

• Overfitting vermeiden

• Trainingsdaten sind notwendig

Anforderungen an einen Klassifikator und Daten

• Anforderungen

(5)

• Medizin

• Marketing & Marktanalysen

• Versicherung

• Mustererkennung

Anwendungsgebiete

(6)

Entscheidungsbaum

• Entscheidungsbaum

(7)

Wert /

Wertebereich

Wert /

Wertebereich Wert /

Wertebereich

Attribut

Klasse Klasse

Wert /

Wertebereich Wert /

Wertebereich

Attribut

Wert /

Wertebereich

Wert /

Wertebereich

Attribut

Klasse

• numerisch

• nominal

(8)

Konstruktion eines Entscheidungsbaumes

Informationsmenge:

• Maß für den Informationsgehalt, der nach dem Wissen über den Attributwert vorhanden ist

• auch als Entropie bezeichnet

• Einheit: bits

• n – Anzahl der Klassen

• • n = 1 -> info(p ) = 0

(9)

Beispiel - Wetterdaten

^[Wit01]

940 . 14 0 log 9 14

9 14 log 5 14 ]) 5 5 , 9 ([

info =− ₂ − ₂ =

247 . 0 693 . 0 940 . 0 nsgewinn Informatio

693 . 0 971 . 14 0 971 5 . 14 0 0 5 14 : 4 Mittelwert

971 . 0 ]) 2 , 3 ([

info

971 . 0 ]) 3 , 2 ([

info

0 ]) 4 ([

info ]) 0 , 4 ([

info outlook

=

−

=

⋅ +

⋅

=

sunny rainy

overcast overcast

029 . 0 nsgewinn Informatio

911 . 0 Mittelwert

1 ]) 2 , 2 ([

info

919 . 0 ]) 2 , 4 ([

info

0.811 ])

1 , 3 ([

info

e temperatur

=

warm mild cool

789 . 0 Mittelwert

592 . 0 ]) 1 , 6 ([

info

0.985 ])

4 , 3 ([

info humidity

=

normal high

892 . 0 Mittelwert

1 ]) 3 , 3 ([

info

0.811 ])

6 , 2 ([

info windy

=

false true

Informationsgewinn Wurzel:

Informationsgewinn aller Attribute:

0 ]) 1 ([

info

e temperatur

=

cool = info ([2]) 0

humidity

=

high = info ([1,1]) 1

windy

=

true = outlook = sunny

(10)

Beispiel - Wetterdaten

rainy

normal high

humidity

yes no

sunny overcast

outlook

… …

(11)

• fehlende Attributwerte stellen einen eigenen Zweig dar

• die in der Trainingsmenge gebräuchlichste Verzweigung wird gewählt

• jede Verzweigung des fehlenden Attributwertes wird durchlaufen, die Blätter werden anhand der Anzahl der Elemente der Trainingsinstanz

fehlende Attributwerte

(12)

• Mehrfachverzweigung mit sehr vielen untergeordneten Knoten

• z.B. numerische Attribute: Wertebereiche für numerische Attribute

• IDs: höchster Informationsgewinn -> Verzweigung nach diesem Attribut ?

• statt Informationsgewinn wird das

Gewinnverhältnis verwendet (siehe Literatur)

Attribute mit vielen Verzweigungen

(13)

naive Bayes - Verfahren

(14)

• stochastisches Klassifizierungsmodell

• Bayes - Verfahren

z.B.: meine Prüfung in BWL

 gelernt: mittel

 Spicker: nein

 Wohlbefinden: gut

 Vorlesung besucht: regelmäßig

Note 1 Note 2 Note 3 Note 4

Datenobjekt Klasse

0.1 0.4

0.3

0.2

(15)

formal:

n – #Klassen

m – #Merkmale/Attribute

} ))

| (

max(

{

1 i n

i X

C P

index rdnung

Klassenzuo

≤

=

C _i – Klasse i

X - Datenobjekt

(16)

[Los02]

lichkeit Wahrschein

priori a

C

P ( _i ) − − −

lichkeit Wahrschein

posteriori a

X C

P ( _i | ) − − −

) (

)

| ) (

|

( P X

C P

C X

X P C

P _i ⁱ ⋅ ⁱ

=

∏ =

= ^m

j

i j

i P x C

C X

P

1 )

| (

)

| (

• für kontinuierliche Merkmale ist eine

Verteilungsfunktion nötig

(17)

Beispiel Wetter

[Wit01]

(18)

[Wit01]

Grundlage der Klassifikation

outlook = sunny temperature = cool humidity = high windy = true

X ₁

} ))

| (

max(

{

1 i n

i X

C P index

≤

) ( )

| ) (

|

( P X C P C

X C

P _i = ⁱ ⋅ ⁱ

Klassifikation

Anzahl relative Häufigkeit P(yes) P(no) P(x_j|yes) P(x_j|no)

yes no yes no

play 9 5 9/14 5/14

outlook

sunny 2 3 2/9 3/5

overcast 4 0 4/9 0/5

rainy 3 2 3/9 2/5

temperature

hot 2 2 2/9 2/5

mild 4 2 4/9 2/5

cool 3 1 3/9 1/5

humidity

high 3 4 3/9 4/5

normal 6 1 6/9 1/5

windy

Beispiel Wetter

(19)

Klassifikation

[Wit01]

205 .

0206 0 .

0 0053

. 0

0053 .

0 )

(

14 9 9

3 9 3 9 3 9 2 )

|

( ₁ =

= +

⋅

= ⋅

X X P

yes P

795 .

0206 0 .

0 0053

. 0

0206 .

0 )

(

14 5 5

3 5 4 5 1 5 3 )

|

( ₁ =

= +

⋅

= ⋅

X X P

no

P

(20)

Attributwert in den Trainingsdaten gibt es nicht in Kombination mit einer Klasse (siehe

outlook=overcast) -> Laplace-Schätzung

Problem

[Wit01]

Anzahl relative Häufigkeit Laplace Schätzung

P(yes) P(no) P(x_j|yes) P(x_j|no)

yes no yes no yes no

outlook

sunny 2 3 2/9 3/5 3/12 4/8

overcast 4 0 4/9 0/5 5/12 1/8

rainy 3 2 3/9 2/5 4/12 3/8

(21)

fehlende Wert stellen keine Probleme dar -> Trainingsdaten: Instanz wird bei der

Häufigkeitszählung für die Attributwert- Klassenkombination nicht berücksichtig

-> Klassifikation: Attribut wird ausgelassen

fehlende Werte

[Wit01]

(22)

numerische Attribute

[Wit01]

temperature P(yes) P(no) P(x_j|yes) P(x_j|no)

hot 2 2 2/9 2/5

mild 4 2 4/9 2/5

cool 3 1 3/9 1/5

temperature yes no

nummerische Attributwerte

83 85

70 80

68 65

64 72

69 71

75 75 72 81

Mittelwert μ 73 74,6

Standardab-

nominale Werte

numerische Werte

∑ ⁻

= 1

ⁿ

µ

²

σ

(23)

numerische Attribute

[Wit01]

temperature yes no

nummerische Attributwerte

83 85

70 80

68 65

64 72

69 71

75 75 72 81

Mittelwert μ 73 74,6

Standardab-

weichung σ 6,2 7,9

² 2

)² (

2 ) 1

( ^σ

µ

σ π

− −

= e ^x

x f

9 3 3

2 ⋅ ⋅ ⋅ ⋅

f(temperature = 66| yes) = 0.034 P(temperature = mild | yes)

) (

14 9 9 3 9 3 9 3 9 2 )

|

(

₁

X X P

yes P

⋅

= ⋅

rein nominale Attribute

(24)

Künstliche Neuronale Netze

• KNN

(25)

Neuron (Nervenzelle)

[google – Bildersuche]

(26)

Aufbau eines KNN

• KNN

[www.linux_related.de]

x ₁ w ₁₁

Schicht der

Neuron -

j , chicht Vorgängers der

Neuronen n-#

1

∑

=

= ⁿ

i ij i

Eingabe xw

f fAktivierung

(27)

• Schwellwert bzw. Sprungfunktion

• lineare Funktion

• Sigmoidfunktion

Aktivierungsfunktion

^[Wer00]

(28)

• Trainingsdaten werden in das Netz gespeist

• die Differenz zwischen Netzausgabe und gewünschten Ausgabe wird als Fehler berechnet

• liegt der Fehler über der Toleranzgrenze wird er zurück propagiert -> die Gewichtungen der

Neuronenverknüpfungen werden abhängig vom Einfluss auf den Fehler angepasst

• Vorgang wiederholt sich bis der Fehler innerhalb der Toleranzgrenze liegt

• Backpropagation stellte ein Näherungsverfahren dar

Backpropagation-Algorithmus

• KNN

[Wer00]

(29)

k – nearest neighbour

(30)

• Einordnung der Datenobjekt in gleiche Klasse wie ähnliche Trainingsobjekte

• Beschreibung einer Klasse durch ein Trainingsobjekt meist unzureichend

• Klassenzentrum bezeichnet ein Trainingsobjekt

• Verwendung einer Diskriminanzfunktion

• Berechnung des Abstands zu jedem

Klassenzentrum zum Zeitpunkt der Klassifikation

Idee

• nearest neighbour [Sch09]

(31)

Diskriminanzfunktion

^[Sch09]

} )

( 2

) ( )

( {

min )

( d

#

i Klasse der

Zentrum te

- j )

(

i Klasse für

tren Klassenzen

der Menge

) (

i x 1 z j z j z j x

Klassen m

t Datenobjek x

j z

i J

T i i

J j i

≤

≤ ⋅ − ⋅ ⋅

=

−

(32)

• schwächere Berücksichtigung von ‚Ausreißern‘

wünschenswert -> Berechnung aller Werte

• Klassenzuordnung erfolgt nach Bestimmung der

k-kleinsten d _ij (x)

• um so größer k desto schwächer der Einfluss von Ausreißern

• Bsp: k=3

NN -> kNN

• k - nearest neighbour [Sch09]

x j

z j

z

x ) = _i ^T ( ) ⋅ _i ( ) − 2 ⋅ _i ^T ( ) ⋅ (

d _ij

(33)

Support-Vector-Machine

(34)

• Erweiterung der linearen Klassifikation

• benutzt Hyperebene als Trennfunktion

• es ist möglich auch nicht linear separierbare Datenobjekte durch eine Hyperebene von

einander zu trennen -> Instanzraum wird in einen höher dimensionalen Raum abgebildet

• die Hyperebene wird maximal

diskriminierende Hyperebene genannt

• SVM

[Wer00]

(35)

• für die Objekte der beiden Klassen wird die konvexe Hülle gebildet

• die Ebene, die am weitesten von allen Objekten entfernt ist, heißt maximal diskriminierende Hyperebene

• liegt orthogonal zu den kürzesten Linien, die die beiden konvexen Hüllen verbindet

• die Objekte mit dem geringsten Abstand zu der maximal diskriminierenden Hyperebene werden support vectors /

Maximal diskriminierende Hyperebene

[Wer00]

(36)

Nichtlineare Klassengrenzen

• SVM

[www.imtech.res.in/raghava/rbpred/svm.jpg]

(37)

Hauptkomponentenanalyse

Principal Component Analysis

(38)

• der Datensatz bezogen auf die Anzahl der Attribute ist meist zu groß

• wähle aus n Attributen die k ‚wesentlichen‘

Attribute aus

• Idee: Transformation in einen Sekundärraum mit k Attributen

• Methode: Karhunen-Loeve-Transformation

Problem

• Dimensionsreduktion [Sch09]

(39)

X – Datenobjekt mit n-Attributen

A – n ^x n Orthonormalmatrix mit a ₁ ,…,a _n als Spaltenverktoren

Cov – Kovarianzmatrix zu X X = A Y -> Y=A ^-1 X = A ^T X

Karhunen-Loeve-Transformation

^[Sch09]

(40)

Beispiel

^• Dimensionsreduktion [Sch09]

( )

2 1 2

1 2 1 2

1 2 1 2 1 1

: 1

2 1

2 1 1

: 1

4 1

1 : 4

ren Eigenvekto

3 15 5

4 8 1

1 : 4

Polynom stische

charakteri

2 1

2 2

1 2

1 1

2 1 2

1

2 2 1

 





 





−

=

 





 





−



 →

 



 





= −

→

−

=

 





 







 →

 



 



= 

→

=

→



 

 



= 

 

 



 



 



→ 

=

⋅

=

→ = +

−

− =

−

e e A

e x

x

e x

x

x x x

Cov

normiert normiert

i i

λ λ

λ λ λ

 

 



= 

4 1

1 Cov 4



 1

(41)

Umsetzung in Software

(42)

Thema: Klassifikation • Software

Naive Bayes Entscheidungsbaum KNN SVM k-NN

Quelle

MS SQL Server 2008

x x x

msdn

Salford Systems - CART 6.0 ProEX

x x x

salford-systems.com

KNIME

x x x x

RapidMiner

x x x

rapid-i.com

Auton Lab - Auton Web

x

www.autonlab.org/autonweb

(43)

Vor-/Nachteile der Algorithmen

(44)

• Regel leicht ersichtlich, aber der Gesamtüberblick schwierig (Baum zu tief) -> Pruning (siehe

Literatur)

Entscheidungsbaum

• Vor- und Nachteile

• Attribute mit sehr viel möglichen Werten ergeben Mehrfachverzweigungen

• zur Klassifikation relevante Attribute befinden

sich in Wurzelnähe

(45)

• arbeitet auf großen Datenmengen gut, mit hoher Genauigkeit

naive Bayes

• Geschwindigkeit ähnlich wie Entscheidungsbaum, KNN

• kontinuierliche Daten -> als Verteilungsfkt. wird meist fälschlicher Weise Normalverteilung

• nimmt Unabhängigkeit der Attribute an;

wenn fälschlicher Weise -> unzureichende

Ergebnisse

(46)

• tolerant gegenüber Ausreißern

KNN

• erlernte Gewichte sind kaum interpretierbar ->

Klassifikationsergebnis nicht erklärbar

• lange Trainingsphase

• Attributkombinationen die nicht in der Trainingsmenge vorkommen, stellen kein Problem dar

• kategorielle Daten müssen in metrische Daten umgewandelt werden

• Netz ist individuell bezüglich Anzahl verborgener

(47)

• für metrische und kategorielle Daten geeignet (durch Anpassung der Distanzfunktion)

k - nearst neighbour

Aufwand steigt mit steigenden k

• keine Lernphase, Daten werden zum Zeitpunkt der Klassifikation ausgewertet, aber gesamte

Trainingsmenge muss für die Klassifikation eines

Objektes durchlaufen werden

(48)

• schnelle Klassifikation, weil nur Stützvektoren erforderlich

SVM

• finden der maximal diskriminierenden Hyperebene langwierig

• effektiv auf Daten mit vielen Attributen

(49)

Quellen

(50)

Thema: Klassifikation • Quellen

[Los02] Loss, Dirk: Data Mining: Klassifikations- und Clusteringverfahren, 2002,

[Wit01] Witten, Ian H., Frank, Eibe: Data Mining – Praktische Werkzeuge und Techniken für das maschinelle Lernen, 2001, Hanser Verlag, ISBN: 3-446-21533-6

[Fuh05] Prof. Dr.-Ing. Fuhr, Norbert: Informationssysteme, 2005,

Witten & Frank

[Wer00] Prof. Dr. Werner, Heinrich: der Forschungsgruppe Neuronale

Netzwerke der Universität Kassel angehörig, Neuronale Netzwerke – Vorlesungsmaterial, 2000