• Keine Ergebnisse gefunden

Klassifikation Thema: KlassifikationOS Data Mining SS10Madeleine Weiand1 • Vortragsthema

N/A
N/A
Protected

Academic year: 2022

Aktie "Klassifikation Thema: KlassifikationOS Data Mining SS10Madeleine Weiand1 • Vortragsthema"

Copied!
51
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Klassifikation

(2)

Thema: Klassifikation

Begriff Klassifikation

• Abgrenzung

• Anforderungen

• Anwendungsgebiete Dimensionsreduktion Umsetzung in Software Vergleich der Algorithmen Quellenangaben

Fragen

Agenda

• Agenda

Klassifikatoren

• Entscheidungsbaum

• naive Bayes – Algorithmus

• Künstlich neuronale Netze

• k-nearest neighbour – Methode

• Support Vector Machine

I II

III

(3)

• eine Data-Mining-Methode, die der

Zusammenfassung von Datenobjekten zu disjunkten Klassen dient

• Klasse = Menge von zusammengehörigen Datenobjekten

• im Gegensatz zum Clustering müssen die Klassen bekannt sein

• zwei Phasen:

1. Lernphase

(4)

Thema: Klassifikation

• möglichst korrekte Klassifizierung der Daten

• eine akzeptable Performance und Skalierbarkeit

• Ausreißern, fehlende Attribute

• Overfitting vermeiden

• Trainingsdaten sind notwendig

Anforderungen an einen Klassifikator und Daten

• Anforderungen

(5)

• Medizin

• Marketing & Marktanalysen

• Versicherung

• Mustererkennung

Anwendungsgebiete

(6)

Thema: Klassifikation

Entscheidungsbaum

• Entscheidungsbaum

(7)

Wert /

Wertebereich

Wert /

Wertebereich Wert /

Wertebereich

Attribut

Klasse Klasse

Wert /

Wertebereich Wert /

Wertebereich

Attribut

Wert /

Wertebereich

Wert /

Wertebereich

Attribut

Klasse

• numerisch

• nominal

(8)

Thema: Klassifikation

Konstruktion eines Entscheidungsbaumes

• Entscheidungsbaum

Informationsmenge:

• Maß für den Informationsgehalt, der nach dem Wissen über den Attributwert vorhanden ist

• auch als Entropie bezeichnet

• Einheit: bits

n – Anzahl der Klassen

• n = 1 -> info(p ) = 0

(9)

Beispiel - Wetterdaten

[Wit01]

940 . 14 0 log 9 14

9 14 log 5 14 ]) 5 5 , 9 ([

info =− 22 =

247 . 0 693 . 0 940 . 0 nsgewinn Informatio

693 . 0 971 . 14 0 971 5 . 14 0 0 5 14 : 4 Mittelwert

971 . 0 ]) 2 , 3 ([

info

971 . 0 ]) 3 , 2 ([

info

0 ]) 4 ([

info ]) 0 , 4 ([

info outlook

=

=

=

⋅ +

⋅ +

=

=

=

=

sunny rainy

overcast overcast

029 . 0 nsgewinn Informatio

911 . 0 Mittelwert

1 ]) 2 , 2 ([

info

919 . 0 ]) 2 , 4 ([

info

0.811 ])

1 , 3 ([

info

e temperatur

=

=

=

=

=

warm mild cool

152 . 0 nsgewinn Informatio

789 . 0 Mittelwert

592 . 0 ]) 1 , 6 ([

info

0.985 ])

4 , 3 ([

info humidity

=

=

=

=

normal high

048 . 0 nsgewinn Informatio

892 . 0 Mittelwert

1 ]) 3 , 3 ([

info

0.811 ])

6 , 2 ([

info windy

=

=

=

=

false true

Informationsgewinn Wurzel:

Informationsgewinn aller Attribute:

0 ]) 1 ([

info

e temperatur

=

cool = info ([2]) 0

humidity

=

high = info ([1,1]) 1

windy

=

true = outlook = sunny

(10)

Thema: Klassifikation

Beispiel - Wetterdaten

• Entscheidungsbaum

rainy

normal high

humidity

yes no

sunny overcast

outlook

… …

(11)

• fehlende Attributwerte stellen einen eigenen Zweig dar

• die in der Trainingsmenge gebräuchlichste Verzweigung wird gewählt

• jede Verzweigung des fehlenden Attributwertes wird durchlaufen, die Blätter werden anhand der Anzahl der Elemente der Trainingsinstanz

fehlende Attributwerte

(12)

Thema: Klassifikation

• Mehrfachverzweigung mit sehr vielen untergeordneten Knoten

• z.B. numerische Attribute: Wertebereiche für numerische Attribute

• IDs: höchster Informationsgewinn -> Verzweigung nach diesem Attribut ?

• statt Informationsgewinn wird das

Gewinnverhältnis verwendet (siehe Literatur)

Attribute mit vielen Verzweigungen

• Entscheidungsbaum

(13)

naive Bayes - Verfahren

(14)

Thema: Klassifikation

• stochastisches Klassifizierungsmodell

• Bayes - Verfahren

z.B.: meine Prüfung in BWL

 gelernt: mittel

 Spicker: nein

 Wohlbefinden: gut

 Vorlesung besucht: regelmäßig

Note 1 Note 2 Note 3 Note 4

Datenobjekt Klasse

0.1 0.4

0.3

0.2

(15)

formal:

n – #Klassen

m – #Merkmale/Attribute

} ))

| (

max(

{

1 i n

i X

C P

index rdnung

Klassenzuo

=

C i – Klasse i

X - Datenobjekt

(16)

Thema: Klassifikation

[Los02]

lichkeit Wahrschein

priori a

C

P ( i ) − − −

lichkeit Wahrschein

posteriori a

X C

P ( i | ) − − −

) (

) (

)

| ) (

|

( P X

C P

C X

X P C

P i ii

=

∏ =

= m

j

i j

i P x C

C X

P

1

)

| (

)

| (

• für kontinuierliche Merkmale ist eine

Verteilungsfunktion nötig

(17)

Beispiel Wetter

[Wit01]

(18)

Thema: Klassifikation

[Wit01]

Grundlage der Klassifikation

outlook = sunny temperature = cool humidity = high windy = true

X 1

} ))

| (

max(

{

1 i n

i X

C P index

) ( )

| ) (

|

( P X C P C

X C

P i = ii

Klassifikation

Anzahl relative Häufigkeit P(yes) P(no) P(xj|yes) P(xj|no)

yes no yes no

play 9 5 9/14 5/14

outlook

sunny 2 3 2/9 3/5

overcast 4 0 4/9 0/5

rainy 3 2 3/9 2/5

temperature

hot 2 2 2/9 2/5

mild 4 2 4/9 2/5

cool 3 1 3/9 1/5

humidity

high 3 4 3/9 4/5

normal 6 1 6/9 1/5

windy

Beispiel Wetter

(19)

Klassifikation

[Wit01]

205 .

0206 0 .

0 0053

. 0

0053 .

0 )

(

14 9 9

3 9 3 9 3 9 2 )

|

( 1 =

= +

= ⋅

X X P

yes P

795 .

0206 0 .

0 0053

. 0

0206 .

0 )

(

14 5 5

3 5 4 5 1 5 3 )

|

( 1 =

= +

= ⋅

X X P

no

P

(20)

Thema: Klassifikation

Attributwert in den Trainingsdaten gibt es nicht in Kombination mit einer Klasse (siehe

outlook=overcast) -> Laplace-Schätzung

Problem

[Wit01]

Anzahl relative Häufigkeit Laplace Schätzung

P(yes) P(no) P(xj|yes) P(xj|no)

yes no yes no yes no

outlook

sunny 2 3 2/9 3/5 3/12 4/8

overcast 4 0 4/9 0/5 5/12 1/8

rainy 3 2 3/9 2/5 4/12 3/8

(21)

fehlende Wert stellen keine Probleme dar -> Trainingsdaten: Instanz wird bei der

Häufigkeitszählung für die Attributwert- Klassenkombination nicht berücksichtig

-> Klassifikation: Attribut wird ausgelassen

fehlende Werte

[Wit01]

(22)

Thema: Klassifikation

numerische Attribute

[Wit01]

temperature P(yes) P(no) P(xj|yes) P(xj|no)

hot 2 2 2/9 2/5

mild 4 2 4/9 2/5

cool 3 1 3/9 1/5

temperature yes no

nummerische Attributwerte

83 85

70 80

68 65

64 72

69 71

75 75 72 81

Mittelwert μ 73 74,6

Standardab-

nominale Werte

numerische Werte

= 1

n

µ

2

σ

(23)

numerische Attribute

[Wit01]

temperature yes no

nummerische Attributwerte

83 85

70 80

68 65

64 72

69 71

75 75 72 81

Mittelwert μ 73 74,6

Standardab-

weichung σ 6,2 7,9

² 2

)² (

2 ) 1

( σ

µ

σ π

− −

= e x

x f

9 3 3

2 ⋅ ⋅ ⋅ ⋅

f(temperature = 66| yes) = 0.034 P(temperature = mild | yes)

) (

14 9 9 3 9 3 9 3 9 2 )

|

(

1

X X P

yes P

= ⋅

rein nominale Attribute

(24)

Thema: Klassifikation

Künstliche Neuronale Netze

• KNN

(25)

Neuron (Nervenzelle)

[google – Bildersuche]

(26)

Thema: Klassifikation

Aufbau eines KNN

• KNN

[www.linux_related.de]

x 1 w 11

Schicht der

Neuron -

j , chicht Vorgängers der

Neuronen n-#

1

=

= n

i ij i

Eingabe xw

f fAktivierung

(27)

• Schwellwert bzw. Sprungfunktion

• lineare Funktion

• Sigmoidfunktion

Aktivierungsfunktion

[Wer00]

(28)

Thema: Klassifikation

• Trainingsdaten werden in das Netz gespeist

• die Differenz zwischen Netzausgabe und gewünschten Ausgabe wird als Fehler berechnet

• liegt der Fehler über der Toleranzgrenze wird er zurück propagiert -> die Gewichtungen der

Neuronenverknüpfungen werden abhängig vom Einfluss auf den Fehler angepasst

• Vorgang wiederholt sich bis der Fehler innerhalb der Toleranzgrenze liegt

• Backpropagation stellte ein Näherungsverfahren dar

Backpropagation-Algorithmus

• KNN

[Wer00]

(29)

k – nearest neighbour

(30)

Thema: Klassifikation

• Einordnung der Datenobjekt in gleiche Klasse wie ähnliche Trainingsobjekte

• Beschreibung einer Klasse durch ein Trainingsobjekt meist unzureichend

• Klassenzentrum bezeichnet ein Trainingsobjekt

• Verwendung einer Diskriminanzfunktion

• Berechnung des Abstands zu jedem

Klassenzentrum zum Zeitpunkt der Klassifikation

Idee

• nearest neighbour [Sch09]

(31)

Diskriminanzfunktion

[Sch09]

} )

( 2

) ( )

( {

min )

( d

#

i Klasse der

Zentrum te

- j )

(

i Klasse für

tren Klassenzen

der Menge

) (

) (

i x 1 z j z j z j x

Klassen m

t Datenobjek x

j z

i J

T i i

T i i

J j i

≤ ⋅ − ⋅ ⋅

=

(32)

Thema: Klassifikation

• schwächere Berücksichtigung von ‚Ausreißern‘

wünschenswert -> Berechnung aller Werte

• Klassenzuordnung erfolgt nach Bestimmung der

k-kleinsten d ij (x)

• um so größer k desto schwächer der Einfluss von Ausreißern

• Bsp: k=3

NN -> kNN

• k - nearest neighbour [Sch09]

x j

z j

z j

z

x ) = i T ( ) ⋅ i ( ) − 2 ⋅ i T ( ) ⋅ (

d ij

(33)

Support-Vector-Machine

(34)

Thema: Klassifikation

• Erweiterung der linearen Klassifikation

• benutzt Hyperebene als Trennfunktion

• es ist möglich auch nicht linear separierbare Datenobjekte durch eine Hyperebene von

einander zu trennen -> Instanzraum wird in einen höher dimensionalen Raum abgebildet

• die Hyperebene wird maximal

diskriminierende Hyperebene genannt

• SVM

[Wer00]

(35)

• für die Objekte der beiden Klassen wird die konvexe Hülle gebildet

• die Ebene, die am weitesten von allen Objekten entfernt ist, heißt maximal diskriminierende Hyperebene

• liegt orthogonal zu den kürzesten Linien, die die beiden konvexen Hüllen verbindet

• die Objekte mit dem geringsten Abstand zu der maximal diskriminierenden Hyperebene werden support vectors /

Maximal diskriminierende Hyperebene

[Wer00]

(36)

Thema: Klassifikation

Nichtlineare Klassengrenzen

• SVM

[www.imtech.res.in/raghava/rbpred/svm.jpg]

(37)

Hauptkomponentenanalyse

Principal Component Analysis

(38)

Thema: Klassifikation

• der Datensatz bezogen auf die Anzahl der Attribute ist meist zu groß

• wähle aus n Attributen die k ‚wesentlichen‘

Attribute aus

• Idee: Transformation in einen Sekundärraum mit k Attributen

• Methode: Karhunen-Loeve-Transformation

Problem

• Dimensionsreduktion [Sch09]

(39)

X – Datenobjekt mit n-Attributen

A – n x n Orthonormalmatrix mit a 1 ,…,a n als Spaltenverktoren

Cov – Kovarianzmatrix zu X X = A Y -> Y=A -1 X = A T X

Karhunen-Loeve-Transformation

[Sch09]

(40)

Thema: Klassifikation

Beispiel

Dimensionsreduktion [Sch09]

( )

2 1 2

1

2 1 2

1

2 1 2 1 1

: 1

2 1

2 1 1

: 1

4 1

1 : 4

ren Eigenvekto

3 15 5

4 8 1

1 : 4

Polynom stische

charakteri

2 1

2 2

1 2

1 2

1 1

2 1 2

1

2 2 1

 

 

 

 

=

=

 

 

 

 

 →

 

 

= −

=

 

 

 

 

 →

 

 

= 

=

→

 

 

= 

 

 

 

 

→ 

=

=

→ = +

− =

e e A

e x

x

e x

x

x x x

x x x

Cov

normiert normiert

i i

λ λ

λ λ

λ λ λ

λ λ λ

 

 

= 

4 1

1 Cov 4

 1

(41)

Umsetzung in Software

(42)

Thema: Klassifikation • Software

Naive Bayes Entscheidungsbaum KNN SVM k-NN

Quelle

MS SQL Server 2008

x x x

msdn

Salford Systems - CART 6.0 ProEX

x x x

salford-systems.com

KNIME

x x x x

RapidMiner

x x x

rapid-i.com

Auton Lab - Auton Web

x

www.autonlab.org/autonweb

(43)

Vor-/Nachteile der Algorithmen

(44)

Thema: Klassifikation

• Regel leicht ersichtlich, aber der Gesamtüberblick schwierig (Baum zu tief) -> Pruning (siehe

Literatur)

Entscheidungsbaum

• Vor- und Nachteile

• Attribute mit sehr viel möglichen Werten ergeben Mehrfachverzweigungen

• zur Klassifikation relevante Attribute befinden

sich in Wurzelnähe

(45)

• arbeitet auf großen Datenmengen gut, mit hoher Genauigkeit

naive Bayes

• Geschwindigkeit ähnlich wie Entscheidungsbaum, KNN

• kontinuierliche Daten -> als Verteilungsfkt. wird meist fälschlicher Weise Normalverteilung

• nimmt Unabhängigkeit der Attribute an;

wenn fälschlicher Weise -> unzureichende

Ergebnisse

(46)

Thema: Klassifikation

• tolerant gegenüber Ausreißern

KNN

• Vor- und Nachteile

• erlernte Gewichte sind kaum interpretierbar ->

Klassifikationsergebnis nicht erklärbar

• lange Trainingsphase

• Attributkombinationen die nicht in der Trainingsmenge vorkommen, stellen kein Problem dar

• kategorielle Daten müssen in metrische Daten umgewandelt werden

• Netz ist individuell bezüglich Anzahl verborgener

(47)

• für metrische und kategorielle Daten geeignet (durch Anpassung der Distanzfunktion)

k - nearst neighbour

Aufwand steigt mit steigenden k

• keine Lernphase, Daten werden zum Zeitpunkt der Klassifikation ausgewertet, aber gesamte

Trainingsmenge muss für die Klassifikation eines

Objektes durchlaufen werden

(48)

Thema: Klassifikation

• schnelle Klassifikation, weil nur Stützvektoren erforderlich

SVM

• Vor- und Nachteile

• finden der maximal diskriminierenden Hyperebene langwierig

• effektiv auf Daten mit vielen Attributen

(49)

Quellen

(50)

Thema: Klassifikation • Quellen

[Los02] Loss, Dirk: Data Mining: Klassifikations- und Clusteringverfahren, 2002,

[Wit01] Witten, Ian H., Frank, Eibe: Data Mining – Praktische Werkzeuge und Techniken für das maschinelle Lernen, 2001, Hanser Verlag, ISBN: 3-446-21533-6

[Fuh05] Prof. Dr.-Ing. Fuhr, Norbert: Informationssysteme, 2005,

Witten & Frank

[Wer00] Prof. Dr. Werner, Heinrich: der Forschungsgruppe Neuronale

Netzwerke der Universität Kassel angehörig, Neuronale Netzwerke – Vorlesungsmaterial, 2000

[Sch09] Prof. Dr. Schönherr, Siegfried: HTWK Leipzig, Mustererkennung –

Vorlesungsmaterial, 2009

(51)

overcast cool normal true yes

overcast mild high true yes

overcast hot high false yes

overcast hot normal false yes

rainy cool normal false yes

rainy cool normal true no

rainy mild high false yes

rainy mild normal false yes

rainy mild high true no

sunny cool normal false yes

sunny mild normal true yes

sunny mild high false no

sunny hot high false no

sunny hot high true no

Referenzen

ÄHNLICHE DOKUMENTE

 Der eigentliche Gewinn durch XML entsteht durch die Standardisierung einer Sprache zur Definition

Selbst wenn nicht alle Tiere aufgrund individueller Wachstumsverläufe nach ihrer Größe der richtigen Altersklasse zuzuordnen sind (RYKENA 1976 weist bei.. viridis darauf

Zus¨atzlich entst¨unde durch die Nutzung interaktiver Technologien die M¨oglichkeit, Daten- punkte, die sehr nah an einer Entscheidungsgrenze liegen, noch w¨ahrend der

Der Ansatz, Produktkonfiguratoren, ebenfalls zur Zusammenstellung von Dienstleistungen einzusetzen liegt nahe, hat sich bisher in der Praxis aber nicht durchgesetzt.

Data Mining in speziellen Daten und Data Mining Anwendungen.. Vortrag im Rahmen des Seminars Business Intelligence

Wie diese für die Versorgungsforschung nutzbar gemacht werden können, war die zentrale Frage eines Workshops der Bundesärztekammer und des

Mittlerweile bleibt einem forschenden Data Miner eigentlich nur, sich mit fundierter Forschung zu beschaftigen (und milde bela- chelt zu werden) oder - und das ist

3 AMD-G verpflichtet ist der KommAustria auf schriftliches Verlangen die Auskünfte über Reichweiten (Marktanteile), Versorgungsgrad und Nutzer- oder Zuschauerzahlen