• Keine Ergebnisse gefunden

Statistische Analyseverfahren Abschnitt 4: Clusteranalyse

N/A
N/A
Protected

Academic year: 2021

Aktie "Statistische Analyseverfahren Abschnitt 4: Clusteranalyse"

Copied!
22
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Statistische Analyseverfahren Abschnitt 4: Clusteranalyse

Dr. Andreas W¨ unsche

TU Bergakademie Freiberg Institut f¨ ur Stochastik

November 2019

(2)

4 Clusteranalyse 4.1 Einf¨ uhrung

I Aufgabenstellung

Klassenbildung: f¨ ur Merkmalstr¨ ager (Untersuchungseinheiten, Objekte, . . . ) werden p Merkmale beobachtet, nun sollen Klassen (Cluster) gebildet werden, die hinsichtlich dieser Merkmale in sich homogen und zueinander deutlich unterschiedlich sind.

I Im Gegensatz zur Diskriminanzanalyse ist weder die Anzahl der Cluster noch die Zugeh¨ origkeit der Merkmalstr¨ ager (f¨ ur eine Datenmatrix) zu den unterschiedlichen Clustern bekannt.

I Stichworte f¨ ur ¨ ahnliche Ans¨ atze

Klassifikationsverfahren, automatische Klassifikation, numerische Taxonomie, unsupervised learning, pattern recognition.

I Beispiele

I

Marketing: geografische Gebiete mit ¨ ahnlichen Absatzmerkmalen;

I

Arch¨ aologie: Klassifikation von Funden zur Datierung.

(3)

Bemerkungen, Vorgehensweisen

I H¨ aufig gibt es viele Untersuchungseinheiten und große Anzahl von Merkmalen, deshalb steht die Aufgabe der Datenreduktion.

I Meistens ist auch die genauere Untersuchung von Repr¨ asentanten oder die Interpretation der Klassen von großem Interesse (

” data mining“,

” big data“).

I H¨ aufiger Ausgangspunkt ist eine n × p−Datenmatrix x .

I Deskriptive Verfahren

Zum Auffinden von Klassen (Clustern) nutzt man ¨ Ahnlichkeits- bzw.

Distanzeigenschaften der Merkmalsauspr¨ agungen.

I Auch stochastische Verfahren k¨ onnen genutzt werden.

I Im Allgemeinen kann man Ergebnisse nicht als

” richtig“ oder

” falsch“ beurteilen, sondern eher als

” brauchbar“ oder

” unbrauchbar“ in Hinsicht auf einen bestimmten Zweck. Dabei

spielen inhaltliche Kriterien eine große Rolle.

(4)

Beispiel 4.1.1

(aus: Horst Rinne , Statistische Analyse multivariater Daten : Einf¨ uhrung, R.Oldenbourg Verlag, M¨ unchen, Wien, 2000; Beispiel 2/1) Konvergenzkriterien, an denen die Fitness eines EU-Mitgliedstaates f¨ ur den Eintritt in die Europ¨ aische W¨ ahrungsunion festgemacht worden ist:

I X 1 Inflationsrate 1997 i.v.H.;

I X 2 langfristiger Zinssatz 1997 i.v.H.;

I X 3 ¨ offentliche Neuverschuldung 1997 i.v.H. des BIP von 1997;

I X 4 ¨ offentlicher Schuldenstand 1997 i.v.H. des BIP von 1997;

I X 5 Land (Kfz.-Kennzeichen).

(Negative Werte bei X 3 bedeuten einen Schuldenabbau.)

(5)

Datenmatrix Beispiel 4.1.1

Nr. X 1 X 2 X 3 X 4 X 5

1 1.4 5.7 2.1 122.2 B

2 1.9 6.2 -0.7 65.1 DK

3 1.4 5.6 2.7 61.3 D

4 1.3 5.9 0.9 55.8 FIN

5 1.2 5.5 3.0 58.0 F

6 5.2 9.8 4.0 108.0 GR

7 1.2 6.2 -0.9 66.3 IRL

8 1.8 6.7 2.7 121.6 I

9 1.4 5.6 -1.7 6.7 L

10 1.8 5.5 1.4 72.7 NL

11 1.1 5.6 2.5 66.1 A

12 1.8 6.2 2.5 62.0 P

13 1.9 6.5 0.8 76.6 S

14 1.8 6.3 2.6 68.8 E

15 1.8 7.0 1.9 53.4 GB

(6)

Streudiagrammmatrix Beispiel 4.1.1

(7)

Streudiagrammmatrix mit Ellipsen Beispiel 4.1.1

(8)

Streudiagramm X 1 /X 4 Beispiel 4.1.1

(9)

Streudiagramm X 2 /X 3 Beispiel 4.1.1

(10)

4.2 Distanzen und ¨ Ahnlichkeiten zwischen Objekten

I Bei deskriptiven Verfahren ist oft die Messung der ¨ Ahnlichkeit zwischen Merkmalstr¨ agern bzw. Mengen von Merkmalstr¨ agern eine Grundlage des Verfahrens. Dazu werden Ahnlichkeitsmaße ¨ und/oder Distanzmaße genutzt.

I F¨ ur Merkmalsvektoren x 1 = (x 11 , x 12 , . . . , x 1p ) T und

x 2 = (x 21 , x 22 , . . . , x 2p ) T bezeichne d (x 1 , x 2 ) die Distanz zwischen den entsprechenden Merkmalstr¨ agern und s (x 1 , x 2 ) deren

Ahnlichkeit. ¨

I Oft (aber nicht immer) nutzt man Distanzen, welche die Definitionseigenschaften von Metriken erf¨ ullen:

(i) d(x

1

, x

2

) ≥ 0 (Nichtnegativit¨ at);

(ii) d(x

1

, x

2

) = d(x

2

, x

1

) (Symmetrie);

(iii) d(x

1

, x

2

) = 0 genau dann, wenn x

1

= x

2

;

(iv) d(x

1

, x

2

) ≤ d(x

1

, x

3

) + d(x

3

, x

2

) (Dreiecksungleichung).

(11)

4.2.1 Abst¨ ande f¨ ur dichotome Merkmale

I Dichotome Merkmale sind durch nur zwei m¨ ogliche Auspr¨ agungen gekennzeichnet, diese sind in der Regel 0 bzw. 1 (z.B. f¨ ur

” eine Eigenschaft ist nicht vorhanden“ bzw.

” ist vorhanden“).

I F¨ ur eine Stichprobe von zweidimensionalen Vektoren, gebildet mit x 1 = (x 11 , x 12 , . . . , x 1p ) T , x 2 = (x 21 , x 22 , . . . , x 2p ) T , kann die Vierfeldertafel (Kontingenztafel) mit den H¨ aufigkeiten von Auspr¨ agungspaaren aufgestellt werden:

x 2j = 1 x 2j = 0 x 1j = 1 a 11 a 10

x 1j = 0 a 01 a 00

I Bsp. 4.2.1 p = 6 , x 1 = (0, 1, 0, 1, 1, 0) T , x 2 = (1, 0, 1, 1, 0, 0) T ; 1 0

1 1 2

0 2 1

(12)

Matching-Koeffizient (M-Koeffizient, matching coefficient)

I Als ¨ Ahnlichkeitsmaß kann der Matching-Koeffizient (matching coefficient) genutzt werden. Er gibt den Anteil ¨ ubereinstimmender Auspr¨ agungen an, dabei werden ¨ Ubereinstimmungen und

Nicht¨ ubereinstimmungen gez¨ ahlt und gleich gewichtet:

s MC (x 1 , x 2 ) = a 11 + a 00

p .

I Als zugeh¨ origes Distanzmaß (Abstandsmaß) nutzt man d MC (x 1 , x 2 ) = 1 − s MC (x 1 , x 2 ) = a 10 + a 01

p .

I F¨ ur das Beispiel 4.2.1 gilt:

s MC (x 1 , x 2 ) = 2 6 = 1

3 , d MC (x 1 , x 2 ) = 1 − 1 3 = 2

3 .

(13)

φ-Koeffizient

I Zur Messung der ¨ Ahnlichkeit kann auch der φ-Koeffizient s φ (x 1 , x 2 ) = φ(x 1 , x 2 ) genutzt werden, mit

φ(x 1 , x 2 ) = a 11 a 00 − a 10 a 01

p (a 11 + a 10 )(a 11 + a 01 )(a 00 + a 10 )(a 00 + a 01 ) .

I Der φ-Koeffizient kann nur definiert werden, wenn in beiden Vektoren sowohl die

” 0“ als auch die

” 1“ auftritt und kann dann Werte zwischen -1 und 1 annehmen.

I Das zugeh¨ orige Abstandsmaß ist d φ (x 1 , x 2 ) = 1 − s φ (x 1 , x 2 ) .

I F¨ ur das Beispiel 4.2.1 gilt:

s φ (x 1 , x 2 ) = 1 · 1 − 2 · 2

3 · 3 · 3 · 3 = − 1

3 , d φ (x 1 , x 2 ) = 1 −

− 1 3

= 4 3 .

I Daneben gibt es eine Vielzahl anderer M¨ oglichkeiten zur Messung

der ¨ Ahnlichkeit oder Distanz von Merkmalsvektoren mit dichotomen

Merkmalen (siehe Literatur).

(14)

4.2.2 Abst¨ ande f¨ ur nominale Merkmale

I Bei p-dimensionalen Vektoren mit nur mehrstufigen nominalen Merkmalen wird am h¨ aufigsten der verallgemeinerte M-Koeffizient als ¨ Ahnlichkeitsmaß verwendet:

s MC (x 1 , x 2 ) = n 12

p ,

n 12 ist hier die Anzahl der ¨ Ubereinstimmungen von Komponenten von x 1 und x 2 . Als Abstandsmaß kann

d MC (x 1 , x 2 ) = 1 − s MC (x 1 , x 2 ) genutzt werden.

I Bsp. 4.2.2 p = 5 , x 1 , x 2 dichotome Merkmale, x 3 , x 4 , x 5 , x 6

nominale Merkmale mit m¨ oglichen Auspr¨ agungen {1, 2, 3} ; x 1 = (1, 0, 3, 1, 2, 2) T , x 2 = (1, 1, 2, 2, 3, 3) T ;

n 12 = 1 ⇒ s MC (x 1 , x 2 ) = 1

6 , d MC (x 1 , x 2 ) = 5

6 .

(15)

Nutzung von Dummyvariablen

I Eine andere M¨ oglichkeit besteht in der Einf¨ uhrung von sogenannten Dummyvariablen. Dabei wird jede nominale Variable mit mehr als 2 m¨ oglichen Auspr¨ agungen durch eine gr¨ oßere Anzahl von dichotomen Variablen ersetzt.

I Im Beispiel 4.2.2 kann man z.B. jede der Variablen mit 3 m¨ oglichen Auspr¨ agungen durch 2 dichotome Variablen kodieren, indem z.B. 1 durch (1, 0) , 2 durch (0, 1) und 3 durch (0, 0) kodiert wird.

I Im Beispiel 4.2.2 erh¨ alt man so

˜

x 1 = (1, 0, 0, 0, 1, 0, 0, 1, 0, 1) T ,

˜

x 2 = (1, 1, 0, 1, 0, 1, 0, 0, 0, 0) T ;

˜

n 12 = 4 ⇒ s MC (˜ x 1 , ˜ x 2 ) = 4

10 = 0.4 , d MC (˜ x 1 , ˜ x 2 ) = 0.6 .

(16)

4.2.3 Abst¨ ande f¨ ur ordinale Merkmale

I Auch hier kann man eine Dummy-Codierung anwenden und eines der Abstandsmaße f¨ ur dichotome Merkmalsvektoren nutzen.

I Bsp. 4.2.3 Merkmal X Schulabschluss mit Auspr¨ agungen:

A . . . keiner, B . . . Hauptschule, C . . . Realschule, D . . . Abitur, (A < B < C < D) . Diese k¨ onnen z.B. codiert werden durch

A = (0, b 0, 0) , B = (1, b 0, 0) , C = (1, b 1, 0) , D = (1, b 1, 1) . F¨ ur x T 1 = (A, B, A, B) , x T 2 = (B, A, B , A) , x T 3 = (D, C , D, D) erh¨ alt man

˜

x 1 = (0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0) T ,

˜

x 2 = (1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0) T ,

˜

x 3 = (1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1) T ; s MC (˜ x 1 , ˜ x 2 ) = 8

12 , s MC (˜ x 1 , ˜ x 3 ) = 3

12 , s MC (˜ x 2 , ˜ x 3 ) = 3 12 ; d MC (˜ x 1 , ˜ x 2 ) = 4

12 ; d MC (˜ x 1 , ˜ x 3 ) = 9

12 , d MC (˜ x 2 , ˜ x 3 ) = 9

12 .

(17)

4.2.4 Abst¨ ande f¨ ur metrische Merkmale

F¨ ur x 1 = (x 11 , x 12 , . . . , x 1p ) T , x 2 = (x 21 , x 22 , . . . , x 2p ) T definiert man die L r -Metrik (den L r -Abstand, 1 ≤ r < ∞) durch

d 12 = d L

r

(x 1 , x 2 ) =

r

v u u t

p

X

i=1

|x i 1 − x 2i | r mit den Spezialf¨ allen

I r = 2 Euklid ischer Abstand d 12 = d L

2

(x 1 , x 2 ) =

v u u t

p

X

i =1

|x i1 − x 2i | 2 ;

I r = 1 City-Block-Abstand (Manhattan-Abstand) d 12 = d L

1

(x 1 , x 2 ) =

p

X

i=1

|x i1 − x 2i | ;

I Grenzfall r = ∞ Tschebyscheff -Abstand (Maximumsabstand) d 12 = d L

(x 1 , x 2 ) = max

i=1,...,p |x i1 − x 2i | .

(18)

Punkte mit Abstand 1 vom Koordinatenursprung im R 2

Einheitskreise (Punkte mit Abstand 1 von (0, 0) im R 2 ) f¨ ur:

blau: Euklid ischer Abstand, rot: Manhattan-Abstand,

schwarz: Maximumsabstand, gr¨ un: Minkowski- Abstand mit p = 4.

(19)

Beispiele, Bemerkungen

I Bsp. 4.2.4 x 1 = (−1, 3) T , x 2 = (4, −1) T .

I Bsp. 4.2.5 (K¨ orpergr¨ oße/Schuhgr¨ oße) x 1 = (1.84, 44) T , x 2 = (1.56, 36) T bzw.

x 1 = (184, 44) T , x 2 = (156, 36) T (bei K¨ orpergr¨ oße in cm).

I Bem.

Die L r -Abst¨ ande sind zwar translationsinvariant, aber nicht skaleninvariant. ¨ Andert man die Skalierungen, dann ¨ andert sich der Abstand (und im Allgemeinen f¨ ur unterschiedliche

Merkmalsvektorpaare unterschiedlich). Deshalb sollten die

metrischen Merkmale vor der Bestimmung des Abstandes skaliert werden. Dies geschieht dadurch, dass die Merkmalswerte

standardisiert werden und dann Abst¨ ande oder ¨ Ahnlichkeiten

zwischen standardisierten Daten bestimmt werden.

(20)

Zentrierte und standardisierte metrische Merkmale

I F¨ ur eine empirische n × p−Datenmatrix x = (x ij ) i=1,...,n;j=1,...,p

(n Merkmalstr¨ ager – Zeilen, p Merkmale – Spalten) ist x j = 1

n

n

X

i=1

x ij der Mittelwert des j-ten Merkmals und

s j 2 = 1 n − 1

n

X

i=1

(x ij − x j ) 2 die empirische Varianz des j -ten Merkmals (j = 1, . . . , p).

I Dann sind die Werte f¨ ur das

zentrierte j -te Merkmal x ij z := x ij − x j , standardisierte j -te Merkmal x ˜ ij := x ij − x j

s j = x ij z s j .

I Der Mittelwert des zentrierten oder standardisierten Merkmals ist 0.

Die empirische Varianz und die empirische Standardabweichung des

standardisierten Merkmals ist 1.

(21)

Mahalanobis-Abstand

I Von vornherein translations- und skaleninvariant ist der empirische quadrierte Mahalanobis -Abstand

d M 2 (x 1 , x 2 ) = (x 1 − x 2 ) T s −1

x (x 1 − x 2 ) mit der empirischen Kovarianzmatrix

s x = 1 n − 1

n

X

i=1

(x i − x)(x i − x) T

f¨ ur die Datenmatrix x . Dieses Distanzmaß (und auch der Mahalanobis -Abstand selber) ist sogar invariant bez¨ uglich beliebigen nichtsingul¨ aren affin linearen Transformationen.

I Weiterhin besitzt der Mahalanobis -Abstand die Eigenschaft, dass die Abst¨ ande stets unter Verwendung von (empirisch) unkorrelierten Merkmalen berechnet werden, auch wenn die urspr¨ unglichen

Merkmale korreliert sind.

(22)

Verschiedene Merkmalstypen in einem Merkmalsvektor

Angenommen, ein Merkmalsvektor x hat p metr metrische, p ord ordinale und p nom nominale Komponenten, so dass p metr + p ord + p nom = p und x = (x T metr , x T ord , x T nom ) T gelten.

Dann kann man z.B. die ¨ Ahnlichkeit von zwei Merkmalsvektoren als gewichtetes arithmetisches Mittel der ¨ Ahnlichkeiten zwischen den entsprechenden metrischen Merkmalen s metr (x 1metr , x 2metr ) , den ordinalen Merkmalen s ord (x 1ord , x 2ord ) und den nominalen Merkmalen s nom (x 1nom , x 2nom ) berechnen:

s(x 1 , x 2 ) = 1 p

p metr s metr (x 1metr , x 2metr ) + p ord s ord (x 1ord , x 2ord ) + p nom s nom (x 1nom , x 2nom )

.

Referenzen

ÄHNLICHE DOKUMENTE

I Um f¨ ur eine gegebene Distanzmatrix d eine Punktekonfiguration berechnen zu k¨ onnen, reicht es also aus, die dazu entsprechende Matrix b zu berechnen.. Die in diesen R¨

Das Merkmal Bev ist die absolute Bev¨olkerungszahl (in tausend Einwohner) der Region, w¨ahrend das Merkmal BevOZ die Bev¨olkerungszahl (in tausend Einwohner) im Oberzentrum und

Ergänze die fehlenden Begriffe. Der Wortspeicher hilft dir dabei. Märchen haben wiederkehrende Merkmale, an denen man sie gut erkennen kann. Dabei sind natürlich nicht in jedem

denen man sie gut erkennen kann. Dabei sind natürlich nicht in jedem Märchen alle Merkmale zu finden. im Wald, vor langer Zeit. ein König und eine Königin, ein Prinz und

In Sprachen (wie Englisch, Deutsch) mit beweglicher Betonung wird oft zwischen starken und schwachen Silben unterschieden.. geben verneinen

Gibt es phonetische Unterschiede zwischen starken Silben mit und ohne primärer Wortbetonung, wenn die Wörter nicht akzentuiert sind (wenn kein Tonakzent und daher keine

(5.4) Definition Unter einer Kodierung oder Skalierung eines Merkmals versteht man eine Abbildung der Auspragungen des Merkmals in die Menge der reellen Zahlen.. Der Skalentyp

● Die Methode main kann auch in einer anderen Klasse programmiert werden.. ● Beide Klassen müssen zunächst im selben