Vorlesung Maschinelles Lernen

(1)

Lernaufgabe Cluster-Analyse K-Means Hierarchisches Clustering

Vorlesung Maschinelles Lernen

Cluster Analyse

Katharina Morik

LS 8 Künstliche Intelligenz Fakultät für Informatik Technische Universität Dortmund

6.1.2009

1 von 38

Gliederung

1 Lernaufgabe Cluster-Analyse Abstandsmaße

Optimierungsprobleme

2 K-Means

Bestimmung vonK

3 Hierarchisches Clustering

2 von 38

Lernaufgabe Clustering

Gegeben

eine MengeT ={x!₁, ...,x!_N}⊂X von Beobachtungen, eine AnzahlK zu findender GruppenC₁, ..., C_K, eine Abstandsfunktiond(!x,x!^!)und

eine Qualitätsfunktion.

Finde

GruppenC1, ..., C_K, so dass

alle!x∈X einer Gruppe zugeordnet sind und

die Qualitätsfunktion optimiert wird: Der Abstand zwischen Beobachtungen der selben Gruppe soll minimal sein; der Abstand zwischen den Gruppen soll maximal sein.

Bild

Der Abstand wurde zum Cluster-Zentrum gemessen. Dadurch ergibt sich der grüne Punkt neben den roten.

Elements of Statistical Learning c!Hastie, Tibshirani & Friedman 2001 Chapter 14

• • •

•

• • •

•

• •

• • •

• •• •

•

• •

•

• •

•

• •

•

• •

•

• •

•

• •

•

• • •

•

• • •

•• • •

•

• •

•

• •

•

•• •

•

• • ••

•

• • • •

• • ••

•

• •

••

•

• •

•

••

•

• •

•

•••

•

• •

•• •

X1 X2

Figure 14.4: Simulated data in the plane, clustered into three classes (represented by red, blue and green), by theK-means clustering algorithm

Könnte ein besseres Abstandsmaß den grünen Punkt dem roten Cluster zuweisen?

Wenn nicht nur ein Punkt als Repräsentation eines Clusters gewählt wird, würde das Clustering dann besser?

Wie kann man die Cluster verständlich beschreiben?

WäreK = 2besser gewesen?

(2)

Die Probleme der Cluster-Analyse

1 Bestimmung des Abstandsmaßes

2 Formulierung des Optimierungsproblems

3 Repräsentation der Cluster

4 Bestimmung vonK

5 von 38

Bestimmung des Abstandsmaßes

Ähnlichkeitsmaße haben wir schon bei kNN gesehen.

Im Allgemeinen ist der Abstand invers zur Ähnlichkeit:

D(x!1,x!2) = 1−Sim(x!1,x!2) Man kann aber irgendeine geeignete monoton

absteigende Funktion zur Überführung der Ähnlichkeiten in Abstände wählen.

6 von 38

sim: Ähnlichkeit für einzelne Attribute (Erinnerung)

Numerische Attribute: Seimax_j der höchste Wert vonX_j und minj der niedrigste, seixij der Wert desj-ten Attributs in deri-ten Beobachtung, dann ist die normalisierte Ähnlichkeit:

sim_j(x_1j, x_2j) = 1− |x1j−x2j| max_j−min_j Nominale Attribute: Ganz einfach:

sim_j(x_1j, x_2j) =! 1 f alls x_1j =x_2j 0 sonst

7 von 38

d: Abstand für einzelne Attribute

Numerische Attribute: Ohne Normalisierung durch max_j−min_jist der Betrag der Differenz:

d_j(x_ij, x_i!j) =|x_ij−x_i!j | Der quadratische Abstand zwischen

Beobachtungenxiundx^!_i bezüglich des Merkmals X_j gewichtet große Abstände stärker als kleine:

d_j(x_ij, x_i!j) = (x_ij−x_i!j)² (1) Nominale Attribute: Man kann für jede VariableX_j mitM

Attributwerten eineM×M Abstandsmatrix angeben oder einfach:

dj(x_1j, x2j) =! 1 f alls x1j %=x2j

0 sonst

8 von 38

(3)

Sim: Ähnlichkeit der Beobachtungen als Kombination der Attributähnlichkeiten

Im einfachsten Fall mitteln wir die Einzelähnlichkeiten:

Sim(x!₁,x!₂) = 1 p

"p j=1

sim(x_1j, x_2j)

DieKorrelationverwendet das Mittelx¯iüber allenpVariablen:

Sim(x!1,x!2) =

#p

j=1(x_1j−x¯₁)(x_2j−x¯₂)

$#p

j=1(x_1j−x¯₁)²#p

j=1(x_2j−x¯₂)² (2) Vielleicht sind einige Attribute wichtiger als andere?

Sim(x!₁,x!₂) =

#p

j=1w_jsim(x_1,j, x_2,j)

#p j=1w_j Wie bestimmt manwj?

9 von 38

Abstandsmaß

Verwendet wird eineN×N MatrixDfür dieN

Beobachtungen, wobeid12der Eintrag fürD(x!1,x!2)ist.

Die Matrix hat keine negativen Einträge.

Die Diagonale der Matrix:dii= 0

Der Abstand soll symmetrisch sein – falls nicht:

(D+D^T)/2.

10 von 38

D: Abstand der Beobachtungen als Kombination der Attributabstände

Gewichteter Durchschnitt:

D(x!₁,x!₂) =

"p j=1

w_jd_j(x_1j, x_2j);

"p j=1

w_j= 1 (3) Bei quadratischem Abstandd₁₂ergibt sich:

D(x!₁,x!₂) =

"p j=1

w_j(x_1j−x_2j)² (4) Man kann die Korrelation (Gleichung 2) verwenden:

1−Sim(x!1,x!2) (5)

Einfluss einer Variablen auf das Clustering

Wenn für alle Variablenwj = 1wäre, hätten doch nicht alle Variablen den gleichen Einfluss auf das Clustering!

Der Einfluss einer VariableX_j richtet sich vielmehr nach ihrer durchschnittlichen Unähnlichkeit:

d¯j = 1 N²

"N i=1

"N i^!=1

dj(x_ij, xi^!j) (6) Beim gewichteten quadratischen Abstand

d¯_j = 1 N²

"N i=1

"N i^!=1

(x_ij−x_i!j)²= 2·var_j (7) wobeivarj die anhand der BeobachtungmengeT

geschätzte Varianz vonX_j ist.

Der Einfluss einer Variablen auf das Clustering richtet sich also nach der Varianz! Der relative Einfluss istwj d¯j.

(4)

Beispiel für Nachteil gleichen Einflusses der Variablen

-6 -4 -2 0 2 4

-6-4-2024

• •

•

••

•

• •

•

•••

•

••

•

• ••

• •

•••

• • ••

• • •

•

• •

•

• •

•

••

•

••

• •

• •• •

•

••••

••

•

••

•

• •

•

••

•

••

•

••

•

-2 -1 0 1 2

-2-1012

•

••

•

••

•

••

•

• •

•

• •

••

•

• •

•

• •

•• •

•

••

•

••

•

••

• •

•

••

•

• ••• •

•

••• • ••

•

X1 X1

X2 X2

Figure 14.5: Simulated data: on the left, K-means clustering (withK=2) has been applied to the raw data.

The two colors indicate the cluster memberships. One the right, the features were first standardized before clustering. This is equivalent to using feature weights 1/[2·var(Xj)]. The standardization has obscured the two well-separated groups. Note that each plot uses the same units in the horizontal and vertical axes.

Alle Variablen haben den selben Einfluss auf das Clustering, wennw_j ∼1/d¯_j. Wenn als Gewichte w_j = _2·var¹

j gewählt wird, hat man den Einfluss der Varianz ausgeschaltet und erhält manchmal keine gute

Separierung mehr.

13 von 38

Es hängt von der Anwendung ab, wie manw_j wählt!

Für eine Anwendung kann man vor dem Clustern

1 gar nichts tun, d.h. die Rohdaten ohne Gewichtung und ohne Normalisierung clustern,

2 die Rohdatennormalisieren(Werte im selben

Wertebereich, z.B.[0,1], oder jeweilsmaxj−minj in den Abständen),

3 d¯_j für jedes Merkmal berechnen (Varianz-Gleichung 7),

4 die Rohdatenstandardisieren, so dass alle Variablen den gleichen Einfuss haben,

5 Gewichtewj, die dem Sachbereich entsprechen könnten oder dem Clustering-Ziel, direkt auf die Daten als

Transformation der Eingabe anzuwenden. (Implizitesw_j!)

6 Dann die Ergebnisse vergleichen!

14 von 38

Qualitätsfunktionen

Sei die AnzahlK der Cluster gegeben und jedes Cluster durch eine ganze Zahlk∈{1,2, ..., K}eindeutig ausgezeichnet. Die AbbildungC(i) =kweist deri-ten Beobachtung dask-te Cluster zu.

Innerer Abstand Within: Minimiert werden soll der Abstand innerhalb eines ClustersC:

W(C) = 1 2

"K k=1

"

C(i)=k

"

C(i^!)=k

D(x!_i,x!_i!) (8) Zwischenunähnlichkeit Between: Maximiert werden soll der

Abstand zwischen Clustern:

B(C) = 1 2

"K k=1

"

C(i)=k

"

C(i^!)"=k

d(x_i, x_i!) (9)

15 von 38

Optimierungsproblem der Cluster-Analyse

Gegeben die Summe aller AbständeT = ¹₂#N i=1

#N i^!=1d_ii!, ergänzen sichW(C) +B(C) =T, so dass die Minimierung vonW(C)der Maximierung vonB(C)entspricht.

Man hat so nureinOptimierungsproblem.

Seix¯k = (¯x1k, ...,x¯pk)der Vektor der Mittelwerte aller Variablen in ClusterkundN_k =#N

i=1I(C(i) =k), dann ist das Optimierungsproblem:

C^∗=minC

"K k=1

Nk

"

C(i)=k

'x!i−x¯k '² (10)

16 von 38

(5)

Iteratives Lösen des Optimierungsproblems – K-Means Algorithmus K-Means(T, K)

1 WähleK Beobachtungen ausT zufällig als Mittelpunkte

!

m1, ...,m!K von Clustern aus.

2 Berechne das Clustering anhand der Mittelpunkte:

C(i) =argmin₁_≤_k_≤_K 'x!_i−m!_k '² (11)

3 Berechne die Mittelpunkte entsprechendC(i):

!

m_i:=argmin_m

"N i=1

'x!_i−m! '² (12)

4 Wiederhole Schritt 2 und 3 bis die Zuweisungen sich nicht mehr ändern. Gib zurückC(1), ..., C(K).

17 von 38

K-Means im BildElements of Statistical Learning c!Hastie, Tibshirani & Friedman 2001 Chapter 14

-4 -2 0 2 4 6

-20246

Initial Centroids

• • •

•

••• •

• •

••

•

• •

• ••

• •••

•

• •

•

• •

•

••••

•

• •

•

• •

••

•

• •

•

••

•

• •

•

• •

•

• • •

•

• • •

•• ••

•

•• ••

•

• •

•

• ••

•

• • ••

•

• •• •

• ••

•

• •

• • •••

•

• •

•

••

•

• •

•

••

•

• •

••

•••

• • •

•

••

• • •

•

••• •

• •

••

•

• •

• ••

• •••

•

• •

•

• •

•

••••

•

• •

•

• •

••

•

• •

•

••

•

• •

•

• •

•

• • •

•

• • •

•• • •

•

•• ••

•

• •

•

• ••

•

• • ••

•

• •• •

• ••

•

• •

• ••••

•

• •

•

••

•

• •

•

••

•

• •

•• •

• • •

•

••

Initial Partition

• • •

•

••• •

• •

•

• •

• ••

• •••

•

• •

•

• •

••

•

• •

•

• •

••

•

••

•

••

•

• •

•

• • •

•

• • •

•• ••

•

• •

•

• •

•

• • •

•

• ••• •

•

• •

• • •

•

• •

•

••

•

• •

•

• •

•

• •

••

••• Iteration Number 2

• • •

•

• • •

•

••• •

• •

•

• •

• ••

• •••

•

• •

•

• •

••

•

• •

•

• •

••

•

••

•

••

•

••

•

• •

•

• • •

•

• • •

•• • •

•

• •

•

• •

•

•• •

•

• • ••

•

• ••• •

• ••

•

• •

••

•

• •

•

••

•

• •

•

••••

• •

•• • Iteration Number 20

• • •

•

••

Figure 14.6: Successive iterations of the K-means clustering algorithm for the simulated data of Fig- ure 14.4.

18 von 38

Eigenschaften von K-Means

K-Means ist für numerische Variablen gemacht.

Als Abstandsmaß wird der quadratische Euklidsche Abstand genutzt.

Den größten Einfluss haben Datenpunkte mit dem größten Abstand.

Das Verfahren ist daher anfällig für Ausreißer.

Der Aufwand ist proportional zuN·K.

Für jedes Cluster wird der Mittelpunkt berechnet anhand der zugeordneten Beobachtungen. Ein Cluster ist also nur durch einen Punkt repräsentiert.

Für alle Beobachtungen wird der Abstand zu denK Mittelpunkten berechnet.

Es kann sein, dass die Lösung von K-Means nicht optimal ist (lokales Optimum).

Repräsentation der Cluster

K-Means repräsentiert ein Cluster durch einen errechneten Punkt. Dies ist effizient.

K-Medoid wählt eine Beobachtung als Repräsentation eines Clusters. Dafür muss über allen Punkten optimiert werden – ineffizient.

Rajeev Rastogi hat vorgeschlageneinigePunkte als Repräsentation eines Clusters zu wählen (well scattered points).

Oft möchte man eine interpretierbare Charaktierisierung der Cluster haben.

Aufgabe deslabeling: finde eine (logische)

Charakterisierung der Cluster. Man betrachtet die Cluster als Klassen und wendet z.B. Entscheidungsbaumlernen an.

Ryszard Michalski hat ein logisches Cluster-Verfahren vorgeschlagen, die Star-Methode (AQ-Algorithmus), bei dem direkt über den nominalen Werten der Beobachtungen gearbeitet wird.

(6)

Bestimmung der vorgegebenen Mittelpunkte

Die Lösung von K-Means hängt von den gewählten Start- mittelpunkten ab. Dafür gibt es mindestens zwei Auswege:

Mehrfach mit zufällig gewählten Startmittelpunkten den Algorithmus starten!

Optimierungskriterium

min_C,_{_m_k_}K 1

"K k=1

N_k "

C(i)=k

'x!i−m_k '² Fürk= 1, ..., K:

Wähle einen Mittelpunkti_kso, dass das Kriterium minimiert wird gegebeni₁, ..., i_k₋₁.

Starte K-Means mit den so gefundenenK Mittelpunkten.

21 von 38

Wie viele Cluster sollen gebildet werden?

Vielleicht geht aus der Anwendung hervor, wie viele Cluster nötig sind. Z.B. sollen Kunden so aufK

Vertriebsmitarbeiter aufgeteilt werden, dass ein Mitarbeiter ähnliche Fälle bearbeitet.

Oft sollK^∗anhand der Daten so ermittelt werden, dass die Clustering-Qualität optimiert wird (Gleichung 8).

W(C) = 1 2

"K k=1

"

C(i)=k

"

C(i^!)=k

D(x!_i,x!_i^!) Man bestimmtW₁, ..., W_Kmax fürK= 1, ..., Kmax.

22 von 38

Daten-gestützte Bestimmung vonK

WennK < K^∗, dann ist meist eine Teilmenge der

Beobachtungen in einem Cluster schon richtig zugeordnet, das Cluster müsste aber weiter aufgeteilt werden.

W_K+1<< W_K

WennK > K^∗, dann ist ein ‘richtiges’ Cluster zerteilt worden.

W_K+1< W_K.

Man sucht also nach einem Knick in der Kurve der W₁, ..., W_Kmax-Werte und wählt alsK den Wert mit dem geringsten AbstiegWK−WK+1.

{WK−WK+1|K < K^∗}>>{WK−WK+1|K≥K^∗}

23 von 38

Gap Heuristik

Tibshirani et al. (2001) vergleichen die Kurve der anhand der Daten gemessenenW-Werte mit einer “normalen”.

Es werdennMal zufällig Datenpunkte erzeugt, die innerhalb einer Hülle um die Beobachtungen gleichmäßig verteilt sind.

Für die simulierten Daten werden dieW-Werte ausgerechnet und der Erwartungswert bestimmt.

Die Kurven werden auf einer logarithmisierten Skala aufgetragen und verglichen: wo der Abstand zwischen den Kurven (gap) am größten ist, liegt das richtigeK^∗.

24 von 38

(7)

Gap Heuristik im BildElements of Statistical Learning c!Hastie, Tibshirani & Friedman 2001 Chapter 14

Number of Clusters

2 4 6 8

4567 •

• •

• • • • •

•

• •

• • •

Number of Clusters

Gap

2 4 6 8

-1.5-1.0-0.50.0

•

• • • •

• logWK

Figure 14.11: Left panel: observed (green) and expected (blue) values oflogWK for the simulated data of Figure 14.4. Right panel: Gap curve, equal to the difference between the observed and expected values of logWK. The Gap estimateK^∗is the smallestKpro- ducing a gap within one standard deviation of the max-

imum; hereK^∗= 2. 25 von 38

Was wissen Sie jetzt?

Sie haben die Abstandsmaße kennengelernt und sich dabei an die Ähnlichkeit beikNN erinnert.

Sie kennen das Optimierungsproblem des Clusterings (Gleichung 10).

Sie kennen das Qualitätskriterium des inneren Abstands (Gleichung 8).

Die Repräsentation eines Clusters kann durch alle zugeordneten Punkte, einige zugeordnete Punkte, einen zentralen zugeordneten Punkt oder ein berechnetes Zentrum sowie durch logische Formeln erfolgen.

Zur Lösung des Optimierungsproblems kennen Sie K-Means: Euklidscher Abstand, Repräsentation durch berechnete Mittelpunkte, iteratives Vorgehen.

Als Vorgehen zur Wahl der AnzahlK und zur Initialisierung derK Mittelpunkte haben Sie Heuristiken gesehen.

26 von 38

Hierarchisches Clustering

Die Cluster sollen nicht auf einer Ebene liegen, sondern eine Taxonomie bilden.

Die unterste Ebene enthält einzelne Beobachtungen.

Jede Ebene enthält Cluster, die (zwei) Cluster der Ebene darunter subsummieren.

Die oberste Ebene enthält ein Cluster mit allen Beobachtungen.

Man unterscheidet ein Vorgehen bottom-up (agglomerativ) und top-down (aufteilend).

Agglomeratives Clustering

Stufenweise werden Beobachtungen zu übergeordneten Clustern verschmolzen.

Oft wird ein binärer Baum erzeugt, d.h. immer je 2 Cluster werden verschmolzen.

Der Benutzer sucht die aussagekräftigste Ebene aus.

Grundlage ist dieUnähnlichkeit von Clustern: solche mit geringster Unähnlichkeit werden verschmolzen.

Die Unähnlichkeitd(G, H)der ClusterG, Hwird berechnet durch den Abstanddgh=D(x!g,x!h), wobeix!g∈G,x!h∈H.

Welche Beobachtungen genutzt werden, macht den Unterschied zwischen den 3 wichtigsten Maßen zur Cluster-Unähnlichkeiten aus.

(8)

Single Linkage Clustering

Die Unähnlichkeit zwischen ClusterGundH ist die Unähnlichkeit der nächsten Punkte.

d_SL(G, H) = min_x_!_g_∈_G,_x_!_h_∈_HD(x!_g,x!_h)

= min_g∈G,h∈H d_gh

Problem: Single Linkage ergibt eventuell Cluster, die nicht kompakt sind mit großer Unähnlichkeit innerhalb eines Clusters.

29 von 38

Complete Linkage Clustering

Die Unähnlichkeit zwischen ClusterGundH ist die Unähnlichkeit der entferntesten Punkte.

d_CL(G, H) = max_x_!_g_∈_G,_x_!_h_∈_HD(x!_g,x!_h)

= max_g∈G,h∈H d_gh

Problem: Complete Linkage produziert kompakte Cluster, aber eventuell sind die Beobachtungen eines ClustersG näher zu denen eines anderenH als zu denen inG.

30 von 38

Average Linkage Clustering

Die Unähnlichkeit zwischen ClusterGundH ist die

durchschnittliche Unähnlichkeit aller Punkte inGvon allen inH.

d_AL(G, H) = 1 N_GN_H

"

g∈G

"

h∈H

d_gh

Kompromiss zwischen Single und Complete Linkage:

relativ kompakte Cluster, die relativ weit von einander entfernt sind.

Problem: Eine strikt monoton aufsteigende Transformation des Abstandsmaßesh(d_gh)kann das Ergebnis stark verändern.

31 von 38

Beispiel MicroArray-Daten über Krebs

SID42354 SID31984 SID301902 SIDW128368 SID375990 SID360097 SIDW325120 ESTsChr.10 SIDW365099 SID377133 SID381508 SIDW308182 SID380265 SIDW321925 ESTsChr.15 SIDW362471 SIDW417270 SIDW298052 SID381079 SIDW428642 TUPLE1TUP1 ERLUMEN SIDW416621 SID43609 ESTs SID52979 SIDW357197 SIDW366311 ESTs SMALLNUC SIDW486740 ESTs SID297905 SID485148 SID284853 ESTsChr.15 SID200394 SIDW322806 ESTsChr.2 SIDW257915 SID46536 SIDW488221 ESTsChr.5 SID280066 SIDW376394 ESTsChr.15 SIDW321854 WASWiskott HYPOTHETIC SIDW376776 SIDW205716 SID239012 SIDW203464 HLACLASSI SIDW510534 SIDW279664 SIDW201620 SID297117 SID377419 SID114241 ESTsCh31 SIDW376928 SIDW310141 SIDW298203 PTPRC SID289414 SID127504 ESTsChr.3 SID305167 SID488017 SIDW296310 ESTsChr.6 SID47116 MITOCHOND Chr SIDW376586 Homosapiens SIDW487261 SIDW470459 SID167117 SIDW31489 SID375812 DNAPOLYME SID377451 ESTsChr.1 MYBPROTO SID471915 ESTs SIDW469884 HumanmRNA SIDW377402 ESTs SID207172 RASGTPASE SID325394 H.sapiensmRN GNAL SID73161 SIDW380102 SIDW299104

BREASTRENAL MELANOMAMELANOMAMCF7D-repro

COLONCOLON K562B-reproCOLONNSCLCLEUKEMIARENALMELANOMABREASTCNSCNSRENALMCF7A-reproNSCLCK562A-reproCOLONCNSNSCLCNSCLCLEUKEMIACNS

OVARIANBREAST LEUKEMIAMELANOMAMELANOMAOVARIANOVARIANNSCLCRENALBREASTMELANOMAOVARIANOVARIANNSCLCRENALBREAST

MELANOMALEUKEMIA COLONBREASTLEUKEMIACOLONCNSMELANOMANSCLCPROSTATE

NSCLCRENALRENALNSCLCRENAL LEUKEMIAOVARIANPROSTATECOLONBREASTRENALUNKNOWN

Figure 1.3: DNA microarray data: expression matrix of 6830 genes (rows) and 64 samples (columns), for the human tumor data. Only a random sample of 100 rows are shown.

The display is a heat map, ranging from bright green (nega- tive, under expressed) to bright red (positive, over expressed).

Missing values are gray. The rows and columns are displayed in a randomly chosen order.

32 von 38

(9)

Beispiel Average Linkage bei MicroArray-Daten über Krebs

ElementsofStatisticalLearningc!Hastie,Tibshirani&Friedman2001Chapter14

CNS CNS

CNS RENAL

BREAST CNSCNS

BREAST NSCLC

NSCLC RENAL

RENAL RENAL

RENAL RENAL RENAL

RENAL BREAST

NSCLC RENAL

UNKNOWN OVARIAN

MELANOMA

PROSTATE OVARIAN OVARIAN

OVARIAN OVARIAN

OVARIAN PROSTATE NSCLC NSCLC

NSCLC LEUKEMIA K562B-repro

K562A-repro LEUKEMIA

LEUKEMIA LEUKEMIA

LEUKEMIA

COLON COLON

COLON COLON COLON

COLON COLON MCF7A-repro

BREAST MCF7D-repro

BREAST NSCLC

NSCLC NSCLC MELANOMA BREAST

BREAST

MELANOMA MELANOMA MELANOMA MELANOMA

MELANOMA MELANOMA

Figure14.12:Dendrogramfromagglomerativehier-archicalclusteringwithaveragelinkagetothehumantumormicroarraydata.

33 von 38

Dendrogramme für agglomeratives Clustering der MicroArray-Daten über Krebs mit Average, Complete, Single Linkage

Average Linkage Complete Linkage Single Linkage

Figure 14.13: Dendrograms from agglomerative hier- archical clustering of human tumor microarray data.

34 von 38

Dendogramme

Monotonie: Die Unähnlichkeit steigt über die Ebenen von unten nach oben monoton an.

Ein Dendogramm ist so angeordnet, dass die Höhe eines Knoten (Clusters) gerade proportional zur Unähnlichkeit zwischen den beiden Unterknoten ist.

Deshalb kann der Benutzer eine Ebene auswählen, bei der die Unähnlichkeit zwischen Clustern einen Schwellwert übersteigt.

Aufteilendes Clustering durch rekursives K-Means

Die rekursive Anwendung von K-Means mitK = 2ergibt ein aufteilendes Verfahren.

Allerdings ist das Ergebnis dann kein Dendogramm, bei dem die Unähnlichkeit mit den Ebenen immer monoton ansteigt.

Deshalb gibt es ein anderes Verfahren.

(10)

Aufteilendes Clustering durch iteratives Verringern der Unähnlichkeit in einem Cluster

Alle Beobachtungen sind im WurzelknotenG.

Aufteilung(G)

1 Initialisierung:

Wähle den Punktx!hinG, der am unähnlichsten zu allen anderen ist. Dieser wird dem neuen ClusterHzugeordnet.

2 Teile iterativGauf solange es einx!_i∈Ggibt, das im Durchschnitt ähnlicher zu allenx!j ∈Hist als zu allen

! x_g∈G:

H:=H∪{x!_i};G:=G\{x!_i};

3 Wähle Cluster zur Aufteilung aus:

Solange|G|>1unddij>0für allex!i,x!j∈G Aufteilung(G).

Solange|H|>1unddij>0für allex!i,x!j∈H Aufteilung(H).

37 von 38

Was wissen Sie jetzt?

Top-down Clustering kann durch rekursives K-Means realisiert werden, ist aber aufwändig.

Optimieren der Average Linkaged_AL(G, H)für alle möglichen Aufteilungen wird angenähert durch ein iteratives Verfahren, bei dem in jeder Iteration eine Beobachtung von dem AusgangsclusterGdem neuen ClusterH zugeordnet wird.

Kann man das effizienter machen?

38 von 38