• Keine Ergebnisse gefunden

k-means Clustering

N/A
N/A
Protected

Academic year: 2021

Aktie "k-means Clustering"

Copied!
4
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

k-means Clustering

Clustering wird angewendet, wenn vermutet wird, dass sich die Instanzen auf nat¨urliche Weise in Gruppen zerlegen lassen. Diese Cluster sollen Mechanismen sichtbar machen, die daf¨ur sorgen, dass bestimmte Instanzen n¨aher beieinander liegen als andere.

Der unten an einem Beispiel erkl¨arte Algorithmus (Lloyd, 1982) zerlegt die Instanzen im R2 ink nicht ¨uberlappende Cluster.

Initialisierung

Feature 1 Feature 2

Zuerst muss eine Wahl f¨ur die Anzahl k der Cluster getroffen werden. Dieser Parameter gibt dem Verfahren seinen Namen. Als Clusterzentren (Centroide) werden k = 3 zuf¨allige Datenpunkte gew¨ahlt.

1.1 Zuweisen

Feature 1 Feature 2

Jeder Punkt wird dem Cluster zugeordnet, zu dessen Centroid er den k¨urzesten Abstand hat.

1.2 Aktualisieren

Feature 1 Feature 2

Der Schwerpunkt der zum gleichen Cluster geh¨orenden Punkte ergibt die neuen Centroide.

1

(2)

2.1 Zuweisen

Feature 1 Feature 2

Jeder Punkt wird dem Cluster zugeordnet, zu dessen Centroid er den k¨urzesten Abstand hat.

2.2 Aktualisieren

Feature 1 Feature 2

Der Schwerpunkt der zum gleichen Cluster geh¨orenden Punkte ergibt die neuen Centroide.

Abbruch

Feature 1 Feature 2

Bleiben die Centroide station¨ar oder ver¨andern sie sich nur wenig, endet das Verfahren.

Initialisierungsmethoden

In der Praxis sind unter anderem folgende Initialisierungsverfahren ¨ublich:

• W¨ahle unter den Datenpunkten zuf¨allig k Centroide aus.

• Ordne jeden Datenpunkt zuf¨allig einem Cluster zu und fahre mit dem Aktualisie- rungsschritt fort.

• k-Means++ (Arthur und Vassilvitski, 2007)

2

(3)

Eine formalere Beschreibung n Datenpunkte x1, . . . , xn k Clusterzentrenµ1, . . . , µk rij =

(1 falls Datenpunkt xi zum Cluster µj geh¨ort 0 sonst

J =

n

X

i=1 k

X

j=1

rij||xi−µj||2 (1)

Ziel: Bestimme die rij so, dassJ (distortion measure) minimal wird

• Sind die Centroideµjgegeben, gen¨ugt es, f¨ur jeden Datenpunktxi die innere Summe in (1) zu minimieren. Dies erreicht man wie folgt:

rij =

1 f¨ur arg min

j

||xi−µj||2

0 sonst

• H¨alt man dann die rij fest, so l¨asst sich (1) weiter minimieren, indem man jeweils nachµj differenziert und nach µj aufl¨ost

−2

n

X

i=1

rij(xi−µj) = 0 ⇔ µj = Pn

i=1rijxi Pn

i=1rij

Distortion measure

Schritt J

10 20 30 40 50 60 70 80 90

1.1 1.2 2.1 2.2 3.1 3.2

Bemerkungen

• Die Aufgabe ist NP-schwer. (kn m¨ogliche Clusterings)

• Der k-Means-Algorithmus konvergiert gegen ein lokales Minimum der Summe der quadrierten Abst¨ande der Punkte von den zugeh¨origen Centroide. Daher ist es sinn- voll, das Verfahren mehrmals mit verschiedenen Anfangswerten durchzuf¨uhren und am Ende das beste Ergebnis zu w¨ahlen.

3

(4)

Anwendungen

• Marktsegmentierung

• Vektorquantisierung (Bildsegmentierung, Kompression)

Quellen

Lloyd, Stuart P. (1982). Least squares quantization in PCM. IEEE Transactions on In- formation Theory 28(2), 129–137.

Arthur, D., Vassilvitskii, S. (2007). k-means++: The advantages of careful seeding. In Proc. 18th ACM-SIAM symp. on Discrete algorithms, pp. 1027–1035.

Version vom 3. M¨arz 2020

4

Referenzen

ÄHNLICHE DOKUMENTE

ten Flächennormalen des Rotati onselli psoi ds d�finiercn auf diesem die Punkte A0 und B0, denen wir die Parameterwerte Cf!A, ),A und f'Jl, ),n, also

Das arithmetische Mittel der zum gleichen Cluster geh¨ orenden Punkte ergibt die neuen Centroide....

[r]

Spezielle Beispiele sind die drei Höhen eines Dreiecks oder die drei Schwerlinien oder die drei Winkelhalbie- renden.. Verifikation

Randbemerkung: Wenn Zirkel und Lineal zugelassen sind, gibt es mehrere Zugmodus- resistente Verfahren ohne Fallunterscheidung hinsichtlich der Lage von P.. 4

Im Beispiel der Abbildung 3 besteht jede der vier Stützwände zuäußerst aus 5 grauen Würfeln, dann folgen 3 graue Würfel und zuinnerst ist noch ein grauer Würfel..

Wir bauen sechs kongruente Treppenkörper in den Farben rot, grün, blau, zyan, magen- ta und gelb.. Diese fügen wir so zusammen, dass das Ganze in einen Würfel der Kanten- länge 2n

Weiter geht von jeder der zwölf Kanten aus eine Dreiecksfläche zum Zentrum, die aus nicht zu den Pyramiden gehörenden Würfeln besteht. In der Abbildung 6 ist ein Beispiel