Der K -Means Algorithmus

(1)

Mentorierte Arbeit in Fachdidaktik Mathematik

Der K -Means Algorithmus

David Stotz

Inhalt Im ersten Kapitel wird die Problemstellung anhand einer Anwendung motiviert. Das zweite Kapitel gibt eine kurze Einf¨uhrung in die Datenanalyse und das dritte Kapitel behandelt den Schwerpunkt einer endlichen Punktmenge. Im vierten Kapi- tel wird derK-Means Algorithmus vorgestellt und untersucht.

Die Implementierung und Anwendung des Algorithmus auf das Einf¨uhrungsbeispiel sind Gegenstand des f¨unften Kapitels.

Zielpublikum 3.–4. Klasse Kurzzeitgymnasium (11.–12. Schuljahr)

Voraussetzungen Grundkenntnisse in Vektorgeometrie, Algorithmen und Informatik

Form Lesetext mit Aufgaben

Bearbeitungsdauer 5 Lektionen Betreuung Kristine Barro Datum 28. Juli 2016

(2)

Inhaltsverzeichnis

1 Einf ¨uhrung 3

2 Datenanalyse 4

2.1 Cluster und ihre Repr¨asentanten . . . . 5

3 Der Schwerpunkt einer endlichen Punktmenge 6

3.1 Geometrische Eigenschaft des Schwerpunktes . . . . 8

4 Clustering mit demK-Means Algorithmus 10

4.1 Spielzeugbeispiel in Geogebra . . . 11 4.2 Beispiel mit synthetischen Daten . . . 13 5 Implementierung des Algorithmus und Anwendung auf ein Photo 19 5.1 Implementierung des Algorithmus . . . 21 5.2 Ergebnis . . . 25

(3)

Didaktische Vorbemerkungen

Gemessen an der derzeitigen wissenschaftlichen, industriellen und wirtschaftlichen Be- deutung der Datenanalyse, ist diese im heutigen Schulcurriculum unterrepräsentiert. Das Thema für die Unterrichtseinheit wurde ausgewählt, um den Schülerinnen und Schülern einen Zugang zur Mathematik der Datenanalyse zu ermöglichen und ihnen die Anwen- dung auf praktische Probleme erfahrbar zu machen.

Als zentraler Motivationsanker dient die Anwendung des K-Means Algorithmus auf eine Photo-Datei, um das Photo in einer geringen Anzahl von Farben möglichst gut dar- zustellen. Das Beispiel eignet sich einerseits gut zur Motivation der Schülerinnen und Schüler, da viele von ihnen einen Bezug zu Photo-Dateien mitbringen und die Ergebnis- se direkt sichtbar gemacht werden können. Andererseits spielt das Anwendungsbeispiel in der tatsächlichen Datenanalyse eine eher marginale Rolle, da in der Bildverarbeitung andere Algorithmen demK-Means Algorithmus überlegen sind. Die Stärke desK-Means Algorithmus liegt vor allem in seiner Einfachheit, wodurch er flexibel in andere Algorith- men integriert werden kann. Aus dieser Überlegung heraus wurde versucht, die Bedeu- tung der Datenanalyse und des Clusterns von Daten auch in einem allgemeineren Kontext zumindest anzudiskutieren.

Lernziele

• Probleme in der Datenkomprimierung und praktische Anwendung eines Algorith- mus kennenlernen.

• DenK-Means Algorithmus mathematisch analysieren.

• Die Bedeutung des Schwerpunktes eines endlichen Systems kennenlernen.

• Ein Grundverst¨andnis der Implementierung entwickeln.

ben¨otigtes Vorwissen

• Grundlagen in der Vektorgeometrie, insbesondere Vektoralgebra und Abstandsbe- griff

• Verst¨andnis dar¨uber, was ein Algorithmus ist

• Grundwissen in der Informatik (if-Bedingung, for-Schleifen)

(4)

Quellen

Die Beschreibung des Algorithmus und die Idee f¨ur die Anwendung stammt aus [Bishop, 2006]. Die Beweisidee f¨ur die Konvergenz desK-Means Algorithmus in endlich vielen Schritten stammt aus [jkabrg, 2015].

(5)

1 Einf ¨uhrung

Daten enthalten Informationen. Im digitalen Zeitalter werden Unmengen von Daten erzeugt, gespeichert und zwischen Geräten übertragen, alleine schon durch Mitteilungen, Bilder und Videos auf unseren Smartphones und PCs. Experten schätzen, dass der Internet-Datenverkehr im Jahr 2016 circa 1.1 Zettabyte betragen wird [Cisco, 2016], das sind 1.1 Billionen Gigabyte und entspricht ungefähr der Grösse eines Liedes mit einer Spieldauer von einer Milliarden Jahre. Beim Umgang mit grossen Datenmengen stossen Computer an ihre Kapazitätsgrenzen. Ein wichtiger Faktor, um Datenmengen zu verkleinern und dennoch dabei die relevanten Informationen zu erhalten, ist die Komprimierungvon Daten. Zur Veranschaulichung der Komprimierung untersuchen wir ein Beispiel einer Photo-Datei.

Abbildung 1: Beispielphoto

Das Photo besteht aus einer Anzahl von Pixeln, von denen jedes eine bestimmte Farbe annehmen kann. Da für eine naturgetreue Abbildung sehr viele Farben und Schattierungen zu Verfügung stehen müssen, ist die Datenmenge, die das Photo beschreibt, relativ gross.

Um die Datenmenge zu verkleinern, könnten wir die Anzahl der möglichen Farben und Schattierungen einschränken. Je nachdem auf welche Farben wir uns dabei beschränken, resultiert daraus ein mehr oder weniger grosser Qualitätsverlust bei der Abbildung.

Angenommen wir möchten das abgebildete Photo mit nur fünf Farben möglichst gut wiedergeben, welche Farben würden wir wählen? Durch Betrachten des Photos könnten wir darauf kommen, rot zu wählen, um das Spielzeugauto im Vordergrund darzustel-

(6)

len, orange, um den Blumentopf abzubilden, grün für die Sträucher im Hintergrund und schwarz für das Lenkrad des Spielzeugautos sowie das Auto im Hintergrund. Ist das eine gute Wahl? Welche Farben würden wir wählen, wenn wir zehn Farben auswählen könnten?

In dieser Projektarbeit werden wir einen mathematischen Algorithmus kennenlernen, derautomatischgute Farben auswählt. Der Algorithmus teilt zunächst die Pixel in Gruppen ein, die später jeweils die gleiche Farbe erhalten. Diese Farben werden dann vom Algorith- mus so bestimmt, dass in einem gewissen Sinn, den wir mathematisch präzisieren werden, der Qualitätsverlust der Abbildung möglichst gering ist.

2 Datenanalyse

Die Verarbeitung von grossen Datenmengen hat in den letzten Jahrzehnten enorm an Be- deutung gewonnen. Empirische Wissenschaften, wie Physik, Biologie und Chemie sind immer st¨arker mit der Herausforderung konfrontiert, die Vielfalt von Messungen auszuwerten und zu interpretieren.

Einen grossen Schub hat die Entwicklung der Datenanalyse durch die Finanzindustrie und grosse Internetfirmen erfahren. Die statistische Auswertung von Aktienkursen und Preisentwicklungen sind das zentrale Werkzeug für das Treffen von Handelsentscheidun- gen von Banken an den Aktienmärkten. Suchmaschinen wie Google basieren fundamental darauf, auf schnelle Art und Weise relevante Informationen aus dem Datendschungel des Internets herauszufiltern. Schliesslich verwenden auch soziale Netzwerke wie Facebook hochentwickelte Algorithmen um Informationen über die Nutzer zu sammeln und zum Beispiel für personalisierte Werbeanzeigen auszuwerten.

Um mathematische Analyseverfahren einsetzen zu können, ist es zunächst wichtig, den Informationen geeignete Zahlenwerte zuzuordnen. Für die Messwerte in empirischen Wis- senschaften ist dies zumeist schon der Fall, jedoch ist zum Beispiel nicht klar, wie man den Beziehungsstatus eines Facebookprofils durch eine Zahl ausdrücken soll. Ein naiver Ansatz ist, für jede solche Information eine Regel zu erfinden und diese durch eine Zahl auszudrücken. Zum Beispiel könnten wir vereinbaren, dasssingledurch eine0undin einer Beziehungdurch eine1 ausgedrückt wird. Wenn wir dies in ähnlicher Weise für alle möglichen Parameter durchführen, können wir schliesslich ein Facebookprofil durch eine Datenpunkt darstellen, dessen Koordinaten durch die Werte all dieser Parameter gegeben sind. Jede Koordinate entspricht dabei einer Dimension des Raums, in dem der Punkt

(7)

liegt; zum Beispiel liegt ein Punkt(−3,5), bestehend aus zwei Koordinaten, im zweidimensionalen Raum. Da in der beschriebenen Situation viele Parameter einen Datenpunkt beschreiben, liegen die Datenpunkte in einem hoch-dimensionalen Raum.

Für die Entwicklung von Verfahren zur Datenverarbeitung stellen wir uns von nun also eine grosse (aber endliche) Menge von Datenpunkten in einem hoch-dimensionalen Raum vor, sodass wir nicht genügend Rechenleistung zu Verfügung haben, um jeden Da- tenpunkt individuell zu untersuchen. Die informationelle Gehalt dieser Daten hängt von der jeweiligen Anwendung ab und soll hier nicht im Zentrum der Diskussion stehen.

2.1 Cluster und ihre Repr¨asentanten

Ein grundlegendes Konzept bei der Analyse von Daten ist, die Datenpunkte zuclustern, das heisst, in Gruppen einzuteilen, die “ähnlich” aussehen. Die Ähnlichkeit kann zum Beispiel gemessen werden durch den Abstand, den die Datenpunkte im umgebenden Raum besit- zen. Wenn wir dann jeden Cluster durch einen geeigneten “repräsentantiven” Datenpunkt ersetzen, können wir so die Anzahl der zu untersuchenden Datenpunkte erheblich reduzieren. Bei diesem Prozess verlieren wir offenbar Informationen, denn wir kennen nicht mehr die exakte Positionen aller Datenpunkte, jedoch hoffen wir, dass wir durch gutes Clustering die für uns wichtigen Informationen erhalten können.

Wenn wir zum Beispiel ein Tier durch viele Parameter wie Geschlecht, Grösse, Alter, Le- bensraum, Nahrung usw. beschreiben (jeweils durch Zahlen ausgedrückt), und diese Daten für sehr viele Tiere sammeln, so können wir durch Gruppierung der Daten eine mögliche Einteilung in Tierarten erhalten. Wir können auch noch einen Schritt weitergehen und innerhalb jeder Tierart die Daten erneut gruppieren und so eine Tierart weiter in bestimmte Gattungen unterteilen. Eine solche Gruppierung erleichtert bekanntlich den Umgang mit den Informationen über Tiere, da wir uns nicht mehr nur auf spezielle Individuen beziehen müssen.

Nachdem wir die Daten in Cluster eingeteilt haben, möchten wir für jeden der Cluster einen geeigneten Repräsentanten auswählen, der die “typischen” Eigenschaften der Da- ten innerhalb eines Clusters möglichst gut wiedergibt. Wir können solche Repräsentanten auf unterschiedliche Weise wählen, je nachdem welche spezifischen Eigenschaften erfüllt werden sollen. Zum Beispiel könnten wir versuchen, denjenigen Punkt zu finden, der die Summe aller Abstände zu den Punkten im Cluster minimiert. Diese Wahl hat den Nach- teil, dass die Bestimmung dieses Punktes relativ aufwendig ist und er sich nicht durch eine einfache Formel berechnen lässt. Für einen Cluster, der aus drei PunktenA, B, Cbe-

(8)

steht, ist der Punkt, der die Summe der Abstände zuA, B, C minimiert, bekannt als der Fermat-Punktdes DreiecksABC. Die Koordinaten dieses Punktes sind nicht leicht zu bestimmen und die Situation wird bei grösseren Clustern noch erheblich komplizierter. Wir werden daher stattdessen den im Folgenden besprochenenSchwerpunkt des Clusters als Repräsentanten verwenden, der eine ähnliche Eigenschaft erfüllt, sich jedoch mit deutlich weniger Aufwand bestimmen lässt.

3 Der Schwerpunkt einer endlichen Punktmenge

Stell dir vor, du legst einige gleich schwere Baukl¨otze an verschiedenen Stellen auf ein Lineal. An welcher Stelle m¨usstest du das Lineal mit dem Finger balancieren, damit es im Gleichgewicht bleibt?

Abbildung 2: Ein Lineal balancieren

In einer idealisierten Situation stellen wir uns vor, dass jede Einzelmasse jeweils in einem Punkt konzentriert ist. Der gesuchte Punkt, an dem wir das Lineal balancieren k¨onnen, heisst der Schwerpunkt des physikalischen Systems. Liegen in den Punkten P₁, . . . , P_n die Massenm₁, . . . , m_n, so wird im Physikunterricht gezeigt, dass der Schwerpunkt des physikalischen Systems durch das gewichtete Mittel

m1~p1+. . .+m2~pn

m₁+. . .+m_n

gegeben ist.¹ In der Situation, die wir betrachten, sollen alle Einzelmassen gleich gross

1F¨ur zwei Massenm1, m2an den PositionenP1, P2auf dem Lineal folgt diese Formel sofort aus dem He-

(9)

sein, das heisstm₁ = . . . = m_n. Wenn wir diese Masse mit mbezeichnen, so l¨asst sich der Ortsvektor zum Schwerpunkt folglich durch die Formel

~s= m(~p1+. . .+~pn) mn

= 1

n(~p1+. . .+~pn) (1) berechnen. In diesem Fall wird die Lage des Schwerpunktes also nur durch die relative Position der Massenpunkte bestimmt und ist unabh¨angig von der tats¨achlichen Massem in den Punkten.

Die Berechnungsformel kann für 1-dimensionale Vektoren (also Zahlen), 2- dimensionale Vektoren, 3-dimensionale Vektoren oder auch217-dimensionale Vektoren (das sind Vektoren mit 217 Komponenten) angewendet werden. Wir können also Schwerpunkte berechnen von Objekten in beliebig hoch dimensionalen Räumen.

Handelt es sich um eine Punktmenge, die nur aus zwei Punkten besteht, so besagt die Formel, dass der Schwerpunkt den Ortsvektor ¹₂(~p1 +~p2) besitzt, also gerade mit dem Mittelpunkt der beiden PunkteP₁undP₂ ¨ubereinstimmt.

Aufgabe 1 Betrachte die idealisierte Form der Situation in Abbildung 2, bei der die drei Massen jeweils an den (eindimensionalen) Punkten P1 = (1.8),P2 = (3.9)undP3 = (11.7)konzentriert sind. Berechne die Stelle, an der wir das Lineal balancieren m¨ussten, damit es im Gleichgewicht bleibt.

Aufgabe 2 Berechne (im 4-dimensionalen Raum) den Schwerpunkt der Punktmenge {P₁, . . . , P₅}mit den Ortsvektoren

~ p₁ =





 3 0 1

−2







, ~p₂ =





 1 2 0 4







, p~₃=





 0 3 0 1







, ~p₄ =







−2

−1 6 2







, ~p₅ =





 3 1

−2 0





 .

Aufgabe 3

(a) Bestimme den Schwerpunkt der Punktmenge{A, B, C}wobeiA= (1,2,0),B = (0,4,1)undC= (−1,−1,−1).

belgesetz. Im allgemeinen Fall folgt die Formel ebenso leicht aus dem Drehmomentensatz.

(10)

(b) Stelle die Geradengleichungen der Seitenhalbierenden im DreieckABC auf und zeige, dass sich diese im Schwerpunkt der Punktmenge{A, B, C}schneiden.

Abbildung 3: Aufgabe 4

Aufgabe 4

(a) Bestimme geometrisch den Schwerpunkt der in Abbildung 3 abgebildeten Punkt- menge.

Tipp: Du kannst den Schwerpunkt als Mittelpunkt zwischen den beiden Diagonalen- mittelpunkten bestimmen. Begr¨unde dies anhand der Berechnungsformel(1).

(b) Wie w¨urdest du das Bild durch einen weiteren Punkt im abgebildeten Bereich erg¨anzen, sodass der Schwerpunkt der neuen Punktmenge ausserhalb des Vierecks ABCDliegt?

3.1 Geometrische Eigenschaft des Schwerpunktes

Wir wollen nun eine weitere Eigenschaft des Schwerpunktes kennenlernen. ¨Offne hierzu die Geogebra-Datei “uebung4.ggb”, welche die Situation aus Abbildung 3 zeigt.

(11)

Aufgabe 5

(a) Konstruiere in der Geogebra-Datei den Schwerpunkt der Punktmenge bestehend aus A, B, C, D auf die Weise aus Aufgabe 4(a).

(b) Zeichne einen beliebigen weiteren Punkt “X” ein und gebe d= D i s t a n c e [A, X] ˆ 2 + D i s t a n c e [B , X] ˆ 2 +

D i s t a n c e [C , X] ˆ 2 + D i s t a n c e [D, X] ˆ 2

in die Inputzeile (am unteren Rand des Geogebra-Fensters) ein. (In der deutschen Ausgabe von Geogebra muss “^Distance” durch “Âbstand” ersetzt werden.) (c) Was fällt dir auf, wenn du X in die Nähe des Schwerpunktes aus Teilaufgabe (a)

verschiebst? Stelle eine allgemeine Vermutung auf, welche Eigenschaft der Schwer- punkt einer endlichen Punktmenge erf¨ullt.

Die Eigenschaft, die wir in Aufgabe 5 kennengelernt haben, gilt tatsächlich immer für den Schwerpunkt. Wir werden nun versuchen, die Eigenschaft zu beweisen für den Fall, dass die Punkte im eindimensionalen Raum liegen.

Aufgabe 6 Es seienp₁, . . . , p_n ∈RPunkte im eindimensionalen Raum. Zeige, dass die Funktion

d(x) = (p1−x)²+ (p2−x)²+. . .+ (pn−x)² ihr (globales) Minimum annimmt an der Stelles= _n¹(p₁+p₂+. . .+p_n).

Mithilfe der Vektorrechnung ist der Beweis auch im h¨oherdimensionalen Fall leicht zu adaptieren (siehe L¨osungen). Wir halten das Resultat hier nochmals explizit fest:

F¨ur eine endliche Punktmenge{P₁, . . . , Pn}nimmt die Funktion d(~x) =k~p1−~xk²+k~p2−~xk²+. . .+k~pn−~xk²

den minimalen Wert f¨ur~x=~san, wobei~sin (1) definiert wurde. In Worten heisst das:

Die Summe der Abstandsquadrate einer endlichen Punktmenge zu einem PunktXist minimal, wennXder Schwerpunkt der Punktmenge ist.

(12)

4 Clustering mit demK-Means Algorithmus

Wir möchten nun einen Algorithmus kennenlernen, der eine gegebene Menge von Daten- punkten automatisch clustert. Das Ziel ist, dass jeweils diejenigen Datenpunkte, die sich in einem Gebiet sammeln, dem selben Cluster zugeordnet werden. Schliesslich sollen für jeden Cluster gute Repräsentanten gefunden werden, das heisst der Fehler, der durch das Ersetzen der Cluster durch die Repräsentanten entsteht, soll möglichst klein sein.

BeimK-Means Algorithmus handelt es sich um eineniterativenAlgorithmus, das heisst, der Algorithmus besteht aus einem Grundschritt, der dann wiederholt²durchlaufen wird, bis ein gew¨unschtes Ergebnis erreicht ist. Beim Finden von geeigneten Repr¨asentanten spielt der Schwerpunkt, den wir zuvor besprochen haben, eine wichtige Rolle. Daher ent- springt auch der Name des Algorithmus, wobei “Means”³sich auf die Schwerpunktsformel (1) bezieht und als eine Verallgemeinerung des Durchschnitts auf die Vektorgeometrie ver- standen wird.

Beschreibung desK-Means Algorithmus

Ausgangslage (Input):N “Datenpunkte”,K“Clusterpunkte”, wobeiN K

1. Schritt: Clustering Ordne jeden Datenpunkt dem n¨achstgelegenen Clusterpunkt zu.

Anschaulich: Für jeden Clusterpunkt haben wir einen Sack, und ein Datenpunkt kommt in den Sack, der zum nächstgelegenen Clusterpunkt gehört.

2. Schritt: Update der Clusterpunkte Berechne f¨ur jeden Sack den Schwerpunkt aller Da- tenpunkte innerhalb eines Sacks. Ersetze die Clusterpunkte durch diese Schwerpunkte.

Gehe zur¨uck an den Anfang mit den neuen Clusterpunkten.

Das Verfahren wird beendet, entweder nach einer zu Beginn festgelegten Anzahl an Ite- rationen (Durchläufen), oder wenn sich in einem Durchgang die Zuordnung in die Säcke nicht mehr verändert im Vergleich zum vorherigen Durchgang.

Der Input, mit dem der Algorithmus aufgerufen wird, besteht aus der gegebenen Menge von Datenpunkten und zusätzlichKClusterpunkten. Die Wahl der Anfangsclusterpunk- te, mit denen die Iteration das erste Mal durchlaufen wird, kann unterschiedlich erfolgen, zum Beispiel können gute Repräsentanten geschätzt werden oder einfach zufällig aus den

2lat. iterativus = wiederholend

3engl. mean = Durchschnitt

(13)

Datenpunkten ausgewählt werden. Diese Clusterpunkte werden im Laufe jedes Durch- gangs durch modifizierte Clusterpunkte ersetzt, die dann als Input für die nächste Itera- tion dienen. Die am Ende der Durchläufe erhaltenen Clusterpunkte sollen dann gute Re- präsentanten für die erhaltenen Cluster ergeben. Wichtig ist es zu bemerken, dass wir uns zu Beginn festlegen auf die AnzahlKvon Clustern, in die wir die Datenpunkte einteilen möchten.

4.1 Spielzeugbeispiel in Geogebra

Um ein Verständnis für die Funktionsweise des Algorithmus zu entwickeln, sollst du ihn nun einmal selbst durchspielen. Öffne hierzu die Geogebra-Datei “^kmeans.ggb”. Gegeben sind die folgenden 10 Datenpunkte (A-J) und 2 Clusterpunkte (Y und Z) im zweidimensionalen Raum.

Abbildung 4: Spielzeugbeispiel

Um den ersten Schritt desK-Means Algorithmus durchzuführen, müssen wir jeden Da- tenpunkt dem nächstgelegenen Datenpunkt zuordnen.

(14)

Aufgabe 7

(a) Wie kannst du für einen Datenpunkt geometrisch bestimmen, welche der nähere Clusterpunkt ist, ohne dazu alle Abstände berechnen zu müssen?

(b) Führe den ersten Schritt desK-Means Algorithmus aus und färbe jeden Datenpunkt entsprechend der Farbe des näheren Clusterpunktes ein.

Nun haben wir jeden der Datenpunkte in einen von zwei Säcken gesteckt. Im zweiten Schritt müssen wir jeweils den Schwerpunkt aller Punkte innerhalb eines Sackes bestimmen. Möchten wir in Geogebra den Schwerpunkt S der Punktmenge {P1, P2, P3, P4, P5}bestimmen, so können wir dies erreichen, indem wir

S= B a r y c e n t e r [{P1 , P2 , P3 , P4 , P5},{1 , 1 , 1 , 1 , 1}]

in die Inputzeile (am unteren Rand des Geogebra-Fensters) eingeben. (In der deutschen Version muss “^Barycenter” durch “Massenmittelpunkt” ersetzt werden.) Das Bary- zentrumeiner Punktmenge ist eine allgemeinere Form des Schwerpunktes, bei dem jeder Punkt in der Menge unterschiedlich gewichtet werden kann. In obigem Befehl stehen die Zahlen im zweiten Argument f¨ur die Gewichtungsfaktoren. Den Schwerpunkt erhalten wir, wenn wir, wie oben, die Gewichtungsfaktoren alle auf1setzen. Das heisst, im zweiten Argument des Befehls muss die Anzahl an1en gerade der Anzahl an Punkten in der untersuchten Menge entsprechen.

Aufgabe 8 F¨uhre f¨ur das Beispiel den zweiten Schritt des K-Means Algorithmus aus.

Die neuen Clusterpunkte sollen “Y2” und “Z2” heissen.

Nun haben wir eine vollständige Iteration des Algorithmus durchgeführt und können wieder von vorne beginnen, wobei die Clusterpunkte nun durch Y2 und Z2 ersetzt werden.

Aufgabe 9

(a) F¨uhre eine weitere Iteration aus. Die neuen Clusterpunkte sollen “Y3” und “Z3” heissen.

(b) Was ist bei einer dritten Iteration zu beobachten?

Bei den einzelnen Iterationen können wir gut erkennen, wie sich durch die Zuordnung in die beiden Säcke die Clusterpunkte verschieben und sich dadurch wiederum die Zuord- nung in die Säcke im nächsten Schritt verändert.

(15)

4.2 Beispiel mit synthetischen Daten

Wir haben nun die Funktionsweise desK-Means Algorithmus in einem Spielzeugbeispiel kennengelernt. Da wir alle Schritte von Hand ausgeführt haben, konnten wir in diesem Beispiel nur eine relativ kleine Punktmenge untersuchen. Als nächstes betrachten wir eine grössere, künstlich erzeugte Menge von Datenpunkten, die näher an der Anwendungssi- tuation liegen soll als das Spielzeugbeispiel.

Die folgenden Datenpunkte im zweidimensionalen Raum wurden mit einer Simulati- onssoftware erzeugt.

Abbildung 5: Datenpunkte

Aus dem Bild lassen sich vier Cluster von Datenpunkten erkennen. Um eine solche Einteilung zu erreichen, m¨ochten wir denK-Means Algorithmus mitK = 4anwenden.

Hierfür werden zunächst zufällig vier Punkte aus den Datenpunkten alsAnfangscluster- punktedeklariert. Dann wird der K-Means Algorithmus mit diesen Datenpunkten und Clusterpunkten gefüttert und mit einem Computer ausgeführt.

Das Ergebnis der einzelnen Iterationen ist in Abbildung 6 zu sehen. Es l¨asst sich gut erkennen, wie sich die Clusterpunkte gegenseitig in eine Gleichgewichtslage verschieben und am Ende in der Tat die Datenpunkte in die vier Cluster eingeteilt sind, die einem optisch plausibel erscheinen.

Aufgabe 10 Untersuche Abbildung 6 und begr¨unde in jedem Schritt stichwortartig, warum sich die Clusterpunkte wie dargestellt verschieben.

(16)

(a) Datenpunkte (b) 1 Iteration

(c) 2 Iterationen (d) 3 Iterationen

(e) 4 Iterationen (f) 5 Iterationen

Abbildung 6: Anwendung desK-Means Algorithmus auf synthetisch erzeugte Daten. Je- de Farbe zeigt einen Cluster an. Die Clusterpunktezu Beginnder Iteration sind mit einem “o” und ihre Updates am Endeder Iteration mit einem “x” markiert.

(17)

Abh¨angigkeit von der Wahl der Anfangsclusterpunkte

Eine wichtige Frage, die es zu erörtern gilt, ist die Abhängigkeit des Ergebnisses von der Wahl an Anfangsclusterpunkten, mit denen wir denK-Means Algorithmus füttern. Wenn der Algorithmus jedes mal die selbe Einteilung liefern würde, unabhängig von der Wahl der Anfangsclusterpunkte, dann bräuchten wir uns keine Gedanken machen, was eine “gute” und was eine “schlechte” Wahl von Anfangsclusterpunkten wäre. In Abbildung 7 wird der Algorithmus auf die gleichen Datenpunkte wie in Abbildung 6 angewendet, jedoch mit einer anderen Wahl von Anfangsclusterpunkten. Es zeichnet sich nach5Iterationen eine andere Einteilung in Cluster ab als in Abbildung 6, woraus wir schliessen können, dass die Einteilung in Cluster, dir wir aus der Anwendung desK-Means Algorithmus erhalten, tatsächlich von der Wahl der Anfangsclusterpunkte abhängt.

Aufgabe 11 Untersuche Abbildung 7 und versuche zu beschreiben, wie die Lage der Anfangsclusterpunkte zu der am Ende erhaltenen Einteilung gef¨uhrt hat.

Aufgrund der grossen Menge an Datenpunkten ist es kompliziert, alle möglichen Abläufe, die aus der Wahl von Anfangsclusterpunkten resultieren können, mathematisch exakt zu beschreiben. Zwei einfache Möglichkeiten, mit der Abhängigkeit umzugehen, die in der Praxis häufig gut funktionieren, sind:

• Wähle die Anfangsclusterpunkte zufällig aus den Datenpunkten und führe das Ex- periment mehrmals durch, bis das Ergebnis zufriedenstellend ist.

• Sch¨atze eine “gute” Wahl von Anfangsclusterpunkten aus den Datenpunkten.

(18)

(a) Datenpunkte (b) 1 Iteration

(c) 2 Iterationen (d) 3 Iterationen

(e) 4 Iterationen (f) 5 Iterationen

Abbildung 7: Anwendung desK-Means Algorithmus auf synthetisch erzeugte Daten. Je- de Farbe zeigt einen Cluster an. Die Clusterpunktezu Beginnder Iteration sind mit einem “o” und ihre Updates am Endeder Iteration mit einem “x” markiert.

(19)

Kostenfunktion

In welchem Sinne verbessert sich die Situation am Ende einer Iteration im Vergleich zum Beginn? Wir haben in den bisherigen Beispielen beobachten k¨onnen, wie sich im Lau- fe der Iterationen eine Dynamik entwickelt, die am Ende zu einer plausiblen Gruppierung der Datenpunkte f¨uhrt. Um zu verstehen, warum das so ist und wie die Bezeichnung “plausibel” mathematisch zu verstehen ist, werden wir eine neue Funktion kennenlernen, die ein wesentliches Merkmal desK-Means Algorithmus ist.

Wir bleiben bei dem Beispiel aus Abbildung 6 und bezeichnen in jeder Iteration mitd_blau die Summe der Abstandsquadrate zu ihrem Clusterpunkt, das heisst

d_blau =k~b₁−~s_blauk²+k~b₂−~s_blauk²+. . .+k~b_n−~s_blauk²

wobei~b₁,~b₂, . . . ,~b_ndie Ortsvektoren zu den blauen Punkten sind und~s_blauder Ortsvektor zum Clusterpunkt des blauen Clusters ist. In gleicher Weise definieren wird_gelb,d_orangeund d_violett. Schliesslich z¨ahlen wir alle diese Gr¨ossen zusammen und bezeichnen die Summe mitd_gesamt:

d_gesamt=d_blau+d_gelb+d_orange+d_violett

Die Grösse d_gesamt heisst Kostenfunktion zumK-Means Algorithmus. Sie hängt ab von der Einteilung in die Cluster und von den Lagen der Clusterpunkte. Der Name “Kosten- funktion” bezeichnet allgemein bei der Theorie von Algorithmen eine Grösse, die es zu minimieren gilt. Mit Hilfe der Kostenfunktion können wir nun präzise erklären, in wie fern sich die Situation am Ende einer Iteration verbessert hat, nämlich, dass sich die Kos- ten verringert haben.

Aufgabe 12

(a) Argumentiere, warumd_gesamtbei der Durchführung des 1. Schritts imK-Means Al- gorithmus (siehe S. 10) höchstens kleiner (aber nicht grösser) werden kann.

(b) Argumentiere, warumd_gesamtbei der Durchführung des 2. Schritts imK-Means Al- gorithmus (siehe S. 10) höchstens kleiner (aber nicht grösser) werden kann.

Tipp: Schaue dir noch einmal Abschnitt 3.1 an.

Ist es m¨oglich, dass unendlich viele Iterationen n¨otig sind?

In der Beschreibung desK-Means Algorithmus wurde vereinbart (siehe S. 10):

(20)

“Das Verfahren wird beendet, entweder nach einer zu Beginn festgelegten Anzahl an Durchläufen, oder wenn sich in einem Durchgang die Zuordnung in die Säcke nicht mehr verändert im Vergleich zum vorherigen Durchgang.”

Wenn wir darauf warten, dass sich die Zuordnung in die Säcke (Cluster) nicht mehr verändert, sollten wir sicherstellen, dass es in jedem Falle irgendwann einmal dazu kommt, denn andernfalls warten wir womöglich für immer darauf. Es wäre nämlich denkbar, dass sich in einer bestimmten Situation beijeder Iteration die Zuordnung in die Cluster verändert, und somit unendlich viele Iterationen nötig sind.

Der Schlüssel zur Lösung dieses Problems ist wiederum die Kostenfunktion. Wenn wir einen Datenpunkt einem Cluster zuteilen möchten, so haben wirK Möglichkeiten dies zu tun. Für die Einteilung von zwei Datenpunkten haben wir für jeden der beiden K Möglichkeiten, also insgesamt K² mögliche Zuteilungen in Cluster. Indem wir diese

Überlegung weiterführen finden wir, dass wirK^N mögliche Einteilungen derN Daten- punkte in K Cluster haben. Dies ist zwar eine grosse Anzahl, jedoch können wir nun argumentieren, dass wir niemals mehr alsK^N Iterationen benötigen, bevor der Algorith- mus beendet wird. Insbesondere ist es also unmöglich, dass unendlich viele Iterationen benötigt werden. In Aufgabe 12 haben wir uns überlegt, dass der Wert von d_gesamt im Laufe einer Iteration entweder gleich bleibt (wenn sich in der Zuordnung in die Cluster nichts verändert und der Algorithmus somit beendet wird) oder kleiner wird. Spätestens nachK^N Iterationen kann es aber keine Zuordnung in Cluster mehr geben, bei derd_gesamt noch kleiner wird als den Wert, den wir schon erreicht haben. Somit mussd_gesamtgleich bleiben und der Algorithmus findet ein Ende.

Aufgabe 13 Erkläre nochmals in eigenen Worten, warum es nicht möglich ist, dass sich in unendlich vielen aufeinanderfolgenden Iterationen die Zuordnung in die Cluster verändert.

Globales oder lokales Minimum

Wir haben nun gelernt, dass derK-Means Algorithmus beendet wird, wenn die Kosten- funktiond_gesamtin einer Iteration nicht mehr kleiner wird sondern stattdessen gleich bleibt.

Nun k¨onnte man meinen, dass in diesem Falle der minimal m¨ogliche Wert vond_gesamter- reicht wurde. Dem muss aber keineswegs so sein. Alles was man weiss ist, dass man mit den erreichten Clusterpunkten keine bessere Einteilung in Cluster erreichen kann, und

(21)

sich somit die Lage stabilisiert wie in Abbildung 6 und 7 jeweils nach 5 Iterationen zu sehen. Möglicherweise existiert aber noch eine ganz andere Wahl von Clusterpunkten, mit denen man noch einen kleineren Wert vond_gesamterreichen kann. Dieser Sachverhalt lässt sich gut mit dem Verhältnis von lokalen und globalen Minima erklären: Wenn der Algo- rithmus aufgrund einer Stabilisierung der Einteilung beendet wird, wissen wir lediglich, dass wir ein lokales Minimum der Kostenfunktion erreicht haben, jedoch nicht, ob es sich hierbei auch um ein globales Minimum handelt. Die Frage, in welchem lokalen Minimum wir landen, wird entschieden durch die Wahl der Anfangsclusterpunkte.

5 Implementierung des Algorithmus und Anwendung auf ein Photo

Um den Nutzen desK-Means Algorithmus zu demonstrieren, soll er nun auf das Photo aus dem Einf¨uhrungsbeispiel angewendet werden.

Abbildung 8: Beispielphoto

Das Photo hat eine Auflösung von500×667und besteht somit aus500×667 = 333500 Pixeln. Die Farbtiefe des Photos beträgt8bit pro Farbkanal im RGB-Farbraum. Was bedeutet das? Jeder Pixel kann eine Farbe annehmen, die aus einem Rot-, Grün- und Blauan- teil zusammengesetzt ist; die Grundfarben rot, grün und blau sind die sogenannten Farb- kanäle. Innerhalb eines Farbkanals stehen8bit, das heisst,2⁸ = 256Werte, zur Abstufung der Helligkeit zu Verfügung. Diese Werte werden durch eine ganze Zahl zwischen0und 255ausgedrückt, wobei 0 = dunkel und 255 = hell. Eine mögliche Farbe besteht somit aus drei Zahlen, zum Beispiel(34,144,80), die die Helligkeitsstufen des Rot-, Grün-

(22)

und Blauanteils (in dieser Reihenfolge) beschreiben. Ausf¨uhrliche Informationen ¨uber den RGB-Farbraum kannst du in [Wikipedia, 2016] finden.

Aufgabe 14

(a) Wieviele Farben lassen sich mit8bit pro Farbkanal audr¨ucken?

(b) Versuche, in Abbildung 9 die folgenden Farben zu finden:(0,255,0),(255,0,255), (0,0,153),(0,204,204)

Abbildung 9: Farben im RGB-Farbraum (Quelle: [rgb, 2016])

Damit wir die Grösse der Datei reduzieren, möchten wir nun das Photo in Abbildung 8 durch eine geringere Anzahl an Farben darstellen. Dabei soll jedoch das dargestellte Motiv möglichst gut erhalten bleiben. Wie können wir eine geeignete Auswahl für die Farben treffen? Für dieses Vorhaben werden wir denK-Means Algorithmus einsetzen.

Da die Farbe jedes Pixels durch ein Tupel aus drei Zahlen festgelegt ist, können wir uns diese Information als einen Punkt im3-dimensionalen Raum vorstellen. Das gesamte Photo ist somit dargestellt als eine Menge von333500(Daten-)punkten im Raum. Den Ort jedes Pixels im Bild merken wir uns und legen diese Information dann für für den Moment beiseite (zum Beispiel können wir alle Pixel durchnummerieren).

Aufgabe 15 Was bedeutet es, die vorliegenden Datenpunkte im Raum zu clustern? Was repr¨asentieren dabei die Cluster und was die Clusterpunkte?

Damit wir eine “gute” Darstellung des Motivs im Photo erhalten, m¨ussen wir also die vorliegenden Datenpunkte geeignet clustern. DerK-Means Algorithmus liefert nicht nur

(23)

diese Einteilung, sondern auch die zugehörigen Clusterpunkte. Dabei repräsentieren die Clusterpunkte jeweils diejenige Farbe, durch die die tatsächliche Farbe eines Pixels im Originalphoto ersetzt wird.

5.1 Implementierung des Algorithmus

Der folgende Code implementiert denK-Means Algorithmus in der mathematischen Si- mulationssoftware MATLAB. Alternativ kann der identische Code auch in der kostenlosen Software Octave [Eaton, 2016] eingesetzt werden. Du kannst den untenstehenden Code in das Programm kopieren und auf eigene Photos oder andere Daten anwenden, um sie zu clustern. Neben dem elementaren Syntax zur Definition von Konstanten, Vektoren und Matrizen, werden hierbei die MATLAB-Funktionen “norm” und “min” verwendet. Darüber hinaus kommen einigefor-Schleifen zum Einsatz. Wir werden hier nicht jeden Befehl be- sprechen, sondern nur die wichtigsten Schritte für den Algorithmus erklären. Falls du die genaue Funktion bestimmter Befehle verstehen möchtest, kannst du [MathWorks, 2016]

konsultieren.

K-Means Zunächst wird eine Funktion “^kmeans” programmiert, welche unter Angabe der Datenpunkte, Anfangsclusterpunkte und Anzahl an durchzuführenden Iterationen den K-Means Algorithmus durchführt und am Ende jeden Datenpunkt durch den zugehörigen Clusterpunkt (aus der letzten Iteration) ersetzt.

Der Name “MATLAB” ist eine Abkürzung fürmatrix laboratoryund das Programm ba- siert darauf, möglichst viele mathematische Grössen als Matrizen zu behandeln. In diesem Geiste stellen wir uns beim Programmieren der Funktion für denK-Means Algorithmus vor, dass die Datenpunkte nicht als Menge gegeben sind, sondern die Koordinaten jedes Punktes zeilenweise in einer MatrixAgespeichert sind. Ebenso seien die Anfangscluster- punkte in den Zeilen einer MatrixS gespeichert. Mit diesem Model können wir also die Anzahl an DatenpunktenN in Zeile 8 direkt aus der Anzahl an Zeilen inAbestimmen.

In den Zeilen 11–42 programmieren wir die Iterationsschleife, die die darauf folgende K-Means-Iteration M Mal durchl¨auft. Der Schritt des Clustering wird in Zeile 19–

27 programmiert. Um jeden Datenpunkt dem nächstgelegenen Clusterpunkt zuordnen zu können, berechnen wir in Zeile 23 die Distanz vomi-ten Datenpunkt zumk-ten Cluster- punkt für alle möglicheni= 1, . . . , Nundk= 1, . . . , Kund speichern den Wert in einer DistanzmatrixD. In deri-ten Zeile vonDstehen dann die Distanzen vomi-ten Daten- punkt zu allen Clusterpunkten. Mit Hilfe des^min-Befehls können wir in Zeile 25 nicht nur

(24)

den minimalen Wert in deri-ten Zeile vonDbestimmen, sondern, was f¨ur uns vor allem wichtig ist, den Index dieses minimalen Wertes in deri-ten Zeile finden. Dieser Index wird inL(i)gespeichert und sagt uns also, welcher der zumi-ten Datenpunkt n¨achstgelegene Clusterpunkt ist.

Als nächstes berechnen wir im zweiten Schritt der Iteration die neuen Clusterpunkte (ab Zeile 29). In Zeile 33–37 addieren wir alle Datenpunkte, die demselben Clusterpunkt zugeordnet wurden und speichern dies in den Zeilen der Clusterpunktmatrix S. Dabei zählen wir in Zeile 36 mit, wie viele Datenpunkte wir jeweils addieren, da zur Berechnung des Schwerpunktes in (1) durch diese Anzahl noch dividiert werden muss. Diese Division wird in Zeile 39–41 durchgeführt.

Nachdem wir alle M Iterationen durchgef¨uhrt haben, konstruieren wir die Output- MatrixX, in desseni-ter Zeile derjenige Clusterpunkt steht, der zum i-ten Datenpunkt am n¨achsten liegt.

1 f u n c t i o n X = kmeans (A, S , M)

2 % I n p u t : − D a t e n p u n k t e a l s Z e i l e n i n M a t r i x A , 3 % − C l u s t e r p u n k t e a l s Z e i l e n i n M a t r i x S , 4 % − A n z a h l d e r D u r c h l a e u f e M d e s A l g o r i t h m u s 5 % O u t p u t : M a t r i x X , i n d e r j e d e r D a t e n p u n k t d u r c h d e n 6 % n a e c h s t g e l e g e n e n C l u s t e r p u n k t e r s e t z t wurde 7

8 N=s i z e(A , 1 ) ; %D e f . A n z a h l d e r D a t e n p u n k t e 9 X=z e r o s(s i z e(A ) ) ; %D e f . O u t p u t m a t r i x

10

11 f o r m= 1 :M % D u r c h l a u f s c h l e i f e d e s A l g o r i t h m u s 12

13 K=s i z e( S , 1 ) ; %D e f . A n z a h l C l u s t e r p u n k t e 14 D=z e r o s(N, K ) ; %D e f . e i n e r ‘ ‘ D i s t a n z m a t r i x ’ ’ 15 L=z e r o s(N , 1 ) ; %D e f . e i n e s ‘ ‘ L a b e l v e k t o r s ’ ’ 16 Z=z e r o s(N , 1 ) ; %D e f . e i n e s H i l f s v e k t o r s 17

18 % C l u s t e r i n g

19 f o r i = 1 :N % B e s t i m m e n a e c h s t g e l e g e n e n

20 % C l u s t e r p u n k t zum i−t e n D a t e n p u n k t

21 f o r k = 1 :K % B e s t i m m e D i s t a n z vom i−t e n D a t e n p u n k t

22 % zum k−t e n C l u s t e r p u n k t

23 D( i , k )=norm(A( i , : )−S ( k , : ) ) ;

24 end

(25)

25 [Z ( i ) L ( i ) ] =min(D( i , : ) ) ; % S e t z e L ( i ) a l s d e n I n d e x d e s

26 % A b s t a n d s−m i n i m i e r e n d e n C l u s t e r p u n k t s

27 end

28

29 % B e r e c h n u n g d e r n e u e n C l u s t e r p u n k t e

30 S=z e r o s(s i z e( S ) ) ; % L o e s c h e a l t e C l u s t e r p u n k t e 31 n=z e r o s( K , 1 ) ; % D e f . ‘ ‘ Z a e h l v e k t o r ’ ’

32

33 f o r i = 1 :N % Summiere a l l e D a t e n p u n k t e m i t g l e i c h e m L a b e l 34 l =L ( i ) ; % D e f . L a b e l d e s i−t e n D a t e n p u n k t e s

35 S ( l , : ) = S ( l , : ) + A( i , : ) ;

36 n ( l )= n ( l ) + 1 ; % E r h o e h e Z a e h l e r zum l−t e n L a b e l

37 end

38

39 f o r k = 1 :K % T e i l e d i e Summen d u r c h d i e A n z a h l d e r Summanden 40 S ( k , : ) = 1 / n ( k ) ∗ S ( k , : ) ;

41 end

42 43 end 44

45 f o r i = 1 :N % D e f . i−t e Z e i l e d e r O u t p u t m a t r i x d u r c h d e n zum 46 % i−t e n D a t e n p u n k t n a e c h s t l i e g e n d e n C l u s t e r p u n k t

47 l =L ( i ) ;

48 X( i , : ) = S ( l , : ) ;

49 end

50 51 end

Anwendungsbefehl F¨ur die Anwendung auf die Photo-Datei schreiben wir als n¨achstes einen kurzen Befehl, der die eingelesene Datei geeignet umformt und dann die

kmeans-Funktion mit zuf¨allig ausgew¨ahlten Anfangsclusterpunkten aufruft.

Die eingelesene Photo-Datei A ist eine Matrix, in der jeder Eintrag einen Pixel re- präsentiert, das heisst in jedem Eintrag steht ein3-dimensionaler Vektor aus dem RGB- Farbraum. Damit wir unseren^kmeans-Befehl auf diese Daten anwenden können, müssen wirAso umformen, dass die Datenpunkte in den Zeilen einer Matrix stehen.

Wir bestimmen zunächst in Zeile 9 die Gesamtanzahl m an Pixeln im Photo. Da die Einträge aus der eingelesenen Photo-DateiA RGB-Farbwerte mit8bit Farbtiefe re- präsentieren, können diese nur ganze Zahlwerte zwischen0 und255annehmen. Dieser

(26)

Typ heisstûint8. Wir möchten jedoch bei der Berechnung von Schwerpunkten auch Wer- te zulassen, die nicht ganzzahlig sind. Daher ändern wir in Zeile 10 den Typ in^single, der alle Dezimalzahlen (auf “single-precision”) speichern kann. In Zeile 11 organisieren wir die MatrixAso um, dass wir eine Matrix mitmZeilen und3Spalten erhalten. Diese Spalten enthalten gerade die Koordinaten im RGB-Farbraum.

Nun müssen wir noch die Anfangsclusterpunkte auswählen. In Zeile 12 generieren wir hierzu K zufällige Zahlen zwischen1 und m und wählen in Zeile 13 die entsprechen- den Zeilen vonAals die Anfangsclusterpunkte. Schliesslich wenden wir in Zeile 15 den

kmeans-Befehl an und wandeln das Ergebnis wieder in den^uint-Typ zur¨uck (dabei wird jeweils auf einen ganzzahligen Wert gerundet). Das Ergebnis wird in Zeile 19 angezeigt.

1 f u n c t i o n X = anwendung (A, K , M)

2 % I n p u t : − D a t e n p u n k t e A a u s e i n g e l e s e n e r B i l d d a t e i 3 % − A n z a h l d e r zu f o r m e n d e n C l u s t e r K ,

4 % − A n z a h l d e r D u r c h l a e u f e M d e s A l g o r i t h m u s 5 % O u t p u t : − M a t r i x X , i n d e r j e d e r D a t e n p u n k t d u r c h d e n 6 % n a e c h s t g e l e g e n e n C l u s t e r p u n k t e r s e t z t wurde 7

8 n1=s i z e(A , 1 ) ; n2=s i z e(A , 2 ) ; % D e f . G r o e s s e d e s B i l d e s

9 m=n1 ∗ n2 ; % D e f . A n z a h l an P i x e l

10 A= s i n g l e (A ) ; % A n p a s s u n g D a t e n t y p von A

11 A=reshape(A , [ m, 3 , 1 ] ) ; % O r g a n i s a t i o n i n Z e i l e n e i n e r M a t r i x 12 c=randperm(m, K ) ; % K z u f a e l l i g e Z a h l e n z w i s c h e n 1 und m 13 S=A( c , : ) ; % D e f . S a l s K z u f a e l l i g e Z e i l e n von A 14

15 X=kmeans (A, S ,M) ; % Anwendung d e r kmeans−f u n k t i o n 16 X= u i n t 8 (X ) ; % A n p a s s u n g D a t e n t y p von X

17 X=reshape( X , [ n1 , n2 , 3 ] ) ; % R e o r g a n i s a t i o n i n Form d e s B i l d e s 18

19 imshow (X ) ; % A n z e i g e d e s E r g e b n i s s e s 20

21 end

Aufruf M¨ochten wir den Algorithmus3Mal auf die Datei^bild.jpganwenden und das Bild in4Farben darstellen lassen, so geben wir folgendes in die Befehlszeile ein:

A= imread ( ’ b i l d . jpg ’ ) ; % E i n l e s e n d e r B i l d d a t e i

anwendung (A, 3 , 4 ) ; % A u f r u f d e s A n w e n d u n g s b e f e h l s

(27)

5.2 Ergebnis

In Abbildung 10 sehen wir schliesslich das Ergebnis fürK = 2,3,5,10,30jeweils nach 5Iterationen desK-Means Algorithmus. Man beachte, dass die Anfangsclusterpunkte jeweils zufällig aus den Datenpunkten gewählt wurden und das Ergebnis von dieser Wahl abhängt (siehe S. 15). Es lässt sich erkennen, dass wir das Motiv durch sorgfältige Auswahl an Farben schon mit10bzw.30Farben gut abbilden können.

(a) 2 Farben (b) 3 Farben (c) 5 Farben

(d) 10 Farben (e) 30 Farben (f) Original

Abbildung 10: Anwendung desK-Means Algorithmus auf ein Photo

(28)

L¨osungen zu den Aufgaben

Aufgabe 1 Das Lineal muss am Schwerpunkt balanciert werden, der sich zus= ¹₃(1.8+

3.9 + 11.7) = 5.8berechnet.

Aufgabe 2

~ s= 1

5(~p1+. . .+~p5) =





 1 1 1 1







Aufgabe 3 (a)

~s= 1

3(~a+~b+~c) =





 0 5/3

0







(b) Die Mittelpunkte der Seiten a, b und c ergeben sich zu Ma = (−1/2,3/2,0), M_b = (0,1/2,−1/2)und Mc = (1/2,3,1/2). F¨ur die Geradengleichungen der Seitenhalbierenden erhalten wir dann

s_a: ~x=





 1 2 0





+α







−3/2

−1/2 0







s_b: ~x=





 0 4 1





+β





 0

−7/2

−3/2







s_c: ~x=







−1





+γ





 3/2

4 3/2







(29)

Wir schneiden exemplarisch die beiden Geradens_aunds_b. Durch Gleichsetzen erhalten wir das Gleichungssystem

1−3 2α= 0 2−1

2α= 4−7 2β 0 = 1−3

2β

Es ergibt sich direktα = β = ²₃ und somit erhalten wir den Schnittpunkt S = (0,5/3,0)wie in Teilaufgabe (a). Durch das Schneiden der anderen Paare von Ge- raden erhalten wir das gleiche Ergebnis.

Aufgabe 4

(a) Wir können den Schwerpunkt bestimmen, indem wir zunächst zwei Paar von Punk- ten bilden, zum BeispielAundBsowieC undD. Dann konstruieren wir die Mit- telpunkte der Paarem~1 = ¹₂(~a+~b)undm~2 = ¹₂(~c+d)~. Der Mittelpunkt dieser Mittelpunkte ist dann¹₂(m~₁+m~₂) = ¹₄(~a+~b+~c+d)~ und stimmt somit mit dem Schwerpunkt der vier Punkte überein.

(b) Indem wir den zusätzlichen Punkt möglichst weit im rechten unteren Bildran wählen, können wir den Schwerpunkt so weit verschieben, dass er nicht mehr innerhalb des VierecksABCDliegt.

Aufgabe 5

(c) Der Wert vondwird minimal am Schwerpunkt. Hieraus ergibt sich die allgemeine Vermutung, dass der Schwerpunkt die Summe der Abstandsquadrate zu den Punkten aus der Menge minimiert.

Aufgabe 6 Wir werden zeigen, dass f¨ur beliebigesx∈R d(x)−d(s)>0