Anforderungen an Cluster-Verfahren

(1)

Cluster-Analyse

Ziel: Analyse von Daten ohne Klassenzugehörigkeit (mit Klas- sen siehe Klassifikation). Objekte werden so zu Clustern

zusammengefasst, dass innerhalb eines Clusters die Objekte möglichst ähnlich und zwischen Clustern möglichst unähnlich sind.

Anwendungsbereiche: Mustererkennung, z.B. Erdbeobach- tungs-Satellitenauswertung für ähnliche Landnutzung; Daten- analyse, z.B. Autoversicherungen für Schadensfallanalyse oder Webanalysten bei Klassifikation von Dokumenten, Markt-

forschung, z.B. Makler bei Analyse von Haustypen, Wert und geografischer Verteilung; Bildverarbeitung; usw.

Nutzen: Menschen bilden seit frühester Kindheit Cluster, ohne bestimmte Ziele zu verfolgen. Wenn ein Cluster entdeckt ist, kann man es genauer untersuchen (z.B. auf gemeinsame Ursachen, wie alle grünen Pflanzen photosynthetisieren; auf gemeinsame Nutzung von Chancen wie Flugtiere (Vögel und Insekten) mit langem Rüssel ernähren sich vom Nektar von tiefen Blütenpflanzen; oder auf gemeinsame Ziele wie alle roten Pilze sind giftig). Weiterhin dienen Cluster zur Vereinfachung von Informationsspeicher und Kommunikation, z.B. braucht man nur die Besonderheiten einer individuellen Katze beschreiben, wenn das Cluster "Katze" bekannt ist.

Bezug zur Statistik: Insbesondere distanzbasierte Cluster- verfahren (z.B. k-means); integriert in statistische Software- pakete wie SPSS oder SAS.

(2)

2

Anforderungen an Cluster-Verfahren

• Skalierbarkeit

• Fähigkeit zum Umgang mit verschiedenen Attributtypen (d.h. nicht nur numerischen Attributen)

• Entdecken von Clustern mit beliebiger Gestalt

• Minimaler Gebrauch von Parametern (zur Konfiguration des Verfahren)

• Fähigkeit zum Umgang mit verrauschten Daten

• Unabhängigkeit von Reihenfolge der Eingabe-Daten

• Umgang mit Daten hoher Dimensionalität

• Constraint-basiertes Clustering

• Interpretierbarkeit und Nützlichkeit

(3)

Datenstrukturen

Die Rohdaten werden für die Clusteranaylse häufig in eine Matrixform transformiert:

a) Datenmatrix (Objekt-Attribut-Struktur)

b) Unähnlichkeitsmatrix (Objekt-Objekt-Struktur)

(4)

4

Unähnlichkeitsmaße und Datentypen

• Intervallbasierte (numerische) Variablen:

¾ Standardisierung (um verschiedene Attribute vergleichbar zu machen)

¾ Unähnlichkeitsmaße (zwischen 2 Objekten mit p Dimens.):

- Euklidische Distanz:

- Manhattan Distanz:

• Binäre Variablen (zwischen 2 Objekten mit p Dimens.):

¾ symmetrische Variablen (beide Werte haben gleiche Be- deutung, z.B. Geschlecht):

d(i,j) = Anzahl ungleicher Attribute / Anzahl aller Attribute

¾ asymmetrische Variablen (ein Wert ist wichtiger als der andere, z.B. HIV-positiv im Vergleich zu HIV-negativ):

d(i,j) = Anzahl ungleicher Attribute / Anzahl aller Attribute ohne negative Matches

• Nominale Variablen: Verallgemeinerung binärer Variablen mit multiplen Werten; Behandlung analog zu binären Variablen.

• Ordinale Variablen: Wie nominale Variablen, aber mit einer Ordnung, z.B. gut, mittel, schlecht. Daher lassen sich alle Techniken der intervallbasierten Variablen übertragen.

Die Techniken sind (nach Normalisierung) kombinierbar.

Zusätzlich können die Variablen in allen Unähnlichkeitsmaßen gewichtet werden, um unterschiedlicher Bedeutung der

Variablen Rechnung zu tragen, z.B. bei gewichteter Euklidischer Distanz:

(5)

Beispiel für binäre asymmetrische Unähnlicheit

(„gender“ ist symmetrisch und deshalb nicht berücksichtigt.)

(6)

6

Übersicht über Cluster-Verfahren

• Partitionierungs-Methoden: Die Anzahl (k) der Cluster

(Partitionen) ist vorgegeben. In mehreren Runden werden die Objekte jeweils dem nächsten Cluster zugeordnet, das durch seinen Mittelwert (k-means) bzw. einem mittleren Objekt (k- medoids) repräsentiert ist.

• Hierarchische Methoden: Schrittweise Aggregation (bot- tom-up) oder Aufteilung (top-down) der Objekte in Gruppen.

• Dichte-basierte Methoden: Cluster wachsen, solange die Dichte von Objekten in ihrer Nachbarschaft einen Schwell- wert überschreitet.

• Gitter-basierte Methoden: Aufteilung der Objekte in ein vor- gegebenes Raster mit Zellen, auf denen alle Operationen basieren.

• Modell-basierte Methoden: Basierend auf vorgegebenen Modellannahmen wird die beste Clusterzerlegung gesucht, die dem Modell entspricht.

(7)

Partitionierungsmethoden: k-means

Die Anzahl (k) der Cluster (Partitionen) ist vorgegeben. In mehreren Runden werden die Objekte jeweils dem nächsten Cluster zugeordnet, das durch seinen Mittelwert (k-means) bzw.

einem mittleren Objekt (k-medoids) repräsentiert ist.

Algorithmus k-means

Input: Anzahl der Cluster, k, und Datenbank mit n Objekten Output: Menge von k Clustern, die ein Fehlerkriterium mini-

mieren (Quadrat-Fehler zu Cluster-Mittelwerten) Methode:

(1) wähle zufällig k Objekte als initiale Cluster-Zentren (2) wiederhole bis Gesamtfehler nicht mehr sinkt:

(3) ordne jedes Objekt dem nächsten Cluster zu, (gemäß Ähnlichkeitsfunktion)

(4) aktualisiere die Cluster-Mittelwerte als Mittelwert aller Objekte des Clusters.

Als Gesamtfehler wird häufig das Quadrat-Fehler-Kriterium über alle Cluster genommen (p = ein Objekt, m_i = Mittelwert des

Cluster C_i).

Komplexität: O(n*k*t) mit n= #Objekte, k= #Cluster, t = #Iterationen Verbesserung: Kombination mit hierarchischen Verfahren zur Be- rechnung der Zahl der Cluster sowie einer guten Anfangsbelegung.

Beispiel mit 3 Clustern und 3 Iterationen: („+“ markiert jeweils Mittelwert des Cluster)

(8)

8

Varianten zur k-Means-Methode

• Bestimmung des k (Anzahl Cluster): Mit hierarchischem Clustering das k bestimmen, dann k-Means-Methode verwenden.

• K-modes: Übertragung der Technik auf nicht-numerische (kategoriale) Daten; Kombination von k-means und k-

modes zu k-prototypes

• Expected Maximization (EM) Algorithmus: Statt Objekte zu Clustern zuzuordnen, wird nur eine Wahrscheinlichkeit der Clusterzugehörigkeit berechnet, d.h. es gibt keine klare Grenzen zwischen Clustern (wie bei Fuzzy-Logik).

Dadurch ändert sich die Berechnung der Mittelwerte von Clustern.

• Effizienzsteigerung: Zusammenfassung (Kompression) sehr ähnlicher Objekte zu Subcluster.

(9)

Partionierung: k-Mediods-Methode

Problem: Das k-means-Verahren reagiert recht empfindlich auf Ausreißer, die den Mittelwert verzerren können.

Lösung: Im Unterschied zum k-means Verfahren wird beim k- Mediods Verfahren ein Cluster durch sein zentralstes Objekt repräsentiert.

Algorithmus k-Mediods

Input: Anzahl der Cluster, k, und Datenbank mit n Objekten Output: Menge von k Clustern, die die Summe der Unähnlich-

keiten aller Objekte zum nächsten Mediod minimieren.

Methode:

(1) wähle zufällig k Objekte als initiale Mediode (2) wiederhole bis keine Änderung

(3) ordne jedem Objekt den Cluster mit dem nächsten Mediod zu (4) wähle zufällig ein nicht-mediodes Objekt o_random

(5) berechne die Gesamtkosten S, um den bisherigen Mediod o_j mit o_random zu vertauschen

(6) wenn S < 0 dann vertausche o_j mit o_random zu, das den neuen Mediod darstellt.

Komplexität: O(n²*k*t); mit repräsentativen Beispielmengen s, die statt aller Objekte n in jeder Iteration überprüft werden: O(s²*k*t)

(10)

10

Fallunterscheidungen bei k-Mediods

Beim Berechnen der Gesamtkosten gibt es 4 Fallunterscheidungen:

• Fall 1: Das Objekt p gehört noch zum Mediod o_j (= o(j). Wenn o(j) durch den Mediod o(random) ersetzt wird und p liegt näher an einem anderen Mediod, o(i), als an o(random), dann wird wechselt die Zugehörigkeit von p von o(j) zu o(i).

• Fall 2: p gehört noch zu Mediod o(j). Wenn o(j) durch

o(random) ersetzt wird und p am nächsten zu o(random) liegt, dann wird p zu o(random) zugeordnet.

• Fall 3: p gehört noch zu Mediod o(i). Wenn O(j) durch

o(random) ersetzt wird, und p ist immer noch am nächsten zu o(i), dann ändert sich nichts.

• Fall 4: p gehört noch zu Mediod o(i). Wenn O(j) durch

o(random) ersetzt wird, und p ist immer näher zu o(random) als zu o(i), dann wechselt p zu o(random).

Die Gesamtkosten ergeben sich aus der Summe der Kosten für die Zuordnung von jedem Objekt zu seinem Mediod.

(11)

Hierarchische Clusterverfahren

Schrittweise Aggregation (bottom-up) oder Aufteilung (top-down) der Objekte in Gruppen.

• Aggregierendes hierarchisches Clustering: Zunächst reprä- sentiert jedes Objekt sein eigenes Cluster, dann werden jeweils die zwei benachbarsten Cluster zusammengefasst, bis nur ein Cluster übrigbleibt (oder ein Terminierungskriterium zutrifft).

• Aufteilendes hierarchisches Clustering: Zunächst befinden sich alle Objekte in einem Cluster, das solange aufgespalten wird, bis die Anzahl der gewünschten Cluster erreicht ist oder jedes Cluster nur ein Objekt umfasst.

Hierarchische Verfahren sind sehr sensitiv gegenüber den

Kriterien, wie Cluster zusammengefasst bzw. aufgeteilt werden, da solche Entscheidungen starke Folgewirkungen haben und nicht rückgängig gemacht werden können. Typische Maße sind:

Beispiel für hierarchisches und aufteilendes Clustering:

(12)

12

Dichte-basierte Clusterverfahren

Cluster wachsen, solange die Dichte von Objekten in ihrer Nachbarschaft einen Schwellwert überschreitet.

Definitionen:

• ε-Nachbarschaft eines Objektes o: Alle Objekte im Radius ε um o

• Kernobjekte: Objekte, in deren ε-Nachbarschaft eine minimale Anzahl von anderen Objekten ist.

• Direkte Dichte-Erreichbarkeit des Objektes p vom Kernobjekt q, falls p in ε-Nachbarschaft von q (asymmetrische Relation).

• Dichte-Erreichbarkeit zwischen zwei Objekten p und q, falls es eine Folge von Zwischenobjekten gibt, die über die direkte Dichte- Erreichbarkeit gekoppelt sind (transitive Hülle zur direkten Dichte- Erreichbarkeit; asymmetrische Relation).

• Dichte-Verbundenheit zwischen zwei Objekten p und q, falls es ein Objekt o gibt, das mit p und q durch Dichte-Erreichbarkeit verbunden ist (symmetrische Relation).

Beispiel:

• M, P, O, R sind Kernobjekte, S und Q nicht.

• Q ist direkt Dichte-erreichbar von M, M von P und P von M.

• Q ist Dichte-erreichbar von P, R und S von O, O von R.

• O, R, S sind alle Dichte-verbunden.

Verfahren zum finden von Dichte-basierten Clustern:

1. Überprüfen aller Objekte, ob sie Kernobjekte sind.

2. Wachsen der Kernobjekte zu Clustern über Dichte-Erreichbarkeit

(13)

Gitterbasierte Clusterverfahren

Aufteilung der Objekte in ein vorgegebenes Raster mit Zellen, auf denen alle Operationen basieren.

Beispiel:

Ausgehend von der detailliertesten Ebene werden für alle Zellen statistische Maße (z.B. Anzahl, Mittelwert, Standard- abweichung, Min, Max, Verteilungstyp) berechnet, die nach

„oben“ aggegriert werden. Cluster können durch Zusammen- fassung einzelner Zellen wachsen.

(14)

14

Kombination von Gitter-basierten mit Dichte-basierten Verfahren

Problem: Entdecken von Clustern in hochdimensionalen Räumen, da Dichte pro Zelle sehr gering.

Lösung: Berechnung der Dichte pro Dimension und sukzessive Kombination der „dichten“ Abschnitte verschiedener Dimensionen.

Beispiel:

(15)

Konzeptuelles Clustering

Konzeptuelles Clustering versucht nicht nur, ähnliche Objekte zu gruppieren, sondern in einem zweiten Schritt auch charakteristische Beschreibungen für jede Gruppe zu finden. Die Qualität der Cluster wird auch aufgrund der Allgemeinheit und Einfach- heit der resultierenden Cluster-Beschreibungen beurteilt.

Grundalgorithmus:

Für jeden neuen Fall tue:

Falls hinreichend ähnlich zu dem Repräsentanten eines Cluster, dann ordne ihn diesem Cluster zu

und verändere ggf. den Repräsentanten des Clusters entsprechend und wende ggf. die Prozedur rekursiv auf Cluster-Nachfolger an

(Bilden hierarchischer Cluster)

ansonsten definiert der Fall ein neues Cluster.

Varianten:

1. Repräsentation eines Cluster durch repräsentativen Fall:

¾ durch ersten Fall

¾ durch typischsten Fall

¾ durch konstruierten Durchschnittsfall ("Otto Normalverbraucher")

2. Repräsentation des Clusters als Konzept:

¾ Das Konzept wird durch eine Menge von notwendigen und hinreichenden Bedingungen beschrieben.

¾ Das Konzept wird durch eine charakteristische Menge von Attributwerten mit einer Nützlichkeitsbewertung beschrieben (Beispiel: UNIMEM).

¾ Das Konzept besteht aus einer Wahrscheinlichkeitsverteilung

(16)

16

Beispiel COBWEB

Repräsentation: In COBWEB werden die Cluster hierarchisch angeordnet und mit Wahrscheinlichkeitsangaben beschrieben, wie häufig ein Wert bei dem Konzept vorkommt:

P (A_i = V_ij| C_k) beim Cluster C_k hat das i-te Attribut A_i den Wert V_ij Dazu werden bei jedem Cluster alle zugehörigen Objekte ge-

speichert, aus denen die Häufigkeit der Attribut-Werte gezählt und daraus die Wahrscheinlichkeiten berechnet werden.

Operationen beim Aufbau der Konzepthierarchie:

• ein Fall bei einem vorhandenen Cluster einfügen

• ein neues Cluster mit einem Fall einrichten

• zwei Fälle zu einem Cluster zu vereinigen

• ein Cluster in seine Nachfolger aufzuteilen

Die letzten beiden Operationen dienen dazu, die Reihenfolge- sensitivität gegenüber den Eingabeobjekten zu verringern.

Algorithmus:

Input: AKT: aktuelles Wurzelkonzept, NF: Neuer Fall Output: Einordnung von NF in AKT

Wenn AKT ein Blatt-Cluster ist,

dann erzeuge-neue-Cluster (AKT, NF) und aktualisiere-Zähler sonst aktualisiere-Zähler und berechne für jeden Nachfolger

von AKT den Score, wenn NF dort platziert wird. Es sei:

P = Cluster mit höchsten Score W R = Cluster mit zweithöchsten Score

X = Score, wenn NF in ein neues Cluster Q eingefügt wird Y = Score, um P und R zu einem Cluster zu vereinigen Z = Score, um P in seine Nachfolger aufzuteilen

Wenn W der beste Score ist, dann (COBWEB P, NF)

sonst wenn X der beste Score ist, dann initialisiere Q mit NF sonst wenn Y der beste Score ist, dann mische (P, R, AKT)

zu O und COBWEB (O, NF)

sonst wenn Z der bester Score ist, dann spalte (P, AKT) und

und COBWEB (AKT, NF)

(17)

Berechnung der Cluster-Nützlichkeit

Die Nützlichkeit eines Cluster (Category utility, CU) ergibt sich aus der Anzahl von Attributwerten, die mit dem neuen Cluster richtig vorhergesagt werden können (1. Doppelsummenterm) im Vergleich zu denen, die ohne das neue Cluster vorhergesagt werden können (2. Doppelsummenterm).

(18)

18

Beispiel COBWEB

Ausgangsdaten:

body cover

heart chamber

body temperature

fertilisation amphibian moist skin 3 unregulated external

fish scales 2 unregulated external bird feathers 4 regulated internal

mammal hair 4 regulated internal

Ergebnis:

0,25 0,25

(19)

Interne Datenstrukturen

Hierarchy level 1 = all 2=A 2=F 2=MB 3=M 3=B Object list A,F,B,M A F M,B M B

Object count 4 1 1 2 1 1

body cover

hair 1 0 0 1 1 0

feathers 1 0 0 1 0 1

moist skin 1 1 0 0 0 0

scales 1 0 1 0 0 0

heart chamber

2 1 0 1 0 0 0

3 1 1 0 0 0 0

4 2 0 0 2 1 1

body temp.

regulated 2 0 0 0 0 0

unregulated 2 1 1 2 1 1

fertilisation

internal 2 0 0 0 0 0

external 2 1 1 2 1 1

(20)

20

Grenzen von COBWEB

• Annahme der Unabhängigkeit der Attribute untereinander

• Bei großen Datenmengen hoher Aufwand, die Wahrschein- lichkeitsverteilungen der Attribut-Werte zu speichern und zu aktualisieren

• Cluster-Hierarchie kann schlecht balanciert sein.

Kommerziell verfügbares Cluster-System auf der Basis von Wahrscheinlichkeitsverteilungen: AutoClass