• Keine Ergebnisse gefunden

6 Methodik der Hauptstudie

6.3 Methodenwahl für die Datenauswertung

6.3.2 Clusteranalyse

6.3.2.2 Clustermethoden

PUNJ & STEWART (1983) weisen darauf hin, dass es lange Zeit schwierig war, den Überblick bezüglich der unterschiedlichen Clustermethoden und deren Anwendbarkeit zu behalten. Dies lag nicht nur daran, dass eine größere Anzahl verschiedener Clustermethoden zur Anwendung zur Verfügung stand, sondern wurde auch dadurch verursacht, dass teilweise unterschiedliche Namen für die gleichen Methoden verwendet wurden. Eine detaillierte Übersicht über die Eigenschaften der wichtigsten Clustermethoden sowie deren alternativen Namen findet sich bei den Autoren.

Abb. 20 zeigt eine Übersicht über die Typologie unterschiedlicher Clustermethoden. Auf diese Weise lässt sich eine Zuordnung der unterschiedlichen Clustermethoden zu übergeordneten Verfahrensgruppen nachvollziehen.

Abbildung 20: Übersicht über unterschiedliche Clustermethoden

BACKHAUS et al. 2006 Umfassende Forschungsanwendung erfahren vor allem hierarchische und partionierende Clusterverfahren. Die partionierenden Verfahren benötigen eine vorab festgelegte Gruppierung der Objekte (sog. Startpartition). In diesem Sinne muss einerseits festgelegt werden, wie viele Cluster im Rahmen der Analyse gebildet werden sollen. Weiterhin muss entschieden werden, nach welchen Regeln die Aufteilung der Einzelobjekte auf die Cluster der Startpartition erfolgt. Der Algorithmus ordnet dann die verschiedenen Objekte zwischen den Gruppen so lange um, bis eine festgelegte Zielfunktion einen optimalen Wert erreicht (BACKHAUS et al. 2006). Die partionierenden Verfahren unterscheiden sich dabei hinsichtlich verschiedener Kriterien wie z.B. der Startpartition, der Terminierungsfunktion oder der Häufigkeit, mit der Clustermittelwerte während der Analyse neu berechnet werden. Die wichtigsten Clustermethoden, die dieser Gruppe zugeordnet werden können, sind die K-Means-Methode sowie die Hill-Climbing-Methoden (PUNJ & STEWART 1983).

Die hierarchischen Clustermethoden lassen sich wiederum in agglomerative und divisive Verfahren unterteilen. Der Unterschied besteht in der Herangehensweise: Bei agglomerativen Methoden werden zunächst alle Einzelobjekte als einzelne Cluster betrachtet. Darauf folgen viele weitere Schritte, bei denen jeweils Cluster zusammengefasst werden, die einander ähneln. Am Ende der Analyse steht ein einziges Cluster, welches alle Einzelfälle beinhaltet. Bei divisiven Methoden wird genau entgegengesetzt vorgegangen: Anfangs werden alle Einzelfälle in einem einzigen, großen Cluster zusammengefasst. In nachfolgenden Schritten werden nach und nach weitere Cluster aufgrund ihrer Unähnlichkeit vereinzelt. Am Ende werden zahlreiche Cluster ausgegeben, wobei jedes Cluster einem Einzelobjekt entspricht (BACKHAUS et al. 2006).

An dieser Stelle wird deutlich, dass hierarchische Clustermethoden immer eine komplette Hierarchie von Clusterlösungen ausgeben, d.h. in einem Datensatz mit n Einzelobjekten gibt die Anfangslösung eines agglomerativen Verfahrens stets ein Cluster aus, während die Endlösung stets aus n Clustern besteht. Natürlich liegt eine zweckmäßige Lösung irgendwo zwischen der Anfangs- und der Endlösung. Es ist Aufgabe des Forschers, eine optimale Clusterlösung zu bestimmen. Eine sinnvolle Herangehensweise zur Bestimmung der Clusterzahl gibt Kap. 6.3.2.3.

Hierarchische Cluster lassen sich graphisch als Dendrogramm oder Baumdiagramm darstellen. Abb. 21 zeigt ein Dendrogramm für einen kleinen Datensatz mit 20 Einzelobjekten. Das in Abb. 21 gezeigte Vorgehen entspricht einem agglomerativen Verfahren, da Einzelobjekte zu Gruppen zusammengefasst werden.

Abbildung 21: Beispiel eines Dendrogramms

EIGENE DARSTELLUNG 2010 Als hierarchische Clusterverfahren, die verbreitet Anwendung finden, werden in der Literatur folgende Methoden genannt: Single-Linkage, Complete-Linkage, Average-Linkage, Ward-Methode (PUNJ & STEWART 1983), sowie das Centroid- und das Median-Verfahren (BACKHAUS et al. 2006). Ob zur Analyse hierarchische oder partionierende Verfahren besser geeignet sind, hängt von den Forschungsumständen ab.

In dieser Hinsicht muss bedacht werden, dass partionierende Verfahren eine Startpartition erfordern, die entweder durch Randomisieren oder aufgrund von theoretischen Vorüberlegungen herbeigeführt wird. PUNJ & STEWART (1983) kommen nach

umfangreicher Literatursichtung zu dem Schluss, dass die Ward-Methode, Average-Linkage sowie die K-Means-Methode gegenüber allen anderen Methoden die besten Ergebnisse liefern. Die Methode nach Ward scheint unter den hierarchischen Verfahren der Average-Linkage-Methode überlegen zu sein, gleichzeitig reagiert die Ward-Methode aber sensibel gegenüber Ausreißern und liefert dann weniger gute Ergebnisse. Die K-Means-Methode ist den anderen Methoden so lange überlegen, wie die Startpartition nicht randomisiert herbeigeführt wird, sondern auf theoretischen Vorüberlegungen basiert.

Erfolgt die Zuteilung zur Startpartition hingegen randomisiert, kann es zu schlechteren Ergebnissen kommen. Für die erfolgreiche Anwendung partionierender Verfahren wie K-Means spielt folglich die Startpartition eine besondere Rolle. Die Aufteilung aufgrund von theoretischen Vorüberlegungen sollte an dieser Stelle einer Randomisierung vorgezogen werden.

Die Feststellung der Ähnlichkeit zweier Objekte kann ebenfalls auf unterschiedliche Weise gemessen werden. An dieser Stelle soll lediglich die Ermittlung der Ähnlichkeit bei metrischer Variablenstruktur betrachtet werden, da diese Fälle in der Clusteranalyse am meisten verbreitet sind. Auch die im Rahmen dieser Arbeit durchgeführte Clusteranalyse integriert lediglich metrische Variablen.

Genaugenommen wird durch die sog. Proximitätsmaße eher die Unähnlichkeit, nämlich die Distanz zweier Objekte gemessen. Ist die Distanz zwischen zwei Objekten groß, sind sie sich unähnlich. Mit abnehmender Distanz kann hingegen eine zunehmende Ähnlichkeit angenommen werden. Innerhalb der Proximitätsmaße kommt den sog.

Minkowski-Metriken eine besondere Bedeutung zu. Hierzu zählt z.B. die Euklidische Distanz, die die kürzeste Distanz zwischen zwei Objekten mit Bezug auf ihre Position hinsichtlich verschiedener Kriterien misst. Innerhalb der hierarchischen Clustermethoden wird die quadrierte Euklidische Distanz als das am meisten verwendete Ähnlichkeitsmaß angesehen (SAUNDERS 1994, zitiert bei JENSEN 2008). Bei Verwendung der Minkowsi-Metriken muss allerdings bedacht werden, dass eine Standardisierung der clusterbildenden Variablen notwendig ist. Ansonsten kann es aufgrund von unterschiedlichen Wertbereichen zu einer überproportionalen Gewichtung von Variablen mit großem Wertebereich kommen (JENSEN 2008).