• Keine Ergebnisse gefunden

6 Versorgungsindikatoren nach Regionstypen

6.2 Clusteranalyse

6.2.2 Methode der Clusteranalyse

Grundsätzlich wird bei den Clusteralgorithmen zwischen partitionierenden und hierarchischen Verfahren unterschieden (vgl. Backhaus, Erichson et al. 2008).

Die partitionierenden Verfahren gehen von einer vorgegebenen Gruppie-rung der Objekte aus (Anfangspartition) und ordnen die Objekte so lange zwi-schen den Gruppen um, bis eine Zielfunktion (z. B. maximale Verringerung der Varianz innerhalb der Gruppen) ihr Optimum erreicht. Die partitionieren-den Verfahren sind sehr variabel, da die Objekte auch während des Fusionie-rungsprozesses noch die Gruppen wechseln können und nicht nach einmaliger Zuordnung in einem Cluster gesetzt sind. Die Wahl der Anfangspartition kann allerdings häufig nur in Teilen oder gar nicht theoretisch begründet werden, hat aber Einfluss auf die sich ergebenden Cluster-Lösungen. Auch spielt die Wahl der Zielfunktion eine entscheidende Rolle bei der Zuordnung der Objek-te. Das Statistik-Programm SPSS bietet als partitionierenden Algorithmus das k-Means-Verfahren an.

Da die Vorgabe der Anzahl Cluster bei den partitionierenden Verfahren eine zwingende Voraussetzung ist, wird häufig ein zweistufiges Verfahren angewandt, bei dem zunächst mit einem hierarchischen Verfahren die Anzahl der Cluster bestimmt und anschließend die endgültige Zuordnung der Objekte zu diesen

Clustern durch ein partitionierendes Verfahren erfolgt (vgl. Tiede 1993; Bortz 2005; Strohmeier, Schultz et al. 2007).

Die hierarchischen Verfahren sind bezüglich der Rechenleistung weniger anspruchsvoll. Es wird zwischen agglomerativen und diversiven Algorithmen unterschieden. Bei agglomerativen Verfahren wird von der feinsten Partition der Objekte ausgegangen (d. h. jedes Objekt bildet ein Cluster) und die Objekte und im weiteren Verlauf Gruppen schrittweise so lange zusammengefügt, bis ein einziges Cluster entsteht (d. h. alle Objekte bilden ein Cluster). Die diver-siven Clusterverfahren starten entsprechend mit einem einzigen Cluster aller Objekte als Ausgangspunkt und enden, wenn jedes Objekt ein eigenes Cluster bildet. Im Verlauf dieser Zusammenführung bzw. Trennung von Objekten und Objektgruppen muss eine Entscheidung über die optimale Clusteranzahl getrof-fen werden.

Für diese Clusteranalyse wurde zunächst ein agglomeratives, hierarchisches Vorgehen gewählt. Auf Grundlage der erstellten Distanzmatrix mit der quad-rierten euklidischen Distanz als Distanzmaß werden die Mittelbereiche mit der geringsten Distanz zueinander zu einem Cluster zusammengefasst. Anschlie-ßend werden neue Abstände der Cluster zueinander berechnet. Die Cluster mit der größten Ähnlichkeit werden dann zu einer neuen Clustergruppe aggregiert.

Dieser Ablauf erfolgt so lange, bis alle Mittelbereiche in einem einzigen Cluster zusammengeführt sind.

Der Abstand zwischen zwei Clustern und das entsprechende Zusammenfas-sen von Clustern wird mit einem Fusionierungsalgorithmus bestimmt. Gewählt wurde hier das Ward-Verfahren, bei dem die Gruppen zusammengefasst werden, die das Heterogenitätsmaß der bestehenden Gruppe am wenigsten vergrößern, die Varianz in der Gruppe also möglichst gering bleibt. Das Varianzkriterium (auch als Fehlerquadratsumme bezeichnet) wird für eine Gruppe g wie folgt be-rechnet:

xkjg : Beobachtungswert der Variablen j (j=1,…,J) bei Objekt k (für alle Objekte k=1,…,Kg in Gruppe g

xjg : Mittelwert über die Beobachtungswerte der Variablen j in Gruppe g

Das Ward-Verfahren wird als sehr guter Fusionierungsalgorithmus angesehen (vgl. Backhaus, Erichson et al. 2008), wenn ein Distanzmaß sinnvoll zur Anwen-dung kommen kann, die Variablen auf metrischem Skalenniveau vorliegen, keine

Ausreißer bestehen und die Variablen nicht korreliert sind. Stein und Vollnhals (2011) bezeichnen das Ward-Verfahren als „das leistungsstärkste Verfahren unter den agglomerativen Verfahren“ (S. 37).

Um die Voraussetzungen für die Anwendung des Ward-Verfahrens zu schaf-fen, wurde ein Ausreißer korrigiert.48 Die positive Korrelation zwischen der Hausarztdichte und der Anzahl Hausarztfälle je Einwohner mit einem Pear-son-Korrelationskoeffizienten von 0,541 kann bewirken, dass beide Merkmale bei der Distanzberechnung höher gewichtet werden. Als Ergebnis können Cluster er-wartet werden, die möglichst homogen sind, in ihrer enthaltenen Objektzahl ver-gleichbar groß sind und etwa die gleiche Ausdehnung haben (Backhaus, Erichson et al. 2008). Da die Ergebnisse der hierarchischen Clusteranalyse als Ausgangs-punkt für eine Clusterzentrenanalyse (k-Means) dienen, bei der eine erneute Zuordnung der Objekte vorgenommen wird, sind die Ergebniseigenschaften des Ward-Fusionierungs-Algorithmus hier schlussendlich aber nebensächlich.

Die Ergebnisse der Clusteranalyse wurden mithilfe eines Dendogramms und einer Zuordnungsübersicht (Agglomeration Schedule) ausgewertet49. Auf Grund-lage dieser Darstellung bzw. Auswertung wurde die Entscheidung über die optima-le Anzahl der Cluster getroffen. Dabei steht der Anwender im Konflikt zwischen der Auswahl von vielen Clustern mit großer Homogenität oder wenigen Clustern mit besserer Handhabbarkeit (vgl. Backhaus, Erichson et al. 2008).

Neben sachlogischen Einschätzungen zur maximalen Clusterzahl oder dem maximal zulässigen Heterogenitätsmaß kann auch das Elbow-Kriterium heran-gezogen werden. Dabei wird die Fehlerquadratsumme gegen die entsprechende Clusterzahl in ein Diagramm eingetragen. Das Heterogenitätsmaß steigt mit ab-nehmender Clusterzahl. Als „Elbow“ wird ein „Knick“ in diesem Maß bezeich-net, der einen Sprung in der Entwicklung der Unähnlichkeit der Mittelbereiche in einem Cluster anzeigt.

Die Darstellung legt zwei mögliche Lösungen nahe (vgl. Abbildung 18): eine Zwei-Cluster oder eine Vier-Cluster-Lösung. Um ein gewisses Spektrum an möglichen Regionstypen mit Bezug auf die Versorgungsindikatoren abbilden 48 Der Mittelbereich Westerland weist mit 116,8 Hausärzten je 100.000 Einwohner eine stark überdurchschnittliche Arztdichte auf. Um Verzerrungen zu vermeiden, wurde für diesen Mittelbereich die zweithöchste Arztdichte (93,3 Ärzte je 100Tsd. EW) für die Clusteranalyse festgelegt.

49 Aufgrund der großen Datenmenge von 383 geclusterten Objekten und der damit ver-bundenen Unübersichtlichkeit wird von einer Abbildung des Dendogramms und der Zuordnungsübersicht abgesehen. Beide Auswertungen können bei der Verfasserin eingesehen werden.

zu können und eine höhere Ähnlichkeit der Mittelbereiche in einem Cluster zu erreichen, wurde die Vier-Cluster-Lösung gewählt.

Abbildung 18: Elbow-Kriterium beim Ward-Verfahren

Elbow

Elbow

0 200 400 600 800 1.000 1.200 1.400

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Fehlerquadratsumme

Anzahl Cluster

Quelle: eigene Berechnung und Darstellung

Die Anzahl von vier Clustern wurde anschließend als Ausgangspunkt für die Clusterzentrenanalyse (k-Means) gewählt, für die eine Vorgabe der Clusterzahl notwendig ist. Ausgangspunkt für das k-Means-Verfahren ist eine willkürlich gewählte oder a priori vom Anwender festgelegte Startpartition, die dann in ei-nem iterativen Prozess so lange verändert wird, bis die Binnenheterogenität der gebildeten Gruppen ein Optimum erreicht hat oder ein gewähltes Abbruchkri-terium zutrifft. Die Startpartition kann dabei das Ergebnis des Clusterprozesses entscheidend beeinflussen – nur wenn die Clusterstruktur der Ausgangsdaten sehr eindeutig ist, wird die Startpartition keinen Einfluss auf die Clusterlösung des k-Means-Prozesses haben (vgl. Wiedenbeck & Züll 2001).

Daher wurden im Sinne einer Sensitivitätsanalyse sieben unterschiedliche Startpartitionen gewählt.50 Die Sortierung der drei Versorgungsindikatoren

50 Insgesamt wurden 25 Startpartitionen getestet, aber nur mit den sieben hier dargestell-ten wurden minimal unterschiedliche Ergebnisse des k-Means-Prozesses erreicht. Mit den übrigen 18 Startpartitionen erfolgte eine Duplizierung der Ergebnisse, so dass von einer Darstellung dieser Startpartitionen hier abgesehen wird.

wurde dafür willkürlich geändert. Auch das Ergebnis der vorhergegangenen hi-erarchischen Clusteranalyse wurde als Startpartition gewählt. Als Abbruchkri-terium galt eine Überschreitung von 15 Iterationen oder eine Veränderung des Clusterzentrums um weniger als den Schwellenwert von 0,00. Es wurden keine gleitenden Mittelwerte verwendet, sondern die Clusterzentren neu berechnet, nachdem alle Mittelbereiche final einem der vier Cluster zugeordnet wurden.

Die Güte der Clusterlösungen der unterschiedlichen Startpartitionen lässt sich anhand des Verhältnisses der Streuungen zwischen den Clustern und innerhalb der Cluster bewerten. Dafür können die Quadratsummen innerhalb der Cluster und die Quadratsummen zwischen den Clustern mit einer ANOVA-Tabelle aus-gegeben werden. Dem Ziel der Clusteranalyse folgend sollte die Quadratsumme innerhalb der Cluster möglichst niedrig, die Quadratsumme zwischen den Clus-tern möglichst hoch ausfallen. Das Verhältnis der beiden Quadratsummen wird mit dem F-Wert ausgedrückt: Ist dieser Wert hoch und statistisch signifikant, kann davon ausgegangen werden, dass die Clusteranalyse im Bezug auf das zu-vor beschriebene Grundziel erfolgreich war.

Für alle sieben Clusteranalysen weisen die drei Indikatoren jeweils einen sehr hohen F-Wert mit einer hohen Signifikanz auf (vgl. Anhang II). Ein qualitati-ver Unterschied bei der Güte der Clusterlösungen lässt sich nicht feststellen: In allen Fällen ist die Clusteranalyse insofern erfolgreich, dass sich die Werte der Indikatoren innerhalb der Cluster wesentlich ähnlicher sind als die Werte in un-terschiedlichen den Clustern. Auch ist die Zuordnung zu den Clusterprofilen weitgehend identisch51: Es besteht eine hohe positive Korrelation zwischen den Lösungen der sieben Clusterzentrenanalysen.

Bei 187 der 289 Mittelbereiche, die nicht dem Regionstyp 0 angehören, wird in allen sieben Clusterzentrenanalysen mit unterschiedlichen Startpartitionen die gleiche Zuordnung erreicht (Tabelle 17). Bei 208 von 289 Mittelbereichen stimmt die Zuordnung in sechs von sieben, bei 224 in fünf von sieben der Clus-terzentrenanalysen überein. Eine Zuordnung, die bei mindestens vier der sieben Clusterzentrenanalysen übereinstimmt, lässt sich für alle Mittelbereiche, die nicht dem Regionstyp 0 angehören, vornehmen. Da eine hohe Übereinstimmung zwi-schen den Ergebnissen der Clusterzentrenanalysen besteht, wird die Zuordnung zur finalen Clusterlösung unter Berücksichtigung der mehrheitlichen Zuordnung

51 Bei der Interpretation der Clusterlösungen ist zu beachten, dass die Bezeichnung der Cluster unterschiedlich ausfallen kann. Es wurden immer die Clusterprofile anhand der Mittelwertausprägungen für die drei Indikatoren verglichen.

vorgenommen (vgl. Tabelle 17), so dass die Ergebnisse aller sieben Clusterzent-renanalysen einbezogen werden.

Tabelle 17: Überschneidungen der Clusterzuordnung: Sensitivität der Clusterzentrenanalysen

eindeutig

(7/7) sehr deutlich

mehrheitlich (6/7) deutlich

mehrheitlich (5/7) mehrheitlich (4/7)

Cluster 1 60 64 66 71

Cluster 2 53 54 56 84

Cluster 3 21 27 27 30

Cluster 4 53 63 75 104

Gesamt 187 208 224 289

Quelle. eigene Berechnung