• Keine Ergebnisse gefunden

3 Instrumente und Methoden zur Darstellung und Analyse gesundheitlicher und sozialer Prozesse

3.2 Mathematisch-statistische Analyseverfahren

3.2.2 Multivariate Analysemethoden

In Datenanalysen – so auch bei der Analyse der gesundheitlichen und sozialen Lage der Bevölkerung verschiedener Regionen Deutschlands – werden eine Vielzahl von Einzelvariablen gleichzeitig betrachtet. Zur Lösung von Forschungsfragen gilt es, Zusammenhänge und Interdependenzen der Variablen zu ergründen, Merkmale in ihrer Komplexität zu reduzieren und zu differenzieren.

75. Perzentil

25. Perzentil

größter beobachteter Wert, der kein Ausreißer ist mehr als 1,5 Kastenlängen vom 75. Perzentil entfernt liegende Werte (Ausreißer)

Median

mehr als 3 Kastenlängen vom 75. Perzentil entfernt liegende Werte (Extremwerte)

kleinster beobachteter Wert, der kein Ausreißer ist mehr als 1,5 Kastenlängen vom 25. Perzentil entfernt liegende Werte (Ausreißer) mehr als 3 Kastenlängen vom 25. Perzentil entfernt liegende Werte (Extremwerte) 50% der Fälle haben Werte

innerhalb des Kastens

75. Perzentil

25. Perzentil

größter beobachteter Wert, der kein Ausreißer ist mehr als 1,5 Kastenlängen vom 75. Perzentil entfernt liegende Werte (Ausreißer)

Median

mehr als 3 Kastenlängen vom 75. Perzentil entfernt liegende Werte (Extremwerte)

kleinster beobachteter Wert, der kein Ausreißer ist mehr als 1,5 Kastenlängen vom 25. Perzentil entfernt liegende Werte (Ausreißer) mehr als 3 Kastenlängen vom 25. Perzentil entfernt liegende Werte (Extremwerte) 50% der Fälle haben Werte

innerhalb des Kastens

Unter dem Begriff der multivariaten Datenanalyse werden verschiedene statistische Verfahren – wie Regressionsanalyse, Varianzanalyse, Multidimensionale Skalierung, Faktorenanalyse und Clusteranalyse – zusammengefasst. Die beiden erstgenannten werden als strukturprüfende Verfahren bezeichnet, sie überprüfen die Zusammenhänge zwischen den Variablen als Wirkungen der unabhängigen auf die abhängigen Variablen. Im Gegensatz dazu werden bei den Verfahren der Multidimensionale Skalierung, Faktoren- und Clusteranalyse keine Unterscheidungen zwischen abhängigen und unabhängigen Variablen vorgenommen, hier steht die Aufdeckung von Zusammenhängen, die Verdichtung der Informationen auf wenige, die Variablen bündelnden Faktoren bzw. die Bündelung von Objekten (hier Regionen) im Vordergrund. Aus der zweiten Gruppe der multivariaten Verfahren ist die Multidimensionale Skalierung auf Grund ihrer Ausrichtung auf die Positionsanalyse von Wahrnehmungsdimensionen (z.B. subjektive Wahrnehmung von Lebenschancen, Angeboten und Produkten) für die im Rahmen der Arbeit zu lösenden Forschungsfragen nicht geeignet.218

Verfahren der multivariaten Datenanalyse sind in letzter Zeit auf Länder- und kommunaler Ebene häufig für die Analyse sozialer und gesundheitlicher Fragestellungen verwendet worden, sie haben deshalb trotz der aufwendigen und ohne tiefere mathematisch-statistische Vorkenntnisse schwer nachzuvollziehenden Berechnungen Akzeptanz in der Öffentlichkeit gefunden. Wichtig für den Anwender sind die Kenntnis der datenmäßigen Voraussetzungen und die Kenntnis der zur Verfügung stehenden Verfahren, um für die Nutzer eine genaue Beschreibung und Interpretation der Ergebnisse vorzunehmen.219 Zur Lösung der Forschungsaufgabe „Monitoring der gesundheitlichen und sozialen Lage der Bevölkerung verschiedener Regionen Deutschlands“ und deren exemplarische Datenauswertung im Rahmen der vorliegenden Arbeit wurde zunächst ein Verfahren benötigt, das die vielen Einzelvariablen auf wenige Dimensionen reduziert. Dazu eignet sich die Faktorenanalyse: Im ersten Schritt wird geprüft, ob zwischen den Variablen überhaupt ein Zusammenhang besteht und wie stark dieser ist. Liegt die Korrelation zwischen den Variablen nahe Null, ist dies ein Kriterium zu deren Ausschluss. Hoch korrelierte Variablen werden zu jeweils einem Faktor zusammengefasst, die Faktoren sind dann unabhängig voneinander. Die errechneten Faktoren erklären die einbezogenen Einzelvariablen möglichst vollständig, Auskunft darüber geben die Kommunalitäten (Teil der Gesamtvarianz einer Variablen, der durch die gemeinsamen Faktoren erklärt wird) und die Gesamtvarianz für das Modell.

Die statistische Eignung der Variablen für die Faktorenanalyse erfolgt über verschiedene Kriterien: Die Prüfung der Variablen auf Normalverteilung (graphisch abbildbar auch in Streuungsdiagrammen), obwohl sie keine Voraussetzung für die Faktorenanalyse darstellt erleichtert sie später die Interpretation der Faktoren. Als weiteres Kriterium steht die Korrelationsmatrix zur Verfügung, sie erlaubt die Beurteilung der Eignung einzelner Variablen über die Signifikanzniveaus der Korrelationskoeffizienten. Hohe Korrelationen

218 Backhaus et al. (2000); Schnell/Hill/Esser (1995:416-430)

219 Als Beispiele für die Verwendung multivariater Datenanalyseverfahren in der aktuellen Berichterstattung werden genannt: Institut für soziale Arbeit (1999); SLFS (2002); AG Sozialplanung Darmstadt (2002); Meinlschmidt (2004); Ferchland (2000)

zwischen den Variablen mit entsprechenden Signifikanzen zeigen die Bündlungsfähigkeit, d.h. die Möglichkeit der Reduzierung auf wenige Hintergrundfaktoren, an. Ist die Zahl der Variablen jedoch größer als die der Merkmale (hier Regionen) wird im Rahmen der Prozeduren zur Faktorenanalyse keine Korrelationsmatrix – mit der Begründung Matrix ist nicht größer als Null – berechnet. Hier empfiehlt sich eine Korrelationsanalyse unabhängig von der Faktorenanalyse. Als weiteres Test-Kriterium wird das Kaiser-Meyer-Olkin-Kriterium (KMK) empfohlen. Es zeigt an, wie die Variablen zusammengehören und dient als Beurteilungsmaßstab für die Sinnhaftigkeit der Faktorenanalyse. Es wird aus der Korrelationsmatrix heraus berechnet, sein Wert sollte mindestens 0,5 bei einem Wertebereich zwischen 0 und 1 betragen.220

Zur Berechnung der Faktorenanalyse stehen Rechenroutinen des Statistikprogramms SPSS zur Verfügung, deren Ablauf lässt sich wie folgt beschreiben:

- Standardisierung (z-Transformation) der Variablen, dies ermöglicht die Vergleichbarkeit von Variablen mit unterschiedlichen Maßeinheiten (z.B. Anteil der Bevölkerung ohne Hauptschulabschluss in % und Lebenserwartung in Jahren),

- Aufstellung der Korrelationsmatrix und Berechnung von Größen (wie der sogenannten Eigenwerte und Kommunalitäten), die für das weitere Verfahren Voraussetzung sind, - Berechnung der Faktoren mit verschiedenen Verfahren, deren gebräuchlichstes die

„Hauptkomponentenanalyse“ ist,

- Rotation der Faktoren zur besseren inhaltlichen Interpretation (Ziel ist die Abbildung jeder Variable eindeutig auf einen Faktor), auch hier stehen verschiedene Verfahren zur Verfügung, z.B. Quartimax (stärkt die Varianz des ersten Faktors) oder Varimax (stärkt die Varianzen aller Faktoren).

Als Ergebnis der Faktorenanalyse entsteht das so genannte Faktorenmuster, es bildet die Korrelation zwischen Variablen und den Faktoren als Faktorwerte ab. Die Faktoren müssen inhaltlich interpretiert und entsprechend bezeichnet werden, erst dann wird der Vorteil einer Bündelung der Einzelvariablen für den Anwender sichtbar.

Die berechneten Faktoren sind sehr unterschiedlich in ihrer Ausprägung für die einzelnen Fälle (Regionen). Zur Klassifizierung von Ähnlichkeiten der Regionen wird in der statistischen Literatur im Anschluss an die Faktorenanalyse die hierarchische Clusteranalyse empfohlen. Zur besseren Interpretation der Cluster wird bei hoch korrelierten Variablen wiederum das Vorschalten einer Faktorenanalyse empfohlen. Für die vorliegende Problematik ist also die Kombination von Faktoren- und Clusteranalyse empfehlenswert.

Die Clusteranalyse kann für jeden Faktor einzeln oder auch für mehrere Faktoren gleichzeitig berechnet werden, im letzteren Fall können jedoch Interpretationsschwierigkeiten auftreten, die in der Unabhängigkeit der Faktoren und der erreichten Gesamtvarianz (Ausdruck für die Widerspiegelung der Ausgangsinformationen) begründet sind. Die in einem Cluster befindlichen Regionen

220 Backhaus (2000:253-298)

sollen möglichst ähnlich sein. Ausgehend von einer Region, die zugleich ein Cluster darstellt, werden bei der empfohlenen hierarchischen agglomerativen Clusteranalyse mit Distanzmaßen die Abstände zwischen den Clustern geprüft. Cluster mit den größten Ähnlichkeiten, d.h. den geringsten Distanzen werden zusammengefasst. Die optimale Clusteranzahl richtet sich nach dem Abstandsmaß zwischen zwei Clustern, erhöht es sich sprunghaft, sollte man die Zusammenfassung zu neuen Clustern beenden. Die optimale Clusteranzahl ist die Differenz zwischen der Anzahl der zu clusternden Fälle (z.B. 19 in der Regionen Berlin-Brandenburg) und der Schrittzahl, hinter der sich der Koeffizient sprunghaft erhöht (z.B. 16, ergibt 3 Cluster). Die Ergebnisse der Clusteranalyse werden im letzten Schritt analysiert und interpretiert, d.h. es wird untersucht, wie sich die ermittelten Cluster unterscheiden und welche Variablen bzw. deren Ausprägung ursächlich für die Zusammenführung bestimmter Regionen (hier Städte bzw. Städte und Landkreise) in Clustern ist.221

221 Backhaus (2000:329-370)

4 Konzept einer integrierten Gesundheits- und