Faktorenanalyse / Hauptkomponentenanalyse

4.2 Beschreibung der Daten: Fallauswahl

4.4.1 Faktorenanalyse / Hauptkomponentenanalyse

Mit den Verfahren der FA bzw. der PCA können eine Vielzahl von Variablen auf einige wenige hypothetische Konstrukte (Faktoren bzw. Hauptkomponenten²³) reduziert werden, die als lineare Kombinationen der beobachteten Variablen errechnet werden (TABACHNICK/FIDELL 1996: 635-707; BACKHAUS et al. 1989: 67-113).

23 Die Begriffe „Faktor“ und „Hauptkomponente“ werden im Folgenden gleichbedeutend verwendet.

Da FA und PCA auf Korrelationsmatrizen und gewichteten Variablensummen beruhen, müssen die Daten grundsätzlich mindestens Intervallskalenniveau besitzen. Obwohl die Präferenzwerte in DEU und NDEU auf Intervallskalen gemessen wurden, kann ohne eine axiomatische Rechtfertigung (SCHNELL et al. 1999: 138) nicht angenommen werden, dass die Daten tatsächlich Intervallskalenniveau besitzen. Es kann aber auch die faktoranalytische Untersuchung ordinaler Daten pragmatisch gerechtfertigt werden, weil sozialwissenschaftliche Variablen meist „als kontinuierliche, normalverteilte latente Variablen, die durch Indikatoren mit geringen Messfehlern gemessen wurden“, aufgefasst werden können (1999: 142). Die so entstehenden Verzerrungen müssen allerdings als gering erachtet werden (KIM/MUELLER 1978b: 74). Der PCA liegt also die Annahme zugrunde, dass die auf den Präferenzskalen erhobenen Werte sinnvoll interpretierbare Abstände aufweisen, die zugewiesenen Werte also die tatsächlichen Abstände relativ gut wiedergeben.

Getestet wird diese Annahme durch die nachfolgende Anwendung einer Hauptkomponentenanalyse für ordinale Daten und den Vergleich der Ergebnisse.

Ziel der FA ist die dimensionsreduzierte Darstellung der Positionen der Akteure.

Daher wird die Korrelationsmatrix nicht über Variablen/Spalten (d.h. die Themen), sondern über Fälle/Zeilen (d.h. die MS) gebildet²⁴. Dies entspricht der sog. Q-Methodologie (CATTELL 1975: 90-107). Ein weiterer Vorteil der Q-Methodologie besteht in der deutlichen Erhöhung der Fallzahl. In der Literatur werden unterschiedliche Angaben zu den notwendigen Fallzahlen gemacht. TINSLEY/TINSLEY (1987) verlangen ein Verhältnis von etwa 5 bis 10 Fällen pro Variable²⁵. Die Stichprobengröße des DEU ist für eine FA als relativ gering einzustufen, kann aber zumindest für den gesamten Datensatz gerechtfertigt werden. Bei der Darstellung der Analyseergebnisse wird auf dieses Problem noch einmal eingegangen. Zur Analyse einzelner Vorschläge des NDEU kann keine FA berechnet werden, die Fallzahlen sind dazu bei weitem nicht ausreichend (die Anzahl der Themen und Akteure ist bei den einzelnen Vorschlägen in etwa gleich hoch).

Die Faktoren werden mit dem Verfahren der PCA extrahiert. Im Gegensatz zur FA liegt der PCA kein theoretisches Faktormodell zugrunde, sie berücksichtigt die gesamte Varianz der Daten, um so ein „empirical summary of the data set“ zu erstellen (TABACHNICK/FIDELL 1996: 664).

24 Die Ausgangsmatrix wird praktisch um 90 Grad gedreht.

25 COMREY/LEE (1992) stufen pauschal 50 Fälle als sehr gering, 100 als gering, 200 als angemessen, 300 als gut, 500 als sehr gut und 1000 als ausgezeichnet ein.

4.4.2 Korrespondenzanalyse

Die Durchführung der PCA ist mit einer Reihe von Nachteilen verbunden: Die Zahl der Fälle im DEU ist recht gering. Für den NDEU ist aufgrund zu geringer Fallzahlen die Berechnung einer PCA nicht möglich. Es werden intervallskalierte Daten angenommen.

Zudem wird durch die Q-Methodologie die Interpretation der extrahierten Faktoren erschwert, da nicht nachvollziehbar ist, welche Themen in welcher Weise die Lösung bestimmen. Diese Nachteile können mit einem alternativen Verfahren umgangen werden. Die CA, Anfang der 1960er Jahre von Jean-Paul Benzécri und seinen Mitarbeitern entwickelt (BLASIUS 2001: V) und mehrere Male unabhängig voneinander „wiederentdeckt“, beschreibt wie die PCA latente Merkmale mit Hilfe von manifesten Variablen (2001: 83). Dabei sind jedoch die Ansprüche an die Daten geringer: Ordinal skalierte Daten sind für die Analyse zulässig. Zudem eignet sich das Verfahren zur Beschreibung von Strukturen in Daten mit kleinen Fallzahlen (BLASIUS 2001: 330), was sie besonders für die Analysen des NDEU empfiehlt.

Bei der CA werden Zeilen- oder Spaltenprofile einer Häufigkeitstabelle (die Häufigkeiten in einer Zeile bzw. Spalte dividiert durch die Summe aller Häufigkeiten der Zeile bzw. Spalte) berechnet, um die Ähnlichkeit der Zeilen- oder Spaltenprofile untereinander oder mit dem Durchschnittsprofil der Zeilen bzw. Spalten zu vergleichen. In den Analysen des DEU²⁶ werden die Abweichungen (die Chi-Quadrat-Distanzen) zwischen dem Zeilenprofil von MS j und dem Zeilenprofil des durchschnittlichen MS nach (1) bestimmt:

(1) χ² = Σj ((obsij - expij)²/expij)

obsij = beobachteter Wert von MS i zum Thema j exp_ij = erwarteter Wert von MS i zum Thema j

Die Berechnung einer CA bezieht sich also prinzipiell auf Häufigkeitstabellen, sie ist jedoch auch für Präferenzwerte möglich. Um bei der Analyse von Rangdaten zu gewährleisten, dass alle Variablen das gleiche Gewicht erhalten, schlägt GREENACRE (1993: 163) ein sog. doubling der Daten vor. Würde die CA auf die vorliegenden DEU-Daten angewendet, so ginge eine Variable (issue) mit hoher Spaltensumme mit einem größeren Gewicht in die Analyse ein als eine Variable mit geringer Spaltensumme. Beim doubling wird zu jeder Zeile (dem positiven Pol) eine weitere Zeile mit dem komplementären Präferenzwert (der negative Pol) eingefügt. Im DEU wird zur Bildung des negativen Pols jeder der positiven

26 Die folgenden Ausführungen gelten analog für den NDEU.

Werte in der Tabelle von 100 abgezogen, woraus sich die Werte des negativen Pols ergeben.

Tabelle 4.1 zeigt die Vorgehensweise an einem Beispiel auf.

Tabelle 4.1 Beispiel für ein doubling der Datenmatrix des DEU

MS d00032i1+ d00032i1- d00032i2+ d00032i2- d00032i3+ d00032i3-

Österreich 40 60 100 0 100 0

Belgien 40 60 50 50 100 0

Dänemark 100 0 0 100 60 40

Finnland 40 60 0 100 60 40

+ = positiver Pol; - = negativer Pol

Die CA kann auch als ein Verfahren der optimalen Skalierung interpretiert werden, d.h. als das Zuweisen von Skalenwerten zu den Kategorien einer Variablen derart, dass die Anordnung der Werte auf der ersten Achse die erklärte Varianz maximiert (GREENACRE 1993: 54). So beruhen meine CAs auf dem Verfahren der Kategorialen Hauptkomponentenanalyse (CATPCA) im Statistikpaket SPSS, das eine optimale Skalierung für multiple kategoriale Variablen durchführt.

Da SPSS die Werte in der CATPCA als Häufigkeiten interpretiert, stellt der häufig vorkommende Präferenzwert 0 ein Problem dar, weil er einen ungültigen Wert darstellt. Um den Ausschluss einer großen Zahl von Variablen zu vermeiden, wurde der Wert 0 in allen Fällen durch den Wert 1 ersetzt. Die daraus möglicherweise resultierende Verzerrung (die Skala reicht von 1 bis 100!) kann als vernachlässigbar betrachtet werden, im Vergleich zum andernfalls erforderlichen Löschen beinahe der Hälfte der Variablen. Aus der Analyse mussten dagegen alle Variablen bzw. doublings ausgeschlossen werden, die eine Varianz von 0 aufweisen. Der Ausschluss dieser Variablen kann theoretisch gerechtfertigt werden, da in diesen Fällen kein Konflikt zwischen den Präferenzpositionen der MS bzw. der Akteursgruppen besteht.

Im Dokument Die Dimensionalität von Entscheidungen im Ministerrat der Europäischen Union : Analyse der zugrunde liegenden Konfliktstruktur im Vergleich zu den Vorverhandlungen auf nationaler Ebene (Seite 29-32)