Vorgehensweise bei der Anwendung der Latent Class Analyse

Die Latent Class Analyse geht auf Lazarsfeld zurück (vgl. Lazarsfeld & Henry 1968; Kempf 2006, S. 128). Ursprüngliches Ziel der LCA war es, in Fragebogendaten bestimmte Antwort-muster zu identifizieren, nach denen Versuchspersonen bestimmte Fragen beantwortet ha-ben. Die Latent Class Analyse wurde auch bei der Weiterverarbeitung der Pisa Daten ver-wendet (vgl. Ehmke 2008 und Walter 2008 in: Prenzel & Baumert 2008).

Im vorliegenden Fall wird die LCA dazu verwendet, aus der Aktenanalyse gewonnene Daten einzelner - theoretisch sinnvoller und argumentativ vertretbarer - Items zu kombinieren und entsprechende Klassen zu entdecken, und darüber spezische Muster bzw. Typen zu identifi-zieren, die in einem zweiten Schritt mit entsprechenden Kovariaten kombiniert werden kön-nen.

Im Vordergrund steht dabei die Frage, ob es überhaupt statistisch Sinn macht, nach latenten Klassen zu suchen, welche Anzahl von Klassen die angemessene ist und wie diese Klassen zu definieren sind. Diese Frage thematisiert auch Kempf (2006):

"Dies wirft die Frage nach der Identifizierbarkeit von latenten Klassen auf, wenn (1) die Daten von Zufallsschwankungen überlagert sind, (2) die Klassenzugehörigkeit der Probanden noch nicht bekannt ist, und wenn wir (3) auch noch nicht wissen, wie die latenten Klassen eigent-lich aussehen" (Kempf, 2006, S. 129).

Mit dem Programm WINMIRA (2001, © Matthias von Davier) wird die Berechnung der LCAs vorgenommen. Dabei werden die jeweiligen Variablen einer SPSS Datei ausgewählt und die Programmparameter sowie die Namen der Ausgabedateien bestimmt. Bestimmte Werte der Winmira-Output-Dateien werden in Excel eingetragen und dort weiterverarbeitet.

2.2.1 Das Pure-Random-Modell

In einem ersten Schritt wird das Pure-Random Modell betrachtet und die item labels und sample frequencies zur Berechnung des Log-Likelihood Wertes (maximale Wahrscheinlich-keit) herangezogen. AIC und BIC des Pure-Random-Modells werden berechnet.

Diese Werte werden zu den Werten der log-likelihood des saturierten Modells in Beziehung gebracht, die L-Ratio wird ermittelt und mit den entsprechenden Werten der CHI-Quadrat-Verteilung verglichen, um in der Folge zu entscheiden, ob p signifikant ist, oder nicht.

Falls p nicht signifikant ist, sind alle Variationen in den Daten auf reinem Zufall beruhend und weitere Berechnungen sind hinfällig.

2.2.2 Ermittlung der korrekten Klassenanzahl

Als nächstes muss entschieden werden, welche von x möglichen Klassen die zutreffende ist, bzw. bestimmten Gütekriterien entspricht.

Dafür ist eine Schätzung der Modellparameter notwendig, zunächst für die Ein-Klassen-Lösung, bei der die Klassengröße per Definition gleich 100% ist und bei der die Kategorien-häufigkeit durch Auszählen der Häufigkeiten geschätzt werden kann, wie auch für das satu-rierten Modell, bei dem jedes Muster eine eigene Klasse ist; irgendwo dazwischen liegt das passende Modell (vgl. Kempf 2006, S. 129). Sodann für die verschiedenen Klassenlösungen.

Gegen eine bestimmte Klassenlösung spricht:

"[…] wenn der Test gegen das saturierte Modell signifikant ist (p kleiner 0.05), weil die LCA die Daten dann nicht hinreichend gut beschreibt und/oder wenn der Test gegen die 1-Klassen Lösung nicht signifikant ist (p größer 0.05), weil man dann gar nicht mehrere Klas-sen zu unterscheiden braucht" (Kempf, 2009).

Wie Kempf (2006) ausführt liegt die gesuchte Lösung:

"[…] also irgendwo zwischen zwei Extremen, wonach entweder:

 Alle Daten aus derselben homogenen Verteilung stammen (Ein-Klassen-Lösung;

h=1), wie dies bei der traditionellen statistischen Analyse angenommen wird, oder

 Jedes mögliche Antwortmuster eine eigene Klasse darstellt (saturiertes Modell; h=h max)" (Kempf, 2006, S. 129).

2.2.3 Bestimmung der Klassenanzahl.

"Man kann nicht einfach jene Klasse auswählen, unter welcher die Datenmatrix die grösste (marginale) Likelihood besitzt. Da die Likelihood eine monoton wachsende Funktion der An-zahl der latenten Klasse ist, würde diese stets zu einer Entscheidung zugunsten des saturier-ten Modells führen" (Kempf 2006, S. 131).

Die Verwendung der Likelihood als beste Beschreibung ist also nicht sinnvoll, sie entspricht dem saturierten Modell.

"Je mehr latente Klassen man annimmt, desto mehr Modellparameter sind aus den Daten zu schätzen, desto weniger wird die Verteilung der Datenmatrix restringiert; und je weniger die Verteilung der Datenmatrix restringiert wird, desto größer wird ihre Likelihood" (Kempf, 2006, S. 131).

Ziel ist es einen Kompromiss zu finden, zwischen größter Likelihood und einem sparsamen Modell mit wenig Parametern. Es wird ein Mass benötigt, das die Anzahl der zu schätzenden Parameter und die Likelihood der Datenmatrix zueinander in Beziehung setzt.

Ein gebräuchliches Mass hierfür ist der AIC -oder der BIC- Index (vgl. Akaike, 1987; Bozdo-gan, 1987). Der AIC Daten und weitere notwendige Daten werden in der Goodness of fit Ta-belle der jeweiligen LCA dargestellt.

Die beste Beschreibung wird erreicht, wenn der AIC minimal klein ist, dies stellt den optima-len Kompromiss dar.

"Da die Likelihood 0 ≤ ML (X)≤ 1 eine Zahl zwischen Null und Eins ist, ist ihr natürlicher Lo-garithmus ln {ML (X) } ≤ 0 und daher dem Betrage nach umso kleiner, je grösser die Like-lihood ist. Folglich ist der AIC-Index umso kleiner,

 Je genauer die Daten beschrieben werden (große Likelihood) und

 Je sparsamer die Beschreibung ist (geringe Parameterzahl)" (Kempf, 2006, S. 131).

AIC und BIC kommen, ähnlich wie bei der Latent Class Analyse, auch bei der Two-Step-Clusteranalyse zur Ermittlung der "endgültigen Lösung" zum Einsatz:

"Die Anzahl der Cluster in der endgültigen Lösung wird in zwei Schritten bestimmt. Im ersten Schritt wird für jede Clusterlösungssequenz ein vom Anwender gewähltes Modellauswahlkri-terium [entweder BIC (Bayes Informationscriterion) oder AIC (Akaike Informationscriterion)]

berechnet und darauf basierend wird eine Obergrenze für die optimale Clusteranzahl ermit-telt. Danach wird mit einem zweiten Auswahlkriterium die Lösung verbessert" (Janssen &

Laatz, 2007, S. 495).

2.2.4 Test gegen saturiertes Modell

Anschließend muss die Frage beantwortet werden, ob überhaupt mehr als eine Klasse ge-braucht werden. Dies wird durch einen Test der Likelihood der LC1 gegen die Likelihood der LCx (die vom AIC vorgeschlagene Klasse) bewerkstelligt.

Zur Ermittlung der entsprechenden Klasse wird überprüft, ob folgende Grundvoraussetzun-gen erfüllt sind:

 Die Werte von AIC und BIC müssen zunächst monoton bis zu einem Minimum fallen, danach monoton wieder ansteigen. Relevant ist dabei der letzte monoton fallende AIC Wert, dieser dient zur Bestimmung der jeweiligen Klassenanzahl. Ob der AIC oder der BIC als Grenzwert verwendet wird, hängt von der Anzahl der Fälle ab. Im

vorliegenden Datenrahmen wird der AIC als Grenzwert verwendet. Der BIC würde sich bei grösseren Stichproben anbieten.

 Die Anzahl der geschätzten Modellparameter n(p) sollte nicht grösser als der Stich-probenumfang n sein.

 Die Log-Likelihood muss monoton fallen.

 Die Anzahl der Parameter darf nicht größer sein als die Freiheitsgrade des saturier-ten Modells, im anderen Fall sind die Modellparameter nicht eindeutig definiert.

 In vorliegenden Bericht wird der AIC aufgrund der relativ kleinen Stichprobe bevor-zugt und als Grundlage für die Modellauswahl verwendet. Der BIC wird deshalb bei der Darstellung der relevanten Werte nicht ausgewiesen.

2.2.5 Interpretation der Klassen

Die ermittelte Anzahl Klassen wird mit der Gesamtverteilung verglichen und grafisch darge-stellt. Soweit möglich werden die Klassen benannt, Unterschiede und Gemeinsamkeiten so-wie Auffälligkeiten werden aufgezeigt. Im Vordergrund stehen dabei die größten Häufigkei-ten, ebenso wie die kleinsten als mögliches Ausschlusskriterium.

Die Anzahl der Klassen wird bei der Darstellung und Interpretation nicht in der Reihenfolge der Klassen vorgenommen, sondern im Hinblick auf thematische und interpretatorische Ge-meinsamkeiten oder Nähen. Winmira ® weist die Klassen in der Reihenfolge ihrer Größe aus.

2.2.6 Berechnung der Kovariaten

Mit dem Programm Dynamic ® (© 1987-2004, Wilhelm Kempf, University of Konstanz) wird das Membershipfile berechnet (enthält die Klassenzugehörigkeit der jeweiligen Person und deren Klassenzugehörigkeitswahrscheinlichkeit) und die Kovariaten werden eingebunden.

Aus dem Output-File von Dynamic werden die entsprechenden Daten in Excel übernommen.

Aus der Verteilung der Kovariate innerhalb der latenten Klasse wird ein Diagramm erzeugt.

Die Matrix der zu erwartenden Häufigkeiten wird unter folgenden Gesichtspunkten überprüft:

1. Bei den erwarteten Häufigkeiten darf kein Wert unter 1 sein und 2. Maximal 1/5 der Werte darf unter 5 sein

Ist eine dieser Voraussetzungen nicht erfüllt, kann die Überlegung angestellt werden, ob durch sinnvolles und theoriegeleitetes Zusammenlegen bestimmter Kategorien hinreichend große (erwartete) Zellenbesetzungen erzielt werden können.

In den folgenden Darstellungen von Latent-Class-Analysen (vgl. 3.1-3.4) werden die wich-tigsten Werte dargestellt, um die Berechtigung und Folgerichtigkeit der LCA darzustellen, für alle LCAs wird das gleiche Darstellungsraster verwendet.

Im Dokument Typische Sprachheilschüler - typische Erfolge (Seite 33-38)