Datenimputation - Vorgehensweise und Analyse von Längsschnittdaten

5.4 Vorgehensweise und Analyse von Längsschnittdaten

5.4.5 Datenimputation

In Studie 1 ist für die untersuchten Merkmale ein ansteigender Missinganteil zu beobach-ten, der auf die sinkende Teilnahmebereitschaft zurückzuführen ist. Für den zugrunde liegenden Datensatz wurden die einzelnen Messzeitpunkte zusammengefügt und über den in jeder Erhebung abgefragten „persönlichen Code“ verbunden. So ergibt sich ein Ge-samtdatensatz mit 152 Teilnehmern und Teilnehmerinnen. Tabelle 19 stellt den Mis-singanteil für die Stichprobe der Lehrkräfte in Studie 1 dar und deutet auf eine hohe

50 Menard (2002) empfiehlt die Anwendung des listenweisen Fallausschlusses mit Bezug zu Graham und Hofer (2000) nur bei einem sehr kleinen Fallverlust von weniger als 5 Prozent.

171

tuation bei der Teilnahme an den einzelnen Untersuchungen hin. Zu beachten ist hierbei jedoch, dass jede Person, die zu einem späteren Zeitpunkt der Studie beitrat, die Stichpro-be und damit die Referenzanzahl an Lehrkräften erhöhte. So erklären sich auch die Aus-fallquoten zum ersten Messzeitpunkt⁵¹.

Tabelle 19. Missinganteile in Prozent in der Studie 1 nach Untersuchungsmerkmal und Erhebungszeitpunkt; Lehrkräfte

Skala MZP 1 MZP 2 MZP 3 MCAR Test nach Little

Fachkonferenz 27.0 46.1 52.6 χ²=11.31; p = .255

Kooperation 27.0 46.7 52.0 χ²=20.57; p = .015

Einstellung positiv 26.3 49.3 54.6 χ²=7.41; p = .595

Einstellung negativ 26.3 49.3 54.6 χ²=21.79; p = .010

math. Argumentieren 26.3 46.1 52.0 χ²=11.44; p = .247

Probleme math. Lösen 27.0 46.1 52.0 χ²=4.17; p = .900

math. Modellieren 27.0 46.1 52.0 χ²=11.00; p = .275

Darstellungen Verwenden 27.0 46.1 52.0 χ²=5.03; p = .831

technisch Arbeiten 27.0 46.1 52.0 χ²=15.59; p = .076

math. Kommunizieren 26.3 46.1 52.0 χ²=3.45; p = .944

Anmerkung. Analyse der fehlenden Werte auf Skalenebene; als Referenz dient der Gesamtdatensatz mit N = 152.

Im Messzeitpunkt 3 sind für die Lehrkräfte die höchsten Ausfallquoten zu beobachten.

Dennoch beantworteten 44 Lehrkräfte den Fragebogen zu allen drei Erhebungszeitpunk-ten und 72 Personen zu mindesErhebungszeitpunk-tens zwei Erhebungen. Zur Aufrechterhaltung eines mög-lichst vollständigen Längsschnittdatensatzes wird folgendes Kriterium im Hinblick auf die Behandlung fehlender Werte festgelegt:

• Personen mit nur einem gültigen Messzeitpunkt fallen aus der Betrachtung des Längsschnittes heraus,

• Personen mit mindestens zwei gültigen Erhebungen in unbestimmter Teilnahme-kombination verbleiben im Datensatz; die fehlenden Werte werden ersetzt.

Da die Teilnahme der Schülerinnen und Schüler zu einem großen Teil von den Lehrkräf-ten gesteuert wird, ergibt sich hier ein anderes Bild. Der relativ hohe Ausfall zum zweiLehrkräf-ten

51 Nehmen bspw. in der zweiten Erhebung 10 Personen zusätzlich zu den 100 Personen aus der ersten Erhe-bung teil, dann erhöht sich die Referenzgröße zur Berechnung der fehlenden Werte auf 110. Damit ergibt sich auch für den ersten Messzeitpunkt eine Ausfallquote von 9.1 Prozent.

172

Messzeitpunkt ist auf den Wegfall ganzer Klassen zurückzuführen, die entweder aus der Studie ausgestiegen waren oder aus organisatorischen Gründen keine Erhebung ermögli-chen konnten (Tabelle 20).

Tabelle 20. Missinganteile in Prozent in der Studie 1 nach Untersuchungsmerkmal und Erhebungszeitpunt, Schüler

Skala MZP 1 MZP 2 MZP 3 MCAR Test nach Little

Selbstkonzept 26.7 40.3 29.2 χ²=24.71; p = .003

Interesse 26.7 40.3 29.3 χ²=5.29; p = .809

Lehrerwahrnehmung 27.3 40.9 29.3 χ²=14.37; p = .110

math. Argumentieren 27.4 40.4 29.2 χ²=51.93; p = .000

Probleme math. Lösen 27.5 40.4 29.2 χ²=36.96; p = .000

math. Modellieren 27.5 40.5 29.1 χ²=13.72; p = .133

Darstellungen Verwenden 27.5 40.4 29.2 χ²=31.74; p = .000

technisch Arbeiten 27.4 40.4 29.2 χ²=82.73; p = .000

math. Kommunizieren 27.4 40.4 29.1 χ²=37.86; p = .000

Mathematikleistung 26.5 39.7 28.0 χ²=248.48.; p = .000

Anmerkung. Analyse der fehlenden Werte auf Skalenebene; als Referenz dient der Gesamtdatensatz mit N

= 1835.

Während der missing completly at random (MCAR) – Test nach Little zur Untersuchung der Art der fehlenden Werte für die Lehrkräfte nahezu vollständig auf MCAR hinweist (mit Ausnahme der Merkmale Kooperation und negative Einstellungen gegenüber den Bildungsstandards), wird innerhalb der Schülerstichprobe MCAR mehrheitlich abgelehnt.

Es zeigt sich, dass ca. 780 Schülerinnen und Schüler an allen drei Messzeitpunkten und ca. 1.247 Lernerinnen und Lerner an mindestens zwei Erhebungen teilnahmen. Zur Ver-meidung eines starken Datenverlustes wird auch in der Schülerstichprobe der Studie 1 das für die Lehrkräfte geltende Kriterium der mindestens zweimaligen Testung angewandt, um die längsschnittliche Entwicklung abzubilden.

Aufgrund der auftretenden Ablehnung der MCAR-Hypothese werden die fehlenden Wer-te mit dem Verfahren der multiplen DaWer-tenimputation ersetzt. Orientiert an der gängigen Literatur (Kenward & Carpenter, 2009, Rubin, 1987) zum Umgang mit fehlenden Werten werden die Datensätze der Lehrkräfte und Schüler um fünf Imputationen erweitert⁵².

52 Einstellungen in SPSS: Startwert Zufallsgenerator auf 2000000, Full Conditional Model (FCM).

173

Mit Ausnahme des Mathematikleistungswertes für die Schülerinnen und Schüler erfolgt die multiple Imputation der fehlenden Werte auf Itemebene⁵³. Für die Schätzung der feh-lenden Werte werden nur die Items der dazugehörigen Skala als Prädiktor verwendet. Im Anschluss an das Imputationsverfahren wurde die Skalenbildung durchgeführt. Für die Berechnungen wurde die Software SPSS verwendet, deren fully conditional specification-Methode (FCS) für jede Variable mit fehlenden Werten ein Imputationsmodell spezifi-ziert, das in einem iterativen Prozess die fehlenden Werte hier fünf Mal ersetzt.

In Studie 2 ergibt sich durch das Zusammenfügen der Einzeldateien der Messzeitpunkte ein Gesamtdatensatz von N=222 Lehrkräften. Davon nahmen 171 Personen an der ersten Erhebung teil und 135 Personen an der zweiten Erhebung. Es konnten 84 Lehrkräfte iden-tifiziert werden, die an beiden Messzeitpunkten gültige Daten aufweisen. Tabelle 21 bildet die Missinganteile in Prozent zum jeweiligen Messzeitpunkt für die einzelnen Skalen ab.

Dieses geänderte Vorgehen im Vergleich zur Studie 1 liegt in dem Imputationsdesign der Studie 2 begründet.

Tabelle 21. Missinganteile in Prozent in der Studie 2 nach Untersuchungsmerkmal und Erhebungszeitpunkt; Lehrkräfte

Skala N1 MZP 1 N2 MZP 2

Fachkonferenz 166 2.9 133 1.5

Kooperation 165 3.5 134 0.7

Einstellung positiv 164 4.1 130 3.7

Einstellung negativ 165 3.5 130 3.7

math. Argumentieren 170 0.6 134 0.7

Probleme math. Lösen 170 0.6 134 0.7

math. Modellieren 170 0.6 134 0.7

Darstellungen Verwenden 170 0.6 134 0.7

technisch Arbeiten 170 0.6 134 0.7

math. Kommunizieren 170 0.6 134 0.7

Anmerkung. Als Referenz im Querschnitt: N1 = 171 und N2 = 135.

Durch das Design der Studie 2 mit nur zwei Erhebungswellen kann das oben beschriebe-ne Kriterium zur multiplen Datenimputation keibeschriebe-ne Anwendung mehr finden, da von Per-sonen mit einem fehlenden Messzeitpunkt nur ein weiterer Referenzwert vorliegt. Daher

53 Die Leistungswerte der Schülerinnen und Schüler wurden als Skalen- bzw. Testwert nach den angegebe-nen Kriterien ersetzt.

174

erfolgt eine multiple Imputation der fehlenden Werte im Querschnitt. Erst im Anschluss an die Imputation erfolgt hier das Matching der Datensätze und die Skalenbildung.

Die gleiche Vorgehensweise wurde auch für die Schülerstichprobe der Studie 2 ange-wandt. Hier erfolgte ebenso eine multiple Imputation der fehlenden Werte pro Quer-schnitt.

Tabelle 22. Missinganteile in Prozent in der Studie 2 nach Untersuchungsmerkmal und Erhebungszeitpunkt; Schüler

Skala N1 MZP 1 N2 MZP 2

Selbstkonzept 2373 3.5 2092 2.7

Interesse 2371 3.5 2089 2.9

Lehrerwahrnehmung 2356 4.1 2079 3.3

math. Argumentieren 2353 4.3 2086 3.0

Probleme math. Lösen 2353 4.3 2085 3.1

math. Modellieren 2351 4.4 2083 3.2

Darstellungen Verwenden 2355 4.2 2086 3.0

technisch Arbeiten 2354 4.2 2087 3.0

math. Kommunizieren 2354 4.2 2085 3.1

Mathematikleistung 2458 0.0 2151 0.0

Anmerkung. Als Referenz im Querschnitt: N1 = 2458 und N2 = 2151.

Im Dokument Mathematiklehrkräfte im Implementationsprozess der nationalen Bildungsstandards (Seite 170-174)