• Keine Ergebnisse gefunden

Datenaufbereitung, Testgüte und Skalierung

Implizite Assoziationen

Die Aufbereitung der Daten der drei IATs erfolgte nach dem Algorithmus zur Berech-nung derD-Werte (siehe Abschnitt 4.1.2 und Tabelle 4.1). Er spezifiziert auch die Lö-schung von Trials und von Fällen. Trials mit einer Latenzzeit von mehr als 10 s wurden nicht berücksichtigt. Dort kann davon ausgegangen werden, dass der Proband abgelenkt war. Der Rest des Tests kann jedoch, davon unabhängig, weiter ausgewertet werden.

Für jeden Test wurden die Fälle gelöscht, die in mehr als 10 % der Trials Latenzzei-ten aufwiesen, die kleiner als 300 ms waren. Diese Probanden haben einen zu großen Anteil des Tests nicht gewissenhaft durchgeführt, sondern die TastenW und Pschnell abwechselnd gedrückt, um ein vorzeitiges Ende des Tests zu erreichen. Die Löschung wurde testweise vorgenommen, da die Teilnehmer mitunter nur eine Dimension „abge-brochen“ haben. Somit konnte in den anderen Dimensionen die Fallzahl höher gehalten werden. Im Vortest wurden auf diese Weise in der ersten DimensionSchwierigkeit 3 % (VG 4 %, KG 1 %), in der zweiten DimensionSelbstkonzept8 % (VG 9 %, KG 6 %) und in der dritten Dimension (Geschlechtskonnotation) 9 % (VG 12 %, KG 7 %) gelöscht. Im Nachtest waren es 10 % (VG 8 %, KG 14 %), 18 % (VG 15 %, KG 20 %) und 23 % (VG 24 %, KG 22 %; gleiche Reihenfolge). Hier ist bereits zu erkennen, dass die Abbrecher-quote mit zunehmender Anzahl an absolvierten IATs zunimmt und die Testmotivation im Nachtest geringer war, als im Vortest.

Die teilweise hohen Quoten an aussortierten Fällen, führen aufgrund der Messwie-derholung zu geringerer Teststärke bzw. Sensitivität, da für jeden Teilnehmer das Vor-und Nachtestergebnis benötigt wird. Bei ungünstigen Konstellationen kann der

Prozent-10.4 Datenaufbereitung, Testgüte und Skalierung

satz an nicht berücksichtigten Fällen noch größer werden, wenn die aussortierten Fälle des Vortests nicht mit denen des Nachtests übereinstimmen.

Die restliche Prozedur entspricht der Darstellung in Abschnitt 4.1.2 (siehe auch Anhang A.1). Die Ergebnisse der Datenaufbereitung der IATs sind für jeden Teilneh-mer insgesamt sechsD-Werte, aus drei Dimensionen je einer im Vor- und im Nachtest.

Ein positiverD-Wert entspricht einer stereotyp-kompatiblen Assoziation vonPhysikmit schwierig, JungeoderAndere.

Für die Schätzung der Reliabilität der IATs wurde für jeden Stimulus die Differenz der Latenzzeit zwischen kompatiblen und inkompatiblen Block gebildet. Damit durch die hohe Trialanzahl die interne Konsistenz nicht künstlich zu groß werden lässt, wurden über fünf Differenzen Mittelwerte gebildet. Für jeden Teilnehmer ergab das 12 mittlere Latenzzeitunterschiede pro IAT. Aus ihnen wurde die Reliabilität aus der internen Kon-sistenz (Cronbachsα) abgeschätzt. Die Werte liegen im Bereich.72≤α ≤.93 und sind damit für implizite Verfahren mehr als zufriedenstellend (siehe Tabelle C.2 im Anhang).

Explizite Assoziationen

Die zwei jeweils zu einer Dimension gehörigen semantischen Differentiale korrelie-ren alle höchst signifikant mit großen Effekten: Schwierigkeit ρ =.60, p< .001; Ge-schlechtskonnotation ρ =.76, p< .001; Selbstkonzept ρ =.86, p< .001.2 Somit ist eine Mittelwertbildung zwischen beiden Items zulässig. Dafür wurden die Ergebnisse der negativ gepolten Differentiale transformiert, sodass die Werte zwischen 5 und 10 einer stereotyp-kompatiblen Assoziation vonPhysik mitschwierig, Junge oderAndere bedeutet (5 ˆ=neutral). Aus der Mittelwertbildung resultieren für jeden Teilnehmer ins-gesamt sechs explizite Assoziationsmaße, in drei Dimensionen je einer im Vor- und im Nachtest.

Interesse

Die Reliabilitäten für die Interesseskalen sind bis auf die Subskalawau3Nachtest=.60) mit Cronbachsα> .70 zufriedenstellend (siehe Tabelle C.3). Da bei Persönlichkeitstests die Werte für die Reliabilität oft geringer ausfallen, als z. b. in Leistungstests oder als die in der psychodiagnostischen Literatur oft geforderte untere Grenze von α ≥.80, werden hier Werte mit α ≥.70 als zufriedenstellend eingeschätzt (vgl. Rost, 2005).

Hinzu kommt, dass die Instrumente für Gruppenvergleiche eingesetzt werden und somit die jeweiligen Gruppenmittelwerte weitaus zuverlässiger sind, als die Einzelwerte jeder Person.

2Da die semantischen Differentiale streng genommen ordinalskaliert und die Werte zusätzlich nicht nor-malverteilt sind, wurde das nichtparametrische Korrelationsmaß Spearmansρverwendet.

3für die Zuordnung der Kürzel zur vollständigen Skalenbezeichnung und Beispielitems siehe Tabelle 7.1, S. 104

10 Hauptstudie: Evaluation der phänomenbasierten Anfangsoptik

Die statistischen Kennwerte für das Interesse an Physikunterricht und seinen Inhalten ergeben sich aus den einzelnen Skalenmittelwerten für jeden Teilnehmer. Eine hohe Zahl steht für eine positive Ausprägung in der jeweiligen Skala.

Fachwissen

Die Daten des dichotom codierten Fachwissenstests wurden mithilfe einer Raschanaly-se für die weiteren statistischen Auswertungen aufbereitet. Dafür wurde Winsteps 1.0.0 [Computer Software] verwendet. Die Itemschwierigkeiten, die von dem ESNaS-Projekt bekannt waren, konnten leider nicht ohne Weiteres übernommen werden, da die Zielpo-pulation der Normierung dort eine andere war (Ende Sek.I, Walpuski et al., 2010). Daher wurden die Schwierigkeiten im Vortest mit berechnet. Anhand dieser Parameter war es außerdem möglich, die Testgüte abzuschätzen.

Als Gütekriterien für den Test werden im Rahmen der probabilistischen Testtheorie die Item-Fit-Statistiken herangezogen. Sie geben an, inwiefern die Items den Annahmen des Modells entsprechen. Als akzeptabel für die Modellpassung werden hier Werte für die mittlere quadratische Abweichung mit Outfit-MNSQ<1.3 und dem dazugehörigen Signifikanzniveau mit−2<t <2 (p> .045) angenommen (Bond & Fox, 2007). Sind für alle Items des Tests diese Kriterien erfüllt, gilt er als rasch-homogen. Das bedeutet insbesondere, dass die interne Konsistenz der Items4 und die spezifische Objektivität nachgewiesen ist. Die Ergebnisse hängen also nicht von der gewählten Stichprobe an Items oder Personen ab, was wiederum bedeutet, dass die Rasch-Homogenität auch für sämtliche Teilstichproben gilt (Kauertz, 2008).

Von den elf Items des Fachwissenstests erfüllt eines die Anforderungen nicht (siehe Tabelle C.4 im Anhang, S. 212). Für die weiteren Analysen und Schätzungen der Per-sonenparameter wurde dieses Item nicht berücksichtigt. Eine zusätzliche Überprüfung der Testgüte stellt die Split-Half-Analyse dar. Bei ihr werden die Itemschwierigkeiten anhand zwei zufälliger Teilstichproben bestimmt und gegeneinander aufgetragen. Wenn die oben erwähnte Unabhängigkeit zutrifft, müssten die Punkte der Schwierigkeiten bei-der Teilmengen auf einer Geraden liegen. In Abb. C.1 (Anhang) ist dieser lineare Zu-sammenhang für den Fachwissenstest gezeigt.

Anhand dieser beiden Kriterien (Fit-Statistiken und Split-Half-Analyse) konnten die verbliebenen zehn Items als rasch-homogen identifiziert werden und so mithilfe der Rasch-Analyse die Personenfähigkeiten geschätzt werden. Für den Nachtest wurden die Itemschwierigkeiten des Vortests als feste Parameter gesetzt.

Die Reliabilität des Tests ist nicht zufriedenstellend. Die den klassischen Maßen äquivalente Personen-Reliabilität liegt zwischen .41 (Real) und .48 (Modell). Das klas-sisch berechnete Maß liegt beiKR8=.51.5Die bei der Rasch-Analyse geschätzte

Perso-4inklusive der Annahme, dass der Beantwortung der Items ein gemeinsames latentes Konstrukt zugrunde liegt

5Kuder-Richardson-Formel 8 (siehe Formel (C.1) im Anhang).KR8 berücksichtigt im Gegensatz zu KR20auch unterschiedliche Trennschärfen der Items (Lienert & Raatz, 1998).

10.4 Datenaufbereitung, Testgüte und Skalierung

nenreliabilität hängt laut Linacre (2014) stark von der Stichprobenvarianz, der Länge des Tests, der Anzahl an Kategorien pro Item und von der Passung zwischen Itemschwierig-keiten und PersonenfähigItemschwierig-keiten ab. Mit der geringen Reliabilität ist auch eine ungenaue Schätzung der Personenparameter verbunden.

Ein Vorteil des Rasch-Modells liegt darin, dass Personenfähigkeit und Itemschwie-rigkeit auf derselben Skala abgebildet werden können. In Abb. C.2 werden die Verteilun-gen beider Parameter des Vortests miteinander verglichen. Je mehr sie sich überdecken, desto besser ist die Schwierigkeit des Tests auf die Fähigkeiten der Stichprobe angepasst.

An der (geringen) Verschiebung der Personenparameter-Verteilung nach rechts erkennt man, dass der Test etwas zu leicht für die Teilnehmer war.

Die durch die Rasch-Analyse ermittelten Personenfähigkeiten stellen für die weite-ren Auswerteverfahweite-ren die statistischen Kennwerte des Fachwissens dar.

KAPITEL 11

Ergebnisse

Im folgenden Kapitel werden die Ergebnisse der Hauptstudie vorgestellt. Wie in Ab-schnitt 7.1 begründet wurde, werden für die Beantwortung der Forschungsfragen zwei-faktorielle Varianzanalysen mit Messwiederholung auf einem Faktor durchgeführt. In den Fällen, bei denen die Vorannahmen des Verfahrens nicht verletzt sind, werden zu-sätzlich Kovarianzanalysen der Nachteststatistiken durchgeführt, mit den Vortestergeb-nissen als Kovariate. Zunächst wird in Abschnitt 11.1 die Überprüfung der Vorannah-men dargelegt. Folgend werden, untergliedert nach TestinstruVorannah-menten in Abschnitt 11.2 bis 11.5, die Ergebnisse der ANOVAs und ANCOVAs präsentiert, die der Hypothesen-überprüfung dienen. Daran schließt sich Abschnitt 11.6 an, mit den Ergebnissen von weiterführenden (explorativen) Untersuchungen.

11.1 Überprüfung der Vorannahmen

Da es sich bei der Varianzanalyse um ein parametrisches Verfahren handelt, gelten die gleichen Voraussetzungen wie für die meisten Methoden, die auf der Normalverteilung basieren. Für alle varianzanalytischen Vergleiche werden folgende Vorannahmen getrof-fen:

1. Unabhängigkeit der Zwischensubjektfaktoren 2. Intervallskaliertheit der Daten

3. Normalverteilung des Merkmals (in jeder Gruppe) 4. Varianzhomogenität der Zwischensubjektfaktoren

11 Ergebnisse

Bei einer Varianzanalyse mit Messwiederholung ist die Unabhängigkeit der Faktoren zwangsläufig nicht gegeben. An ihre Stelle tritt die

5. Sphärizität (Varianzhomogenität der Differenzen zwischen zwei messwiederhol-ten Faktorstufen)

Sie ist vergleichbar mit der Varianzhomogenität bei den Zwischensubjektfaktoren und ein weniger strenger Spezialfall einer CS-Struktur der Kovarianzmatrix (Eid et al., 2011).

Die Sphärizität ist bei nur zwei Messzeitpunkten (2 Stufen) immer gegeben (Field, 2009). Für die Kovarianzanalysen gibt es zwei zusätzliche Vorannahmen:

6. Unabhängigkeit der Kovariate vom Zwischensubjektfaktor 7. Homogenität der Regressionsanstiege

Die erste und grundlegendste Bedingung, die Unabhängigkeit der Daten zwischen den Teilnehmern muss im Rahmen dieser Studie ungeprüft vorausgesetzt werden. Sie wird insofern abgeschwächt, als dass im Rahmen des hier durchgeführten Mittelwert-vergleichs zwischen zwei Gruppen, diese mit hoher Wahrscheinlichkeit nicht voneinan-der abhängig sind. Lediglich in den Klassen von Schule II waren sich Schülerinnen und Schüler beider Gruppen überhaupt bekannt. Der Rest ging auf Schulen in verschiede-nen Stadtteilen. Eine Möglichkeit, die Abhängigkeit der Messwerte an einer Schule zu beachten, wäre die in Abschnitt 7.1 angesprochene Mehrebenenanalyse.

Die Intervallskaliertheit ist für die meisten Daten uneingeschränkt gegeben. Die D-Werte sind von Natur aus normierte Zeitunterschiede und damit auch metrisch. Das Gleiche trifft auf die durch die Rasch-Analyse gewonnenen Personenparameter zu. Die Interesseskalen und die semantischen Differentiale sind streng genommen nur ordinal-skaliert. Bei den Differentialen kann dies vernachlässigt werden, da durch den Schiebe-regler eine quasi-stufenlose Positionierung möglich war. Ebenso ist es bei Likert-Skalen (Interesse) üblich, für jeden Teilnehmer Mittelwerte über die Skala zu bilden, die dann wiederum ein metrisches Maß sind.

Normalverteilung

Bis auf einen Fall (Vortest, Geschlecht, KG) sind alleD-Werte normalverteilt (Tabelle C.5 im Anhang). Die Mittelwerte der semantischen Differentiale und der Interesseska-len sowie die Personenfähigkeiten der Fachwissenstests sind es jedoch im Allgemeinen laut Kolmogorov-Smirnov-Test und Shapiro-Wilk-Test nicht (siehe den Tabellen C.6, C.7 und C.9 im Anhang)1. Diese Abweichung kommt bei größeren Stichproben sehr

1Die Tests überprüfen die Nullhypothese, dass die erhobene Verteilung nicht von der Normalverteilung abweicht. Bei signifikanten Testergebnissen (fett hervorgehoben) muss man also davon ausgehen, dass der Unterschied zwischen Normalverteilung und erhobener Verteilung nicht durch Zufall gefunden wurde.

11.1 Überprüfung der Vorannahmen

häufig vor, da durch sie auch kleinste Unterschiede von der Normalverteilung signifi-kant werden. Gleichzeitig gilt jedoch, dass die Varianzanalyse bei großen Stichproben (N>30) relativ robust gegenüber der Verletzung der Normalverteilungsannahme ist, vor allem, wenn die Stichproben in etwa gleich groß sind (Eid et al., 2011; Glass, Peckham

& Sanders, 1972). Damit ist eine Durchführung der parametrischen Verfahren dennoch zulässig. Robuste bzw. nichtparametrische Verfahren, welche äquivalent zur zweifaktori-ellen Varianzanalyse mit Messwiederholung auf einem Faktor und zur Kovarianzanalyse testen, existieren nicht (Field, 2009).

Varianzhomogenität

Die Überprüfung der Varianzhomogenität erfolgte durch den Levene-Test. Sie ist in allen Dimensionen bei den D-Werten und den Mittelwerten der semantischen Differentiale sowie bei den Personenparametern des Fachwissenstests im Vor- und Nachtest gegeben (siehe Tabellen C.10, C.11 und C.12 im Anhang).

Bei der Auswertung der Mittelwerte der Interesseskalen ist das Ergebnis des Tests in zwei Fällen signifikant (siehe Tabelle C.13 im Anhang) und somit dort die Annahme der Varianzhomogenität nicht zulässig. Allerdings trifft auf den Levene-Test das Gleiche wie auf die Normalverteilungstests oben zu. Bei großen Stichproben kann das Ergebnis signifikant werden, auch wenn die Abweichungen der Varianzen nur sehr gering sind.

Im vorliegenden Fall muss jedoch auch nach der Methode des kritischen Varianzverhält-nisses (HartleysFMax) von Varianzheterogenität ausgegangen werden.

In solchen Fällen kann der F-Test der ANOVAs jedoch abgeschätzt werden. Wenn die Varianz in einer kleineren Stichprobe größer ist als in einer größeren Stichprobe ( ˆσ12<σˆ22bein1>n2), dann entscheidet derF-Test zu liberal und die Wahrscheinlich-keit einesα-Fehlers erhöht sich. Wenn die Varianz in einer kleineren Stichprobe jedoch kleinerist als in der größeren Stichprobe ( ˆσ12>σˆ22bein1>n2), dann entscheidet der F-Test zu konservativ. Die Wahrscheinlichkeit desα-Fehlers ist in diesen Fällen geringer als das nominelleα-Niveau (Eid et al., 2011; Glass et al., 1972).

Bei den beiden hier vorliegenden Mittelwerten der Interesseskalen ist die Varianz in der Kontrollgruppe geringer als in der Versuchsgruppe ( ˆσ2KG<σˆ2V G), während das Verhältnis bei der Stichprobengröße umgekehrt ist (NKG>NV G). Somit neigen die fol-genden varianzanalytischen Verfahren in diesen beiden Fällen zu liberalen Entscheidun-gen.

Unabhängigkeit der Kovariate

Für die Durchführung der Kovarianzanalysen dürfen sich die zu vergleichenden Grup-pen (Zwischensubjektfaktor) keine gemeinsame Varianz der Kovariate teilen. Obwohl dies oft nicht beachtet wird, kann die ANCOVA keine Unterschiede bzgl. der Kovaria-ten „kontrollieren“ oder „ausbalancieren“ (Field, 2009; Miller & Chapman, 2001). Bei

11 Ergebnisse

den angestrebten ANCOVAs sollen die Nachtestergebnisse von Versuchs- und Kontroll-gruppe miteinander verglichen und die Vortestergebnisse als Kovariate berücksichtigt werden. Es ist also für jede Variable zu überprüfen, ob sich die beiden Gruppen im Vor-test unterscheiden.

Der Vergleich wurde mithilfe vonT-Tests durchgeführt (siehe Tabelle C.14 im An-hang). Die Vorannahme ist in sieben Fällen verletzt: für die Mittelwerte der semanti-schen Differentiale in der Dimension Schwierigkeit (t(261) =−3.540, p< .001, r=

.21) undSelbstkonzept(t(261) =−2.998,p=.003,r=.18), für die Mittelwerte der

In-teresseskalenwku(t(258) =2.763,p=.006,r=.17),wsewkuwau(t(263) =2.317,p=

.021,r=.14),mo3(t(231.7) =2.349, p=.020,r=.15) undmo123(t(261) =2.449,

p=.015, r= .15) sowie für die Personenparameter des Fachwissenstests (t(261) =

−2.154, p=.032,r=.13).

Homogenität der Regressionsanstiege

Die Vorannahme über die Homogenität der Regressionsanstiege bedeutet anschaulich, dass im Zwischensubjektfaktor, also in beiden Gruppen, der Zusammenhang zwischen abhängiger Variable (Nachtest) und Kovariate (Vortest) gleich stark sein soll. Zur Über-prüfung wurden für die Variablen, bei denen die Unabhängigkeit der Kovariate (sie-he oben) gegeben war, ein allgemeines lineares Modell (GLM III, univariat) gerechnet und die Interaktion zwischen Kovariate und Gruppe ausgewertet (siehe Tabelle C.15 im Anhang). Ist derF-Test für diese Interaktion signifikant, sind die Regressionsanstie-ge in beiden Gruppen nicht gleich. Dies trifft nur auf den Mittelwert der Skalamo1zu, F(1,236) =0.789,p=.45, sodass auch diese Variable von den ANCOVAs ausgeschlos-sen werden muss.