• Keine Ergebnisse gefunden

Die Erhebungen verliefen ebenfalls unproblematisch. Allerdings fiel auf, dass für die Durchführung der ST-IATs ein hohes Maß an Konzentration nötig ist. In einem Klassen-verband von ca. 15 Schülerinnen und Schüler gibt es jedoch häufig Unruhe, auch auf-grund der ungewohnten Situation, sodass nicht bei jedem Teilnehmer der Test bis zum Ende mit Sorgfalt durchgeführt wurde. Bei den Papier & Bleistift-Fragebögen war dies kein Problem.

Der Interessefragebogen funktionierte zufriedenstellend bis gut. Die Skalenreliabili-täten liegen im Bereich .72≤α ≤.93 und sind mit den Angaben im Skalenhandbuch vergleichbar (Frey et al., 2009). Zwischen Vor- und Nachtest gibt es keine signifikanten Unterschiede, was aber auf die kleine Stichprobengröße zurückzuführen ist. Dennoch sind auch die Effektstärken gering, bis verschwindend gering.

Der Fachwissenstest erwies sich ebenfalls als tauglich für die Hauptstudie. Ob die Schwierigkeit für die Zielpopulation angemessen war, ließ sich wegen der wenigen Teil-nehmer, die zudem alle in einer Klasse waren, schwer einschätzen. Dafür ist die Varianz zu gering. Eine Rasch-Analyse wurde nicht vorgenommen. Trotzdem konnte ein hoch signifikanter Wissenszuwachs ermittelt werden,t(28) =−4.37, p< .001, r=.82. Das entspricht einem großen Effekt (siehe Tabelle C.1 im Anhang).

Die semantischen Differentiale erwiesen sich nur in der DimensionSchwierigkeitals problematisch, weil dort beide nicht miteinander korrelierten. Dafür war augenschein-lich eine ungünstige Formulierung verantwortaugenschein-lich, die für die Hauptstudie angepasst wurde (siehe Abschnitt 7.2).

Die mit dem ST-IAT gemessenen impliziten Assoziationen waren nicht zufrieden-stellend. Die mittleren D-Werte waren alle (Vor- und Nachtest) verschwindend gering und zeigten somit nicht die erwarteten stereotyp-konformen Assoziationen auf. Da nur die Daten einer Klasse zur Verfügung standen, konnten wenig sinnvolle Gruppen für Vergleiche gebildet werden, um herauszufinden, ob der Test nicht sensibel genug ist oder ob im Mittel keine impliziten Assoziationen vorliegen. Zwischen den Geschlech-tern gab es keine Unterschiede. Auch die Reliabilitäten waren nicht ausreichend, um weitere Aussagen über die Kennwerte zu treffen (α ≤.43). Das führt zu dem Schluss, dass davon ausgegangen werden muss, dass mit den ST-IATs in der Zielpopulation keine zufriedenstellende Assoziationseffekte (D-Werte) gemessen werden. Schließlich musste für die Hauptstudie eine Alternative gesucht werden, worin die Motivation für die zweite Pilotstudie lag.

9.2 Zweite Pilotierung

Die zweite Pilotierung wurde im Rahmen einer Masterarbeit von Rehfeldt (2012) durch-geführt. Das Ziel bestand darin, drei verschiedene implizite Verfahren auf ihre Testgüte und vor allem auf die Stärke der Assoziationseffekte hin zu vergleichen. Der Test mit den besten Eigenschaften sollte schließlich in der Hauptstudie Anwendung finden.

9 Pilotstudien

ST-IAT-S Geschlecht

4 Wochen ST-IAT-L

Geschlecht

GeschlechtIAT N1=43

IAT Geschlecht N1=43

ST-IAT-S Schwierigkeit

ST-IAT-L Schwierigkeit

SchwierigkeitIAT N1=24

IAT Schwierigkeit N1=17

Abb. 9.1 Design der zweiten Pilotstudie (angelehnt an Rehfeldt, 2012, S. 38)

Die Studie war als Laboruntersuchung angelegt, in der jeder Teilnehmer zwei verschie-dene Tests zur selben Dimension absolvierte (siehe Abb. 9.1). Auf die Dimension Selbst-konzeptwurde verzichtet, weil dies erstens im Rahmen einer Masterbarbeit zu aufwän-dig gewesen wäre und zweitens die untersuchten Hypothesen als von der IAT-Dimension unabhängig angenommen wurden.

Um zu prüfen, ob ein IAT höhere D-Werte als ein ST-IAT misst, absolvierte jeder Teilnehmer zunächst den ST-IAT und danach den IAT (Within-Subject). Da sich bei mehreren Tests hintereinander die Assoziationseffekte abschwächen, wurde der IAT im-mer als Zweites durchgeführt, da bei ihm höhereD-Werte angenommen wurden. Dies führt zu konservativen Entscheidungen.

Gleichzeitig sollte geprüft werden, ob sich die Reliabilität des ST-IATs durch mehr Trials verbessern lässt. Daher wurde in einem Between-Subject-Vergleich der in der ersten Pilotierung eingesetzte ST-IAT-S mit einem längeren Test verglichen (ST-IAT-L).

Die Stichprobe bestand aus insgesamt N =108 Teilnehmern (N♂ =77, N♀=31) im Alter von 20 bis 71 Jahren, die mit überwiegendem Anteil Studierende der Physik waren. Damit ist sie nicht repräsentativ für die Absolutwerte der Assoziationsmaße und entstammt auch nicht aus der Zielpopulation der Hauptstudie. Da es sich jedoch um eine vergleichende Untersuchung handelt, in der nur die Tendenzen der Unterschiede für wei-tere Entscheidungen relevant sind, kann dieser Umstand entkräftet werden. Es gibt keine theoretischen Anhaltspunkte dafür, dass das Vorzeichen der Differenz zwischen den D-Werten von ST-IAT und IAT altersabhängig oder kontextspezifisch ist. Das Gleiche gilt für mögliche Unterschiede der Reliabilitäten von ST-IAT-L und ST-IAT-S.

IAT und ST-IAT-S entsprechen den Instrumenten, die in Abschnitt 7.2 vorgestellt wur-den. Für den ST-IAT-L wurde die Anzahl der Trials im Testblock von 35 auf 65 Trials erhöht, die Stimuli blieben gleich. Dies entspricht noch immer einer geringeren

Trialan-9.2 Zweite Pilotierung

zahl als von Karpinski und Steinman (2006) empfohlen wird. Jedoch ist sie fast doppelt so groß, wie die vom ST-IAT-S.

Neben den impliziten Assoziationen wurden demografische Daten (Geschlecht, Al-ter, Studiengang, Physik-Wahlverhalten in der Schule und Abiturdurchschnitt) und die expliziten Assoziationen mithilfe der entsprechenden semantischen Differentiale erho-ben.

Geräte und Prozedur

Die Erhebungen fanden im Verlauf der vier Wochen unregelmäßig statt. Die Teilneh-mer konnten an elf PCs gleichzeitig in einem Labor unter ruhigen Bedingungen die zwei impliziten Tests, die Befragung und die semantischen Differentiale hintereinander durchführen.

Wie schon in der ersten Pilotierung, wurden tragbare PCs (Lenovo N500, 2.00 GHz Intel Pentium Dual CPU) mit 39.1 cm Bildschirmdiagonale verwendet. Die Präsentation der Stimuli und die Aufzeichnung der Latenzzeiten erfolgte mit Inquisit 3.0.4.0 [Com-puter Software]. Der Text erschien weiß bzw. grün auf schwarzem Hintergrund. Die Zuordnung nach links geschah durch Druck der Taste W, die nach rechts durch Druck der Taste P. Der Ablauf der Tests entsprach der Darstellung in den Abschnitten 4.1.1, 4.2.1 und A.1.

Ergebnisse und Diskussion

Der für den Kontext der vorliegenden Arbeit entscheidende Schluss aus den Ergebnissen der zweiten Pilotstudie lautet, dass sich ein IAT besser für die Erhebung der impliziten Assoziationen zum Image eignet als ein ST-IAT.

In der DimensionGeschlechtskonnotationwar derD-Wert beim IAT signifikant grö-ßer als beim ST-IAT-S,t(42) =2.94, p< .01,r=.41 (mittlerer Effekt). Beim IAT wur-den mittlere Assoziationen von Physik zu männlich gemessen (M=0.31, SD=0.29, SE =0.04), während es beim ST-IAT-S nur geringe Assoziationen waren (M =0.15, SD=0.30,SE =0.05). Zwischen dem IAT und dem ST-IAT-L (M=0.29,SD=0.28, SE=0.04) gab es keine Unterschiede bezüglich desD-Wertes,t(42) =−0.26, p=.79.

In der Dimension Schwierigkeit konnten keine signifikanten Unterschiede festgestellt werden.

Die Reliabilität konnte durch die Erhöhung der Trialanzahl nicht verbessert werden.

Sie war beim ST-IAT-L (.48≤α≤.74) eher geringer als beim ST-IAT-S (.74≤α≤.85).

Beim IAT hingegen war sie in allen Dimensionen zufriedenstellend und höher als bei den ST-IATs (α=.87).

Die Überlegenheit des IATs in Bezug auf die Reliabilität entspricht den bisherigen Erfahrungen in anderen vergleichenden Studien und ist somit wie erwartet (siehe Ab-schnitt 4.2.2). Die Tatsache, dass durch eine Erhöhung der Trialanzahl die Reliabilität hier nicht größer wurde, unterstützt nicht die Aussagen von Karpinski und Steinman

9 Pilotstudien

(2006) und war somit nicht erwartungsgemäß. Eine Diskussion über mögliche Ursachen dafür gibt Rehfeldt (2012). Dies jedoch führt zu dem Schluss, dass der ST-IAT-L keine Alternative für die Hauptstudie ist, weil er zu keiner Verbesserung bezüglich der ersten Pilotstudie führen würde.

Eine Ursache für die niedrigeren D-Werte des ST-IATs gegenüber dem IAT könn-te darin liegen, dass bei der Sortieraufgabe durch ein Ausschlussverfahren sortiert wird.

Dafür müssten die Stimuli nur unter der Kategorie beurteilt werden, die allein steht. Fällt die Beurteilung positiv aus, wird die entsprechende Taste gedrückt, für alle anderen Sti-muli, die jeweils andere Taste. Somit wäre es nicht mehr so sehr relevant, ob die beiden zusammenstehenden Kategorien kompatibel sind oder nicht, was den Assoziationseffekt abschwächen würde.

Da der IAT somit im Allgemeinen höhere Assoziationseffekte mit höherer Genauig-keit (Reliabilität) misst, als die beiden Alternativen, ist er das geeignete Messinstrument für die Hauptstudie.

KAPITEL 10

Hauptstudie: Evaluation der phänomenbasierten Anfangsoptik

10.1 Beschreibung der Stichprobe

Die Hauptstudie fand an vier verschiedenen Berliner Gymnasien statt (Schule I-IV, Ta-belle 10.1). Die Klassen der Versuchsgruppe wurden genauso wie die der Kontrollgruppe von vier verschiedenen Lehrern unterrichtet. Alle Lehrpersonen waren männlich. In der Versuchsgruppe waren dies drei Lehrer, die mit der phänomenbasierten Anfangsoptik sehr vertraut waren, weil sie aus dem nahen Umfeld der AG Didaktik der Physik an der Humboldt-Universität zu Berlin stammen, z. B. durch Studium, Mitarbeit im Uni-Lab Schülerlabor, Abordnung und/oder Mitarbeit in Projektgruppen (SINUS/PiKo). An ihrer Schule (I) wird sie bereits seit über zehn Jahren standardmäßig unterrichtet. Der vierte Lehrer der Versuchsgruppe war der Autor der vorliegenden Arbeit. Die vier Leh-rer der Kontrollgruppe unterrichteten an drei verschiedenen Schulen. Sie kannten das untersuchte Optik-Curriculum nicht.

An Schule II waren zwei Klassen in der Versuchsgruppe (Lehrer NW) und zwei Klassen in der Kontrollgruppe (Lehrer RR und AN), sodass zumindest in diesen Klas-sen die Schule als Störvariable ausgeschlosKlas-sen ist. Die Aufteilungen der Physikstunden unterschieden sich an den einzelnen Schulen, waren aber über beide Gruppen miteinan-der vergleichbar. An Schule I und IV wurde an zwei Stunden (45 min) pro Woche die ganze Klasse unterrichtet. An Schule II fand eine Stunde (45 min) pro Woche Teilungs-unterricht statt. An Schule III wurden beide Stunden in der Woche nur in halben Klassen unterrichtet, was die geringe Anzahl N in Tabelle 10.1 erklärt. Im Durchschnitt hatte demnach die Kontrollgruppe mit 0.8 h mehr Teilungsunterricht pro Woche als die Ver-suchsgruppe (0.4 h). Dennoch sind bis auf jeweils eine Klasse pro Gruppe die anderen paarweise miteinander vergleichbar, sodass der Vorteil für die Kontrollgruppe gering ist.

10 Hauptstudie: Evaluation der phänomenbasierten Anfangsoptik

Tabelle 10.1 Zusammensetzung der Stichprobe

Schule Lehrer Klasse N N♀ N♂

I AH 1 31 17 13

Versuchsgruppe

PB 2 29 17 11

CG 3 30 15 12

II NW 4 32 18 14

7 31 21 10

RR 5 32 17 15

Kontrollgruppe

AN 6 33 22 11

III GM 8 15 8 7

9 16 8 7

IV TK 10 30 17 13

11 30 15 15

Summe VG 4 5 153 88 60

Summe KG 4 6 156 87 68

Anmerkung Die Anzahl an Teilnehmern pro KlasseN kann von der Summe der weibli-chen und männliweibli-chen Teilnehmern abweiweibli-chen, da von einigen das Geschlecht unbekannt ist .

Von den insgesamtN=309 Teilnehmern sind 57 % weiblich (N♀=175) und 41 % männlich (N♂ =128). Diese Verteilung ist in beiden Gruppen gleich, χ2(1) =0.34,

p=.56. Der optimale Umfang der Stichprobe wurde mit der Software G*Power 3.1.3

berechnet (Faul, Erdfelder, Lang & Buchner, 2007). Bei einem Signifikanzniveau von

α=.05 und einer Teststärke von(1−β) =0.95 können damit kleine Effekte aufgedeckt

werden (Korrelationen,t-Tests, ANOVA-Interaktionen).