• Keine Ergebnisse gefunden

6.5 Schülerstudien zur Dynamik

6.5.1 Der FCI-Test

6.5.1.1 Diskussionen um den Test

Der bekannte Test „Force Concept Inventory“ (FCI) wurde 1992 von HESTENES, WELLS und SWACKHAMER (1992) vorgestellt und war zunächst als Hilfe für Lehrer gedacht, das Denken ihrer Schüler zu erforschen (Hestenes et al., 1992, S. 142). Der Test ist mittlerweile aber zu einem stan-dardisierten Diagnoseinstrument geworden, das in den USA an Highschools, Colleges und Univer-sitäten in breitem Umfang eingesetzt wird (Girwidz, Kurz et al., 2003, S. 1) und zum Vergleich der Lernwirkung unterschiedlicher Unterrichtskonzepte angewandt wird (Schecker, Gerdes, 1999, S.

75). Einen Überblick über die Geschichte des Tests, seine Struktur und die wichtigsten Forschungs-ergebnisse findet man bei SAVINAINEN und SCOTT (2002a).

Der Test besteht aus Denkaufgaben zur newtonschen Mechanik, zu deren Lösung man keine Kenntnisse von Gleichungen oder mathematische Fähigkeiten zum Lösen derselbigen braucht, da nur ein Verständnis physikalischer Grundbegriffe nötig ist. Die Aufgaben sind Multiple-Choice-Aufgaben mit je fünf Antwortalternativen, von denen in der Regel nur eine der physikalischen Be-trachtungsweise entspricht (Ausnahme: Aufgabe 12 in der Originalversion). Die anderen Antwortal-ternativen sind auf bekannte Schülervorstellungen abgestimmt. Dadurch, dass die Fragen einfach sind, ermöglichen sie ad-hoc-Antworten, bei der die Alltagsvorstellungen eine starke Alternative zu den physikalischen Antworten sind (Gerdes et al., 1999, S. 284). Auf diese Weise wird eine Ent-scheidung zwischen dem newtonschen Konzept und den Alltagsvorstellungen erzwungen (Hestenes et al., 1992, S. 142). Dennoch wird der Test vorwiegend in dichotomisierter Form (richtig/falsch) ausgewertet (Schecker, Gerdes, 1999, S. 75), was den Aussagewert verkürzt.

Die ursprünglich von HESTENES ET AL. (1992, S. 154 – 158) veröffentlichte Formulierung enthält 29 Items (siehe CD im Anhang). Diese wurden von SCHECKER und GERDES übersetzt und eingesetzt (Gerdes et al., 1998; Gerdes et al., 1999; Schecker, Gerdes, 1999; Schecker, Klieme et al., 1999) (Test siehe CD im Anhang). Im Rahmen der hier vorliegenden Arbeit wurde die Formulierung kaum geändert, aber der Test neu formatiert und die Bilder neu in besserer Qualität erstellt (siehe

CD im Anhang). Die ursprüngliche erste Version des FCI-Testes wurde jedoch in den USA auf-grund der gemachten Erfahrungen überarbeitet, klarer formuliert und auf 30 Items erweitert (Hal-loun et al., 1997) (siehe CD im Anhang). KAUTZ hat von dieser deutlich verbesserten zweiten Ver-sion eine deutsche VerVer-sion hergestellt (Girwidz, Kurz, Kautz, 2003, S. 1) (siehe CD im Anhang), die unter http://modeling.asu.edu/ R&E/Research.html wie auch die englischsprachige überarbeitete Version downloadbar ist.

HALLOUN und HESTENES haben bereits bei einem Vorläufer des FCI-Tests die Validität und Relia-bilität getestet (Konsens über richtige Antworten, Antwortalternativen werden richtig verstanden, Vergleich mit Begründungen in Nachinterviews, Vergleich mit freien Antworten, keine Wiederho-lungseffekte) (Halloun, Hestenes, 1985b, S. 1044; Schecker, Gerdes, 1999, S. 77). Aufgrund der Ähnlichkeit dieses Vorläufers mit dem FCI-Test hielten die Autoren eine weitere Validierung nicht für nötig und führten lediglich einige Interviews durch (Hestenes et al., 1992, S. 148 f.).

Bereits von HESTENES ET AL. (1992, S. 142) wurden die einzelnen Items aufgrund physikalischer Überlegungen aus Sicht des Physiklehrers sechs Inhaltsbereichen (= Subskalen des FCI-Tests) zu-geordnet (Kinematik, 1. newtonsches Gesetz, 2. Gesetz, 3. Gesetz, Superpositionsprinzip, Arten von Kräften). Die Alltagsvorstellungen der Alternativantworten wurden von HESTENES ET AL. unabhän-gig davon ebenso sechs Kategorien zugeteilt (1992, S. 144). Eine ausführliche Überprüfung dieser beiden Zuordnungen wurde jedoch nicht durchgeführt (Schecker, Gerdes, 1999, S. 77). Die Psycho-logen HUFFMAN und HELLER (1995) stellten bei einer Faktorenanalyse fest, dass die Lernenden kein konsistentes Antwortverhalten (bei dichotomisierter Auswertung) zeigten. Sie behaupteten, „dass die Fragen des FCI nur lose miteinander zusammenhängen und nicht notwendigerweise ein einzi-ges Kraftkonzept oder die sechs Dimensionen eines Kraftkonzeptes messen, wie dies ursprünglich von den Autoren des FCI vorgeschlagen wurde“ (Huffman et al., 1995, S. 140, eigene Überset-zung). Demnach misst der FCI Teile des Wissens und die Vertrautheit der Lernenden mit dem Kon-text, aber weniger das Verständnis eines Kraftkonzeptes (Huffmann et al., 1995, S. 141 f.). H ESTE-NES und HALLOUN verteidigten daraufhin den Einsatz zur Bewertung bestimmter Instruktionsver-fahren, wozu der Gesamtwert zu verwenden sei (1995, S. 505); das Antwortverhalten sei nur bei nicht-newtonschen Probanden inkonsistent, die keine konsistente Alltagstheorie besäßen. HELLER

und HUFFMAN (1995) blieben jedoch dabei, dass ein hoher FCI-Wert nicht auf ein konsistentes Grundverständnis schließen lässt. HAKE (1998) legte dann eine Metaanalyse von 6542 Testpersonen aus amerikanischen Highschools, Colleges und Universitäten vor und unterschied zwischen einer-seits traditionellen Kursen mit herkömmlichen Vorlesungen, algorithmisch zu lösenden Prüfungen und kochbuchartige zu bearbeitenden Praktika und anderseits „Interactive Engagement“ (IE)-Kursen mit praktischen Tätigkeiten und Diskussionen unter den Lernenden und mit dem Lehrenden.

Dabei war der relative Zuwachs bei den 48 IE-Kursen (g = 0,48 ± 0,14) deutlich höher als bei den 14 traditionellen Kursen (g = 0,23 ± 0,04)(HAKE,1998, S. 65 f. + S. 71). „Mit der Metastudie von Hake wird der Wandel des FCI vom diagnostischen Test zu einer Art Rating-Koeffizient für Kurse evident“ (Schecker, Gerdes, 1999, S. 78).

SCHECKER und GERDES gingen der Frage nach, ob über den Gesamtwert hinaus Aussagen über das Verständnis bestimmter Teilbereiche der Mechanik getroffen werden können, wozu

Reliabilitätsa-nalysen durchgeführt wurden (Schecker, Gerdes, 1999; Gerdes et al., 1999). Wenn die einzelnen Items einer Subskala als eine Menge paralleler Messungen aufgefasst werden können, die alle die gleiche Dimension des zu messenden theoretischen Konstrukts erfassen, dann kann die Reliabilität (als ein Maß für die Messgenauigkeit der Skala des Messinstrumentes) mit Hilfe eines Maßes der internen Konsistenz geschätzt werden (gemessen durch Cronbachs α). Die Höhe des Reliabili-tätskoeffizienten ist als statistisches Maß in Form des Korrelationskoeffizienten natürlich wiederum von verschiedenen Bedingungen abhängig, die zur falschen Einschätzung der Reliabilität führen können. Es wurden die Reliabilitäten von 49 Schülern aus vier Leistungskursen im Nachtest (Sche-cker, Gerdes, 1999, S. 82) und 30 Schülern aus drei Leistungskursen in Vor- und Nachtest (Gerdes, Schecker, 1999, S. 287) veröffentlicht. Es wird dabei jeweils deutlich, dass die Subskalen „Super-positionsprinzip“ und „Arten von Kräften“ eine geringe interne Konsistenzen aufweisen, aber die Subskala „3. newtonsches Gesetz“ und der Gesamtwert eine hohe Konsistenz aufweisen. Während in der zweiten Literaturstelle behauptet wird, dass die verbleibenden drei Subskalen des Tests (=

Aspekte des Kraftkonzeptes) inhaltlich zusammenhängende Gruppen bilden, wird in der ersten Lite-raturstelle (bei ähnlichen Ergebnissen) von geringen Zusammenhangen zwischen den Items gespro-chen, so dass Aussagen über Aspekte des Kraftbegriffes problematisch sind (ebenso bei SCHECKER, KLIEME ET AL. (1999, S. 22)), da die Reliabilität der Subskalen nicht über dem in der Psychometrie geforderten Grenzwert 0,7 liegen. Der Vergleich der Ergebnisse aus Vor- und Nachtest zeigt außer-dem durch eine Zunahme des Reliabilitätskoeffizienten, dass der Grad der Strukturierung des Kraftkonzeptes steigt. Eine Analyse der Subskalen erlaubt also gewisse Aussagen, doch ist z.T.

Vorsicht aufgrund mangelnder Reliabilitäten geboten. SCHECKER und GERDES (1999, S. 84) haben außerdem nach der Testdurchführung noch eine weitere Subskala „Kraftverständnis“ aus sieben wichtigen Items konstruiert, bei der es um den Zusammenhang zwischen Kräften und Bewegung (ohne 3. newtonsches Gesetz) geht und die bei ihnen mit α = 0,53 eine höhere Reliabilität als die Subskala „2. newtonsches Gesetz“ (α = 0,44) erreicht.

Der Kontext einer Aufgabe beeinflusst, welche Schülervorstellung aktiviert wird. Deshalb ist inte-ressant, wie stark diese Kontextabhängigkeit die Ergebnisse des FCI-Tests beeinflusst. SCHECKER

und GERDES (Schecker, Gerdes, 1999, S. 83; Gerdes et al., 1999, S. 287) gaben Schülern Tests, die originale Formulierungen und alternative, aber physikalisch äquivalente Formulierungen mit ande-rem Kontext enthielten, wobei sich zeigte, dass die Schüler sensibel auf unterschiedliche Formulie-rungen reagierten. Die größten Unterschiede gab es dabei bei Aufgaben, die eine Abbildung enthiel-ten (z.B. Item 22: Fliegender Fußball statt fliegender Golfball, Item 17 (zweite Version: 12): Waag-rechter Wurf durch rutschenden Jungen statt Kanonenkugel). Da die Schüler auch auf Details bildli-cher Präsentationen achten, wurde bei der Neuerstellung der Bilder im Rahmen dieser Arbeit darauf geachtet, dass sie sich außer in der Druckqualität nicht unterscheiden. MCCULLOUGH ET AL. (2001) meinen, dass im FCI-Test an Jungen und an der Schule orientierte Kontexte verwendet werden, wohingegen sie physikalisch äquivalente Aufgaben mit an Mädchen und dem täglichen Leben ori-entierten Kontexten erstellt haben (z.B. Item 17 (12): ein Baby schlägt einen Ball von dem Tisch des Hochstuhls anstelle eines waagrechten Kanonenschusses). Bei zwei Items gab es große, signifi-kante Unterschiede bei den Studentinnen (Item 23 (14): ein Vogel verliert im Flug einen Fisch

an-statt ein Flugzeug eine Kiste, Item 26 (23): Eine auf Eis rutschende Person schaltet einen Feuerlö-scher aus anstatt das Triebwerk einer Rakete im Weltraum wird abgeschaltet). Bei zwei anderen Items gab es große, signifikante Unterschiede bei den männlichen Studenten (Item 12 (29): Tage-buch auf Nachttisch statt Stuhl auf Boden (Version 2) (in Version 1: Buch auf Tisch)). Daraus folgt, dass Ergebnisse bei einzelnen Aufgaben noch keine Schlüsse auf allgemeine Vorstellungen und Antworten bei äquivalenten Aufgaben zulassen.

6.5.1.2 Ergebnisse traditioneller Vergleichsklassen

Im Schuljahr 2003/04 haben 13 herkömmlich unterrichtete elfte Klassen aus fünf bayerischen Gymnasien (aus Mittelfranken, Oberfranken und der Oberpfalz) den FCI-Test am Schuljahresbe-ginn und im letzten Schuljahresdrittel (einige Wochen nach Abschluss des relevanten Unterrichts) durchgeführt (acht Klassen aus dem mathematisch-naturwissenschaftlichen Zweig, in einem Fall Angabe unsicher. In diesem Zweig sind die Lehrer aus Zeitgründen eher zu einem Test bereit). Da-bei haben jeweils alle elften Klassen der entsprechenden Schulen teilgenommen. Damit ist nicht nur eine Streuung über verschiedene Schulzweige, sondern auch über unterschiedliche Lehrer gewähr-leistet. In die Auswertung wurden nur die 258 Schüler aufgenommen, von denen sowohl ein Vor- als auch ein Nachtest vorliegt.

Beschreibung der Gesamtergebnisse:

Da die Lehrer angehalten waren, den Schülern so viel Zeit zu geben, wie diese benötigen, trat nicht wie bei GIRWIDZ,KURZ ET AL.(2003, S. 2) der Effekt auf, dass die späteren Items nicht von allen bearbeitet wurden. Keine Antwort wurde von den Schülern nur dann gegeben, wenn sie sich für keine Lösungsmöglichkeit entscheiden konnten. Beim Nachtest hat im Durchschnitt ein Schüler 0,14 Items (= 0,5 %) nicht beantwortet (oder: ein Item wurde im Durchschnitt von 1,2 Schülern nicht beantwortet). Beim Vortest, bei dem sich die Schüler schwerer taten, hat dagegen ein Schüler im Durchschnitt 0,55 Items (= 1,9 %) nicht beantwortet (oder: ein Item wurde im Durchschnitt von 4,9 Schülern nicht beantwortet). Mit Abstand am häufigsten (6,6 % der Schüler) wurde das Item 28 nicht beantwortet, bei dem es um die Kräfte geht, sie auf eine Kiste wirken, die auf dem Boden mit Reibung und konstanter Geschwindigkeit

gezogen wird (Kräftegleichgewicht). Sinn-vollerweise wurden in der zweiten Version des FCI-Tests bei diesem Item die Antwort-möglichkeiten einfacher formuliert und ein Teilaspekt in einem getrennten Item abge-fragt.

Für jedes richtig gelöste der 29 Items gab es einen Punkt. Das Histogramm der Punkte-verteilung beim Vor- und Nachtest zeigt Abb. 6.5. Beim Vortest ergab sich bei den 258 Schülern ein Mittelwert von 8,0 Punkten (= 28 % richtig gelöste Items)

(Standardab-Punkteverteilung im Vor- und Nachtest

Abb. 6.5: Histogramm der Punkteverteilung in Vor-und Nachtest (Anzahl Schüler, die die jeweilige Anzahl von Items richtig lösten) (258 konventionell unterrichte-te bayerische Elftklässler)

weichung: 3,4 Punkte = 12 %), wobei sich die Verteilung von 2 bis 24 Punkten (= 7 % bis 83 %) erstreckt (mehr als sechs Standardabweichungen). Beim Nachtest ergab sich ein Mittelwert von 11,8 Punkten (= 41 %) (mit größerer Standardabweichung: 4,6 Punkte = 16 %), wobei die Vertei-lung von 4 bis 27 Punkten (= 14 % bis 93 %) reicht (fünf Standardabweichungen). Das ergibt einen relativen Zugewinn der ganzen Gruppe von nur g = 18 %. Ein Vergleich der g-Werte mit GIRWIDZ, KURZ ET AL. (2003, S. 6) ist nicht sinnvoll, da es sich dort um deutsche Studenten handelt. Ein Ver-gleich mit den Ergebnissen von HAKE (1998, S. 66) zeigt, dass 1113 amerikanische Highschool-schüler aus 14 Highschools auch auf einen Vortestwert von 28 % kommen. Die relativen Zugewin-ne von Highschools, Colleges und Universitäten liegen bei traditioZugewin-nellem Unterricht jeweils nahe bei 23 % (keine genaueren Angaben vorhanden). Im Gegensatz zum Vorgehen von HAKE wird au-ßer dem relativen Zugewinn der Gruppe (berechnet aus den Mittelwerten bei Vor- und Nachtest) noch zusätzlich der mittlere relative Zugewinn (berechnet aus den relativen Zugewinnen der einzel-nen Schüler) berechnet (bei diesem Test immer fast der gleiche Wert), um auch beim Vergleich verschiedener Gruppen Signifikanztests durchführen zu können.

Interessant ist nicht nur die Streuung bei den Schülerergebnissen, sondern auch bei den Klassener-gebnissen. Das mittlere Vortestergebnis der Klassen variiert zwischen 21 % und 39 %, das Nach-testergebnis zwischen 27 % und 53 %. Der relative Zugewinn der einzelnen Klassen reicht von 7 % bis 31 % (Mittelwert der Klassenergebnisse: 18,1 % ± 7,0 %).

Da HESTENES und HALLOUN (1995, S. 505) ein Testergebnis von 60 % richtigen Antworten als Schwelle für ein newtonsches Verständnis ansehen, wurde geschaut, wie viele Schüler 17 oder mehr der 29 Items richtig lösten (≥ 59 %). Dieser Anteil stieg von 3 % der Schüler im Vortest auf lediglich 15 % der Schüler im Nachtest an. Das ist ein bedenkenswert schlechtes Gesamtergebnis.

Analyse auf Itemebene: einzel-nen Items an der Oberkante der schwarzen Säulen

Abb. 6.6: Relative Häufigkeit richtiger Antworten bei den einzelnen Items mit Vergleich von Vor- und Nachtest (258 bayerische Elftklässler)