• Keine Ergebnisse gefunden

Die Population der Hauptstudie setzte sich aus N=548 Studierenden des zweiten Semesters und unterschiedlicher Fachrichtungen zusammen (♀ 48,2 %, ♂ 51,8 %; Alter M=20,66, SD=2,55). Ablauf und Organisation fanden analog zur Vorstudie statt (s. Kapitel 4.4). An der Untersuchung haben folgende Universitäten teilgenommen: Technische Universität München (TUM), Ludwig-Maximilians-Universität München (LMU), die Universität zu Köln sowie die Christian-Albrechts-Universität zu Kiel (CAU). Die Verteilung der Studierenden und ihre Stu-diengänge, die im Rahmen der Hauptstudie beteiligt waren, können TABELLE 17 entnommen werden.

TABELLE 17: HAUPTSTUDIE - TEILGENOMMENE STUDIENGÄNGE UND ANZAHL DER STUDIERENDEN

(N=548)

Studiengang Anzahl der

Studierenden Lehramt Gymnasium/ Realschule/ Mittelschule mit Fach Biologie 83 Lehramt Gymnasium/ Realschule/ Mittelschule mit Fach Mathematik 25 Lehramt Gymnasium/ Realschule/ Mittelschule mit

Fächerkombination Biologie & Mathematik oder Biologie & Sport 9

Biowissenschaften 137

Sonstige Natur- und Ingenieurswissenschaften 169

Mathematik (inkl. Physik und Informatik) 98

Sonstige oder keine Angaben 9

Um die Geltung eines Modells zu testen, sollte eine entsprechende Stichprobengröße vorlie-gen. Rost (2004) schlägt einen Stichprobenumfang von ca. 100 Probanden vor, Wright &

Stone (1999) schlagen mindestens 200 Probanden vor, wenn die zu bearbeitenden Testhefte über zehn gute Ankeritems verlinkt sind. Die Hauptstudie beinhaltete n=36 Testaufgaben, von denen jeder Testperson neun Items zur Beantwortung vorgelegt wurde. Jedes Item wurde bei der vorliegenden Stichprobe von N=548 durchschnittlich von 95-131 Studierenden beantwortet. Damit kann eine zufriedenstellende Schätzung der Item- und Personenkenn-werte angenommen werden.

7.2 T

ESTKONSTRUKTION

In der Hauptstudie geht es darum, die Modellannahmen zu überprüfen. Aus diesem Grund müssen diejenigen Testitems ausgewählt werden, die geeignet sind, das zu untersuchende Konstrukt abzubilden. Ziel der Itemzusammenstellung ist damit ein ausreichend großer Item-pool an hochwertigen Testaufgaben, die die gesuchte Kompetenz valide abbildet sowie reli-able und objektive Messergebnisse produziert (vgl. Downing & Haladyna, 1997). Aus den bereits diskutierten Gründen (s. Kapitel 6) wurden für die Durchführung der Hauptstudie 36 Items festgelegt, die sich im Rahmen der Pilotierung als statistisch und inhaltlich geeignet erwiesen haben.

Aufgabenkonstruktion: In der Hauptstudie wurde die Beantwortung der ausgewählten Test-aufgaben mit einer maximalen Bearbeitungszeit von 45 Minuten pro Testheft realisiert. Da-raufhin mussten die pilotierten Testitems gekürzt werden. Unter Beibehaltung der charakte-ristischen Elemente in der Itembeschreibung (s. Kapitel 4.2.2) wurde das Glossar zu den ver-wendeten Fachbegriffen entfernt und der Aufgabenstamm in seiner Länge reduziert. In die-sem Zusammenhang wurde berücksichtigt, dass möglichst wenig verschiedene Aufgaben-stämme enthalten sind, um die Lesezeit nicht unnötig zu erhöhen. Aufgabenstimulus und Problemaufriss blieben erhalten, damit der Testperson eine adäquate Lösung der Aufgabe vorgegeben werden kann (vgl. Hartig & Jude, 2007). Auf eine präzise Formulierung der Fra-gestellung unter Verwendung passender Operatoren wurde zusätzlich geachtet. Bei jeder Itemanalyse stand zudem die fachdidaktische Perspektive und psychometrisch adäquate Umsetzung davon im Vordergrund. Wie in der Vorstudie wurden auch Alter, Studiengang, das Geschlecht sowie die Biologie- und Mathematiknote als Selbstauskunft erhoben (s. Ka-pitel 4.2).

Itemumfang: Für die Verteilung der Items auf die Testhefte wurde aufgrund der positiven Erfahrungen sowie aus testökonomischen Gründen erneut das Youden-Square-Design an-gewendet (s. Kapitel 7.3). In diesem Zusammenhang wurden die verbleibenden Testitems analog zur Vorstudie zu Clustern aggregiert. Um allen Probanden eine realistische Möglich-keit der Beantwortung zu geben, wurden pro Testheft neun Items verteilt. Für jede Teilkom-ponente (MERI, MERII, MERIII) und Facette im Kompetenzmodell (Aufgabenkontext, Reprä-sentationstyp) wurden drei adäquate, valide offene Testaufgaben ausgewählt. Damit diese Umsetzung gelingt, wurde sich dafür entschieden, die Verteilung der Testitems innerhalb der Facette Repräsentationstyp zu reduzieren. Daraus folgt, dass für den Aufgabenkontext Öko-logie ausschließlich Testaufgaben mit Diagrammen verwendet wurden (9 Items). Für den

Auf-gabenkontext Genetik wurden Schemazeichnungen mit Stammbäumen und fachspezifi-schen konventionalisierten Repräsentationen ausgewählt (9 Items). Um den Vergleich inner-halb eines Aufgabekontextes zu erhalten, wurden im Kontext Stoffwechsel beide Repräsen-tationstypen aufgenommen, d.h. es waren Aufgaben mit Diagrammen als auch Aufgaben mit Schemazeichnungen vorgesehen (18 Items). Dadurch konnte die Itemzahl pro Aufgabenkon-text reduziert werden, gleichzeitig erlaubt die Itemverteilung von n=12 Testitems je Teilkom-ponente der MER-Integration eine messtechnisch zufriedenstellende Voraussetzung (vgl. T A-BELLE 18).

TABELLE 18: HAUPTSTUDIE- VERTEILUNG DER TESTAUFGABEN (ITEMS) FÜR DAS K OMPETENZKON-STRUKT "UMGANG MIT MER" IN DREI AUFGABENKONTEXTEN UND ZWEI REPRÄSENTATIONSTYPEN

(N=36 ITEMS)

Umgang mit multiplen externen Repräsentationen

MERI MERII MERIII

Öko Stw Gen Öko Stw Gen Öko Stw Gen

3

Items 6 Items 3 Items 3 Items

6 Items

3

Items 3Items 6

Items

3 Items

D S D S D S D S D S D S D S D S D S

3 / 3 3 / 3 3 / 3 3 / 3 3 / 3 3 / 3

12 Testaufgaben 12 Testaufgaben 12 Testaufgaben

Für das in Kapitel 7.3 herangezogene Testheftdesign wurden die 36 Testitems geclustert und so auf die Teilkompetenzen aufgeteilt, dass eine ausgeglichene Schwierigkeitsverteilung vor-liegt. Zusätzlich wurde sichergestellt, dass in jedem Testheft mindestens ein Cluster, beste-hend aus drei Items, aus dem Aufgabenkontext Stoffwechsel stammt. Des Weiteren wurde darauf geachtet, dass in jedem Testheft alle drei Teilkompetenzen (MERI, MERII, MERIII) in allen drei Aufgabenkontext repräsentiert sind. Die Verteilung kann TABELLE 19 entnommen werden. Vor diesem Hintergrund wird deutlich, dass sich nur eine ganz bestimmte Auswahl der pilotierten Testitems für eine derartige Itemverteilung als geeignet erwies.

TABELLE 19:HAUPTSTUDIE -VERTEILUNG DER ITEMS AUF DIE MER-TEILKOMPONENTEN (I,II,III) UN-TER BERÜCKSICHTIGUNG VON AUFGABENKONTEXT UND REPRÄSENTATIONSTYP

Cluster Item 1 Item 2 Item 3 Cluster Item 1 Item 2 Item 3 Typ

1 Öko I Gen II Öko III 2 SW I SW II SW III D

Zusammenfassend wird damit die Auswahl folgender Testaufgaben aus dem konstruieren Itempool für den Einsatz in der Hauptstudie festgehalten (vgl. TABELLE 20).

TABELLE 20:HAUPTSTUDIE –FINALE ITEMAUSWAHL, GETRENNT NACH MER-INTEGRATION,A

Antwortformat: Vor diesem Hintergrund änderte sich die Verteilung der Antwortformate in der Hauptstudie. Während die Multiple-Choice-Items fast vollständig ausgeschlossen wur-den, besaß etwa zwei Drittel der Testitems ein offenes ausführliches Antwortformat, während mehr als ein Drittel der Testitems auf Items mit offenem Kurzantwortformat fiel (vgl. TABELLE

21). Die Kodierung der Antworten erfolgte analog zur Vorstudie im „Full-/ No-Credit-System“

(s. Kapitel 4.2.2).

TABELLE 21:HAUPTSTUDIE -ITEMS IN UNTERSCHIEDLICHEN ANTWORTFORMATEN Design lateinischer Quadrate orientiert. Daraufhin wurde ein angepasstes Design gewählt, um analog zur Vorstudie die Positionseffekte gering zu halten und weitere Einflussvariablen auszuschließen. Die Voraussetzungen für ein Youden-Square-Design sind annähernd erfüllt (vgl. Frey, 2009): Die gebildeten Cluster kommen in den Testheften gleich häufig vor. Alle eingesetzten Aufgaben tragen zur Verankerung bei, d.h. eine Verlinkung zwischen den Test-heften ist gewährleistet. Alle Testhefte weisen die gleiche Anzahl an Positionen auf, alle Kom-binationen von jeweils zwei Clustern innerhalb eines Testhefts erscheinen in allen Testheften ebenfalls gleich häufig. Des Weiteren ist die Interaktion aus Clustern und Positionen kontrol-liert. Auf die Bedingung, dass in jedem Testheft n-1 Cluster vorkommen, wurde hingegen verzichtet. Grund dafür waren die Voraussetzungen für das mögliche YSD aus den Parame-tern t=b=12 und r=k=3. Für diese Kombination existiert nur ein mögliches YSD mit 11 Clus-tern pro Testheft, aufgrund der hohen Bearbeitungszeit offener Aufgaben wurden insgesamt jedoch nur drei Positionen pro Testheft bestimmt. Trotzdem wurde sich für ein unvollständi-ges Blockdesign entschieden, das sich an einem Youden-Square-Design orientiert, da eine vollständige Permutation aus zeitlichen und Gründen der kognitiven Belastung nicht realisier-bar gewesen wäre. Dennoch konnte so eine unerwünschte Variation der interessierenden Parameterschätzer kontrolliert werden (vgl. Frey, 2009). Für die Hauptstudie folgt daraus,

dass in 12 Testheften insgesamt auch 12 Cluster bestimmt werden konnten, wobei drei Clus-ter in jedem Testheft repräsentiert wurden und jeder ClusClus-ter in insgesamt drei Testheften und an jeder Position einmal vertreten ist (vgl. TABELLE 19, s. Kapitel 7.2). Die Verteilung der Test-hefte und Cluster ist der TABELLE 22 zu entnehmen.

TABELLE 22:HAUPTSTUDIE –TESTHEFTDESIGN (36ITEMS)

TH 1 TH 2 TH 3 TH 4 TH 5 TH 6

1 2 3 4 5 6

2 3 4 5 6 7

3 4 5 6 7 8

TH 7 TH 8 TH 9 TH 10 TH 11 TH 12

7 8 9 10 11 12

8 9 10 11 12 1

9 10 11 12 1 2

8 S TATISTISCHE M ETHODEN DER H AUPTSTUDIE

Im Folgenden werden nur Methoden vorgestellt, die nicht bereits im Methodenteil zur Pilo-tierung (s. Kapitel 5) beschrieben wurden und für die Auswertung der Hauptstudie von be-sonderer Bedeutung sind.