• Keine Ergebnisse gefunden

Für die postulierte Kompetenzstruktur werden verschiedene Rasch-Modelle modelliert (s.

Kapitel 8.1.3). Die Überprüfung der Modellpassung erfolgt dabei in zwei Schritten: 1. Der Reliabilitätsprüfung und 2. die Prüfung der Modellpassung und Modelldimensionen.

8.2.1 P

RÜFUNG DER

R

ELIABILITÄT

In einem ersten Schritt wird die Zuverlässigkeit der Schätzung für die Personen und Itempa-rameter in jedem Modell anhand von Kennwerten bewertet. Das Programm ConQuest gibt dabei die Person Separation Reliability und die Item Separation Reliability aus. Die empiri-schen Werte werden dabei zu den in der Literatur beschriebenen Grenzwerten in Beziehung gesetzt. Beide Maße liegen in einem Wertebereich zwischen 0 und 1 (Bond & Fox, 2007). Die Person Separation Reliability ist ein Maß für die Differenzierbarkeit der Personen bezüglich ihrer Merkmalsausprägung. Je höher diese ist, desto eher können Probanden mit Personen-parameter am oberen Ende der Skala auch tatsächlich eine höhere Merkmalsausprägung besitzen als solche Personen, deren Personenparameter am Ende der Skala zu finden sind.

In ConQuest können verschiedene Varianten der Person Separation Reliability angefordert werden (Wu et al., 2007). Neben der MLE Person Separation Reliabilität können die WLE Person Separation Reliabilität und die EAP/PV Person Separation Reliabilität herangezogen

werden. Rost (2004) berichtet, dass die WLE Person Separation Reliability bei vielen Perso-nen mit Extremscores in der Stichprobe eher unterschätzt wird, weshalb bevorzugt die EAP/PV Person Separation Reliabilität angegeben wird. Gleichzeitig zeigt dieses Reliabili-tätsmaß eine große Übereinstimmung mit Cronbachs Alpha aus der klassischen Testtheorie auf und wird aus diesem Grund auch in der vorliegenden Arbeit angegeben (Rost, 2004). Die Item Separation Reliabilität ist ein Maß für die Differenzierbarkeit der ermittelten Itemschwie-rigkeiten. Sie ist typischerweise sehr hoch und steigt bei zunehmender Stichprobengröße an (Wu et al., 2007).

8.2.2 P

RÜFUNG DER

M

ODELLGÜLTIGKEIT UND

M

ODELLDIMENSIONEN

Bevor eine Interpretation des Kompetenztests vorgenommen wird, muss die Modellpassung überprüft werden, d.h. wie gut das angewendete Modell zu den empirischen Daten passt (Rost, 2004). In einem ersten Schritt wird geprüft, ob die Anpassung des Modells erfolgreich und innerhalb der maximalen Zahl von Iterationen abgeschlossen wurde (Neumann, 2014).

Anschließend folgt die Überprüfung der Modellgültigkeit anhand verschiedener Kennwerte.

Bei einer eindimensionalen Skalierung und der Einstellung „constraints = cases“, werden nicht die Item- sondern die Personenparameter summennormiert. Damit werden alle Itempa-rameter (Itemschwierigkeitsmittel und Standardabweichung) frei geschätzt (Wu et al., 2007).

Wird ein eindimensionales Rasch-Modell unterstellt, wird für die Lösung der Aufgaben die Beherrschung genau eines Fähigkeitskonstrukts angenommen (Kauertz, 2014). Ziel einer wissenschaftlichen Modellierung ist die Beschreibung eines Sachverhalts mit möglichst we-nigen Annahmen (Parametern), was unter dem Begriff des „Einfachheitskriteriums“ zusam-mengefasst wird (vgl. Rost, 2004). Werden verschiedene Modelle postuliert, muss zur Beur-teilung der Modellgüte abgewogen werden, wie gut das Modell auf die empirischen Daten passt und mit vielen Parametern diese Passung erzielt wurde. Dabei gilt es zu beachten, dass keine globalen Modellgütemaße geprüft werden können, d.h. die Richtigkeit eines Modells kann aus wissenschaftstheoretischer Sicht nicht endgültig bewiesen werden (Bühner, 2006).

Aus diesem Grund müssen die postulierten Modellannahmen überprüft und eine Aussage, welches dieser Modelle die Daten am besten beschreibt, getroffen werden (Rost, 2004). Zur Interpretation werden verschiedene Informationskriterien herangezogen sowie die „Sparsam-keit“ der verschiedenen Modelle miteinander verglichen (Bühner, 2006). Im Rahmen der vor-liegenden Untersuchung werden drei informationstheoretische Indices herangezogen, die sowohl die log-Likelihood (logarithmierte Likelihoodwerte) als Anpassungsmaß und die Zahl der Modellparameter nρ berücksichtigen (Rost, 2004). In beide Verfahren geht in die Berech-nung des Model-Fit die Final Deviance (Maß für die absolute Abweichung des Modells von

den empirischen Daten, negativ doppelter log-Likelihood) und die Parameterzahl ein. Die An-zahl der Parameter gibt an, wie viele Annahmen getroffen werden müssen, damit die Passung erreicht wird (vgl. Ziepprecht, 2016, S. 127). Je kleiner die Final Deviance und die Parame-teranzahl, desto sparsamer ist das Modell und desto besser passt das Modell. Über die Dif-ferenz der Final Deviance-Maße im Verhältnis zu den Freiheitsgraden (DifDif-ferenz der Parame-terzahl der beiden zu vergleichenden Modelle) kann der Unterschied im Model-Fit unter Be-rücksichtigung einer akzeptablen Irrtumswahrscheinlichkeit geprüft werden (Senkbeil et al., 2005). Hierfür existieren drei informationstheoretische Maße: Akaike Information Criterion (AIC), Best Information Criterion (BIC) und das Consistent Akaike Information Criterion (CAIC). Für alle Indices gilt: Je geringer der Index, desto besser passt das postulierte Modell zu den empirischen Daten (Rost, 2004). Neben der Final Deviance gehen in alle drei Indices auch die Modellkomplexität (Modellparameter nρ) und die Stichprobengröße (N) in unter-schiedlicher Gewichtung ein (Bühner, 2011, S. 542). Das AIC gewichtet die Parameterzahl nρ

und die Final Deviance (als negativ doppelter log-Likelihood) im Verhältnis 1 zu 1 (Rost, 2004):

𝐴𝐼𝐶 = −2 log 𝐿 + 2 𝑛𝜌

Das AIC eignet sich insbesondere für große Stichproben. Burnham & Anderson (2004) be-richten, dass der AIC vor allem dann herangezogen werden soll, wenn das Verhältnis zwi-schen Stichprobengröße und Parameterzahl aller miteinander verglichenen Modelle geringer als 40 ist. Das BIC gewichtet die Parameterzahl höher, d.h. dass ein komplexeres Modell nach dem AIC eine bessere Passung, aber nach dem BIC eine schlechtere Passung aufwei-sen kann als ein sparsames Modell. Dem Einfachheitskriterium wird dadurch eine höhere Bedeutung zugemessen (vgl. Ziepprecht, 2016, S. 127). Das BIC gewichtet die Parameterzahl mit einem variablen Koeffizienten, dem Logarithmus der Stichprobengröße N (Rost, 2004):

𝐵𝐼𝐶 = −2 log 𝐿 + (log 𝑁) 𝑛𝜌

Das BIC eignet sich damit für große Itemzahlen und für die Anwendung unterschiedlicher Antwortmuster (vgl. Roeling, 2016, S. 77), während das Kriterium weniger bei großen Stich-proben geeignet ist (Kuha, 2004; Posada & Buckley, 2004). Aus dem AIC leitet sich der dritte Index ab, das CAIC. Dabei handelt es sich um einen korrigierten AIC, der auch bei großen Stichproben konsistent ist (Rost, 2004).

𝐶𝐴𝐼𝐶 = −2 log 𝐿 + (log 𝑁) 𝑛𝜌+ 𝑛𝜌

Hinsichtlich der Interpretation der drei unterschiedlichen Indices können folgende Annahmen getroffen werden. Das Modell für das kleinste informationstheoretische Maß passt im Ver-gleich zu allen anderen Modellen am besten zu den Daten (Rost, 2004). Falls AIC und BIC für dasselbe Modell sprechen, gilt dieses Modell, da es „unlikely to be far from the best of the candidate models [ist]“ (Kuha, 2004, S. 223). Ist die Differenz zwischen zwei Indices größer als zehn, liegt eine bessere Passung des Modells zu den Daten mit dem niedrigeren informa-tionstheoretischen Maß vor (Burnham & Anderson, 2004).

Neben dem bloßen Vergleich in den Unterschieden der Final Deviance kann zusätzlich ein Likelihoodquotiententest durchgeführt werden. In diesem Verfahren erfolgt ein Vergleich der Likelihoods von verschiedenen Modellen mit derselben Datenmatrix. Dabei müssen drei Be-dingungen erfüllt sein (vgl. Rost, 2004). Das Modell, dessen Likelihood im Nenner steht, muss ein echtes Obermodell sein, das restriktive Alternativmodell darf nicht durch Null-Setzen ein-zelner Parameter aus dem allgemeineren Modell resultieren und für das allgemeinere Modell muss im Nenner die Modellgültigkeit nachgewiesen sein. Sind diese Bedingungen erfüllt, wird der Likelihoodquotient in eine χ2-Prüfstatistik umgewandelt (ebd.). Der Likelihoodquoti-ent−2 log (𝐿0𝐿1) berechnet sich dabei aus der Differenz der Devianzmaße (ConQuest: Final De-viance) von zwei Modellen, die zu der Anzahl der Freiheitsgrade (Differenz der Parameterzahl der beiden Modelle, ConQuest: total number of estimated paramters) in Beziehung gesetzt wird und anhand der χ2-Verteilung geprüft wird (Senkbeil et al., 2005). Wie in anderen Signi-fikanztests sollte auch die χ2-Verteilung ein Signifikanzniveau kleiner als p = 0,05 bzw. fünf Prozent aufweisen (Rost, 2004).

In ConQuest können zusätzlich die Interkorrelationen der postulierten Dimensionen auf laten-ter Ebene (vgl. ABBILDUNG 23, (1, 2)) als Entscheidungskriterium herangezogen werden. Die Interkorrelationen werden als Modellparameter geschätzt und sind messfehlerbereinigt (Carstensen et al., 2007). Korrelieren die postulierten Konstrukte nur gering untereinander, ist es naheliegend von einem mehrdimensionalen Konstrukt auszugehen (vgl. Kauertz, 2014).

Hohe Zusammenhänge mit Werten größer als 0,90 sprechen hingegen für die Eindimensio-nalität, Werte darunter für die Mehrdimensionalität des Modells (Bond & Fox, 2007; Hartig &

Klieme, 2006). Die Modellpassung wird nicht ausschließlich durch Kriterien der Psychometrie vorgenommen. Zusätzlich erfolgt eine Analyse der Korrelationen zwischen verschiedenen Aufgabenmerkmalen, um gegebenenfalls neue fachdidaktische Kenntnisse aufzudecken. Im Rahmen der vorliegenden Untersuchung können damit auch unterschiedliche Aufgaben-merkmale aus fachlicher Sicht, indem unterschiedliche Inhaltsbereiche der Biologie abge-prüft werden, gerechtfertigt werden. Die Feinstruktur ist dann nicht psychometrisch, sondern

aus fachdidaktischer Sicht sinnvoll (vgl. Kauertz, 2014). Liegt eine geringe Korrelation zwi-schen den Aufgabenmerkmalen vor, sollte von einem mehrdimensionalen Konstrukt ausge-gangen werden, wozu weitere Rasch-Analysen benötigt werden.