• Keine Ergebnisse gefunden

Zunächst wird das eindimensionale Rasch-Modell als Analysemodell der Item Response The-ory (IRT) vorgestellt. Auf die ausführliche Beschreibung von Modellgleichungen der verwen-deten Rasch-Modelle wird im Folgenden verzichtet, da diese eine komplexe mathematische Herleitung erfordern. An dieser Stelle sei auf einschlägige Literatur verwiesen (z.B. Rost, 1996; Rost, 2004; Adams, Wilson & Wang, 1997).

Mit Modellen der IRT kann die Passung von angenommenen Modellstrukturen an empirische Daten und die systematische Varianz des zu messenden Merkmals getestet werden (Hartig

& Frey, 2013). Das codierte Antwortverhalten auf die entwickelten Testaufgaben steht in Be-ziehung zum theoretischen Konstrukt (Wilson, 2005). Die Herausforderung bei der Entwick-lung von Kompetenzmodellen ist die Modellierung von situativen Anforderungen und Perso-nenmerkmalen, um die individuellen Testwerte als Fähigkeit zur Bewältigung spezifischer An-forderungen im Sinne des Kompetenzbegriffs interpretieren zu können (Hartig, 2008). Hierfür bieten sich Modelle der Item Response Theory (IRT) an (vgl. Rost, 2004), da sie durch den Vergleich von Personenparametern mit Itemparametern, abgebildet auf einer gemeinsamen Skala, eine kriteriumsorientierte Testwertinterpretation erlauben (vgl. Embretson & Reise, 2000) und eine Grundlage für die Beschreibung von Kompetenzniveaus ermöglichen (vgl.

Hartig & Klieme, 2006). Die Grenzen der Modellierung von Kompetenzen mit IRT-Modellen liegen bei einer Verletzung der lokalen stochastischen Unabhängigkeit, d.h. die Art der Be-antwortung einer Testaufgabe ist unabhängig vom Lösungsverhalten einer anderen Testauf-gabe im selben Test (Hartig & Frey, 2013) und darf nur vom zu erfassenden Konstrukt abhän-gen (Neumann, 2014). Dies bedeutet wiederum, dass das Rasch-Modell erst bei lokaler stochastischer Unabhängigkeit der Aufgaben gültig ist. Eine Schwäche von IRT-Modellen ist zudem, dass etablierte globale Kriterien zur Beurteilung der Modellgüte aktuell noch fehlen und damit die Einschätzung der absoluten Passung der Daten auf das Modell erschwert wird (Hartig & Frey, 2013).

5.2.1 D

AS EINDIMENSIONALE

R

ASCH

-M

ODELL

Das einfachste Modell der Item Response Theory ist das Rasch-Modell. Es ist nach Georg Rasch benannt, der 1960 als erster ein probabilistisches Testmodell, das die logistische Funktion zur Beschreibung der Itemcharakteristik-Kurve (ICC) verwendet, formulierte. Die Modellgleichung des Rasch-Modell lautet (vgl. Rost, 2004, S. 119):

𝑃 (𝑥𝑣𝑖) = 𝑒(𝑥𝑣𝑖(𝑣𝑖)) 1 + 𝑒(𝑣𝑖)

Die Modellgleichung beschreibt die Wahrscheinlichkeit einer bestimmten Antwort in Abhän-gigkeit ausgewählter Modellparameter. P(xvi) gibt die Wahrscheinlichkeit an, mit der eine Per-son v das Item ilöst. Der individuelle Fähigkeitsparameter wird als v definiert. i ist der Item-parameter, der den Abszissenwert der 50%-Lösungswahrscheinlichkeit und damit den Wen-depunkt der ICC definiert. Die Steigung dieser logistischen Funktion ist für alle Testaufgaben gleich, d.h. je nachdem ob das Item schwieriger oder leichter ist, verschiebt sich die Kurve parallel der X-Achse nach rechts oder links. Damit wird angenommen, dass alle Items die gleiche Trennschärfe haben, wenn das Rasch-Modell für diesen Test gilt (vgl. Rost, 2004).

Die Wahrscheinlichkeit einer bestimmten Antwort wird allein durch die Differenz aus Fähig-keitsparameter v einer Person v und der Schwierigkeit i eines Items i bestimmt. Unter-schiede bestehen also allein in der Itemschwierigkeit (Moosbrugger, 2012). Damit postuliert das Rasch-Modell, dass die Lösungswahrscheinlichkeit für ein Item i sowohl von der nenfähigkeit als auch der Aufgabenschwierigkeit abhängt (Moosbrugger, 2012). Die Perso-nen- und Itemparameter werden im Rasch-Modell auf einer Skala, der Logit-Skala, darge-stellt und können über die Wright Map direkt miteinander vergleichen werden (Hambleton &

Jones, 1993). Dabei gilt es zu beachten, dass die lokale stochastische Unabhängigkeit nicht verletzt wird und die Beantwortung eines Items nicht von der Bearbeitung eines anderen

Items abhängt (Wu & Adams, 2007). „Lokal“ steht in diesem Zusammenhang dafür, dass die Unabhängigkeit des Items nur dann gelten muss, wenn eine Person, oder mehrere Personen mit der gleichen Fähigkeit, betrachtet werden. Das heißt wiederum, dass es durchaus eine Person geben darf, die mit höherer Fähigkeit alle Aufgaben mit höherer Wahrscheinlichkeit löst als eine Person mit niedrigerer Fähigkeit (vgl. Strobl, 2012). Eindimensionale Modelle wie das Rasch-Modell, beinhalten zur Modellierung von Unterschieden zwischen Personen eine einzelne, kontinuierliche latente Variable (z.B. Embretson & Reise, 2000; Wilson, 2005). Damit werden Unterschiede in der zu erfassenden Kompetenz auf einem einzelnen Kontinuum be-schrieben, d.h. jede erfasste Kompetenz entspricht einer einzelnen latenten Dimension (vgl.

Hartig & Klieme, 2006; Adams, 2005). An der Modellgleichung erkennt man diese Annahme daran, dass Personen- und Itemparameter voneinander abgezogen werden und sowohl die Personenfähigkeiten als auch die Itemschwierigkeiten auf der X-Achse abgetragen sind (vgl.

Strobl, 2012). Dies wiederum heißt, dass alle Personen und alle Aufgaben auf einem einzel-nen Kontinuum von niedriger bis hoher Kompetenz bzw. niedriger bis hoher Itemschwierig-keit angeordnet werden. Dadurch ist das Rasch-Modell in seiner Aussagekraft eingeschränkt, da die Testitems so modelliert werden, dass alle die gleiche latente Personenfähigkeit ab-prüfen.

In der vorliegenden Untersuchung bedeutet dies, dass der Umgang mit MER durch eine Di-mension abgebildet wird und damit keine Teilkomponenten unterschieden werden, sondern ausschließlich von Repräsentationskompetenz als eine Fähigkeit auszugehen ist. In diesem eindimensionalen Modell zur Integration von MER (vgl. ABBILDUNG 15) wird angenommen, dass sich bei der Text-Bild-Integration von Repräsentationen keine einzelnen Fähigkeiten differenzieren lassen. Diese Modellierung ist notwendig, um die modellkonform konstruierten Items auf ihre Eignung als Testaufgaben zu überprüfen und damit Gegenstand der Vorstudie (s. Kapitel 4.2.2.).

ABBILDUNG 15:1-DIMENSIONALES MODELL ZUR INTEGRATION VON MER

5.2.2 S

CHÄTZUNG VON

I

TEM

-

UND

P

ERSONENPARAMETERN

Ein Modell ist gültig, wenn das Antwortmuster der Testpersonen zu den Annahmen des Mo-dells passt. Mit steigender Personenfähigkeit steigt die Wahrscheinlichkeit einer korrekten Lösung des Testitems (Bühner, 2006). Neben der Personenfähigkeit ist die Lösungswahr-scheinlichkeit auch von der Itemschwierigkeit abhängig. Aus diesem Grund enthalten proba-bilistische Testmodelle zwei Parameter: Personenparameter v (Fähigkeitsausprägung einer Person, die aufgrund der bearbeiteten Itemanzahl einer Testperson geschätzt wird) und Item-parameter i (Itemschwierigkeit, die auf der Lösungshäufigkeit eines Items basiert). Die Fä-higkeit einer Testperson hängt von der Anzahl der gelösten Aufgaben ab, dabei ist diese Fähigkeit unabhängig davon, welche Aufgaben die Testperson im Einzelnen gelöst hat (Neumann, 2014). Hartig & Frey (2013) weisen darauf hin, dass Modelle mit Aufgabeneigen-schaften nicht zu einfach formuliert werden sollten. Grund sind mögliche Zusammenhänge und Interaktionen von Aufgabeneigenschaften und Aufgabenschwierigkeiten sowie zwischen Aufgaben- und Personenmerkmalen. Das Aufgabenspektrum in einem psychometrischen Test ist damit über alle Schwierigkeitsstufen, die am Ende gemeinsam auf einer Skala aufge-tragen werden, zu operationalisieren.

Die Rasch-Skalierung ist eine probabilistische Testauswertung, da die „wahre“ Fähigkeit ei-ner Testperson mittels Schätzverfahren (z.B. dem Maximum-Likelihood-Verfahren, Rost, 2004) aus den empirischen Daten der Aufgabenbearbeitung ermittelt wird (Kauertz, 2014).

Für die Modellierung der Personenfähigkeit können verschiedene Personenschätzer zu un-terschiedlichen Fragestellungen herangezogen werden (Hartig & Kühnbach, 2006). Die Ma-ximum Likelihood Estimates (MLEs) der MaMa-ximum-Likelihood-Methode sagen das gegebene Antwortmuster am wahrscheinlichsten vorher. Hartig & Kühnbach (2006) weisen darauf hin, dass MLEs messfehlerbehaftet sind und die Varianz der Personenfähigkeiten überschätzt werden. Grund hierfür ist, dass mit steigender Stichprobengröße immer auch die Anzahl der unbekannten Parameter steigt. Damit hat man keine gleichbleibende Anzahl der Parameter, was zu nicht konsistenten Schätzern führt (Strobl, 2012). Aus diesem Grund werden die Weighted Likelihood Estimates (WLEs) herangezogen, die ähnlich geschätzt werden, aber nicht zu stark streuen und die Messwerte gewichten (Hartig, Jude, & Wagner, 2008; Warm, 1989). Zudem gelten WLEs als reliabelste Schätzer für individuelle Personenwerte (vgl. Hartig

& Kühnbach, 2006; Rost, 1996; Wu, 2005). Plausible Values (PVs) und Expected A Posteriori (EAPs) sind weitere Schätzer für Personenparameter, die Personenmerkmale in die Schät-zung der Personenfähigkeit einbeziehen. Im Kontext der Item-Response-Theorie werden hierzu die geschätzte Varianz des zu messenden Merkmals und die Varianz der EAPs der

individuellen Merkmalsausprägungen verwendet. Als Skalenhomogenitätsmaß der Perso-nenparameterschätzung wird die IRT-basierte EAP/PV-Reliabilität herangezogen. Sie bezieht sich auf die Messgenauigkeit von Items für ein eindimensionales Merkmal (vgl. Rost, 2004).

Bezüglich der statistischen Auswertung der Rasch-Analyse in ConQuest ist die Entscheidung zu treffen, ob der Mittelwert der Verteilung der Personenfähigkeit oder der Verteilung der Aufgabenschwierigkeit als Referenz dienen soll, da kein absoluter Bezugspunkt vorliegt (vgl.

Neumann, 2014; Wu et al., 2007, Rost, 2004). Dieser kann je nach Analyse auf Null festgelegt werden. Für beide Parameter resultierten dabei üblicherweise Werte in einem Bereich zwi-schen -3 Logits und +3 Logits (Rauch & Hartig, 2008). Setzt man den Mittelwert der Perso-nenfähigkeit fest und auf Null, kann z.B. das Verhalten von Aufgaben in vergleichbaren Stich-proben untersucht werden. Im Rahmen der vorliegenden Studie erfolgt die Analyse zunächst auf Basis der gesamten Stichprobe, d.h. die Aufgaben werden daraufhin normiert und die Summe der Personenparameter gleich Null gesetzt. Damit wird eine sehr genaue Itempara-meterschätzung (Linacre, 1994) sowie eine normorientierte Interpretation der Personenpara-meter möglich (Rost, 2004). Umgekehrt erreicht man mit der Normierung der ItemparaPersonenpara-meter auf Null eine kriteriumsorientierte Interpretation der Personenparameter (Rost, 2004).

Itemschwierigkeiten und Personenfähigkeiten steigen von den negativen zu den positiven Werten auf der Logit-Skala hin an. Ist der Personenparameter genauso groß wie der Itempa-rameter, ist die Lösungswahrscheinlichkeit für dieses Item genau 50 Prozent. Items darüber sind damit schwieriger zu lösen als Items unterhalb (Boone & Scantlebury, 2006). Die Inter-pretation ist damit auf eine mittlere Itemschwierigkeit vorzunehmen. Bei einem Logit von -1.1 liegt die Lösungswahrscheinlichkeit für ein Item bei 25 Prozent, bei +1.1 bei 75 Prozent (Rost, 2004). Aus der Differenz zweier Personenparameter lassen sich schließlich Aussagen über den Fähigkeitsunterschied zweier Personen machen, die unabhängig von der Normierung der Itemparameter und von Fähigkeitsausprägungen anderer Testpersonen sind (Rost, 2004, S. 121). Die Normierung wird dabei unabhängig für ein- und mehrdimensionale Rasch-Mo-delle vorgenommen.

Die Genauigkeit einer Schätzung der Itemschwierigkeit ist abhängig von der Anzahl der Ant-worten pro Item. In der Literatur finden sich bei Linacre (1994) Richtwerte, die Hinweise auf die zu erwartende Genauigkeit der geschätzten Itemschwierigkeit geben. Ausgehend von ei-nem Konfidenzintervall von 95% liegt die Genauigkeit der geschätzten Itemschwierigkeit bei einer Häufigkeit von mindestens 30 Antworten pro Item bei ± 1,0 Logits. Liegen 100 Antwor-ten pro Item vor, wird die Genauigkeit der Schätzung auf ± 0,5 Logits erhöht. Dieser Wert liegt ebenfalls vor, wenn jedes Item von 100 Testpersonen beantwortet wird und ein

Kon-fidenzintervall von 99% erreicht werden soll. Die Genauigkeit einer Schätzung der Personen-parameter ist abhängig von der vorgelegten Anzahl an Items pro Testperson (Rost, 2004).

Die Itemzahl kann dabei eine direkte Auswirkung auf die Reliabilität haben, wenn den Test-personen nur eine begrenzte Anzahl an Testaufgaben zur Bearbeitung gegeben wird (Ropohl, 2010; Schmiemann, 2010; Senkbeil et al., 2005; Wellnitz, 2012). Nach Grube (2011) konnten zufriedenstellende Personenreliabilitäten bei einer Beantwortung von sechs Items pro Test-person erreicht werden.