• Keine Ergebnisse gefunden

8.1 Probabilistische Testtheorie für Mehrdimensionale Modelle

8.1.1 Das mehrdimensionale Rasch-Modell

Für die Messung unterschiedlicher Komponenten einer Kompetenz werden mehrdimensio-nale Rasch-Modelle verwendet. Das mehrdimensiomehrdimensio-nale Rasch-Modell basiert auf einem Itemkomponenten-Modell im Sinne eines Fähigkeitsmodells (vgl. Rost, 2004). Es handelt sich um hypothesentestende Modelle, da die Itemzuordnung zu den latenten Dimensionen bereits vor der Untersuchung festgelegt ist und die Modellanwendung prüft, ob die angenommene mehrdimensionale Teststruktur gültig ist (vgl. Rost, 2004). Die Modellgleichung für ein mehr-dimensionales Rasch-Modell lautet:

𝑃 (𝑥𝑣𝑖 = 1) = 𝑒(∑𝑗=1𝑞𝑖𝑗𝑣𝑗𝑖) 1 + 𝑒(∑𝑗=1𝑞𝑖𝑗𝑣𝑗𝑖)

Die Matrix mit den qij-Gewichten entspricht einer Q-Matrix für linear-logistische Testmodelle (Rost, 2004). Damit werden die Gewichte spezifiziert, mit denen eine latente Dimension j an der Lösung eines Items i beteiligt ist. Für die Modellierung von Kompetenzen und Kompe-tenzniveaus erscheinen mehrdimensionale IRT-Modelle (MIRT-Modelle) besonders vielver-sprechend (vgl. Frey & Hartig, 2009; Hartig & Jude, 2007). Über MIRT-Modelle lassen sich Items zu mehreren verschiedenen Fähigkeitskomponenten zuordnen. Die Wahrscheinlich-keit, ein Item richtig zu lösen, hängt in mehrdimensionalen Modellen von einem Vektor aus mehreren Fähigkeitsparametern ab und nicht wie in eindimensionalen Rasch-Modellen von genau einer latenten Fähigkeitsvariable (Reckase, 2009; Hartig & Höhler, 2010). Damit kann untersucht werden, wie viele verschiedene Fähigkeiten notwendig sind, um ein Item zu lösen.

Dies erlaubt wiederum differenziertere Aussagen über vorhandene Kompetenzen und Teil-kompetenzen der untersuchten Personen. Die Auswertung erfolgt dabei mehrdimensional, d.h. Teilkompetenzen werden als separate Dimensionen modelliert (Hartig & Jude, 2007).

Dabei bezieht sich Mehrdimensionalität auf die Rasch-Modellierung und darf nicht mit dem Dimensionsbegriff, der häufig für Kompetenzmodelle verwendet wird, verwechselt werden.

Eine Dimension im mehrdimensionalen Rasch-Modell entspricht je nach Modellierung einer

Komponente oder Unterkomponente im Kompetenzstrukturmodell. Aus testtheoretischer Sicht bedeutet dies, dass mit mehrdimensionalen Modellen mehrere latente Variablen, d.h.

die in einem Test erfasste Kompetenz wird in Teilkompetenzen differenziert, modelliert wer-den können (Hartig & Klieme, 2006; vgl. Ackerman, Gierl, & Walker, 2003, Wang, 1997). Die Antwort auf die Frage nach einem mehrdimensionalen Konstrukt bleibt dennoch eine empi-rische. Je nach Passung unterschiedlicher statistischer Modelle auf die Daten, liegt Mehrdi-mensionalität vor oder nicht (Wilson, 2005). MIRT-Modelle bieten hingegen die Möglichkeit, Zusammenhänge zwischen verschiedenen Kompetenzen zu untersuchen, die jeweils durch eine separate latente Dimension modelliert werden. So kann in der vorliegenden Untersu-chung die Repräsentationskompetenz, d.h. die Integration von MER durch die drei postulier-ten Teilkompepostulier-tenzen MERI, MERII, MERIII, gemeinsam mit den zwei anderen Dimensionen, Aufgabenkontext und Repräsentationstyp, mehrdimensional modelliert und sensitiver analy-siert werden (vgl. Adams, 2005; Adams & Wu, 2002).

Zur Messung von Kompetenzen wird für jede zu erfassende Kompetenz jeweils eine separate Dimension, d.h. latente Variable, definiert (Hartig & Höhler, 2010). Daneben können wiederum auch Subdimensionen innerhalb einzelner Kompetenzbereiche mehrdimensional modelliert werden. In beiden Fällen lädt jedes Item nur auf einer Dimension, d.h. die Lösung eines Items hängt genau von einer der betrachteten Fähigkeiten ab. Man spricht in diesem Zusammen-hang von Einfachstruktur oder Between-Item-Mehrdimensionalität (vgl. Adams, Wilson, &

Wang, 1997; Hartig & Höhler, 2010). Dabei werden sämtliche Items a priori zu disjunkten Gruppen zusammengefasst und werden den postulierten latenten Dimensionen zugeordnet.

Die schematische Darstellung eines Between-Item-Modells kann ABBILDUNG 23A entnommen werden. MIRT-Modelle können auch eine komplexe Ladungsstruktur aufweisen. So werden Items, die als Within-Item-Mehrdimensionalität modelliert werden, gleichzeitig durch mehrere latente Dimensionen beeinflusst (vgl. ABBILDUNG 23B). Das heißt jedes Item kann einer oder mehreren Dimensionen zugeordnet werden. Damit erreicht man eine Modellierung, bei der zur Lösung eines Items eine oder mehrere Fähigkeitskomponenten benötigt werden (Hartig

& Höhler, 2010; Wu et al., 2007). Die Anwendung dieser Between- und Within-Item-Mehrdi-mensionalität auf das postulierte Kompetenzmodell ist in Kapitel 8.1.3 dargestellt.

a) b)

ABBILDUNG 23:SCHEMATISCHE DARSTELLUNG DER MODELLIERUNG VON TESTAUFGABEN X UND Y

MIT A) ZWEIDIMENSIONALES IRT-MODELL MIT BETWEEN-ITEM-STRUKTUR UND B) ZWEIDIMENSIONA-LES IRT-MODELL MIT WITHIN-ITEM-STRUKTUR (ANGELEHNT AN HARTIG &HÖHLER,2010)

Die Entscheidung für ein entsprechendes Modell sollte dabei nicht ausschließlich aus den empirischen Daten erfolgen. Die inhaltliche Bedeutung der latenten Variablen muss damit ausführlich dokumentiert und diskutiert werden (vgl. Hartig & Höhler, 2010). Generell erlauben MIRT-Modelle mit Mehrfachladungen (Within-Item-Mehrdimensionalität) Aussagen über mögliche Interaktionen zwischen den verschiedenen Teilkompetenzen und den Aufgabenan-forderungen (Hartig & Höhler, 2010). Für die statistische Überprüfung, wie viele Dimensionen unterscheidbar sind, werden die Modellgütekriterien der verschiedenen postulierten Modelle miteinander verglichen. Des Weiteren werden die Korrelationen zwischen den Dimensionen analysiert und beurteilt (vgl. Hartig, 2007). Rost (2004) weist darauf hin, dass die Modellgel-tungstests mit Likelihoodquotienten und mit den Informationskriterien AIC und BIC für mehr-dimensionale Rasch-Modelle (ab zwei Dimensionen) eher problematisch anzusehen sind.

Grund hierfür ist die starke Gewichtung der Parameteranzahl (v.a. beim BIC), die bei mehrdi-mensionalen Modellen ansteigt und aus der übergroßen Anzahl an Scoreparametern resul-tiert. Als Alternative schlägt Rost (2004) die Modellierung der Personenparameter, d.h. die Verteilung der latenten Variablen, vor. Das Verfahren gehört zur Maximum-Likelihood Me-thode, reduziert die große Anzahl multivariater Parameter und die Korrelationen der latenten Dimensionen sind zudem messfehlerbereinigt (Rost, 2004).

8.1.2 S

CHÄTZUNG VON

I

TEM

-

UND

P

ERSONENPARAMETERN

Im Folgenden wird an die bereits in Kapitel 5.2.2 beschriebenen Hintergründe zur Schätzung von Item- und Personenparameter angeknüpft und ausschließlich Erweiterungen, die für die Auswertung der Hauptstudie von Bedeutung sind, erläutert. Für alle ein- bis dreidimensiona-len Rasch-Skalierungen wird das Gauß-Hermite-Quadratur-Verfahren angewendet. Für Mo-delle ab drei Dimensionen wird die Nutzung des Monte-Carlo-Verfahrens empfohlen und ver-wendet (Wu et al., 2007).

Bei mehrdimensionalen Konstrukten wird die Reliabilität für jede einzelne Dimension separat betrachtet. Die EAP/PV-Reliabilitäten können damit für Untersuchungen herangezogen wer-den, die Fähigkeitsverteilungen in Gesamtpopulationen beschreiben (Hartig & Kühnbach, 2006; Pohl & Carstensen, 2012). Im Rahmen der Hauptstudie werden Plausible Values (PVs) ebenfalls als Schätzer in die Testmodellierung aufgenommen, da für die Bestimmung der individuellen Fähigkeiten nur wenige Items pro Person eingesetzt wurden und sich PVs für eine unverzerrte Beschreibung von Populationen eignen (Wu, 2005). PVs sind logarithmisch transformierte Zufallswerte der a posteriori Verteilung der individuellen Messwerte (Carsten-sen et al., 2007; Rost, 2004, S. 328). Die Berechnungen erfolgen mit mehreren PVs, in der Regel werden fünf PVs gezogen, wobei meist ein PV pro Testperson ausreicht, um die Po-pulationsparameter adäquat zu ermitteln (Wu, 2005). Berichtet wird dabei der erste PV (vgl.

Baumert et al., 2000). Die PVs liegen als Messwerte auf der Logit-Skala, die als lineare Funk-tion von Personenfähigkeit und Itemschwierigkeit definiert wird (Rost, 2004). Typischerweise resultiert als Normbereich der Bereich zwischen -3 und +3 Logits (Rauch & Hartig, 2008). In diesem Zusammenhang stellen PVs die zuverlässigsten Schätzer dar, da Populationskenn-werte bereits vor der Analyse in die Berechnung einfließen (Wu, 2005).

Die Schätzung der PVs erfolgt auf Basis der ermittelten Itemparameter. Dabei werden Per-sonenvariablen berücksichtigt, die als Hintergrundmodell in Form von Regressionen in die Schätzung eingehen. Je mehr zur Verfügung stehende leistungsrelevante Informationen über eine Person, desto größer ist die Messgenauigkeit der Schätzung der latenten Fähigkeit (Carstensen et al., 2007; Rost, 2004). Fehlende Werte können dazu führen, dass der Regres-sionskoeffizient unterschätzt wird (Wu, 2005). Für eine präzisere Schätzung werden im Rah-men der Hauptstudie folgende Hintergrundvariablen in die Berechnung aufgenomRah-men: 1.

Studiengang, 2. Biologienote, 3. Mathematiknote und 4. das Geschlecht. Zusammenhänge zwischen Personenvariablen und Antwortverhalten können damit vor Schätzung der indivi-duellen Fähigkeitsparameter zur Vorhersage der Fähigkeiten herangezogen werden.

Die Regressionen werden auf latenter Ebene modelliert und sind messfehlerbereinigt (Hartig

& Kühnbach, 2007; Rost, 2004). Die so ermittelten unstandardisierten Regressionsgewichte dienen als Maß für den Einfluss einer Variablen auf das zu untersuchende Konstrukt.