• Keine Ergebnisse gefunden

Vor kurzem entwickelten Brown (2010) und Brown und Maydeu-Olivares (2011, 2013) einen probabilistischen Ansatz, der es ermöglicht, die problematischen Eigenschaften ipsativer Daten

zu umgehen. Dem „Law of Comparative Judgement“ von Louis L. Thurstone (1927) Tribut zollend, wurde das ModellThurstonian IRT-Modell, kurz TIRT-Modell genannt. Der Kern des Ansatzes liegt darin, dass im Gegensatz zum klassischen Scoring die vergleichende Natur von Rangdaten berücksichtigt wird und diese als paarweise Vergleiche modelliert werden. Der Ausgang eines Paarvergleichs geht gemäß demLaw of Comparative Judgementauf das Verhältnis der beiden involvierten Merkmalsausprägungen zurück. Ist MerkmalAhöher ausgeprägt als MerkmalB, so wird auch ItemAüber ItemBgesetzt.

Im TIRT-Modell werden die Mittelwerte der Paarvergleiche (Utilities), die Faktorladungen auf die je zwei latenten Konstrukte (im MVSQ Wertesysteme) und die Kovarianzen der Paarver-gleiche als strukturierte „Fehlerterme“ (Uniquenesses) modelliert. Brown und Maydeu-Olivares (2011, 2013) konnten in einigen Simulationsstudien, wie auch in Untersuchungen mit echten Daten zeigen, dass die Anwendung des TIRT-Modells unter bestimmten Voraussetzungen Schätzungen der Merkmalsausprägungen liefert, die von den Einschränkungen der Ipsativität befreit sind.

Die Herangehensweise der TIRT basiert auf folgenden faktorenanalytischen Gleichungen (Brown & Maydeu-Olivares, 2011, 2013):

yik =ti−tk (1)

wobeit den latenten Nutzwert (engl. latent utility) der Items ibzw. k darstellt und yik eine kontinuierliche latente Variable ist, die den Ausgang des Paarvergleichs repräsentiert.

Ist yik ≥ 0, also der Nutzwert von Itemigrößer als der von Item k, dann muss Iteminach dem „Law of Comparative Judgement“ über Itemkgerankt werden. Umgekehrt verhält es sich, wennyik <0ist.

Der Nutzwerttvon Itemiwird nun wie folgt modelliert:

tiiiηai (2)

mit µi als Mittelwert des Nutzwerts des Items (Utilitiy), der Ladung λi auf das latente Konstrukt ηa undεi als „unique factor“ (Brown & Maydeu-Olivares, 2013, S.41), sozusagen dem nicht zuordenbaren Rest, der als Fehlerterm verstanden werden kann und deshalb als Uniqueness bezeichnet wird. Analog gestaltet sich die Gleichung für Item k. Setzt man die Formeln fürtiundtknun in die obere Gleichung ein, erhält man die gesamte Gleichung für den latenten Nutzwerts eines Paarvergleich:

yik =ti−tk = (µi−µk) + (λiηa−λkηb) + (εi−εk) (3)

wobei Itemidem latenten Konstruktηaund Itemk ηb zuzuordnen ist. Im Vergleich zur üblichen mathematische Modellformulierung (z.B.τ - kongenerischen Messmodell Eid et al., 2015, S.864) sind dabei zwei zentrale Unterschiede hervorzuheben:

1. Die „manifeste“ Variableyist latent, d.h. nicht direkt beobachtbar und nur indirekt über den Ausgang der Paarvergleiche bestimmbar, wobei gilt: Istyik ≥0bedeutet dies, dass Itemiüberkbevorzugt wird und füryik <0wird Itemküber Itemigerankt.

2. y hängt vonzweilatenten Konstrukten (ηaundηb) ab.

Ferner setzt sich die Uniqueness von yik aus den beiden Residualvarianzen εi und εk der im Paarvergleich involvierten Items zusammen (Brown & Maydeu-Olivares, 2011). Die Uniquenesses repräsentieren den Fehlerterm pro Paarvergleich.

Zusammenfassend sei gesagt, dass TIRT-Modelle neben den Uniquenesses aus den Parame-tern Utilities und Faktorladungen bestehen. Für die Utilities (mittlere Nutzenwerte der Items) gilt, je höher dessen Werte, desto höher ist der mittlere Nutzwert und umso leichter ist dieses Item folglich zu bevorzugen. Diese Parameter können demnach als Leichtigkeitsparameter (Eid et al., 2015) oder als inverse Schwierigkeitsparameter verstanden werden. Die Faktorladungen sind die Steigungsparameter in der TIRT-Modellgleichung. Sie beschreiben die Diskriminati-onsfähigkeit eines Items (Eid et al., 2015) und sind damit die Entsprechung zur Trennschärfe in der klassischen Testtheorie.

Wie eingangs angedeutet, trägt das TIRT-Modell folglich dem kognitiven Prozess des Vergleichens bei der Bearbeitung von FC-Fragebögen Rechnung, indem die Abhängigkeiten zwischen den Items eines Blocks modelliert werden. Dadurch können zufällige Messfehler, die auf das paarweise Vergleichen der Items eines Blocks zurückgehen, mathematisch berechnet und dadurch berücksichtigt werden.

In den folgenden Absätzen werden nun eine Reihe von Eigenschaften des MVSQ im Hinblick auf die Anwendbarkeit des TIRT-Ansatzes untersucht. Zum besseren Verständnis dafür seien hier die relevanten Eigenschaften des MVSQ zusammengefasst: Der MVSQ besteht aus zwei Subskalen, die sich aus jeweils zehn Blöcken mit je sieben Items zusammensetzen. Dadurch ist ebenso sie Zahl der Paarvergleiche mit 21 pro Block und 210 pro Skala festgelegt. Alle Items sind in dieselbe Richtung, d.h. unidirektional kodiert. Die durchschnittliche Korrelation der Merkmale liegt je Skala bei−0.17. DiewahrenMerkmals-Interkorrelationen sind zwar nicht bekannt, jedoch lassen die teils sehr hohen (> 0.5) ipsativen Merkmals-Interkorrelationen vermuten, dass auch einige derwahrenKorrelationen positiv sind.

Anzahl der latenten Konstrukte

Laut Brown und Maydeu-Olivares (2011) können die absoluten Merkmalsausprägungen dann gut geschätzt werden, wenn die Zahl der latenten Traits „groß“ (S. 495) ist. Bei welcher Zahl

„groß“ beginnt, wird von den Autoren nicht näher spezifiziert. Sie konstatieren jedoch, dass die Schätzung bei zwei gemessen Merkmalen nicht möglich ist, wenn die Items unidirektional kodiert sind, da bei zwei Items pro Block der Rang eines Items automatisch auch den des anderen bedingt. Aus einer Simulationsstudie mit fünf Merkmalen kann jedoch geschlossen werden, dass die Modellparameter bei fünf Merkmalen mit bidirektionaler Kodierung der Items weitestgehend verzerrungsfrei geschätzt werden können. Wenn nur unidirektionale Items verwendet werden, dann hängt die Genauigkeit der Schätzung stark von der Anzahl der gemessenen Merkmale ab, wobei mit zunehmender Anzahl an Merkmalen mit besseren Schätzergebnissen zu rechnen ist (Brown & Maydeu-Olivares, 2011). Bei fünf Merkmalen und unidirektionalen Items (in Vierer-Blöcken) lag die Verzerrung der Schätzungen der Traitkorrelationen bei Brown und Maydeu-Olivares (2011) bei knapp 10%. Faktorladungen, Mittelwerte und Uniquenesses werden jedoch bereits weitestgehend verzerrungsfrei geschätzt. Forschungsbedarf besteht hier bzgl.

der Frage, wie groß Verzerrungen bei sieben gemessenen Merkmalen mit sieben Items pro Block sind, wobei aus den eben dargelegten Befunden zumindest geschlussfolgert werden kann, dass die größere Anzahl latenter Traits im MVSQ zu weniger als 10% Verzerrung der Traitkorrelationen führen sollte und Faktorladungen, Utilities und Uniquenesses verzerrungsfrei bestimmt werden sollten.

Kodierung der Items

Brown und Maydeu-Olivares (2011) legen dar, dass Testwerte ungeachtet der Merkmalskorrela-tionen und der Anzahl der Merkmale dann besser geschätzt werden können, wenn es Items eines Merkmals gibt, die bidirektional, d.h. in positive und negative Richtung kodiert sind. Bzgl.

der Kodierung des MVSQ muss deshalb festgestellt werden, dass diese nicht optimal ist, um ein TIRT-Modell zu fitten.

Korrelationen zwischen den Merkmalen

Des Weiteren funktioniert der von Brown und Maydeu-Olivares (2012) angewandte Schätz-algorithmus (DWLS) bei unidirektionaler Kodierung der Items besser, wenn Merkmale nicht miteinander korrelieren, als wenn sie positiv korrelieren (Brown & Maydeu-Olivares, 2011).

Noch effektiver wird er, wenn die Merkmale negativ miteinander korrelieren. Da im MVSQ jedoch von einigen stark positiven Merkmalskorrelationen auszugehen ist, gilt auch hier, dass der Aufbau des MVSQ nicht optimal für die effiziente Schätzung eines TIRT-Modells geeignet ist.

Anzahl und Größe der Blöcke

Je mehr Items ein Block enthält, desto mehr Informationen können aus einem Block gewon-nen werden (Brown & Maydeu-Olivares, 2011), da mit steigender Itemzahl die Anzahl der

Paarvergleiche – und damit der Informationsträger – exponentiell ansteigt und dadurch eine höhere Messgenauigkeit erreicht werden sollte (Brown & Maydeu-Olivares, 2011). Allerdings ist die Blockgröße aus praktischer Sicht dadurch begrenzt, dass mit steigender Größe auch die kognitive Beanspruchung für den Testbearbeitenden zunimmt. Brown und Maydeu-Olivares (2011) gehen von einer Obergrenze von vier Items pro Block aus. Sie legen dafür allerdings keine Begründung dar. Da es neben dem MVSQ jedoch in der Praxis erprobte Instrumente gibt, wie z.B. denRokeach Value Survey(Feather & Peay, 1975; Rokeach, 1973), in dem mit 18 Werten eine deutlich größere Anzahl Konstrukte vom Bearbeitenden in eine Rangreihenfolge gebracht werden muss, ist fraglich, ob die von Brown und Maydeu-Olivares postulierte Obergrenze wirklich für den praktischen Einsatz gilt. Auch die Praxiserfahrung beim Einsatz des MVSQ zeigt, dass sieben Items pro Block keine größeren Probleme für die Bearbeitenden darstellt.

Ferner konnten Brown und Maydeu-Olivares (2011) zeigen, dass die empirischen Relia-bilitäten mit mehr Blöcken verlässlicher geschätzt werden können. Dies verwundert nicht, da mit steigender Anzahl an Blöcken ebenso wie mit steigender Anzahl Items pro Block die Zahl der Paarvergleiche und damit die zur Verfügung stehende Information steigt. Brown und Maydeu-Olivares haben in ihren Simulationsstudien Big-Five-Fragebögen mit unterschiedli-chen Blockgrößen und -zahlen simuliert (60, 90, 120 und 180 Paarvergleiche) und konnten bereits bei einer Blockgröße von drei und 60 Paarvergleichen die fünf Merkmale verlässlich messen. Die 210 Paarvergleiche der MVSQ-Subskalen sollten folglich ausreichend Information produzieren, um die Ausprägungen der sieben Merkmale zu schätzen.

Außerdem interagieren Blockgröße und Kodierung der Items. Optimal hinsichtlich Ver-zerrungen der geschätzten Modellparameter sind nach Brown und Maydeu-Olivares (2011) Simulationsstudien urteilend, Blöcke mit vier Itemsund bidirektional kodierten Items. Hat man ein Modell mit nur einem von beiden (vier Items pro Blockoderbidirektionale Kodierung), leiden die Genauigkeiten der Schätzungen darunter. Für den MVSQ bedeutet dies, dass die Blockgröße von sieben prinzipiell vorteilhaft ist, da daraus 21 Paarvergleiche pro Block generiert werden können und somit exponentiell mehr Informationen zum Schätzen der Ausprägungen zur Verfügung stehen. Wie oben bereits erläutert, ist die Tatsache, dass die Items im MVSQ unidirektional kodiert sind, nicht optimal für den Schätzvorgang.

Zusammenfassend kann gesagt werden, dass die Anwendung des TIRT-Ansatzes auf den MVSQ möglich sein sollte, wenngleich die Voraussetzungen dafür nicht optimal sind.