Itembeurteilung - Die psychometrische Güte des Motivational Value Systems Questionnaire Untersu

4.3 Diskussion

5.2.2 Itembeurteilung

Zur besseren Übersichtlichkeit werden die Empfehlungen zur Überarbeitung der Items zuerst vollständig für die MVSQ^A-, danach für die MVSQ^V-Skala dargelegt.

Auf Blockebene sticht bei der MVSQ^A-Skala besonders Block 6 hervor, denn er weist sowohl deutlich unterdurchschnittliche Itemvarianzen (vgl. Tabelle 6) als auch sehr niedrige Trenn-schärfen auf (vgl. Tabelle 7). Von den Itemschwierigkeiten dieses Blocks (vgl. Tabellen 4 und 78) liegen allerdings lediglich zwei Werte (der Items VE^A

6 und NA^A

6) außerhalb des gewünschten Bereichs und zwar sowohl bzgl. der klassischen als auch der paarweisen Schwierigkeiten. Auf Blockebene hat zudem noch Block 10 mit der durchschnittlichen Trennschärfe von .29 einen Wert unter der Grenze von .30.

Vergleicht man die Items derselben Wertesysteme miteinander, kann einerseits gesagt wer-den, dass dieErfolg^A-Items im Durchschnitt eine niedrige Trennschärfe (rit=.26) aufweisen.

Bei den Itemschwierigkeiten liegen zwar einige Itemschwierigkeiten knapp an den Grenzen, jedoch keine einzige Itemschwierigkeit im extremen Bereich.

Die Empfehlung auf Block- und Itemebene lautet demzufolge, dass Block 6 und die Items desErfolg^A-Wertesystems einer Überprüfung unterzogen werden sollen. Um nun spezifischere Empfehlungen dahingehend abgeben zu können, welche Einzelitems überarbeitet werden sollen, werden im Folgenden die anhand der paarweisen Itemschwierigkeiten als besonders problematisch identifizierten Items dargelegt. Diejenigen Items, dessen paarweise Itemschwie-rigkeiten die die Grenzwerte aus Tabelle 3 mehr als drei mal über- bzw. unterschreiten, werden dabei in die KategorieproblematischeItems eingeordnet. Alle Items, die in nur zwei solchen paarweisen Itemschwierigkeiten involviert sind, werden in der Kategoriefragwürdig zusam-mengefasst. Diese Einteilung erscheint nach logischen Überlegungen in diesem Stadium der Testentwicklung angemessen, da es nicht sinnvoll ist, zu viele Items auf einmal zu überarbeiten.

Auch die Veränderung weniger FC-Items birgt bereits die Gefahr, dass die Auswirkungen der Veränderungen eines Items auf die übrigen Items des Blocks nicht mehr nachvollziehbar sind

(Brown & Maydeu-Olivares, 2012). Bei FC-Fragebögen gilt aufgrund der zahlreichen Interde-pendenzen zwischen den Items das Prinzip, pro Schritt besser weniger Items zu verändern und stattdessen mehrere Revisionsschritte durchzuführen. Items mit nur einer Itemschwierigkeit können dann in späteren Revisionen berücksichtigt werden.

Tabelle 13 fasst folglich diejenigen Items der MVSQ^A-Skala zusammengefasst, die als „pro-blematisch“ eingestuft und deshalb als dringend revisionsbedürftig angesehen werden können.

In Block 1 sind also die Items Geborgenheit^A und Nachhaltigkeit^A zu nennen, die beide verglichen mitErfolg^A,Gleichheit^AundVerstehen^Azu schwierig sind. Eventuell sind auch diese drei letztgenannten Items zu leicht, da sie jeweils zwei sehr niedrige Itemschwierigkeiten aufweisen (siehe Tabelle 14). Des Weiteren sollte das ItemMacht^Ain Block 4 so angepasst wer-den, dass es leichter zu bevorzugen wird,Gleichheit^Ain Block 5 schwieriger,Geborgenheit^A in Block 7 undNachhaltigkeit in Block 8 beide leichter, sowieGleichheit^AundVerstehen^A in Block 10 schwieriger.

Tabelle 13.Problematische Items der MVSQ^A-Skala.

Paarweise ItemschwierigkeitenPpi

Anmerkung.Pi= Itemschwierigkeit;Ppi= Paarweise Itemschwierigkeit; Wertesysteme: GB = Geborgenheit;

MA = Macht; GW = Gewissheit; ER = Erfolg; GL = Gleichheit; VE = Verstehen; NA = Nachhaltigkeit; A = Annäherung; Zahlen indizieren die Blocknummer.

Von den als mit fragwürdiger Güte eingestuften Items ist vor allem Block 10 auffällig, denn hier gibt es eine deutliche Zweiteilung des Blocks in leichte Items (Gleichheit^A und Verstehen^A) sowie schwere Items (die verbleibenden Items). Tabelle 14 zeigt hier, dass die Items der beiden Wertesysteme im Vergleich zu allen anderen Items zu einfach zu bevorzugen

Tabelle 14.Fragwürdige Items der MVSQ^A-Skala.

Anmerkung.Pi= Itemschwierigkeit;Ppi= Paarweise Itemschwierigkeit; Wertesysteme: GB = Geborgenheit;

MA = Macht; GW = Gewissheit; ER = Erfolg; GL = Gleichheit; VE = Verstehen; NA = Nachhaltigkeit; A = Annäherung; Zahlen indizieren die Blocknummer.

sind. Ganz allgemein kann den Itemschwierigkeiten tendenziell entnommen werden, dass die Items der WertesystemeGleichheit^AundVerstehen^Azu leicht und Items der Wertesysteme Geborgenheit undNachhaltigkeitzu schwer zu bevorzugen sind. Dieselbe Tendenz spiegelt sich auch in den Testwertverteilungen (Tabelle 8) wieder.

Bei der MVSQ^V-Skala ist gemessen an Itemvarianzen (Tabelle 10) und Trennschärfen (Tabelle 11) Block 8 derjenige mit den schwächsten Werten. Den Itemvarianzen nach zu urteilen, sind die übrigen Blöcke in Ordnung. Bei den Trennschärfen fällt noch Block 9 mit einem sehr niedrigen Wert auf. Auf Konstruktebene ist möglicherweiseErfolg^V undVerstehen^V nicht ausreichend trennscharf, allerdings sind die Werte der Testwertverteilungen und Itemvarianzen dieser beiden Wertesysteme nicht auffällig.

Die Tabellen 15 und 16 zeigen, dass es deutlich weniger problematische und fragwürdige Items in der MVSQ^V-Skala verglichen mit der MVSQ^V-Skala gibt. Als einzige unbedingt zu überarbeitende Items sind hierVerstehen^V in Block 2 sowieGeborgenheit^V undGleichheit^V in Block 8 einer Revision zu unterziehen. Da Block 8 außerdem drei weitere Items von frag-würdiger Güte enthält, ist eventuell die Überarbeitung des gesamten Blocks sinnvoll. In Block 2 könnten ferner das Item Geborgenheit^V und in Block 3 das Item Gewissheit^V leichter formuliert werden.

Tabelle 15.Problematische Items der MVSQ^V-Skala.

Paarweise ItemschwierigkeitenP_pi

Item P_i GB^V MA^V GW^V ER^V GL^V VE^V NA^V

VE^V

2 .22 .16 .14 .18 .18

GB^V

8 .32 .17 .18 .13

GL^V

8 .19 .14 .12 .10

Anmerkung.Pi= Itemschwierigkeit;Ppi= Paarweise Itemschwierigkeit; Wertesysteme: GB = Geborgenheit;

MA = Macht; GW = Gewissheit; ER = Erfolg; GL = Gleichheit; VE = Verstehen; NA = Nachhaltigkeit; V = Vermeidung; Zahlen indizieren die Blocknummer.

Außerdem sollte in der MVSQ^V-Skala die komplette Skala auf die Konsistenz der Items mit den Konstrukten überprüft werden, schließlich deuten die verhältnismäßig niedrigen Trennschärfen darauf hin, dass zumindest in einigen Blöcken, allen voran Block 8 und Block 9, die Items wenig mit den Testrohwerten korrelieren.

Konkret bietet sich die Vorgehensweise an, zuerst die einzelnen als problematisch iden-tifizierten Items (Tabellen 13 und 15) anzupassen. Als zweites sollten die genannten proble-matischen Blöcke (Block 6 in MVSQ^A und Block 8 in MVSQ^V) verbessert werden und als drittes auf Konstruktebene die Itemformulierungen auf ihre inhaltliche Repräsentativität bzgl.

der entsprechenden Konstrukte hin zu überprüfen (Items vonErfolg^A). Zum Schluss können gegebenenfalls die fragwürdigen Items (Tabellen 14 und 16) unter Berücksichtigung der bereits veränderten Itemformulierungen angepasst werden.

Tabelle 16.Fragwürdige Items der MVSQ^V-Skala.

Anmerkung.Pi= Itemschwierigkeit;Ppi= Paarweise Itemschwierigkeit; Wertesysteme: GB = Geborgenheit;

MA = Macht; GW = Gewissheit; ER = Erfolg; GL = Gleichheit; VE = Verstehen; NA = Nachhaltigkeit; V = Vermeidung; Zahlen indizieren die Blocknummer.

5.3 Diskussion

In diesem Kapitel wurde eine deskriptivstatistische Evaluation der Items durchgeführt. Dazu wurden die klassischen Itemkennwerte Itemschwierigkeit, Itemvarianzen, Trennschärfen und Testwertverteilungen berechnet und um den Kennwert der paarweisen Itemschwierigkeit erweitert, der aus der ipsativen Natur der Daten entsprang. Alle Kennwerte wurden unter Berücksichtigung der Restriktionen, die aus der Ipsativität der Fragebogendaten resultieren, beurteilt. Daraus ergaben sich Empfehlungen darüber, welche Items überarbeitungswürdig sind. Diese Informationen wurden den Testentwicklern zur Verfügung gestellt, die daraufhin den Fragebogen einer Revision unterzogen.

Beim Vergleich der Subskalen wurde festgestellt, dass sich merklich weniger überarbei-tungsbedürftige Items in der MVSQ^V-Skala als der MVSQ^A-Skala ergaben. Andererseits fielen insbesondere die Trennschärfekoeffizienten der MVSQ^V- deutlich niedriger als die der MVSQ^A -Skala aus. Allerdings konnten die Trennschärfekoeffizienten aufgrund der Ipsativität der Daten nur eingeschränkt anhand ihrer absoluten Werte beurteilt werden, da nicht klar ist, inwiefern diese Format-bedingt verzerrt sind. Gerade bezogen auf die Trennschärfen hat sich gezeigt, wo die Grenzen der klassischen Itemanalyse auf ipsative Instrumente liegen. Denn im vorliegenden Fall ist nicht erklärbar, warum die Trennschärfen der MVSQ^V-Skala niedriger, die Itemschwie-rigkeiten und Itemvarianzen jedoch deutlich besser als bei der MVSQ^A-Skala ausfielen. Die Trennschärfen wurden deshalb nicht auf Itemebene herangezogen, um die Qualität einzelner Items zu beurteilen, sondern lediglich auf Block- und Konstruktebene als Indikator verwendet.

Einschränkend muss bezogen auf die Stichprobe gesagt werden, dass es sich aufgrund des hohen Anteils Studierender (59.7%) nicht um eine bevölkerungsrepräsentative Stichprobe handelt. Auch der Vergleich der Testwertverteilungen, vor allem die der MVSQ^A-Wertesysteme,

zeigt, dass die Wertesystemausprägungen in der Stichprobe nicht gleichverteilt sind. Die in dieser Stichprobe überproportional ausgeprägten WertesystemeGleichheit^AundVerstehen^A passen inhaltlich besser zur Gruppe der Studierenden als z.B. zur Gruppe der im produzie-renden Gewerbe arbeitenden Bevölkerung. Dies kann als weiterer Indikator für fehlenden Repräsentativität der Stichprobe gewertet werden. Eine größere Stichprobe und insbesondere mit einem höheren Anteil der arbeitenden Bevölkerung aus allen Altersschichten wäre an dieser Stelle wünschenswert, denn auch die Verteilung von Testwerten kann Itemkennwerte, wie z.B. die Trennschärfekoeffizienten beeinflussen (Kelava & Moosbrugger, 2012).

Der nächste Schritt in der Testentwicklung ist konsequenterweise die Untersuchung der überarbeiteten Fragebogenversion (Version 2) auf ihre Güte und insbesondere die Begutachtung der Veränderungen der Itemkennwerte.

Kapitel 6

Thurstonian IRT-Modelle

In Kapitel 3 wurde gezeigt, dass der MVSQ ipsative Daten produziert, die, wenn klassisch ausgewertet, weder für die Berechnung von verzerrungsfreien klassischen Reliabilitätskoef-fizienten, noch für sinnvolle Untersuchungen zur Validität verwendet werden können. Ein Lösungsansatz, durch den die Daten von den problematischen Eigenschaften der Ipsativität befreit werden können, stellt die Thurstonian Item-Response-Theorie (TIRT) dar (siehe Kapitel 3.4). In diesem Kapitel werden nun zwei TIRT-Modelle an die Daten des MVSQ angepasst (pro Subskala ein Modell). Damit lassen sich einerseits die psychometrischen Eigenschaften des Instruments auf Itemebene beurteilen und andererseits Merkmalsausprägungen berechnen, die dann für die Validitätsuntersuchungen herangezogen werden können. Hierfür wurde die von den Testentwicklern überarbeitete Version des Fragebogens verwendet.

6.1 Methode

Zunächst ist anzumerken, dass die Daten, denen die TIRT-Modelle angepasst werden, aus Stichprobe II stammen. Wie in Kapitel 3.7 beschrieben, handelt es sich dabei um eine Stichprobe, die größtenteils aus Berufstätigen besteht. Für die Kennwerte der Stichprobe sei auf diesen Abschnitt verwiesen. Zudem sei angemerkt, dass die Daten mit der überarbeiteten Version des MVSQ (Version 2) erhoben wurden.

Das für dieses Kapitel zentrale Konzepte des TIRT-Ansatzes wurde bereits in Kapitel 3.4 eingeführt. In diesem Kapitel werden die TIRT-Modelle nun geschätzt. Dazu wird zunächst im Methodenteil auf die Vorgehensweise bei der Spezifizierung und Schätzung von TIRT-Modellen eingegangen. Im Ergebnisteil werden die Modellparameter berichtet und zum Abschluss erfolgt wie bei Brown und Maydeu-Olivares (2013) die Überprüfung der Plausibilität der so ermittelten Scores.

Im Dokument Die psychometrische Güte des Motivational Value Systems Questionnaire Untersuchungen zu Objektivität, Reliabilität und Validität. (Seite 81-88)