• Keine Ergebnisse gefunden

3.6 Die Güte psychologischer Fragebögen

3.6.2 Reliabilität

Die Reliabilität eines Tests bezeichnet dessen Messgenauigkeit bzgl. der zu messenden Konstruk-te und zwar ungeachKonstruk-tet der Frage, ob auch das richtige Konstrukt gemessen wird (Amelang &

Schmidt-Atzert, 2006; Bühner, 2011). Testtheoretisch gesehen ist die Reliabilität das Verhältnis der True-Score-Varianz zur Gesamtvarianz der Testwerte (Lord et al., 1968), d.h. je ähnlicher sich diewahreVarianz und die gesamte Varianz eines Merkmals sind, desto geringer ist folglich der Messfehler und umso höher die Reliabilität. In der Praxis gibt es unterschiedliche Methoden, um die Messgenauigkeit eines Tests zu bestimmen, die je unterschiedliche Annäherungen an die Messgenauigkeit eines Tests darstellen (Amelang & Schmidt-Atzert, 2006; Eid et al., 2015; Schermelleh-Engel & Werner, 2012). In der klassischen Testtheorie (KT T) zählen dazu die Test-Retest-Reliabilität, die Paralleltest-Reliabilität, die Testhalbierungs-Reliabilität und Maße der internen Konsistenz. Die Test-Retest-Reliabilität (auch Test-Wiederholungs-Reliabilität) kann dabei als Maß der (zeitlichen) Stabilität eines Tests verstanden werden (Amelang &

Schmidt-Atzert, 2006). Die Paralleltest-Reliabilität „gilt als das beste Verfahren“(Lienert & Raatz, 1998, S.182) der Reliabilitätsbeurteilung, da sich dieser Ansatz auf eine größere Anzahl an Items und damit eine breitere Abbildung der Merkmalsmessung bezieht (Amelang & Schmidt-Atzert,

2006). Sie ist sozusagen die generalisierbarste Methode der Reliabilitätsbestimmung. Des Wei-teren gibt es die sogenannte Testhalbierungsreliabilität, bei der Tests in zwei gleichwertige Testhälften zerlegt werden und die Übereinstimmung beider Testhälften die Messgenauigkeit des Tests ausdrückt (Amelang & Schmidt-Atzert, 2006). Maße der Internen Konsistenz (wie z.B.

Cronbachsα) stellen eine Verallgemeinerung der Testhalbierungsreliabilität dar, indem darin ein Test nicht nur in zwei, sondern in so viele Teile zerlegt wird, wie es Items gibt (Amelang &

Schmidt-Atzert, 2006). Anders formuliert, kann die Testhalbierungs-Reliabilität als Spezialfall der internen Konsistenz gesehen werden. Der wohl größte Vorteil von Konsistenzmaßen im Vergleich zu den anderen Reliabilitätsmaßen liegt darin, dass sie die praktikabelste Berechnung der Reliabilität darstellen (Schermelleh-Engel & Werner, 2012). Das liegt daran, dass eine ein-zige Testadministration ausreicht, um sie zu berechnen. Es sind keine parallelen Testformen erforderlich und auch die Zuordnung von Testhälften erübrigt sich.

In der IRT können von diesen KT T-Methoden die Paralleltest- sowie die Test-Retest-Reliabilität berechnet werden, Maße der internen Konsistenz hingegen nicht. Der Grund dafür liegt in der Konzeptualisierung des Standardmessfehlers. In der KT T wird angenommen, dass der Standardfehler der Messung für alle Personen einer Population gleich ist, was bedeutet, dass das Merkmal an allen Stellen des Merkmalskontinuums mit dem gleichen Fehler gemessen wird (Embretson & Reise, 2000; Irtel, 1996). Im Gegensatz dazu gilt in der IRT, dass sich der Standardmessfehler an unterschiedlichen Merkmalsausprägungen unterscheiden kann, aber auf die gesamte Bevölkerung verallgemeinerbar ist (Embretson & Reise, 2000). Als Folge kann in der IRT für jede Merkmalsausprägung ein Messgenauigkeitswert bestimmt werden, und zwar sowohl auf Itemebene als auch auf den gesamten Test bezogen (Moosbrugger, 2012). Die entsprechenden Werte können mittels Iteminformationsfunktionen bzw. Testinformations-funktionen (additive Iteminformationen) berechnet werden und z.B. zum Vergleich zweier Testformen herangezogen werden, indem für unterschiedliche Merkmalsausprägungen die entsprechenden Testinformationen berechnet werden (Moosbrugger, 2012). Die Berechnung einzelner Koeffizienten für den gesamten Test ist damit allerdings nicht möglich und auch nicht unbedingt erforderlich, da die Messgenauigkeit damit sehr detailliert begutachtet werden kann.

Allerdings gibt es auch in der IRT die Möglichkeit, einzelne Koeffizienten zu berechnen, die die Messgenauigkeit eines gesamten Tests in einer Zahl widerspiegeln. Sie werden alsmarginale Reliabilitätskoeffizienten bezeichnet und stellen einen Mittelwert der Messgenauigkeit über ein Traitkontinuum dar (Ayala, 2013; Brown & Croudace, 2015; Green et al., 1984). Sie können deshalb als eine Entsprechung zur internen Konsistenz in der KT T verstanden werden. Vorteil solcher Durchschnittsindizes ist, dass sie eine praktische Möglichkeit darstellen, um die Relia-bilitäten mehrerer Tests leicht, d.h. anhand einer Zahl, miteinander zu vergleichen, auch wenn dabei möglicherweise Methodeneffekte nicht berücksichtigt werden (Kim, 2012b). Die daraus resultierende einfache Vergleichsmöglichkeit ist vermutlich auch der Grund, warum solche komprimierten Koeffizienten überhaupt berechnet werden. Beispiele für solche Maße in der

IRT sind Andrich’s zusammengesetzter Reliabilitätskoeffizient (Andrich, 1988; Embretson &

Reise, 2000) und das Konzept der empirischen Reliabilität (Green et al., 1984; Maydeu-Olivares

& Brown, 2010).

Für den MVSQ als ipsatives Instrument gilt nun, dass Reliabilitätsmaße, die die Ipsativität nicht berücksichtigen, nicht geeignet sind, um dessen Messgenauigkeit auszudrücken (vgl. Ka-pitel 3.3.2). Die klassischen Maße Testhalbierungsreliabilität und Cronbachsαberücksichtigen die Ipsativität nicht und sind deshalb nicht sinnvoll interpretierbar. Des Weiteren ist die Be-stimmung der Paralleltests-Reliabilität nicht durchführbar, weil parallele Testformen fehlen. In den einschlägigen Datenbanken konnten weder klassische noch ipsative Instrumente gefunden werden, die Wertesysteme gemäß der Gravesschen Theorie messen. Und selbst wenn es ein solches auf der KT T basierendes Instrument gäbe, wäre zu prüfen, ob die unterschiedlichen Erhebungsmethoden der Bedingung der Parallelität gerecht würden (Amelang & Schmidt-Atzert, 2006). Als weiteres Reliabilitätsmaß, dass im vorliegenden Fall nicht bestimmt werden kann, ist Andrich’s Reliabilität zu nennen. Diese wurde nicht für IRT-Modelle ipsativer Daten entwickelt und es gibt aktuell keine Umsetzung des Konzepts für TIRT-Modelle. Laut Brown und Maydeu-Olivares (2013) ist die Berechnung eines solchen Maßes bei großen TIRT-Modellen aufgrund der extrem hohen Komplexität und der dafür erforderlichen Rechenleistung derzeit nicht machbar.3Die Test-Retest-Reliabilität kann für den MVSQ dann berechnet werden, wenn die Messungen zu den unterschiedlichen Zeitpunkten unter Berücksichtigung der Ipsativität auswertet werden. Dies ist im vorliegenden Fall dann möglich, wenn die Merkmalsausprägun-gen mit dem TIRT-Ansatz ermittelt werden. Ferner kann auch die empirische Reliabilität des MVSQ über die Schätzung von TIRT-Modellen bestimmt werden (Brown & Maydeu-Olivares, 2013). Dies wird von Entwicklern der des TIRT-Ansatzes (Brown & Maydeu-Olivares, 2013) auch empfohlen.

3.6.2.1 Die empirische Reliabilität

Da es sich bei der empirischen Reliabilität um ein selten verwendetes Maß der Messgenauigkeit handelt, wird es an dieser Stelle vorgestellt. Es handelt sich dabei um einen simulationsbasierten Ansatz, indem, ausgehend von einem an originale Daten angepassten IRT-Modell,wahreund geschätzteMerkmalsausprägungen ermittelt und miteinander in Bezug gesetzt werden (Brown

& Maydeu-Olivares, 2013). Da die geschätzten Scores dabei die Messfehlervarianz enthalten, beschreibt das Verhältnis dieser beiden Scores das Verhältnis der True-Score- zur Gesamt-Varianz und somit die Messgenauigkeit einer Erhebung (Maydeu-Olivares & Brown, 2010).

Berechnet werden kann die empirische Reliabilität als quadrierte Korrelation dieser beiden Scores und notiert wird sie üblicherweise alsρ(Maydeu-Olivares & Brown, 2010).

3Ein TIRT-Modell, das auf Daten des MVSQ basiert kann mit 210 Paarvergleichen pro Skala als zu komplex eingestuft werden (vgl. Brown & Maydeu-Olivares, 2013).

Die exakte Vorgehensweise zur Berechnung der empirischen Reliabilität setzt sich aus sechs Schritten zusammen, die in Abbildung 2 verbildlicht wurden (Brown & Maydeu-Olivares, 2011, 2013; Maydeu-Olivares & Brown, 2010):

1. Zunächst wird ein IRT-Modell und die entsprechenden Scores auf Basis der originalen Antwortdaten geschätzt. Modell und Scores werden als Modell bzw. Original-Scores bezeichnet, da sie auf den ursprünglichen (originalen) Antwortdaten beruhen.

2. Im zweiten Schritt werden die Korrelationen der Scores berechnet.

3. Auf Basis dieser Korrelationen werden im dritten Schritt normalverteilte Scores simuliert.

Das Ergebnis sind folglich Scores, die dieselben Korrelationen wie die Original-Scores aufweisen.

4. Darauf folgend werden unter Verwendung des originalen Modells die den Scores entspre-chenden Antwortdaten berechnet. Die simulierten Scores spiegeln somit die vollständig messfehlerfreien Merkmalsausprägungen des berechneten Antwortdatensatzes wider und werden deshalb alswahrbezeichnet. Auch die Antwortdaten werden zur einfacheren Zuordnung alswahr bezeichnet.

5. Als nächstes werden wie im ersten Schritt wieder IRT-Modell und Scores geschätzt, allerdings auf Basis derwahrenAntwortdaten.

6. Zum Schluss kann die empirische Reliabilität als quadrierte Korrelation dergeschätzten und derwahrenScores berechnet werden. Je besser das geschätzte IRT-Modell die Be-ziehung zwischen Antwortdaten und Scores beschreibt, umso ähnlicher sind sich die wahrenund die geschätzten Scores, umso höher ist deren Korrelation und damit auch die Messgenauigkeit des Fragebogens.

3.6.2.2 Beurteilungsrichtlinien für Reliabilität

Bei der Interpretation von Reliabilitätskoeffizienten ist nach guter wissenschaftlicher Praxis der Kontext zu berücksichtigen (Groth-Marnat, 2003). Zum Beispiel werden in Leistungstests häufig höhere Reliabilitäten erzielt als in Persönlichkeitstests (Amelang & Schmidt-Atzert, 2006;

Schermelleh-Engel & Werner, 2012). Laut Amelang und Schmidt-Atzert (2006) liegen interne Konsistenzen von Persönlichkeitstests häufig nur zwischen .60 und .80. Als Faustregel zur Interpretation von Cronbachsαwird in der Regel eine Untergrenze von .70 als akzeptabler Reliabilitätswert angesetzt, wobei zur klinischen Diagnostik Werte von> .90wünschenswert sind (Groth-Marnat, 2003). Des Weiteren spielt dieBreitedes Konstrukts bei der Interpretation von Reliabilitätskoeffizienten eine wesentliche Rolle. Je breiter ein Konstrukt ist, also inhaltlich vielschichtiger, desto heterogener müssen die Items gestaltet sein, die dieses Konstrukt messen

Antwortdaten

Abbildung 2.Vorgehensweise zur Berechnung der empirischen Reliabilität.

sollen. Das lässt wiederum niedrigere Reliabilitäten erwarten (Bühner, 2011; Lienert & Raatz, 1998; Schermelleh-Engel & Werner, 2012). Im Gegensatz dazu sind sich Items von homogenen (engen) Merkmalen inhaltlich ähnlicher und führen deshalb auch eher zu höheren Reliabili-täten. Da Persönlichkeitsmerkmale in der Regel deutlich breiter konzeptualisiert werden als Leistungsmaße, liegt hierin vermutlich auch der Grund, warum Persönlichkeitstests häufig niedrigere Reliabilitäten aufweisen als Leistungstests.

Darauf bezogen sei angemerkt, dass Wertesysteme als konzeptuell breite Konstrukte einge-schätzt werden können (Schwartz, 2003). Vor allem auch die Konzeptualisierung im MVSQ, in dem die Fragen zehn verschiedene Arbeitsaspekte abdecken, lässt diesen Rückschluss zu. In Übereinstimmung damit fallen beobachtete Reliabilitäten von ähnlichen Konstrukten relativ niedrig aus. Für die zehn Werte-Typen nach Schwartz berichten Schmidt et al. (2007) z.B. von einer durchschnittlichen Reliabilität in einer deutschsprachigen Stichprobe vonα=.67, wobei die Koeffizienten zwischen .48 und .79 schwankten. Auch in anderen Studien (Schwartz, 2005) werden vergleichbare Reliabilitäten der Werte-Typen berichtet, z.B. liegt die mittlere Reliabilität der Wertedimensionen des Schwartz Value Surveys in 13 Stichproben verschiedener Länder beiα = .70und in 14 Stichproben für den Portraits Value Questionnaire beiα =.68. Auch bei Instrumenten, die auf anderen Wertetheorien basieren, werden Reliabilitätskoeffizienten in

vergleichbaren Größenordnungen berichtet: z.B. stellte Richins (2004) für die drei Wertedimen-sionen desMaterial Values Scaleüber 15 Stichproben durchschnittliche Cronbachsαvon .72, .77 und .78 für die normale Version und von .67, .76 und .78 für eine verkürzte Version fest.

Zur Test-Retest-Reliabilität kann gesagt werden, dass diese häufig vom Zeitintervall zwi-schen den beiden Messungen abhängt und mit zunehmendem Intervall kleiner wird (Amelang

& Schmidt-Atzert, 2006). Da sich die berichteten Zeitintervalle häufig unterscheiden, erscheint das Aufführen von Vergleichswerten an dieser Stelle wenig passend.

Zum Vergleich seien an dieser Stelle schließlich noch durchschnittliche Reliabilitätswerte anderer Konstrukte angeführt. In einer Meta-Analyse, die mehr als 1000α-Koeffizienten der Big Five Persönlichkeitsdimensionen berücksichtigt, wurden für diese durchschnittliche Relia-bilitäten von .75, .76, .71, .69 und .72 für Neurotizismus, Extraversion, Offenheit, Verträglichkeit und Gewissenhaftigkeit berichtet (Viswesvaran & Ones, 2000). Auch diese Werte passen ins Bild der zuvor formulierten Größenordnungen von Reliabilitäten in Persönlichkeitstests.

Zum Abschluss des Abschnitts zur Reliabilität bleibt anzumerken, dass die Reliabilität ein Gütekriterium ist, dass die Messgenauigkeit eines Instruments ungeachtet dessen beschreibt, ob der Test valide ist, also ungeachtet dessen, ob gemessen wird, was gemessen werden soll (Amelang & Schmidt-Atzert, 2006; Schermelleh-Engel & Werner, 2012). Obgleich wichtig ist sie kein hinreichendes Kriterium für die „praktische Brauchbarkeit eines Tests“ (Irtel, 1996, S.

33), sondern stellt lediglich eine Voraussetzung zur Untersuchung der Validität eines Tests dar (Amelang & Schmidt-Atzert, 2006).