• Keine Ergebnisse gefunden

Beim MVSQ handelt es sich um ein FC-Format, da Items in Gruppen von sieben Items präsentiert werden und diese strikt in eine Reihenfolge gebracht werden müssen. Die Tatsache, dass der MVSQ im Ranking-Format gehalten wurde kann auf Basis der zuvor dargelegten Überlegungen als adäquat eingestuft werden.

Wertet man FC-Fragebögen jedoch nach „klassischen“ Prinzipien aus, d.h. summiert man die Ränge der Items desselben latenten Konstrukts über alle Blöcke auf, erhält man ipsative Testwerte, die einer Reihe von statistischen Restriktionen unterliegen. Im folgenden wird de-taillierter auf den Begriff der Ipsativität eingegangen und die dadurch bedingten Eigenschaften des Instruments dargestellt.

3.3.1 Vor- und Nachteile des Forced-Choice-Formats

Forced-Choice-Fragebögen weisen einige Vorzüge gegenüber klassischen, Rating-basierten Fragebögen auf: Sie sind deutlich weniger anfällig für verschiedene Arten antwortverzerrendem Verhaltens. Eine Reihe von Untersuchungen legen diesen Schluss nahe. FC-Fragebögen sind z.B.

weniger anfällig für Akquieszenz (Cheung & Chan, 2002), Halo-Effekte (Bartram, 2007) und Impression-Management bzw. soziale Erwünschtheit (Christiansen et al., 2005; Martin et al., 2002). Die Vermeidung von inhaltsunabhängigen Zustimmungs- oder Ablehnungstendenzen und der Tendenz zur Mitte ist dem FC-Format inhärent, da die Beantwortenden gezwungen werden, Präferenzangaben zu machen. Ebenso verhält es sich bei Halo-Effekten, da es im FC-Format unmöglich ist, Items gleich zu bewerten. Impression-Management und Effekte sozialer

Erwünschtheit werden im FC-Format vor allem dann reduziert, wenn sich Testpersonen in Situationen befinden, in denen sie sozial erwünscht antworten wollen. Anders formuliert zeigt sich die Resistenz gegenüber Faking in solchen Situationen deshalb deutlicher, da die Ergebnisse von Rating-Skalen darin stärker manipuliert werden (Jackson et al., 2000; Vasilopoulos et al., 2006). Dieser Unterschied dürfte dann noch stärker auftreten, wenn Items innerhalb einer Itemgruppe ausschließlich in dieselbe Richtung (unidirektional) kodiert sind, da dieselben Items im Rating-Format, je nach Kodierung, unweigerlich zu Decken- bzw. Bodeneffekten führen würden.

All diese positiven Eigenschaften gehen im Grundsatz darauf zurück, dass die Items in FC-Fragebögen nicht unabhängig voneinander, sondern in Gruppen präsentiert werden. Dies bedeutet allerdings auch, dass Items in FC-Instrumenten nicht unabhängig voneinander sind und dass dadurch eine der Grundannahmen der klassischen Testtheorie, nämlich das Axiom der Unabhängigkeit der Items bzw. der Fehler zwischen den Items, verletzt ist (Brown & Maydeu-Olivares, 2011). Die mit FC-Instrumenten erhobenen Daten sind also dadurch gekennzeichnet, dass sie untereinander abhängig sind. Man bezeichnet solche Daten alsipsativ. Ipsative Daten unterliegen einigen Einschränkungen bzgl. ihrer statistischen Verwertbarkeit (Brown & Maydeu-Olivares, 2011, 2013), was somit den Hauptnachteil von FC-Fragebögen darstellt.

3.3.2 Ipsativität und ihre Folgen

Der Begriff „ipsativ“ geht zurück auf Cattell (1944) und stammt vom Lateinischenipse(dt. selbst) ab. Ipsative Daten sind also auf sich selbst bezogen und bringen eine Reihe problematischer Attribute mit, die vor allem die statistische Analyse und Auswertung betreffen. Ipsative Daten entstehen in Fragebogenformaten, in denen mehrere Items miteinander verglichen werden. Da-zu zählen reine Ranking-Formate ebenso wie „Most/Least like me“-Formate oder Mischformate aus Ranking und Rating. All diese Formate haben gemeinsam, dass Items in Gruppen präsentiert werden und die Testpersonen Präferenzangaben unter Berücksichtigung aller präsentierten Items machen müssen, alsogezwungenwerden, eine Wahl vorzunehmen (forced-choice).

Der Vollständigkeit halber sei erwähnt, dass es verschiedene Abstufungen von Ipsativität gibt (Cattell & Brennan, 1994; Chan, 2003; Hicks, 1970). Zum einen gibt esvolloderreinipsative Daten, die von Fragebögen generiert werden, in denen alle Items, die gleichzeitig präsentiert werden, in eine Präferenzreihenfolge gebracht werden müssen. Sie sind leicht daran erkennbar, dass die Summe – und folglich auch der Mittelwert – aller Merkmalsausprägungen bei allen Testpersonen stets gleich ist (Meade, 2004).Partiell ipsative Daten können z.B. in „Most/Least like me“- oder Mischformaten erzeugt werden.1Bei ihnen können sich die Mittelwerte aller Merkmalsausprägungen zwischen den Testpersonen unterscheiden (Hicks, 1970).

1In „Most/Least like me“-Formaten gilt dies dann, wenn mehr als vier Items gleichzeitig präsentiert werden, da bei drei Auswahlmöglichkeiten die Reihenfolge aller Items durch zwei Präferenzangaben bereits festgelegt ist und solche Daten ebenfallsvollipsativ wären.

Darüber hinaus ist eine Eigenschaft, die die Abhängigkeit zwischen ipsativen Testwerten verdeutlicht, die erzwungenerweise negative Interkorrelation der Testwerte (Brown & Maydeu-Olivares, 2013; Meade, 2004). Vollipsative Testwerte korrelieren also immer negativ miteinander, wobei die Höhe der Korrelation direkt mit der Anzahl gemessener Konstrukte zusammenhängt.

Bei zwei gemessenen Konstrukten (in Itemgruppen mit je zwei Items) ist die Korrelation perfekt negativ (r = −1), da die Präferenz eines Items automatisch auch die Position des zweiten Items bestimmt. Mit steigender Anzahl sinkt die mittlere negative Korrelation zwischen den Konstrukten. Sie kann über die Formel −1

k−1 mitkKonstrukten berechnet werden und beträgt beim MVSQr=−.17. Eine weitere Eigenschaft vollipsativer Testwerte ist, dass es nicht möglich ist, dass eine Testperson ausschließlich hohe (oder ausschließlich niedrige) Ausprägungen auf allen latenten Konstrukten gleichzeitig hat (Brown & Maydeu-Olivares, 2013). Denn die hohe Bewertung eines Items geht automatisch mit einer niedrigen Bewertung eines anderen Items einher. Diese Eigenschaft fällt in der Praxis allerdings mit steigender Anzahl gemessener Konstrukte immer weniger ins Gewicht, da es mit jedem zusätzlichen Konstrukt weniger wahrscheinlich wird, eine Person in der Stichprobe vorzufinden, die auf allen Konstrukten ausschließlich über- oder unterdurchschnittliche Ausprägungen hat (Brown & Maydeu-Olivares, 2013). Untersuchungen von Baron (1996) und Saville und Willson (1991) haben gezeigt, dass die Ipsativität bei 30 gemessenen latenten Konstrukten nur sehr geringe Auswirkungen auf die Merkmalsausprägungen und deren Eigenschaften hat. Je weniger Konstrukte eine Skala jedoch misst, desto stärker wirkt sich die Ipsativität auf die Eigenschaften der Merkmalsausprägungen aus. Eine Studie von Meade (2004), die ein Instrument untersucht, das acht Konstrukte erhebt, berichtet von erheblichen Verzerrungen der Merkmalsausprägungen, die sich durch das ipsative Format erklären lassen. In einer anderen Studie (Cornwell et al., 1991) haben sich auch drastische Auswirkungen von Ipsativität auf die Merkmalsausprägungen bei vier Merkmalen gezeigt.

Für die Skalen des MVSQ mit je sieben gemessenen Wertesystemen pro Subskala bedeutet dies folglich, dass von erheblichen Auswirkungen der Ipsativität auf die psychometrischen Eigenschaften des Instruments ausgegangen werden kann.

Beim MVSQ können die Auswirkungen der Ipsativität konkret in zwei Bereiche gegliedert werden. Der eine betrifft die Durchführung verschiedener psychometrischer Analysen, für die die Daten des MVSQ nicht geeignet sein dürften. Zum Beispiel wurde in mehreren Studien (Cornwell et al., 1991; Dunlap & Cornwell, 1994; Johnson et al., 1988; Meade, 2004) gezeigt, dass ipsative Daten (vergleichbar umfangreicher Instrumente) sowohl ungeeignet sind, um damit Faktorenanalysen durchzuführen, als auch wenig brauchbar für die Berechnungen von Reliabilitäten sind (Brown & Maydeu-Olivares, 2013; Meade, 2004; Tenopyr, 1988). Laut Bartram (1996) liefern klassische Reliabilitätsberechnungen von Instrumenten, die weniger als zehn Konstrukte messen oder Skaleninterkorrelationen größer als .30 haben, keine verlässlichen Ergebnisse. Auch die Gefahr von Fehlinterpretationen ipsativer Testwerte ist hoch (Meade, 2004; Tenopyr, 1988) und sowohl Konstrukt- als auch Kriteriumsvaliditäten unterliegen bei

vergleichbaren Instrumenten Verzerrungen, deren Ausmaß nicht bestimmbar ist (Brown &

Maydeu-Olivares, 2013; Johnson et al., 1988). Zwar kann es auch sein, dass ipsative Daten und die daraus berechneten Reliabilitäts- und Validitätskoeffizienten wenig verzerrt sind (Merritt &

Marshall, 1984; Tamir & Lunetta, 1977). Um dies zu überprüfen, sind jedoch parallele Messungen mit nicht-ipsativen Instrumenten erforderlich. Da es derzeit keine parallelen Instrumente gibt, kann die Format-bedingte Verzerrung im MVSQ bei klassischer Auswertung nicht bestimmt werden.

Der zweite Bereich betrifft die Frage nach der Verwendung der ipsativen Testwerte. Dazu sei zunächst der Begriffnormativerklärt. Testwerte sind dann normativ, wenn sie verwendet werden können, um Merkmale einer Personrelativzu einer Population zu interpretieren (Cattell, 1944). Testwerte, die mit klassischem Rating erhoben werden, erlauben diesen Vergleich, wenn sie unabhängig voneinander sind. Das ist in der Regel der Fall, weshalb diese als normativ bezeichnet werden können (Hicks, 1970). Ipsative Testwerte hingegen sind aufgrund ihrer

„Selbstbezogenheit“ nicht brauchbar, um einen sogenannten interindividuellen Vergleich der Merkmalsausprägung durchzuführen (Clemans, 1966; Johnson et al., 1988). Sie können nur sinnvoll für den intraindividuellen Vergleich von Merkmalen, also den Vergleich der relativen Wichtigkeit mehrerer Merkmale zueinander innerhalb einer Person verwendet werden (Closs, 1996; Hicks, 1970).

Abschließend sei noch hinzugefügt, dass Eigenschaften ipsativer Formate, wie eine gerin-gere Anfälligkeit für Antwortverzerrungen, bewirken können, dass Forced-Choice-Messungen im Vergleich zu Rating-Messungen validere Schlussfolgerungen erlauben (Bartram, 2007). Dies gilt insbesondere in Situationen, in denen „viel auf dem Spiel steht“, wie z.B. in Bewerbungssi-tuationen (Christiansen et al., 2005; Martin et al., 2002; Vasilopoulos et al., 2006). Da sich die Testpersonen dieser Arbeit jedoch nicht in solchen Situationen befinden, haben diese Befunde keine Konsequenzen für die Ziele der folgenden Untersuchungen.

Zusammenfassend kann gesagt werden, dass die Skalen des MVSQ von den problemati-schen Eigenschaften des ipsativen Formats betroffen sein werden, da sie lediglich sieben latente Konstrukte messen. Da es zudem keine parallele normative Messung der Wertesysteme gibt, kann das Ausmaß der vom ipsativen Format bedingten Verzerrungen nicht bestimmt werden.

Aufgrund der zitierten Untersuchungen vergleichbarer Instrumente kann davon ausgegangen werden, dass die ipsativen Daten des MVSQ wenig brauchbar für Untersuchungen der Reliabi-lität und Validität sind. Allerdings gibt es seit kurzem einen Lösungsansatz, der die Probleme ipsativer Daten lösen kann. Dieser wird im folgenden Abschnitt vorgestellt.