• Keine Ergebnisse gefunden

M ETHODISCHE P ROBLEME UND V ORSCHLÄGE FÜR DIE V ERBESSERUNG DES D ESIGNS

IV. DISKUSSION

IV.4 M ETHODISCHE P ROBLEME UND V ORSCHLÄGE FÜR DIE V ERBESSERUNG DES D ESIGNS

Wie unter I.3.2 festgehalten, ist eine (Re)Produktion des Präferenzumkehr/ -verschiebungseffektes gemäß der PT nicht trivial und von vielen Bedingungen abhängig.

Dennoch ist das Vorliegen eines solchen Effektes auf der Aggregatebene (über alle Probanden) nötig, damit sinnvoll nach individuellen Determinanten geforscht werden kann.

Eine Möglichkeit, das Auftreten eines Formulierungseffektes sicherzustellen, wäre, Szenarien zu verwenden, die sich schon vielfach bewährt haben. Da diese Szenarien in der Regel fremdreferent sind (d.h. der Proband eine Entscheidung trifft, deren Konsequenzen andere zu tragen haben), ist es dann auch nötig, nach Prädiktoren zu suchen, die einen sinnvollen Einfluss darauf haben können, wie Personen Entscheidungen treffen, die vor allem andere betreffen.

Der Fokus dieser Untersuchung lag auf dem Einfluss der Arenen und mit ihnen verbundenen Personencharakteristika auf die Wahlen der Probanden. Aus diesem Grund wurden die selbstreferenten Szenarien gewählt, da in diesem Fall eine stärkere persönliche Betroffenheit und damit Bedingtheit durch Charakteristika der Individuen vermutet wurde (Wagenaar, Keren & Lichtenstein, 1988). Sollte dies der Fokus für eine Untersuchung sein, sollte zunächst untersucht werden, welche Charakteristika dieser Szenarien dazu geeignet sind, eine Präferenzumkehr/-verschiebung herbeizuführen, in dem Szenarien vergleichend getestet werden, die bis auf ihre Referenz exakt gleich sind.

Der andere Aspekt dieser Untersuchung, der gegenüber früheren Studien verändert wurde, war, dass bei manchen Szenarien mehrere Dimensionen mit einander verrechnet werden mussten. Weitere Studien könnten hier versuchen, solche Szenarien so zu erstellen, dass auch bei der Verrechnung mehrerer Dimensionen sich Präferenzumkehren/-verschiebungen zeigen. Eine Möglichkeit wäre hier die Nutzung des „willingness to pay“-Paradigmas (Bateman, Munro, Rhodes, Starmer & Sugden, 1997). Beispielsweise könnten Probanden gefragt werden, wie hoch die Wahrscheinlichkeit für ein Gewitter sein darf, damit die Mountainbike-Tour noch unternommen wird. Auf diese Art und Weise könnten Szenarien so kalibriert werden, dass die Alternativen subjektiv gleich erscheinen und darauf aufbauend nur noch die semantische Darstellung variiert wird. Dies wäre eine Abkehr von der ursprünglichen Zielrichtung der Arbeit zur PT, da dann nicht mehr nach den Kriterien der EUT objektiv gleiche Alternativen verglichen würden – dennoch könnten so zunächst die wesentlichen Elemente der semantischen Manipulation identifiziert werden, die zur Hervorrufung von Präferenzumkehren auch bei mehrdimensinalen Konsequenzen nötig sind.

In einem noch weiter dahinter liegenden Schritt könnte dies schließlich wieder auf objektiv gleiche Konsequenzen angewendet werden.

Vorstudien könnten auch nur die Konsequenzen der Alternativen untersuchen. Bislang ist eine Studie zur Untersuchung von Formulierungseffekten darauf angewiesen, dass sich ein verändertes Entscheidungsverhalten der Probanden insgesamt zeigt. Dies misst allerdings nicht nur die Reflektion am Punkt der Gewinne vs. Verluste, sondern schon das Ergebnis des gesamten Verrechnungsprozesses (s. I.2 und Formel 9) mit den Wahrscheinlichkeits-gewichten. Stattdessen könnten die Probanden lediglich die Konsequenzen bewerten lassen, wie gut oder schlecht sie die Konsequenz einschätzen. Ein Gewinn von 100€ oder die Wiedererlangung der gesamten körperlichen Leistungsfähigkeit nach einem Unfall müssten im Verhältnis weniger gut bewertet werden als der Verlust von 100€ oder der Verlust der gesamten körperlichen Leistungsfähigkeit als schlecht beurteilt werden45. Eine Einsatzmöglichkeit wäre die Manipulationskontrolle in einem Experiment: die Probanden könnten befragt werden, wie gut oder schlecht sie die tatsächlich in den Szenarien auftretenden Konsequenzen bewerteten. Es sollte sich das oben beschriebene Muster, dass Verluste deutlich negativer eingeschätzt werden als Gewinne im Gegensatz dazu positiv eingeschätzt werden, zeigen. Auch einen Schritt davor, bei der „Eichung“ von semantischen Inhalten für die Verwendung in späteren Szenarien könnten solche bewerteten Inhalte benutzt werden.

Das Thema der Emotionen in der Entscheidungsforschung wird in den letzten Jahren immer wichtiger (Isen, 1993; Isen & Labroo, 2003; Schwarz, 2000). Emotionen konnten in dieser Studie nicht berücksichtigt werden, da der Fokus auf dem spezifischen Verhalten in den Arenen lag. Die aktuelle Debatte um die Aufnahme von Emotionen in das Modell der PT findet sich beispielsweise bei Bueno de Mesquita und McDermott (2004) und McDermott (2004) für eine positive Position, die sich insbesondere Einblicke in die Entstehung von Präferenzen erhoffen. Eine kritische Position, die sich insbesondere aus formalen Analysen der Begrifflichkeiten der PT und dem Vergleich ökonomischer und psychologischer Modelle zu Entscheidungsprozessen speist, vertritt Mercer (2004; 2005).

Geht man davon aus, dass die gemessenen Persönlichkeitsvariablen einen Effekt auf die Entscheidungen haben, der in der Orientierung und Wahrnehmung der Personenbegründet liegt, dann wären Experimente zur Überprüfung angebrachter, die nicht nur die Frames

45 Für einige Erwägungen zur Brauchbarkeit der „Gut vs. Schlecht“-Dimension sei an dieser Stelle auf Kahneman (1999) verwiesen.

variieren, sondern auch die aktiven Repräsentationen der Personen. Die Annahme, dass eine Person, die großen Wert auf eine gesunde Ernährung legt, auch das Ziel einer gesunden Ernährung hat, ist ein eher krudes Messtheorem. Die vorliegende Studie zeigt zwar, dass dies bis zu einem gewissen Grad erfolgreich ist, doch wäre ein Experiment, in dem neben den Frames auch die Ziele oder aktiven Repräsentationen der Personen manipuliert werden, ein deutlich stärkerer Hinweis auf diesen Zusammenhang. Würde beispielsweise in einem Experiment manipuliert, dass die Personen eine gesunde Ernährung für wichtig oder unwichtig halten und würde sich zeigen, dass die Personen, die nach der Manipulation eine gesunde Ernährung für wichtig halten (sollten), weniger Risiko behaftete Wahlen treffen, wäre dies Verbindung deutlich besser etabliert.

IV.4.2 Probleme der externen Validität

Wie unter IV.1 angesprochen, ist es wichtig, dass die Szenarien möglichst dem Erleben der Probanden ähnliche Entscheidungen widerspiegeln, damit eine sinnvolle Untersuchung des Verhaltens möglich ist. Während die Szenarien wohl im Allgemeinen als gut vorstellbar gelten können (siehe II.5.2.6), was auch in den qualitativen Rückmeldungen der Versuchspersonen zum Ausdruck kam, gab es doch verschiedene Punkte, die kritisch sein können und hier aufgenommen werden sollen, um als Referenz als Hinweise für die Konstruktion neuer Szenarien verwendet werden zu können.

Mehrere Versuchspersonen fragten beispielsweise, ob die Entscheidungen, die bei der Ernährung getroffen wurden, kurz- oder langfristig getroffen werden sollten. Mehrere Probanden gaben an, dass sie bereit gewesen wären, die mit Risiko behaftete Alternative zunächst einmal ausprobieren zu wollen um zu schauen, wie es sich für sie entwickelte. Es ist auch nicht auszuschließen, dass manche der Entscheidungen auf der Basis sozial erwünschter Erwägungen oder geradezu sprichwörtlichen Überzeugungen getroffen wurden. Die Ernährungs-Szenarien waren so gestellt, dass es für manche Probanden allgemein nicht akzeptabel erschienen sein mag, ihre Gesundheit gegen einen finanziellen Vorteil zu verhandeln – aber weniger, weil ihnen viel an ihrer Gesundheit lag, sondern eher, weil „man das halt nicht macht“.

Eine der Stärken dieser Studie, die umfangreich beschriebenen Szenarien, die es den Personen leicht machten, sich in die Situation hineinzuversetzen, ist gleichzeitig eine Schwäche. Es ist schwer festzustellen, welche Art von weiteren Aspekten die Probanden bei solchen Beschreibungen aktivieren. Beispielsweise wurde beim Surf-Szenario mehrmals gefragt, ob es Haie in der Region gäbe; ein Aspekt, der bei der Konstruktion unberücksichtigt geblieben war.

Viele der Personen empfanden die Konsequenzen der Entscheidungen als zu ungenau spezifiziert. Da die Konsequenzen sehr in Anlehnung an die ursprünglichen Szenarien gestaltet waren, war eine Wiederherstellung von „70% Ihrer bisherigen physischen Fähigkeiten“ nicht näher ausgeführt. Dies sollte aber nach Bekundungen der Probanden maßgebliche Einflüsse auf ihr Wahlverhalten haben, da es einen Unterschied mache, ob die Beine oder Arme von den Folgen betroffen seien, welche Tätigkeiten sie entsprechend noch ausführen könnten oder was sie noch sehen könnten. Eine Möglichkeit, dies in der Arena medizinischer Individual-Entscheidungen zu quantifizieren und dann in körperbezogene Angaben zu übersetzen wäre beispielsweise die Orientierung an den gesetzlichen Vorgaben zur Feststellung des Behinderungsgrades nach Verletzungen.

Den Einfluss alternativer Problemrekonstruktionen (z.B. das Hinzunehmen nicht in der Beschreibung genannter oder das Auslassen in der Beschreibung explizit genannter Aspekte) auf die Entscheidung herauszufiltern oder zu prädizieren muss ein zentrales Anliegen der Entscheidungsforschung werden: es geht dabei nicht nur um die Frage, wie das Szenario aufgearbeitet und welche Informationen Probanden für ihre Entscheidung benutzen, sondern es geht darüber hinaus um die Frage, wie die Aufarbeitung stattfinden sollte, d.h. die Frage nach dem angemessenen normativen Modell für den Entscheidungsprozess steht immer noch im Raum. Dies stellt auch starke Anforderungen an die Experimentatoren, denen sich die Frage stellt, wie spezifisch Schilderungen werden können ohne die Kontrolle über die bei den Probanden aktivierten Inhalte zu verlieren (Stanovich, 1999).

IV.4.3 Probleme der Skalenqualität und Schätzfehler

Insgesamt ist festzuhalten, dass in den Arenen Ernährung und Sport Klassenlösungen erzielt wurden, die sehr gut auf die Daten passten. Sie erreichten hohe mittlere Membershipwahrscheinlichkeiten für die Zuordnung der Personen zu den Klassen (Tabelle 20) und sie erklärten einen substantiellen Anteil an Varianz in den Antworten (Tabelle 19).

Die einzigen Probleme sind die besonders geringe Anzahl an Probanden in der fünften Klasse der Sport-Szenarien (Tabelle 16) und die niedrige mittlere Membershipwahrscheinlichkeit, die in der vierten Klasse der Sport-Szenarien erreicht wird. Nach Backhaus et al. (2003) liegen die Pseudo-r²-Werte für die multinominal-logistischen Modelle alle in gut akzeptablen Bereichen.

Anders sieht dies für die Medizin-Szenarien aus. Das MiRa-Modell erklärt deutlich weniger Varianz in den Wahlen der Probanden und auch die mittleren Membershipwahrscheinlichkeiten sind als nicht besonders gut zu bewerten. Das in der multinominal-logistischen Regression geschätzte Modell erreicht nach Backhaus et al. (2003)

eine schlechte Modellpassung. Dies ist schwer voneinander zu trennen: eine mit hohem Messfehler behaftete abhängige Variable kann entsprechend nur schlecht vorhergesagt werden.

Warum die Passung der MiRa-Klassen gerade bei den Medizin-Szenarien eher schlecht ist, ist schwer zu beurteilen. Ein Punkt ist sicherlich, dass von den insgesamt 64 möglichen Mustern bei der Beantwortung der Szenarien 56 in der Stichprobe realisiert werden (Tabelle 19). Das die Variabilität in den Antworten hier sehr hoch ist, ist vermutlich auch ein Grund dafür, dass ab einer Lösung mit fünf Klassen nicht mehr von einem funktionierenden Schätzverfahren ausgegangen werden kann: es ergeben sich lokale Maxima, an denen sich die Schätzung festläuft.

Auf der Seite der unabhängigen Variablen ist festzuhalten, dass nur wenige Skalen wirklich gute Messeigenschaften erreichten. Eine gute Reliabilität erreichte nur der Score für Gewissenhaftigkeit; akzeptable Reliabilitäten erreichten noch Offenheit, Präventions Stolz, die Kalorien & Fett-Skala sowie die Ausgewogenheits-Skala. Bei allen anderen Variablen ergaben sich eher schlechte Werte. Ein wirklich durchweg gutes Ergebnis in der konfirmatorischen Faktorenanalyse ergab sich nur für die Zwei-Faktoren-Struktur Promotions- vs. Präventions-Stolz. Ein möglicher grund könnte in der wenig breiten Streuung der Probanden über das Spektrum mehrerer dieser Persönlichkeitsmerkmale (Tabelle 9) gesehen werden.

Insgesamt könnten damit die fehlenden Effekte in der Medizin-Arena den hohen Messfehlern insbesondere dieser beteiligten Variablen geschuldet sein. Eine andere, inhaltliche Überlegung für den Prädiktor „gesundheitliche Kontrollüberzeugung“ (HLoC) sei für zukünftige Studien in dieser Arena noch festgehalten. Wallston (2005) merkt an, dass sich die Effekte der HLoC nicht konsistent zeigen. Er führt jedoch Evidenz auf, wo sich theoriekonforme Zusammenhänge zeigten und als eine der Begründungen nennt er zu geringe Stichprobengrößen in den üblichen Studien. Conner und Norman (2005) vertreten in Bezug auf die Forschung zur gesundheitlichen Kontrollüberzeugung einen pessimistischeren Standpunkt: aus ihrer Sicht hat sich das Konstrukt in der Vorhersage gesundheitsbezogenen Verhaltens nicht bewährt. Für sie besteht ein möglicher Ausweg aus diesem Dilemma darin, den Wert der gebotenen Alternativen besser zu messen. Für die folgende Forschung wäre eine Möglichkeit, diesen Aspekt zu berücksichtigen, in dem eine Messung des Wertes bezogen auf die verwendeten Szenarien bei deren Entwicklung gleich mitgestaltet würde.

IV.4.4 Mischverteilungsmodelle und Auswertung

Eine Empfehlung für das methodische Vorgehen bei weiteren Studien zu den Präferenzverschiebungseffekten aus den Ergebnissen dieser Studie abzuleiten, ist problematisch. Grundsätzlich scheint die Verwendung eines Mischverteilungsmodells zur Auswertung der Wahlen gute Einblicke in die individuellen Entscheidungen der Probanden zu geben. Andererseits kann aus dieser Studie nicht geschlossen werden, dass eine Verwendung von Scores zur Messung PT-konformen Verhaltens unangemessen ist, da sich in dieser Studie im Aggregat keine Formulierungseffekte zeigten.

Die Verwendung von Mischverteilungsmodellen kann als ein Ausweg aus der Misere, dass keine (Mess-)Fehlertheorie für den Präferenzumkehreffekt existiert (Kühberger, 1995), betrachtet werden. Trotz der Debatten um die messtheoretische Konzeptualisierung des dieses Effektes besteht kein Konsens darüber, wie sich die Anteile für eine Risiko behaftete Wahl zwischen den Gain Frames und Loss Frames unterscheiden müssen. Die in dieser Arbeit verwendete Definition von Levin, Schneider und Gaeth (1998) stellt aus Sicht des Autors lediglich die strikteste und konsequenteste Umsetzung des ursprünglich bei den Studien von Kahneman und Tversky (1979; 1981; 1984) beobachteten Phänomens dar. Bei der Analyse mit Mischverteilungsmodellen und insbesondere mit dem Mixed Rasch-Modell lassen sich die Bedingungen für die Veränderungen der Wahrscheinlichkeiten in Hypothesen für latenten Klassen umsetzen (siehe II.5.1): ein Gain Frame erhöht die Wahrscheinlichkeit für die Wahl einer sicheren Alternative; ein Loss Frame erhöht die Wahrscheinlichkeit der Wahl einer Risiko behafteten Alternative. Die so bestimmten Unterschiede in den Profilverläufen stellen die maximalen Unterschiede dar, die identifiziert werden können. Eine Bestimmung der Kontingenz mit den experimentellen Bedingungen gibt eine deutliche Auskunft darüber, wie stark der Zusammenhang ist und wie viel der vorhandenen Varianz tatsächlich durch die experimentelle Induktion erklärt werden kann.

Sowohl beiden Szenarien der Ernährungsarena wie auch bei den Szenarien der Sportarena zeigen sich kleine letzte Klassen, die ein deutlich von den anderen Mustern der anderen Klassen abweichen und eher schmale Scoreverteilungen haben (Ernährung Klasse 4, Sport Klasse 4 und 5). Nach Rost (2004) könnte dies ein Hinweis darauf sein, dass es einen gewissen Anteil von Probanden gibt, die nicht im Sinne des Rasch-Modells skalierbar sind.

Zukünftige Analysen von Entscheidungs-Szenarien könnten dies berücksichtigen, indem

„eine 'normale' latente Klasse, also mit konstanten Antwort-(Rate-)wahrscheinlichkeiten“

(Rost, 2004; p. 180) berücksichtigt wird.

Insgesamt ist es zumindest in den Arenen Sport und Ernährung gelungen, sehr gute Modelle für die Beschreibung und Aggregation des Entscheidungsverhaltens zu finden und zu einer akzeptablen Vorhersage zu kommen. Nicht ausgeschlossen werden können in der vorliegenden Studie zwei weitere methodische Effekte. Zum einen kann nicht ausgeschlossen werden, dass die Probanden versuchten über die Zeit hinweg konsistent zu erscheinen – trotz der drei Erhebungszeitpunkte und der Zeit zwischen ihnen, könnte dies ihnen gelungen sein.

Dies wäre nur durch Erweiterungen des Designs in Richtung eines Solomon-Mehrgruppen-Planes (Schnell, Hill & Esser, 1999) auszuschließen.

Zum anderen wurden die Personenmerkmale und die Entscheidungen mit Fragebögen erhoben. Damit bleibt offen, wie viel der gemeinsamen Varianz lediglich auf die ähnliche Erhebungsmethode zurückzuführen ist.

IV.5 Weiterführende Aspekte