• Keine Ergebnisse gefunden

2 Wissenschaftliche Ausgangslage: Methoden, Theorien und Befunde

2.4 Die Grundlagen der funktionellen Magnetresonanztomographie

2.4.4 Kritische Anmerkungen zu Datenanalyse und Ergebnisinterpretation in der

2.4.4.1 Die Debatte um den non-independence-error

Im Jahr 2009 ging geradezu ein Sturm durch die Reihen der Forscher im Bereich der sozial-kognitiven Neurowissenschaft. Die Aufregung wurde durch die Vorabveröffentlichung eines Artikels von Edward Vul und Kollegen mit dem aufsehenerregenden Titel Voodoo Correlations in Social Neuroscience im Internet verursacht. Der Artikel war zum Druck in der Zeitschrift ´Perspectives on Psychological Science´ angenommen, in der er später unter dem weniger provokanten Titel Puzzlingly High Correlations in fMRI Studies of Emotion, Personality, and Social Cognition erschien (Vul, Harris, Winkielman & Pashler, 2009a).

Die Änderungen im letztendlich gewählten Titel machen schon zweierlei deutlich:

Der mit Scharlatanerie und Betrug assoziierte Begriff Voodoo (den viele Wissenschaftler aus dem Feld der sozial-kognitiven Neurowissenschaft als beleidigenden Generalangriff auf ihre Forschung auffassten) wurde abgeschwächt – die Korrelationen werden nun nicht mehr als zauberische Täuschung, sondern lediglich als verwirrend hoch bezeichnet – und der fachliche Bereich, in dem diese Korrelationen festgestellt werden, erweitert sich von der sozial-kognitiven Neurowissenschaft auf alle Bereiche der affektiven, differentiellen und sozial-kognitiven Hirnforschung mit fMRT.

Die Vorabveröffentlichung des Artikels von Edward Vul erreichte sehr schnell eine breite Öffentlichkeit. So wurde er zum Beispiel im Wissenschaftsmagazin Nature (A.

Abbott, 2009), in Newsweek (Begley, 2009) und in der Wochenzeitung DIE ZEIT (Schnabel, 2009) besprochen.

Deutliche Erwiderungen ließen nicht lange auf sich warten, zum Beispiel in einer Pressemitteilung von Mbemba Jabbi, Christian Keysers, Tania Singer und Klaas Enno Stephan (Jabbi, Keysers, Singer & Stephan, 2009) oder im Wissenschaftsmagazin Gehirn&Geist (Derrfuss, Fiebach & Heekeren, 2009). Aufschlussreich sind ebenso die in der Zeitschrift ´Perspectives on Psychological Science´ erschienene Antwort auf Edward Vul von Lieberman und Kollegen (Lieberman, Berkman & Wager, 2009) und die Veröffentlichung von Russel Poldrack und Jeanette Mumford zum gleichen Thema (Poldrack & Mumford, 2009).

Die von Edward Vul seinerseits verfasste Erwiderung auf einige Reaktionen (Vul, Harris, Winkielman & Pashler, 2009b) und Vul´s Buchkapitel “Begging the Question: The Non-Independence Error in fMRI Data Analysis“ (Vul & Kanwisher, 2009) tragen dazu bei, den Überblick über die Debatte zu vervollständigen.

Das von Edward Vul aufgezeigte Problem sowie die dadurch entfachte Debatte und die Rezeption des Themas in den Medien zeigen, wie präsent die fMRT-Forschung heute in unserer Gesellschaft ist und wie gut sich mit ihr – ob nun im Sinne eines

´grandiosen´ Forschungsbefundes oder eines Angriffs auf die „Macht der bunten Bilder“

(Derrfuss, Fiebach & Heekeren, 2009, S.67) – mediale Aufmerksamkeit herstellen lässt.

Es wird aber auch deutlich, wie sehr dieser Forschungszweig noch am Anfang seiner Entwicklung steht. Dadurch bedingt kommt es wohl unvermeidlich zu Missverständnissen, Schwachstellen in der Veröffentlichung von Forschungsbefunden oder sogar zu methodisch unzulänglichen Verfahrensweisen.

In diesem Sinne kann man die Debatte um den non-independence error auch als Beispiel dafür ansehen, wie sich ein junger Wissenschaftszweig durch Kritik, Gegenargument und Korrektur (Popper, 2005) etabliert. Im Folgenden werden die Kernpunkte der Kritik von Edward Vul, wie auch die Gegenargumente darauf und der Standpunkt des Autors der vorliegenden Schrift erläutert.

Der non-independence-error

Das Kernargument von Vul und Kollegen lautet kurzgefasst: Eine Berechnung (zum Beispiel eine Korrelation), die man für eine aus einer Gesamtmenge von Daten ausgewählten Untermenge vornimmt, ist dann mit einem Bias (einem Verzerrungseffekt) behaftet, wenn das Auswahlkriterium für die Untermenge dieselbe Form wie die durchzuführende Berechnung (in diesem Beispiel eine Korrelation) hat.

Dieses Problem ist seit langem unter Statistikern bekannt und wird nicht in Zweifel gezogen (Poldrack & Mumford, 2009). Wo genau sehen Vul und Kollegen dieses Problem in der fMRT-Forschung repräsentiert?

Ein Gedankenexperiment soll es verdeutlichen: Man stelle sich vor, es wird eine fMRT-Studie durchgeführt, bei der den Versuchspersonen abwechselnd emotional neutrale und zornige Gesichter dargeboten werden. Man kann, wie oben in Kapitel 2.4.3.2 (S.71ff.) beschrieben, zunächst für jede Versuchsperson einzeln (first level analysis) und dann über alle Versuchspersonen hinweg (second level analysis) ermitteln, welche Hirnregionen bei der Betrachtung zorniger Gesichter mehr aktiv sind als bei der Betrachtung neutraler Gesichter.

Man könnte sich außerdem dafür interessieren, ob es eine Hirnregion gibt, deren Aktivität beim Betrachten der Gesichter mit der Ängstlichkeit einer Versuchsperson

zusammenhängt. Die Forschungsfrage würde zum Beispiel lauten: Welche Hirnregion ist beim Betrachten zorniger Gesichter (relativ zu neutralen Gesichtern) umso aktiver, je ängstlicher eine Versuchsperson ist? Dazu würden wir die Versuchspersonen einen Fragebogen ausfüllen lassen, der das Ausmaß ihrer allgemeinen Ängstlichkeit erfasst, zum Beispiel das State-Trait-Angstinventar (STAI) von Laux und Kollegen (Laux, Glanzmann, Schaffner & Spielberger, 1981).

Man hätte also einerseits die Beta-Schätzungen pro Voxel für jede Versuchsperson (aus dem first-level-ALM Kontrast [zornig>neutral]) und andererseits einen Ängstlichkeitswert für jede Versuchsperson. Mit einem second-level ALM ließe sich nun eine Korrelation errechnen, die ermittelt, ob es über die Gehirne aller Versuchspersonen hinweg Voxel gibt, deren Aktivität mit steigendem Angstwert größer wird.

Man möge sich weiterhin vorstellen, dass dem Kollegen, der für die Erhebung der Ängstlichkeitsausprägung zuständig ist, ein Malheur passiert: Aus irgendeinem Grund geraten die Daten, die er von den Fragebögen in die Auswertungstabelle überträgt, vollkommen durcheinander. Wir würden, ohne es zu wissen, die Hirnaktivität jedes Voxels mit Ängstlichkeitswerten korrelieren, die ohne Bezug und völlig zufällig sind – also Rauschen. Diese Korrelation in einem Voxel würden wir als signifikant bezeichnen, wenn die Wahrscheinlichkeit dafür, dass das Ergebnis durch Zufall zustande gekommen ist, unter 5% (oder 1%) liegt.

Wie in Kapitel 2.4.3.4 (S.76ff.) erläutert, ist es aufgrund der sehr hohen Anzahl parallel ausgewerteter Voxel sehr wahrscheinlich, dass einige Voxel eine signifikante Korrelation aufweisen, obwohl es keinen wirklichen Zusammenhang zwischen Hirnaktivität und Ängstlichkeit geben kann – unsere Ängstlichkeitsdaten sind ja in Wirklichkeit vollkommen unbrauchbar. Wenn wir nun das Signal aus einem dieser - zufällig und fälschlicherweise - signifikanten Voxel auswählen und den Zusammenhang zwischen Aktivierung und Ängstlichkeitsmaß numerisch (Korrelationskoeffizient) oder graphisch (Punktwolke der korrelierenden Maße) darstellen, dann würde diese Beziehung überaus deutlich ´vor Augen stehen´ – aber leider nur deshalb, weil wir jenes Voxel ausgewählt haben, welches zufällig die beste Beziehung zu den in Wirklichkeit verrauschten Ängstlichkeitswerten aufweist.

Wie motivieren Edward Vul und Kollegen ihre Veröffentlichung? Sie gehen von einer Beobachtung aus: In den Studien aus dem Bereich der sozialen-kognitiven Neurowissenschaft mit fMRT werden gehäuft extrem hohe Korrelationen zwischen Hirnaktivierungen und Verhaltens- oder Persönlichkeitsmaßen berichtet, z.B. r = 0.88 bei

Eisenberger, Lieberman und Williams (2003). Vul und Kollegen zeigen sich erstaunt über die beeindruckende Höhe dieser Korrelationen und fragen sich, wie diese zustande kommen. Um diese Frage zu klären, senden sie einen Fragebogen zur methodischen Vorgehensweise an die Autoren der Studien. Bei der Auswertung dieser Fragebögen stellen Vul und Kollegen fest, dass in 54 % der betreffenden Studien folgendermaßen vorgegangen wird: In einem ersten Schritt werden mittels einer Regression über Versuchspersonen hinweg Voxel identifiziert, deren Signal eine signifikante Korrelation mit einem Verhaltens- oder Persönlichkeitsmaß aufweist. In einem zweiten Schritt wird diese Korrelation für die ausgewählten Voxel nochmals berechnet, um sie graphisch und numerisch darzustellen.

Vul und Kollegen nehmen an, dass durch genau diese Methode die unplausibel hohen Korrelationskoeffizienten entstehen. Die Selektion von Voxeln für eine Korrelationsanalyse aufgrund der Tatsache, dass diese Voxel eine Korrelation aufweisen, sei eine non-independend-analysis (Vul, Harris, Winkielman & Pashler, 2009a). Vul und Kollegen behaupten, dass diese nicht-unabhängige Form der Analyse die Korrelationen über Versuchspersonen hinweg ´aufbläht´ und signifikante Ergebnisse ´fabriziert´, da Rauschen ausgewählt wird, das den gesuchten Effekt zeigt. Alle Maße, die durch solche nicht-unabhängigen Analysen gewonnen werden, seien “completely untrustworthy“,

“entirely illusory“ und “should not be believed“ (Vul et al., 2009a, S. 285).

Vul und Kollegen machen daraufhin Vorschläge, wie man alternativ die Korrelationen berechnen sollte (Vul, Harris, Winkielman & Pashler, 2009a): Die Auswahl der Voxel zur Berechnung einer Korrelation könnte zum Beispiel aufgrund von Befunden vorangegangener Studien stattfinden. Ebenso böten sich die Aktivierungseffekte beim Vergleich von Bedingungen im eigenen Experiment (t-Tests bzw. Varianzanalysen anstelle von Korrelationen) an. Weiterhin schlagen sie eine Split-Half-Methode vor: Man teile die Daten entweder nach Durchgängen oder nach Versuchspersonen in zwei Hälften.

Mit der einen Hälfte ermittele man, welche Voxel signifikante Korrelationen aufweisen und mit der anderen Hälfte der Daten berechne man die Höhe der Korrelationen in diesen Voxeln und erstelle die Diagramme. Die Alternativvorschläge haben laut Vul und Kollegen eins gemeinsam: Das Auswahlverfahren der zu korrelierenden Voxel ist nicht mit dem Analyseverfahren (Korrelation) identisch.

Im Folgenden sollen die Kritikpunkte von Vul und Kollegen (2009a) einer ebenso kritischen Bewertung unterzogen werden. Die Ausdrucksweise von Edward Vul und Kollegen (2009a) zeigt, dass sie das Wesen der Datenanalyse von fMRT-Studien zu einem

gewissen Teil missverstehen. Die Autoren schreiben stets von zwei Analysen, die nicht-unabhängig voneinander durchgeführt würden. Tatsächlich handelt es sich aber nur um eine Analyse, die sich in einen inferenzstatistischen und einen deskriptiven Anteil gliedert.

In dieser einen Analyse wird über alle Personen zunächst für jedes Voxel geprüft, ob die Signalintensität mit dem Wert der Persönlichkeits- oder Verhaltensausprägung korreliert. Dieser inferenzstatistische Teil der Analyse ist, aufgrund der hohen Anzahl an Voxel, anfällig für Fehler 1. Art (s.o.). Das heißt, einige Voxel werden wahrscheinlich als signifikant bezeichnet, ohne es tatsächlich zu sein – das ist der wahre Kern im Argument von Vul und Kollegen (2009a) und diese Tatsache wird von den meisten Wissenschaftlern, die sich an der angestoßenen Debatte beteiligen, anerkannt.

Die Anfälligkeit dieses inferenzstatistischen Teils der Analyse bedeutet jedoch nicht, dass die Analyse vollständig unbrauchbar ist. Dass der Artikel von Vul et al. (2009) jedoch so verstanden werden kann, zeigt der Vergleich von Korrelationen in der fMRT-Forschung mit dem Dilemma des texanischen Scharfschützen (Schnabel, 2009): Ein Cowboy ballert zufällig auf ein Scheunentor und malt dann Kreise um die Einschüsse, um sie als Treffer darzustellen. Diese Veranschaulichung träfe nur für eine fMRT-Studie zu, bei der tatsächlich Fehler passieren, wie sie oben im Beispiel als Extremfall geschildert werden. Nur wenn die Daten vollkommen zufällig verteilt und verrauscht wären, könnte man dies mit dem wahllosen ´Drauflosballern´ des Schützen vergleichen. Zum Glück passieren aber nicht ständig solch grobe Fehler in der Forschungspraxis.

Stattdessen muss man davon ausgehen, dass in der einen inferenzstatistischen Analyse bei angemessener Korrektur für multiple Vergleiche tatsächlich die meisten Voxel richtig als signifikant identifiziert werden und nicht komplettes Rauschen darstellen. Vul et al. (2009a) räumen dies gegen Ende ihres Artikels auch ein.

Das, was die Autoren als zweite Analyse bezeichnen, ist deskriptive Statistik.

Insbesondere soll in diesem deskriptiven Teil der Analyse kein zweiter Test die Signifikanz der Korrelation erneut prüfen. Es geht stattdessen darum, die schon im inferenzstatistischen Teil als signifikant identifizierte Korrelation für ein Voxel (oder eine Gruppe Voxel) abzubilden, sei es visuell durch ein Punktediagramm der beiden miteinander korrelierten Maße (neuronales Signal und Persönlichkeits-/ Verhaltensmaß) oder numerisch durch die Berechnung des Korrelationskoeffizienten beider Maße.

Diese kombinierte Darstellung von Signifikanz (p-Werten) und Effektgrößen (z.B.

Korrelationskoeffizienten) stimmt nach Jabbi und Kollegen mit den statistischen

Richtlinien der American Psychological Association überein (Jabbi, Keysers, Singer &

Stephan, 2009).

Eventuell erliegen Vul et al. (2009a) dem Missverständnis, es handele sich um zwei nacheinander stattfindende inferenzstatistische Tests, weil in der fMRT-Praxis die Signifikanzprüfung einer Korrelation in einem Voxel und die Berechnung des zugehörigen Korrelationskoeffizienten für dieses Voxel oft mit unterschiedlichen Programmen durchgeführt werden. Dies hat den einfachen Grund, dass z.B. SPM5 vor allem dafür ausgelegt ist, für jedes Voxel die Signifikanz zu prüfen und signifikante Voxel darzustellen. Die für diese Testung herangezogenen Beta-Schätzwerte über alle Personen hinweg können aber für jedes Voxel einfach extrahiert werden. Mit jedem Programm für statistische Analysen lassen sich diese Beta-Schätzwerte dann mit den Verhaltens- oder Persönlichkeitsparametern der Personen korrelieren.

Die Klarstellung, dass es sich bei der Korrelationsrechnung in fMRT-Studien nicht um zwei nacheinander folgende Signifikanztests für Korrelationen handelt, wird auch von Jabbi et al. (2009) und Liebermann et al. (2009) eingebracht und in der Antwort von Vul et al. (2009b) auf Liebermann et al. (2009) akzeptiert. Und bezüglich dieses einen Signifikanztestes drücken Vul und Kollegen (2009a) – nach all ihrer harschen Kritik an fMRT Korrelationsanalysen – sogar selbst aus, dass eine signifikante Korrelation, bei der

“die Korrektur für multiple Vergleiche richtig angewendet wird“ (S.283; Übersetzung durch den Autor der vorliegenden Arbeit) durchaus verlässlich einen tatsächlichen, von Null verschiedenen Zusammenhang zwischen Hirnaktivität und Persönlichkeits-/Verhaltensmaß der Versuchspersonen anzeigt.

Es bleiben also zwei Fragen, die mit Nicht-Unabhängigkeit in der fMRT-Forschung wenig zu tun haben: Wenn, wie oben beschrieben, ´Verrauschtheit´ aus der Notwendigkeit multipler Testungen einer Vielzahl von Voxel erwächst, wie erreicht man dann eine möglichst ´saubere´, d.h. wenig ´verrauschte´ inferenzstatistische Prüfung der Korrelation auf Signifikanz? Und: Wie ´aufgebläht´ ist ein Korrelationskoeffizient, der zu einer mehr oder weniger ´verrauschten´ signifikanten Korrelation gehört?

Bei der Beantwortung der ersten Frage verweisen Poldrack und Mumford vor allem auf eine angemessene Korrektur für multiple Testungen (Poldrack & Mumford, 2009). Sie betonen, dass die weithin eingesetzten Korrekturverfahren FWE und FDR (Kapitel 2.4.3.4; S.76ff.) dies hinreichend zuverlässig und sicher leisten.

Ein anderes Gütekriterium führen Vul et al. (2009a) selbst an: Die Anzahl zusammenliegender Voxel. Mit dem Verweis auf die Idee, dass das gemessene Signal sich

als eine Aktivierung darstellen wird, die sich über mehrere Voxel erstreckt – wogegen zufälliges Rauschen nicht gehäuft, sondern über alle Voxel gleich verteilt sein sollte – schätzen Edward Vul und Kollegen per Simulation die Anzahl der Voxel, die zusammenfallen sollten, um die Wahrscheinlichkeit falsch positiver Befunde in nicht für multiple Vergleiche korrigierten Analysen unter 0,05 zu halten, auf 41.

Auf ein drittes Gütekriterium verweisen Jabbi et al. (2009): Die Replikation von Befunden. Zufälliges Rauschen oder, wie im oben beschriebenen Extrembeispiel, ein grundlegender Fehler in der Datenaufbereitung kann in einigen Studien das Ergebnis verzerren – diese Faktoren sollten jedoch über viele Studien hinweg nicht immer gleich ausgeprägt sein. Deshalb sollten Befunde, die in einer Vielzahl von Studien und mit unterschiedlichen Forschungsmethoden (also nicht nur mit Korrelationsanalysen) repliziert wurden, als robust und vertrauenswürdig angesehen werden.

Zur Beantwortung der Frage, wie stark ein Korrelationskoeffizient ´aufgebläht´ ist, formulieren alle an der Diskussion beteiligten Wissenschaftler, dass sich das genaue Ausmaß gar nicht genau beziffern lässt. Zumindest zeigen Jabbi et al. (2009) und Liebermann et al. (2009), dass die von Vul et al. (2009a) aufgestellte theoretische Obergrenze für Korrelationskoeffizienten (r = 0,74) zu niedrig liegt und dass aufgrund anderer, zutreffenderer Reliabilitätsmessungen für fMRT durchaus mit Koeffizienten bis zu r = 0,92 zu rechnen sei.

Poldrack und Mumford (2009) reanalysieren die Daten einer ihrer Studie nach den Vorschlägen von Vul et al. (2009a) und finden, dass die Veränderung des Korrelationskoeffizienten durch die Anwendung der alternativen Analyseform relativ klein ist (im Mittel 0,29). Ihre Effekte bleiben trotzdem weiterhin signifikant und die Aussage ihres von Vul et al. (2009a) angegriffenen Artikels wird auch durch die alternative Analyse bestätigt. Sie stellen daher fest, dass die ursprüngliche dramatische Bezeichnung ´Voodoo´ keinesfalls gerechtfertigt war.

Und um nur kurz einen Ausschnitt des Ergebnisteiles der vorliegenden Arbeit vorwegzunehmen: Die Korrelationsanalysen der fMRT-Studie (s. Kapitel 3.2.2.5;

S.151ff.) werden auf die ´herkömmliche´ Weise analysiert und zusätzlich mit zwei der von Vul und Kollegen (2009a) vorgeschlagenen Alternativmethoden. Die Beträge der Korrelationskoeffizienten ändern sich von r = 0,63 auf r = 0,60 und von r = − 0,71 auf r = − 0,68. Ein unangemessen hohes ´Aufblähen´ der Korrelationskoeffizienten kann hier nicht festgestellt werden.

2.4.4.2 Welche Schlussfolgerungen lassen sich aus fMRT-Befunden