• Keine Ergebnisse gefunden

Archiv "Statistik für klinische Studien: Vom Irrtum mit den Wahrscheinlichkeiten" (23.08.2004)

N/A
N/A
Protected

Academic year: 2022

Aktie "Archiv "Statistik für klinische Studien: Vom Irrtum mit den Wahrscheinlichkeiten" (23.08.2004)"

Copied!
2
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

D

rei Ärzte der Antike diskutierten in einem fiktiven Gespräch über die Schwächen von klinischen Studien. Dabei kam Salviati zu der „un- geheuerlichen Behauptung“, dass es nicht möglich sei, von der Signifikanz einer Studie auf die Irrtumswahrschein- lichkeit zu schließen.

Waren alle Leser so hellsichtig wie Sal- viatis Kollege Sagredo, wenigstens den Verdacht zu äußern, dass hier ein wenig getrickst wurde? Fühlten sich manche an die bekannten Hütchenspieler erinnert?

Eine offensichtlich klare und bekannte Ausgangssituation, eine kompliziert aus- sehende, schnell ablaufende Folge von Handlungen – dann ein unbeobachteter Moment, und schon ist es passiert.

Dieser „Moment“ lässt sich im fikti- ven Gespräch genau benennen. Salviati:

„. . . Für alle guten und sehr guten Stu- dien, die auf dem 5-Prozent-Niveau signifikant sind und mit denen wir un- ser therapeutisches Tun begründen, gilt, dass die Wahrscheinlichkeit, dass es sich um ein Zufallsergebnis handelt, nicht bei fünf Prozent, sondern irgendwo zwi- schen zehn Prozent (sehr selten) und 40 Prozent (häufig) liegt.“

Der Dreh- und Angelpunkt dieses Sat- zes liegt in den Worten „Wahrscheinlich- keit, dass es sich um ein Zufallsergebnis handelt“, und der Taschenspielertrick dieses Satzes besteht darin, dass es im er- sten Teil des Satzes um eine andere Defi- nition dieser Wahrscheinlichkeit geht als im zweiten Teil.Anders ausgedrückt: Die fünf Prozent im ersten Teil sind andere fünf Prozent als die im zweiten Teil.

Wer sich mit der Thematik beschäf- tigt, weiß natürlich, dass sich hinter dem

„Galileischen Dialog“ die Diskussion zwischen Anhängern zweier statisti- scher Theorien, den „Frequentisten“

und den „Bayesianern“, verbirgt. Die Diskussion ist Jahrzehnte alt; dies ist der Grund dafür, warum die „Erkennt- nisse“ Salviatis nicht „wie eine Bombe einschlagen“, sondern, sieht man von einer Reihe weiterer fachlicher Fehler in diesem Dialog ab, auf den informier- ten Leser höchstens ermüdend wirken.

Im Bereich klinischer Studien domi- niert eindeutig das frequentistische Kon- zept. Es bildet die Basis von Hypothesen- tests und Konfidenzintervallen, mit deren Hilfe Daten klinischer Studien ausgewer- tet werden. Auf diesem Fundament steht das Konzept statistischer Irrtumswahr- scheinlichkeiten (Definition, siehe un- ten). Bezeichnend, dass eine von Metho-

dikern seit vielen Jahren mit Nachdruck verfochtene Alternative zu den etwas in- flationär verwendeten Signifikanztests, nämlich Konfidenzintervalle, in dem Dia- log mit keinem Wort erwähnt wird.

Auch der Begriff „Zufallsergebnis“

im Taschenspielersatz ist eigentlich falsch, weil natürlich nicht nur „signifi- kante“ Ergebnisse durch Zufall zustan- de kommen, sondern auch nichtsignifi- kante, und überhaupt jedes vorstellbare

Studienergebnis eine zufällige Kompo- nente hat. Plakativ könnte man sagen:

„Wahrscheinlichkeit ist Zufall“ und

„die Wahrscheinlichkeit für ein Zufalls- ergebnis“ höchstens der Weinlaune des

„galileischen“ Trios zuzuschreiben.

Die Irrtumswahrscheinlichkeit Al- pha, um die es hier geht, ist die Wahr- scheinlichkeit, ein signifikantes Studi- energebnis zu erhalten, obwohl die Nullhypothese zutrifft, also in Wahrheit kein Unterschied zwischen zwei Be- handlungsgruppen besteht.

Dabei ist wichtig, dass sich die Wahr- heit nicht ändert. Eine Hypothese gilt, oder sie gilt nicht. Ein Medikament ist

„in Wahrheit“ wirksam oder nicht. Es

ändert nicht um Mitternacht seine Pharmakologie oder Kinetik, um an ei- nem Tag unwirksam und am nächsten Tag wirksam zu sein. Unsicher ist viel- mehr, ob es gelingt, durch eine Studie dieser Wahrheit nahe zu kommen.

So wird es ab und zu vorkommen, dass sich Behandlungs- und Kontrollgruppe deutlich unterscheiden, auch wenn die Behandlung in Wahrheit wirkungslos ist – etwa so wie drei Sechser nacheinander T H E M E N D E R Z E I T

A

A2310 Deutsches ÄrzteblattJg. 101Heft 34–3523. August 2004

Statistik für klinische Studien

Vom Irrtum mit den Wahrscheinlichkeiten

Bemerkungen zum „Galileischen Dialog“* über ein statistisches Problem zur

„Wahrscheinlichkeit des Irrtums“

Obwohl Statistik und Wahrscheinlichkeitsrechnung aus der Wissenschaft nicht mehr wegzudenken sind, gibt es keine konsentierte Antwort auf die Frage „Was ist Wahrscheinlichkeit?“.

Foto:Caro

*Der „Galileische Dialog“ von Dr. med. Wolfgang Weihe erschien in Heft 13/2004 unter dem Titel „Klinische Studi- en und Statistik – Von der Wahrscheinlichkeit des Irrtums“.

(2)

bei einem fairen Würfel vorkommen können. Die Fehlentscheidungen, die sich aus diesen Ergebnissen ergeben, werden durch Festlegung einer Irrtums- wahrscheinlichkeit in ihrer Menge be- grenzt. Für ein Alpha von fünf Prozent bedeutet dies, vereinfacht ausgedrückt, dass von 100 in Studien geprüften wir- kungslosen Medikamenten maximal fünf (fälschlicherweise!) als wirksam bezeich- net werden (einseitige Fragestellung).

Statistiker benutzen Formeln, um sich unmissverständlich auszudrücken.

Die beschriebene Irrtumswahrschein- lichkeit Alpha sieht dann so aus:

P (signifikante Studie/Nullhypothese ist richtig).

Man nennt dies eine bedingte Wahr- scheinlichkeit und sagt „Wahrschein- lichkeit für ein signifikantes Studiener- gebnis unter der Bedingung, dass die Nullhypothese richtig ist“. Diese Wahr- scheinlichkeit ist im ersten Teil des Ta- schenspielersatzes gemeint. Etwas ganz anderes aber ist

P (Nullhypothese ist richtig/signifi- kante Studie).

Diese „Wahrscheinlichkeit“ ist im zweiten Teil des Satzes gemeint. Sie sieht fast genauso aus, sagt aber etwas komplett anderes: Die „Wahrschein- lichkeit“ dafür, dass die Nullhypothese richtig ist, unter der Bedingung, dass ei- ne Studie ein signifikantes Ergebnis lie- fert. Sie versucht also zu quantifizieren, wie oft die Schlussfolgerung aus einem signifikanten Studienergebnis („Diese Therapie ist wirksam.“) falsch ist.

Neben dem Taschenspielertrick über- gangslos, ohne irgendwelche klärenden Worte und unter vernebelnder Verwen- dung der gleichen fünf Prozent von der einen auf die andere „Wahrscheinlich- keit“ überzugehen, liegt das Zentrum der methodischen Kritik aber darin, dass es diese zweite Wahrscheinlichkeit gar nicht gibt. Anders ausgedrückt: Was Salviati hier Wahrscheinlichkeit nennt, ist gar keine Wahrscheinlichkeit. Der Grund ist relativ einfach einzusehen:

1. „Nullhypothese ist richtig“ trifft für eine bestimmte medizinische Fragestel- lung entweder zu oder nicht. Die Wahr- heit dieser Aussage ändert sich nicht über Nacht, und die Aussage trifft des- halb auch nicht mit irgendwie zu quanti- fizierender Wahrscheinlichkeit mal zu und mal nicht. Der Begriff Wahrschein-

lichkeit, der gerade zufällige Variabilität beschreibt, macht hier gar keinen Sinn.

2. Der Umstand „Nullhypothese ist richtig“, dessen Auftreten quantifiziert werden soll, ist nicht beobachtbar, das heißt, es ist nie zu entscheiden, wann dieser Umstand eingetreten ist und wann nicht, und damit

wiederum kann die an- gebliche „Wahrschein- lichkeit“ gar nicht quan- tifiziert werden.

Einige Leser mögen geneigt sein, eine Ana- logie zwischen der hier betrachteten Prüfung von Hypothesen und

einer anderen typischen Anwendung der Bayes-Formel zu sehen: die Aussa- gekraft diagnostischer Tests. Der obige zweite Punkt macht aber den fundamentalen Unterschied in dieser oberflächlichen Analogie deutlich:

Bei einem diagnostischen Test ist sehr wohl zu entscheiden, ob Patienten, die ein Test als krank klassifiziert, tatsächlich diese Erkrankung haben oder eben nicht. Die relevanten Wahr- scheinlichkeiten können dort quantifi- ziert werden, „geschätzt“, wie die Me- thodiker sagen.

Selbst dann jedoch, wenn man die

„Wahrscheinlichkeit“ im zweiten Teil des Taschenspielersatzes als solche anerken- nen würde, ergäben sich für die Praxis zwei Probleme: Um die Wahrscheinlich- keit zu berechnen, müsste man wissen, wie viele richtige Nullhypothesen unter den in Studien geprüften Hypothesen sind, eine aussichtslose Forderung.

Zudem braucht man neben Alpha noch die Power, die selbst wieder von dem „relevanten Unterschied“ und der Fallzahl abhängt und damit in weiten Bereichen frei wählbar ist. Beides ist der Grund dafür, dass die scheinbar so eindrucksvollen Erkenntnisse Salviatis tatsächlich ins Nichts führen und damit die weiteren Ableitungen und Vorwürfe wie eine Seifenblase zerplatzen.

Der einen bedingten Wahrschein- lichkeit vorzuwerfen („Signifikanzbe- rechnungen [sind] für die Katz“), sie sei nicht die andere „Wahrscheinlichkeit“ , ist abwegig. Anders ausgedrückt : Signi- fikanz und Irrtumswahrscheinlichkeit in üblicher Definition (!) haben sehr wohl miteinander zu tun. Es ist diese unter-

schiedslose Verquickung zweier Kon- zepte, die den einen oder anderen Leser schwindeln lassen könnte. Würde man sie genau benennen und differenzieren, so könnte man gar nicht auf die Idee kommen, „dass die Signifikanz nicht das misst, was sie zu messen vorgibt“.

Es mag sein,dass An- wender missverstehen, was ein Signifikanzni- veau (= Irrtumswahr- scheinlichkeit) von fünf Prozent wirklich be- deutet (eben nicht „. . . , dass das Medikament mit 95 Prozent Sicher- heit wirkt“). Dann er- schiene es aber sinnvoll, die methodi- schen Zusammenhänge so zu erklären und zu verdeutlichen, dass dem Leser bei der Interpretation von Studienergebnis- sen wirklich geholfen ist. Der statistisch verklausulierte Rundumschlag auf alles, was mit klinischer Forschung zu tun hat, dezent gekrönt mit dem „Hauptproblem . . . Bestechlichkeit“, trägt zur Sachauf- klärung nichts bei.

Wer an einer inspirierenden und fachlich richtigen Lektüre zu diesem Thema interessiert ist, dem sei der Dia- log zwischen Neymanius, Simplicius und Querulus empfohlen, der bereits vor 14 Jahren publiziert wurde (3).

Literatur

1. Gardner MJ, Altman DG: Confidence intervals rather than P values: estimation rather than hypothesis testing. Br Med J 1986; 292: 746–750.

2. Gore S: Statistics in question. Assessing methods – art of significance testing. Br Med J 1981; 283: 600–602.

3. Salsburg D: Hypothesis testing versus significance testing for controlled clinical trials: A dialogue. Stat Med 1990; 9: 201–211.

4. Walter E: Das Vierfeldermodell. In: Jesdinsky HJ, Weidt- mann V: Modelle in der Medizin. Theorie und Praxis.

Berlin, Heidelberg, New York. Springer 1980. S 448–457.

5. Weihe W: Von der Wahrscheinlichkeit des Irrtums. Ein

„Galileischer Dialog“ über ein statistisches Problem.

Dtsch Arztebl 2004; 101: A 834–838 [Heft 13].

Prof. Dr. med. Jürgen Windeler Fachbereich Evidenz-basierte Medizin Medizinischer Dienst der Spitzenverbände (MDS) Lützowstraße 53, 45141 Essen

Dr. med. Gerd Antes Deutsches Cochrane Zentrum

Institut für Med. Biometrie und Med. Informatik Stefan-Meier-Straße 26, 79104 Freiburg

Dr. rer. nat. Lutz Edler

Deutsches Krebsforschungszentrum (DKFZ) Im Neuenheimer Feld 280, 69120 Heidelberg T H E M E N D E R Z E I T

Deutsches ÄrzteblattJg. 101Heft 34–3523. August 2004 AA2311

„Fünfzigmal wiegt der Mann seine Eisstückchen

ab, aber wenn es zu etwas kommt, was in

seinen Kram passt, glaubt er es blind!“

Aus B. Brecht: Leben des Galilei

Referenzen

ÄHNLICHE DOKUMENTE

Die Daten aus Phase-II-Studien zeigen, dass bei einer Inhalation von Insulin in Form geeigneter Präparationen sehr gut repro- duzierbare Insulinspiegel im Blut erzeugt werden, die

Psycholo- gen, die aufgrund ihrer Aus- bildung nur Psychotherapie leisten können, werden jetzt besser gestellt als Fachärzte für Kinder- und Jugendpsych- iatrie oder andere Fachärz-

Orphanet, das Europäische Infor- mationssystem für seltene Krank- heiten und „Orphan Drugs“ (Medi- kamente für seltene Krankheiten), hat eine neue Version seiner Website

und dann reißt ihr Ärzte die Krankenversicherungskarte an euch, zieht sie durch den Kartenleser und plündert die Krankenkassen aus!“ Ich halte ihm entgegen, dass mehrere

Eine relative Risikoreduktion um beispielsweise 33 Prozent kann in der Tat eine sehr unter- schiedliche Relevanz haben, je nachdem ob es sich um eine Reduktion von einer Ereignis-

Der Konzern soll mindestens vier Studien zur Wirkung von Pa- roxetin auf Kinder und Ju- gendliche verheimlicht und nur eine Studie veröffentlicht haben, die gemischte Auswir- kungen

Wenn nun aber nur das positive Ergebnis veröffentlicht wird und die 19 negativen im Papier- korb landen, bedeutet dann die Signi- fikanz von fünf Prozent tatsächlich im- mer noch,

Der For- derung, die Wirksamkeit einer Therapie durch klinische Studien nachzuweisen, halten Befürworter und Anwender sol- cher Therapien häufig entgegen, ein Stu- diennachweis