De gustibus non est disputandum
Statistisches Testen I
"Take the Pepsi Challenge" lautete in den 1980er Jahren das Motto einer Marketingkampagne der Firma Pepsi-Cola. Dabei verglichen 100 verblindete Coca-Cola-Konsumenten Pepsi light mit Coke light und wählten daraus ihren Favoriten. Ein von
Pepsi produzierter TV-Werbefilm behauptete daraufhin:
Die Pepsi-Herausforderung
"... in kürzlich durchgeführten Blindtests entschied sich mehr als die Hälfte aller befragten Coke-light-Trinker für Pepsi light".
Angenommen, in dem Versuch hätten sich 56 von 100 Coke- light-Trinkern für Pepsi light entschieden. Würde dies die
anschließende Behauptung rechtfertigen, das mehr als die Hälfte aller Coke-light-Trinker Pepsi light bevorzugen ?
Die "Wissenschaftliche Methode"
"Die Validität von Wissen ist eng mit der Wahrscheinlichkeit seiner Falsifikation
verknüpft."
"Wissenschaftliche Behauptungen können empirisch falsifiziert werden.
Unwissenschaftliche Aussagen sind demgegenüber immer 'wahr' und lassen
sich grundsätzlich nicht falsifizieren."
Karl Popper (1902-1994)
Statistisches Testen
derzeitiges Wissen
Falsifikation
neues Wissen
H
0H
Aneues Wissen durch Falsifikation
Entscheidungsfindung
-
Wissenschaftliche Fragestellungen werden oft in Form sich gegenseitig ausschließender Hypothesen (H0 vs.HA) über einen oder mehrere Populationsparameter formuliert.
-
Bei einem statistischen Test handelt es sich um eine Entscheidungsregel, die es erlaubt, H0 auf derGrundlage von Stichprobendaten entweder zu
verwerfen ("statistisch signifikantes Ergebnis") oder beizubehalten.
Nullhypothese
Die Nullhypothese impliziert üblicherweise das, wovon der Wissenschaftler erwartet (oder wünscht), dass es falsch ist. Sie repräsentiert
meistens Konservativismus bzw. die aktuell vorherrschende Meinung.
H0: Der erwartete diastolische Blutdruck von Patienten mit einer bestimmten Krankheit entspricht dem Normwert.
Statistisches Testen
Die Alternativhypothese impliziert üblicherweise das, wovon der Wissenschaftler erwartet (oder
wünscht), dass es wahr ist.
Die Alternativhypothese gilt als etabliert, wenn die Nullhypothese verworfen wurde.
Statistisches Testen
Alternativhypothese
HA: Der erwartete diastolische Blutdruck von Patienten mit einer bestimmten Krankheit weicht vom Normwert ab.
Blutdruck und Herzinfarkt
In einer Studie soll geprüft werden, ob sich der erwartete diastolische Blutdruck µ von Personen mit einem
Myokardinfarkt (MI) vom erwarteten Blutdruck µ0 = 80 mmHg bei Normalpersonen unterscheidet.
H
0: µ = µ
0H
A: µ≠µ
0-
Die Daten einer Stichprobe werden in einer einzigen Zahl, der Teststatistik T, zusammengefasst.-
Der Annahmebereich des Tests enthält alle Werte von T, bei denen H0 beibehalten wird.-
Der Ablehnungsbereich enthält alle Werte von T, bei denen H0 verworfen wird.-
Annahme- und Ablehnungsbereich werden von den kritischen Werten begrenzt.Statistisches Testen
Vorgehensweise
0.000 0.010 0.020 0.030 0.040
90 100 110 120 130 140 150 160
T Annahmebereich
Ablehnungsbereich Ablehnungsbereich
kritischer Wert
H0
T im Annahmebereich T im Ablehnungsbereich
H
0beibehalten H
0verwerfen
kritischer Wert
Statistisches Testen
Vorgehensweise
H0 beibehalten richtig Typ-II- Fehler
H0 verworfen richtig
Entscheidung
Wahrheit
Typ-I- Fehler
H0 HA
Ein Typ-I-Fehler wird begangen, wenn die Nullhypothese H0 verworfen wird, obwohl sie wahr ist.
Ein Typ-II-Fehler wird begangen, wenn die Nullhypothese H0 beibehalten wird, obwohl sie falsch ist.
Statistisches Testen
mögliche Fehler
Statistisches Testen
Signifikanzniveau
-
Ein statistischer Test hat das Signifikanzniveau α, wenn die Wahrscheinlichkeit für das Begehen eines Typ-I-Fehlers höchstens α beträgt.
-
Vor der Datenerhebung werden die kritischen Werte eines Tests so gewählt, dass der Test ein festgelegtes Signifikanzniveau (z.B. 0.05) hat.-
Die Wahl der kritischen Werte eines Tests hängt nur vom Signifikanzniveau und der Beschaffenheit von H0 ab, nicht aber von HA.Blutdruck und Herzinfarkt
Das Signifikanzniveau eines Tests von H0 gegen HA
begrenzt die Wahrscheinlichkeit, fälschlicherweise einen Unterschied zwischen dem mittleren Blutdruck von MI-
Patienten und dem Normwert zu konstatieren.
H
0: µ = µ
0H
A: µ≠µ
0c
1-α/2c
α/2α/2 α/2
T
H0
Statistisches Testen
kritische Werte
0 0
:
H µ = µ
Hypothesen
Teststatistik
0 A
:
H µ ≠ µ
Zufallsvariable
X ∼ N( µ , σ
2)
beide Parameter unbekanntAblehnungs-
bereich
T ≤ t
α/2,n-1 oderT ≥ t
1-α/2,n-1=-t
α/2,n-1Vorgehensweise
Ein-Stichproben-t-Test
"Anzahl Freiheitsgrade" (ν)
n /
S
T = X − µ
0Blutdruck und Herzinfarkt
In einer Studie soll geprüft werden, ob sich der erwartete diastolische Blutdruck µ von Personen mit einem
Myokardinfarkt (MI) vom erwarteten Blutdruck µ0 = 80 mmHg bei Normalpersonen unterscheidet. An 9 Patienten mit MI
wurden folgende Blutdruckwerte gemessen:
92, 87, 79, 87, 99, 82, 74, 83, 103 mmHg
3 3 . 87
= x
306 .
2 t
2.354
t = ≥
0.975,8=
mmHg 34
.
9
s =
Quantile
t-Verteilung
Statistisches Testen
Power
-
Die Wahrscheinlichkeit eines Typ-II-Fehlers (d.h. die Wahrscheinlichkeit, H0 beizubehalten, wenn HA wahr ist) wird mitββββ
bezeichnet.-
Die Gegenwahrscheinlichkeit 1-β eines Typ-II-Fehlers bezeichnet man als Power des Tests.-
Die Power eines statistischen Tests hängt von derkonkreten Beschaffenheit von HA ab, nicht aber von H0.
Statistisches Testen
Fehlerwahrscheinlichkeiten
H0 beibehalten H0 verworfen
Test-
Entscheidung
Wahrheit
H0 HA
≥ 1- α ββββ
≤≤≤≤αααα 1- β
ββββ
c
1-α/2c
α/2α/2 α/2
T
H0
Statistisches Testen
kritische Werte
HA
Blutdruck und Herzinfarkt
µ
Pµ(T≤-2.306, T≥2.306)80
81 (79) 85 (75) 90 (70)
0.050 0.058 0.262 0.748
α
=0.051- β 1- β 1- β
σ=10 mmHg
H
0: µ =80 H
A: µ≠ 80
H
0H
Ac
1-α/2c
α/2α/2 α/2
T
H0
Statistisches Testen
Effektstärke und Power
HA
ββββ
H0
c
1-α'/2c
α'/2α'/2 α'/2
T
ββββ'
Statistisches Testen
Signifikanz und Power
HA
Quantile
t-Verteilung
Blutdruck und Herzinfarkt
µ Pµ(T≤-2.896, T≥2.896)
80 81 (79) 85 (75) 90 (70)
1- β 1- β 1- β H
0: µ =80 H
A: µ≠ 80
0.050 0.058 0.262 0.748 0.020
0.024 0.143 0.566 H
0H
Aσ=10 mmHg
α
=0.02-
reflektiert in der Regel mangelndes Vorwissen über realistische Alternativen zur Nullhypothese-
lautet üblicherweise "ist anders als", "weicht ab von"oder "unterscheidet sich von"
Eine zweiseitige Alternativhypothese spezifiziert keine Richtung der erwarteten Ergebnisse und
Alternativhypothesen
zweiseitig
HA: Der erwartete diastolische Blutdruck von Patienten mit einer bestimmten Krankheit weicht vom Normwert ab.
T
HA
c
1-α/2c
α/2α/2 α/2
H0
ββββ
HA (?)
Alternativhypothesen
zweiseitig
α HA
c
1-α TH0
ββββ
Alternativhypothesen
einseitig
-
reflektiert entweder gesunden Menschenverstand oder geeignetes Vorwissen aus anderen Experimenten-
lautet üblicherweise "ist größer als", "ist schwerer als"oder "ist länger als"
Eine einseitige Alternativhypothese spezifiziert die Richtung der erwarteten Ergebnisse und
Alternativhypothesen
einseitig
HA: Der erwartete diastolische Blutdruck von Patienten mit einer bestimmten Krankheit ist höher als der Normwert.
Klinische Studie
In einer klinischen Studie werden häufig die
Wahrscheinlichkeiten für einen definierten Heilungserfolg zwischen einem neuen Medikament (πM) und einem
Placebo (πP) verglichen.
H
A: π
M> π
PH
0: π
M≤π
PSignifikanzniveau Obergrenze für die Wahrscheinlichkeit, ein wirkungsloses oder dem Placebo unterlegenes Medikament für wirksam zu erklären
Power Wahrscheinlichkeit, ein wirksames Medikament als wirksam zu erkennen
0 0
:
H µ ≥ µ
Hypothesen
Teststatistik
0 A
:
H µ < µ
Zufallsvariable
X ∼ N( µ , σ
2)
beide Parameter unbekannt0 0
:
H µ ≤ µ H
A: µ > µ
0T ≤ t
α,n-1T ≥ t
1-α,n-1einseitig
Ein-Stichproben-t-Test
bzw.
bzw.
Ablehnungs- bereich
n /
S
T = X − µ
0Quantile
t-Verteilung
Blutdruck und Herzinfarkt
H
0: µ≤ 80 H
A: µ >80
µ
80 75 85 90
1- β 1- β
σ=10 mmHg
0.262 0.748
Pµ(T≥1.860)
0.050 0.005 0.392 0.862
α
=0.02H
0H
APµ(|T|≥2.306)
Welcher Stichprobenumfang n ist erforderlich, um bei einem Signifikanzniveau α einen
bestimmten Effekt µ - µ
0mit Power 1- β zu entdecken?
2
0 1
1
z
n z
µ
− µ
⋅ + σ
≥
−α −βeinseitig zweiseitig
2
0 1 2
/
1
z
n z
µ
− µ
⋅ + σ
≥
−α −βStichprobenumfang
Ein-Stichproben-t-Test
1 2 3 4 5 10
100 1000
σ = 10 α = 0.05
1-β = 0.90, 0.80, 0.70
µ – µ0 n
Stichprobenumfang (einseitig)
Ein-Stichproben-t-Test
1 2 3 4 5 10
100 1000
σ = 10 α = 0.05
1-β = 0.90, 0.80, 0.70
µ – µ0 n
Stichprobenumfang (zweiseitig)
Ein-Stichproben-t-Test
H0: Pepsi schmeckt nicht besser als Coke (π≤0.5).
HA: Pepsi schmeckt besser als Coke (π>0.5).
( )
0.5 0.5 0.044i 59 100
T
P 100
59 i
i 100
i ⋅ =
⋅
=
≥
∑
= −c0.05 = 59
Schlussfolgerung: Die Anzahl der Probanden, die Pepsi light bevorzugten (d.h. 56), war nicht signifikant größer als die
Anzahl derer, die Coke light bevorzugten (d.h. 44).
Die Pepsi-Herausforderung
( )
0.5 0.5 0.067i 58 100
T
P 100
58 i
i 100
i ⋅ =
⋅
=
≥
∑
= −"Kein Test, der auf der Wahrscheinlichkeitstheorie beruht, kann für sich genommen etwas Nutzbringendes über das
Wahr oder Unwahr einer Hypothese aussagen."
Neyman J, Pearson E (1933) Phil Trans R Soc A, 231:289-337
Egon Pearson (1895-1980)
Jerzy Neyman (1894-1981)
Statistik und Wahrheit
"Es würde erheblich zum klareren Verständnis des Signifikanztests
beitragen, wenn sich die allgemeine Einsicht einstellte, dass ein
Signifikanztest bei sinnvollem Einsatz Hypothesen insoweit entkräften kann, als sie den verfügbaren Daten
widersprechen: ein Test wird sie aber niemals als gesichert wahr etablieren können."
Ronald A. Fisher (1890-1962)
Statistik und Wahrheit
p tobs
T H0
Der p-Wert ist die Wahrscheinlichkeit dafür, dass die Teststatistik T den beobachteten oder einen noch unwahrscheinlicheren Wert als tobs annimmt, wenn die
Nullhypothese wahr ist.
Der p-Wert
0.1 0.01 0.0001
0.001
Evidenz
1.0
p-Wert
keine
"moderat"
"stark"
"sehr stark"
Der p-Wert
Evidenz gegen H0
Blutdruck und Herzinfarkt
H
0: µ =80 H
A: µ≠ 80 H
0: µ≤ 80 H
A: µ >80
p = P(T>2.354)
= 0.023
( ) 0 . 5 0 . 5 0 . 1356
i 56 100
X P
p
10056 i
i 100
i
⋅ =
⋅
=
≥
= ∑= −
Die Pepsi-Herausforderung
p = P(|T|>2.354)
= 0.046
H
0: π≤ 0.5 H
A: π >0.5
Pravastatin und kardiovaskuläre Erkrankungen
koronares Ereignis
nicht tödlicher MI oder Tod durch KHK
CABG oder PTCA Schlaganfall
0.132 0.188 0.038 Placebo (n=2078)
0.102 0.141 0.026 Pravastatin
(n=2081) p
0.003
<0.001 0.030
CAGB: Coronary Artery Bypass Grafting, PTCA: Percutaneous Transluminal Coronary Angioplasty
Sacks FM et al. (1996) N Engl J Med 335: 1001–1009
Negative Ergebnisse sind genauso wichtig wie positive Ergebnisse, da sie das Unwissen
verringern und auf neue interessante
Hypothesen oder Forschungsziele verweisen.
Sie sind auch notwendig, um zukünftiger Forschung in einem bestimmten Gebiet die richtige Richtung zu weisen (Publikationsbias).
Negative Ergebnisse
- Statistische Fragestellungen werden üblicherweise in der Form sich gegenseitig ausschließender Hypothesen über
Populationsparameter formuliert.
- Statistische Tests sind Entscheidungsregeln, nach denen eine gegebene Nullhypothese auf der Grundlage von Daten aus einer Stichprobe verworfen oder beibehalten wird.
- Bei der Durchführung eines statistischen Tests können zwei Arten von Fehlern dadurch eintreten, dass entweder die Null- oder die Alternativhypothese fälschlich verworfen wird.
- Die Wahrscheinlichkeit für einen Typ-I-Fehler wird durch das Signifikanzniveau des Tests begrenzt; die Wahrscheinlichkeit, einen Typ-II-Fehler zu vermeiden, heißt Power des Tests.
- Der p-Wert ist ein Maß für die Diskrepanz zwischen der Nullhypothese und den verfügbaren Daten.