Statistisches Testen I

(1)

De gustibus non est disputandum

Statistisches Testen I

(2)

"Take the Pepsi Challenge" lautete in den 1980er Jahren das Motto einer Marketingkampagne der Firma Pepsi-Cola. Dabei verglichen 100 verblindete Coca-Cola-Konsumenten Pepsi light mit Coke light und wählten daraus ihren Favoriten. Ein von

Pepsi produzierter TV-Werbefilm behauptete daraufhin:

Die Pepsi-Herausforderung

"... in kürzlich durchgeführten Blindtests entschied sich mehr als die Hälfte aller befragten Coke-light-Trinker für Pepsi light".

Angenommen, in dem Versuch hätten sich 56 von 100 Coke- light-Trinkern für Pepsi light entschieden. Würde dies die

anschließende Behauptung rechtfertigen, das mehr als die Hälfte aller Coke-light-Trinker Pepsi light bevorzugen ?

(3)

Die "Wissenschaftliche Methode"

"Die Validität von Wissen ist eng mit der Wahrscheinlichkeit seiner Falsifikation

verknüpft."

"Wissenschaftliche Behauptungen können empirisch falsifiziert werden.

Unwissenschaftliche Aussagen sind demgegenüber immer 'wahr' und lassen

sich grundsätzlich nicht falsifizieren."

Karl Popper (1902-1994)

(4)

Statistisches Testen

derzeitiges Wissen

Falsifikation

neues Wissen

H

₀

^H

_A

neues Wissen durch Falsifikation

(5)

Entscheidungsfindung

-

Wissenschaftliche Fragestellungen werden oft in Form sich gegenseitig ausschließender Hypothesen (H₀ vs.

H_A) über einen oder mehrere Populationsparameter formuliert.

-

Bei einem statistischen Test handelt es sich um eine Entscheidungsregel, die es erlaubt, H₀ auf der

Grundlage von Stichprobendaten entweder zu

verwerfen ("statistisch signifikantes Ergebnis") oder beizubehalten.

(6)

Nullhypothese

Die Nullhypothese impliziert üblicherweise das, wovon der Wissenschaftler erwartet (oder wünscht), dass es falsch ist. Sie repräsentiert

meistens Konservativismus bzw. die aktuell vorherrschende Meinung.

H₀: Der erwartete diastolische Blutdruck von Patienten mit einer bestimmten Krankheit entspricht dem Normwert.

Statistisches Testen

(7)

Die Alternativhypothese impliziert üblicherweise das, wovon der Wissenschaftler erwartet (oder

wünscht), dass es wahr ist.

Die Alternativhypothese gilt als etabliert, wenn die Nullhypothese verworfen wurde.

Statistisches Testen

Alternativhypothese

H_A: Der erwartete diastolische Blutdruck von Patienten mit einer bestimmten Krankheit weicht vom Normwert ab.

(8)

Blutdruck und Herzinfarkt

In einer Studie soll geprüft werden, ob sich der erwartete diastolische Blutdruck µ von Personen mit einem

Myokardinfarkt (MI) vom erwarteten Blutdruck µ₀= 80 mmHg bei Normalpersonen unterscheidet.

H

₀

: µ = µ

₀

H

_A

: µ≠µ

₀

(9)

-

Die Daten einer Stichprobe werden in einer einzigen Zahl, der Teststatistik T, zusammengefasst.

-

Der Annahmebereich des Tests enthält alle Werte von T, bei denen H₀ beibehalten wird.

-

Der Ablehnungsbereich enthält alle Werte von T, bei denen H₀ verworfen wird.

-

Annahme- und Ablehnungsbereich werden von den kritischen Werten begrenzt.

Statistisches Testen

Vorgehensweise

(10)

0.000 0.010 0.020 0.030 0.040

90 100 110 120 130 140 150 160

T Annahmebereich

Ablehnungsbereich Ablehnungsbereich

kritischer Wert

H₀

T im Annahmebereich T im Ablehnungsbereich

H

₀

beibehalten H

₀

verwerfen

kritischer Wert

Statistisches Testen

Vorgehensweise

(11)

H₀ beibehalten richtig Typ-II- Fehler

H₀ verworfen richtig

Entscheidung

Wahrheit

Typ-I- Fehler

H₀ H_A

Ein Typ-I-Fehler wird begangen, wenn die Nullhypothese H₀ verworfen wird, obwohl sie wahr ist.

Ein Typ-II-Fehler wird begangen, wenn die Nullhypothese H₀ beibehalten wird, obwohl sie falsch ist.

Statistisches Testen

mögliche Fehler

(12)

Statistisches Testen

Signifikanzniveau

-

Ein statistischer Test hat das Signifikanzniveau α, wenn die Wahrscheinlichkeit für das Begehen eines Typ-I-

Fehlers höchstens α beträgt.

-

Vor der Datenerhebung werden die kritischen Werte eines Tests so gewählt, dass der Test ein festgelegtes Signifikanzniveau (z.B. 0.05) hat.

-

Die Wahl der kritischen Werte eines Tests hängt nur vom Signifikanzniveau und der Beschaffenheit von H₀ ab, nicht aber von H_A.

(13)

Das Signifikanzniveau eines Tests von H₀ gegen H_A

begrenzt die Wahrscheinlichkeit, fälschlicherweise einen Unterschied zwischen dem mittleren Blutdruck von MI-

Patienten und dem Normwert zu konstatieren.

H

₀

: µ = µ

₀

H

_A

: µ≠µ

₀

(14)

c

_1-_α_/2

c

_α_/2

α/2 α/2

T

H₀

Statistisches Testen

kritische Werte

(15)

0 0

:

H µ = µ

Hypothesen

Teststatistik

0 A

:

H µ ≠ µ

Zufallsvariable

X ∼ N( µ , σ

²

)

beide Parameter unbekannt

Ablehnungs-

bereich

T ≤ t

_α_/2,n-1 ^oder

T ≥ t

_1-_α_/2,n-1

=-t

_α_/2,n-1

Vorgehensweise

Ein-Stichproben-t-Test

"Anzahl Freiheitsgrade" (ν)

n /

S

T = X − µ

⁰

(16)

In einer Studie soll geprüft werden, ob sich der erwartete diastolische Blutdruck µ von Personen mit einem

Myokardinfarkt (MI) vom erwarteten Blutdruck µ₀= 80 mmHg bei Normalpersonen unterscheidet. An 9 Patienten mit MI

wurden folgende Blutdruckwerte gemessen:

92, 87, 79, 87, 99, 82, 74, 83, 103 mmHg

3 3 . 87

= x

306 .

2 t

2.354 t = ≥

₀_.₉₇₅_,₈

=

mmHg 34

.

9 s =

(17)

Quantile

t-Verteilung

(18)

Statistisches Testen

Power

-

Die Wahrscheinlichkeit eines Typ-II-Fehlers (d.h. die Wahrscheinlichkeit, H₀ beizubehalten, wenn H_A wahr ist) wird mit

ββββ

bezeichnet.

-

Die Gegenwahrscheinlichkeit 1-β eines Typ-II-Fehlers bezeichnet man als Power des Tests.

-

Die Power eines statistischen Tests hängt von der

konkreten Beschaffenheit von H_A ab, nicht aber von H₀.

(19)

Statistisches Testen

Fehlerwahrscheinlichkeiten

H₀ beibehalten H₀ verworfen

Test-

Entscheidung

Wahrheit

H₀ H_A

≥ 1- α ββββ

≤≤≤≤αααα 1- β

(20)

ββββ

c

_1-_α_/2

c

_α_/2

α/2 α/2

T

H₀

Statistisches Testen

kritische Werte

H_A

(21)

µ

^P^µ^(T^≤^{-2.306, T}^≥^2.306)

80 81 (79) 85 (75) 90 (70)

0.050 0.058 0.262 0.748

α

^=0.05

1- β 1- β 1- β

σ=10 mmHg

H

₀

: µ =80 H

_A

: µ≠ 80

H

₀

H

_A

(22)

c

_1-_α_/2

c

_α_/2

α/2 α/2

T

H₀

Statistisches Testen

Effektstärke und Power

H_A

ββββ

(23)

H₀

c

_1-_α_'/2

c

_α_'/2

α'/2 α'/2

T

ββββ'

Statistisches Testen

Signifikanz und Power

H_A

(24)

Quantile

t-Verteilung

(25)

µ P_µ(T≤-2.896, T≥2.896)

80 81 (79) 85 (75) 90 (70)

1- β 1- β 1- β H

₀

: µ =80 H

_A

: µ≠ 80

0.050 0.058 0.262 0.748 0.020

0.024 0.143 0.566 H

₀

H

_A

σ=10 mmHg

α

^=0.02

(26)

-

reflektiert in der Regel mangelndes Vorwissen über realistische Alternativen zur Nullhypothese

-

lautet üblicherweise "ist anders als", "weicht ab von"

oder "unterscheidet sich von"

Eine zweiseitige Alternativhypothese spezifiziert keine Richtung der erwarteten Ergebnisse und

Alternativhypothesen

zweiseitig

H_A: Der erwartete diastolische Blutdruck von Patienten mit einer bestimmten Krankheit weicht vom Normwert ab.

(27)

T

H_A

c

_1-_α_/2

c

_α_/2

α/2 α/2

H₀

ββββ

H_A(?)

Alternativhypothesen

zweiseitig

(28)

α H_A

c

_1-_α ^T

H₀

ββββ

Alternativhypothesen

einseitig

(29)

-

reflektiert entweder gesunden Menschenverstand oder geeignetes Vorwissen aus anderen Experimenten

-

lautet üblicherweise "ist größer als", "ist schwerer als"

oder "ist länger als"

Eine einseitige Alternativhypothese spezifiziert die Richtung der erwarteten Ergebnisse und

Alternativhypothesen

einseitig

H_A: Der erwartete diastolische Blutdruck von Patienten mit einer bestimmten Krankheit ist höher als der Normwert.

(30)

Klinische Studie

In einer klinischen Studie werden häufig die

Wahrscheinlichkeiten für einen definierten Heilungserfolg zwischen einem neuen Medikament (π_M) und einem

Placebo (π_P) verglichen.

H

_A

: π

_M

> π

_P

H

₀

: π

_M

≤π

_P

Signifikanzniveau Obergrenze für die Wahrscheinlichkeit, ein wirkungsloses oder dem Placebo unterlegenes Medikament für wirksam zu erklären

Power Wahrscheinlichkeit, ein wirksames Medikament als wirksam zu erkennen

(31)

0 0

:

H µ ≥ µ

Hypothesen

Teststatistik

0 A

:

H µ < µ

Zufallsvariable

X ∼ N( µ , σ

²

)

beide Parameter unbekannt

0 0

:

H µ ≤ µ H

_A

: µ > µ

₀

T ≤ t

_α_,n-1

T ≥ t

_1-_α_,n-1

einseitig

Ein-Stichproben-t-Test

bzw.

Ablehnungs- bereich

n /

S

T = X − µ

⁰

(32)

Quantile

t-Verteilung

(33)

H

₀

: µ≤ 80 H

_A

: µ >80

µ

80 75 85 90

1- β 1- β

σ=10 mmHg

0.262 0.748

P_µ(T≥1.860)

0.050 0.005 0.392 0.862

α

^=0.02

H

₀

H

_A

P_µ(|T|≥2.306)

(34)

Welcher Stichprobenumfang n ist erforderlich, um bei einem Signifikanzniveau α einen

bestimmten Effekt µ - µ

₀

mit Power 1- β zu entdecken?

2

0 1

1

z

n z 





 



µ

− µ

⋅ + σ

≥

⁻^α ⁻^β

einseitig zweiseitig

2

0 1 2

/

1

z

n z 





 



µ

− µ

⋅ + σ

≥

⁻^α ⁻^β

Stichprobenumfang

Ein-Stichproben-t-Test

(35)

1 2 3 4 5 10

100 1000

σ = 10 α = 0.05

1-β = 0.90, 0.80, 0.70

µ – µ₀ n

Stichprobenumfang (einseitig)

Ein-Stichproben-t-Test

(36)

1 2 3 4 5 10

100 1000

σ = 10 α = 0.05

1-β = 0.90, 0.80, 0.70

µ – µ₀ n

Stichprobenumfang (zweiseitig)

Ein-Stichproben-t-Test

(37)

H₀: Pepsi schmeckt nicht besser als Coke (π≤0.5).

H_A: Pepsi schmeckt besser als Coke (π>0.5).

( )

⁰^.⁵ ⁰^.⁵ ⁰^.⁰⁴⁴

i 59 100

T

P ¹⁰⁰

59 i

i 100

i ⋅ =

⋅







= 

≥

∑

₌ ⁻

c_0.05 = 59

Schlussfolgerung: Die Anzahl der Probanden, die Pepsi light bevorzugten (d.h. 56), war nicht signifikant größer als die

Anzahl derer, die Coke light bevorzugten (d.h. 44).

( )

⁰^.⁵ ⁰^.⁵ ⁰^.⁰⁶⁷

i 58 100

T

P ¹⁰⁰

58 i

i 100

i ⋅ =

⋅







= 

≥

∑

₌ ⁻

(38)

"Kein Test, der auf der Wahrscheinlichkeitstheorie beruht, kann für sich genommen etwas Nutzbringendes über das

Wahr oder Unwahr einer Hypothese aussagen."

Neyman J, Pearson E (1933) Phil Trans R Soc A, 231:289-337

Egon Pearson (1895-1980)

Jerzy Neyman (1894-1981)

Statistik und Wahrheit

(39)

"Es würde erheblich zum klareren Verständnis des Signifikanztests

beitragen, wenn sich die allgemeine Einsicht einstellte, dass ein

Signifikanztest bei sinnvollem Einsatz Hypothesen insoweit entkräften kann, als sie den verfügbaren Daten

widersprechen: ein Test wird sie aber niemals als gesichert wahr etablieren können."

Ronald A. Fisher (1890-1962)

Statistik und Wahrheit

(40)

p t_obs

T H₀

Der p-Wert ist die Wahrscheinlichkeit dafür, dass die Teststatistik T den beobachteten oder einen noch unwahrscheinlicheren Wert als t_obs annimmt, wenn die

Nullhypothese wahr ist.

Der p-Wert

(41)

0.1 0.01 0.0001

0.001

Evidenz

1.0

p-Wert

keine

"moderat"

"stark"

"sehr stark"

Der p-Wert

Evidenz gegen H₀

(42)

H

₀

: µ =80 H

_A

: µ≠ 80 H

₀

: µ≤ 80 H

_A

: µ >80

p = P(T>2.354)

= 0.023

( ) ⁰ ^. ⁵ ⁰ ^. ⁵ ⁰ ^. ¹³⁵⁶

i 56 100

X P

p

¹⁰⁰

56 i

i 100

i

⋅ =

 ⋅



 



= 

≥

= ∑

₌ ⁻

p = P(|T|>2.354)

= 0.046

H

₀

: π≤ 0.5 H

_A

: π >0.5

(43)

Pravastatin und kardiovaskuläre Erkrankungen

koronares Ereignis

nicht tödlicher MI oder Tod durch KHK

CABG oder PTCA Schlaganfall

0.132 0.188 0.038 Placebo (n=2078)

0.102 0.141 0.026 Pravastatin

(n=2081) p

0.003

<0.001 0.030

CAGB: Coronary Artery Bypass Grafting, PTCA: Percutaneous Transluminal Coronary Angioplasty

Sacks FM et al. (1996) N Engl J Med 335: 1001–1009

(44)

Negative Ergebnisse sind genauso wichtig wie positive Ergebnisse, da sie das Unwissen

verringern und auf neue interessante

Hypothesen oder Forschungsziele verweisen.

Sie sind auch notwendig, um zukünftiger Forschung in einem bestimmten Gebiet die richtige Richtung zu weisen (Publikationsbias).

Negative Ergebnisse

(45)

- Statistische Fragestellungen werden üblicherweise in der Form sich gegenseitig ausschließender Hypothesen über

Populationsparameter formuliert.

- Statistische Tests sind Entscheidungsregeln, nach denen eine gegebene Nullhypothese auf der Grundlage von Daten aus einer Stichprobe verworfen oder beibehalten wird.

- Bei der Durchführung eines statistischen Tests können zwei Arten von Fehlern dadurch eintreten, dass entweder die Null- oder die Alternativhypothese fälschlich verworfen wird.

- Die Wahrscheinlichkeit für einen Typ-I-Fehler wird durch das Signifikanzniveau des Tests begrenzt; die Wahrscheinlichkeit, einen Typ-II-Fehler zu vermeiden, heißt Power des Tests.

- Der p-Wert ist ein Maß für die Diskrepanz zwischen der Nullhypothese und den verfügbaren Daten.

Zusammenfassung