• Keine Ergebnisse gefunden

Statistisches Testen I

N/A
N/A
Protected

Academic year: 2021

Aktie "Statistisches Testen I"

Copied!
45
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

De gustibus non est disputandum

Statistisches Testen I

(2)

"Take the Pepsi Challenge" lautete in den 1980er Jahren das Motto einer Marketingkampagne der Firma Pepsi-Cola. Dabei verglichen 100 verblindete Coca-Cola-Konsumenten Pepsi light mit Coke light und wählten daraus ihren Favoriten. Ein von

Pepsi produzierter TV-Werbefilm behauptete daraufhin:

Die Pepsi-Herausforderung

"... in kürzlich durchgeführten Blindtests entschied sich mehr als die Hälfte aller befragten Coke-light-Trinker für Pepsi light".

Angenommen, in dem Versuch hätten sich 56 von 100 Coke- light-Trinkern für Pepsi light entschieden. Würde dies die

anschließende Behauptung rechtfertigen, das mehr als die Hälfte aller Coke-light-Trinker Pepsi light bevorzugen ?

(3)

Die "Wissenschaftliche Methode"

"Die Validität von Wissen ist eng mit der Wahrscheinlichkeit seiner Falsifikation

verknüpft."

"Wissenschaftliche Behauptungen können empirisch falsifiziert werden.

Unwissenschaftliche Aussagen sind demgegenüber immer 'wahr' und lassen

sich grundsätzlich nicht falsifizieren."

Karl Popper (1902-1994)

(4)

Statistisches Testen

derzeitiges Wissen

Falsifikation

neues Wissen

H

0

H

A

neues Wissen durch Falsifikation

(5)

Entscheidungsfindung

-

Wissenschaftliche Fragestellungen werden oft in Form sich gegenseitig ausschließender Hypothesen (H0 vs.

HA) über einen oder mehrere Populationsparameter formuliert.

-

Bei einem statistischen Test handelt es sich um eine Entscheidungsregel, die es erlaubt, H0 auf der

Grundlage von Stichprobendaten entweder zu

verwerfen ("statistisch signifikantes Ergebnis") oder beizubehalten.

(6)

Nullhypothese

Die Nullhypothese impliziert üblicherweise das, wovon der Wissenschaftler erwartet (oder wünscht), dass es falsch ist. Sie repräsentiert

meistens Konservativismus bzw. die aktuell vorherrschende Meinung.

H0: Der erwartete diastolische Blutdruck von Patienten mit einer bestimmten Krankheit entspricht dem Normwert.

Statistisches Testen

(7)

Die Alternativhypothese impliziert üblicherweise das, wovon der Wissenschaftler erwartet (oder

wünscht), dass es wahr ist.

Die Alternativhypothese gilt als etabliert, wenn die Nullhypothese verworfen wurde.

Statistisches Testen

Alternativhypothese

HA: Der erwartete diastolische Blutdruck von Patienten mit einer bestimmten Krankheit weicht vom Normwert ab.

(8)

Blutdruck und Herzinfarkt

In einer Studie soll geprüft werden, ob sich der erwartete diastolische Blutdruck µ von Personen mit einem

Myokardinfarkt (MI) vom erwarteten Blutdruck µ0 = 80 mmHg bei Normalpersonen unterscheidet.

H

0

: µ = µ

0

H

A

: µ≠µ

0

(9)

-

Die Daten einer Stichprobe werden in einer einzigen Zahl, der Teststatistik T, zusammengefasst.

-

Der Annahmebereich des Tests enthält alle Werte von T, bei denen H0 beibehalten wird.

-

Der Ablehnungsbereich enthält alle Werte von T, bei denen H0 verworfen wird.

-

Annahme- und Ablehnungsbereich werden von den kritischen Werten begrenzt.

Statistisches Testen

Vorgehensweise

(10)

0.000 0.010 0.020 0.030 0.040

90 100 110 120 130 140 150 160

T Annahmebereich

Ablehnungsbereich Ablehnungsbereich

kritischer Wert

H0

T im Annahmebereich T im Ablehnungsbereich

H

0

beibehalten H

0

verwerfen

kritischer Wert

Statistisches Testen

Vorgehensweise

(11)

H0 beibehalten richtig Typ-II- Fehler

H0 verworfen richtig

Entscheidung

Wahrheit

Typ-I- Fehler

H0 HA

Ein Typ-I-Fehler wird begangen, wenn die Nullhypothese H0 verworfen wird, obwohl sie wahr ist.

Ein Typ-II-Fehler wird begangen, wenn die Nullhypothese H0 beibehalten wird, obwohl sie falsch ist.

Statistisches Testen

mögliche Fehler

(12)

Statistisches Testen

Signifikanzniveau

-

Ein statistischer Test hat das Signifikanzniveau α, wenn die Wahrscheinlichkeit für das Begehen eines Typ-I-

Fehlers höchstens α beträgt.

-

Vor der Datenerhebung werden die kritischen Werte eines Tests so gewählt, dass der Test ein festgelegtes Signifikanzniveau (z.B. 0.05) hat.

-

Die Wahl der kritischen Werte eines Tests hängt nur vom Signifikanzniveau und der Beschaffenheit von H0 ab, nicht aber von HA.

(13)

Blutdruck und Herzinfarkt

Das Signifikanzniveau eines Tests von H0 gegen HA

begrenzt die Wahrscheinlichkeit, fälschlicherweise einen Unterschied zwischen dem mittleren Blutdruck von MI-

Patienten und dem Normwert zu konstatieren.

H

0

: µ = µ

0

H

A

: µ≠µ

0

(14)

c

1-α/2

c

α/2

α/2 α/2

T

H0

Statistisches Testen

kritische Werte

(15)

0 0

:

H µ = µ

Hypothesen

Teststatistik

0 A

:

H µ ≠ µ

Zufallsvariable

X ∼ N( µ , σ

2

)

beide Parameter unbekannt

Ablehnungs-

bereich

T ≤ t

α/2,n-1 oder

T ≥ t

1-α/2,n-1

=-t

α/2,n-1

Vorgehensweise

Ein-Stichproben-t-Test

"Anzahl Freiheitsgrade" (ν)

n /

S

T = X − µ

0

(16)

Blutdruck und Herzinfarkt

In einer Studie soll geprüft werden, ob sich der erwartete diastolische Blutdruck µ von Personen mit einem

Myokardinfarkt (MI) vom erwarteten Blutdruck µ0 = 80 mmHg bei Normalpersonen unterscheidet. An 9 Patienten mit MI

wurden folgende Blutdruckwerte gemessen:

92, 87, 79, 87, 99, 82, 74, 83, 103 mmHg

3 3 . 87

= x

306 .

2 t

2.354

t = ≥

0.975,8

=

mmHg 34

.

9

s =

(17)

Quantile

t-Verteilung

(18)

Statistisches Testen

Power

-

Die Wahrscheinlichkeit eines Typ-II-Fehlers (d.h. die Wahrscheinlichkeit, H0 beizubehalten, wenn HA wahr ist) wird mit

ββββ

bezeichnet.

-

Die Gegenwahrscheinlichkeit 1-β eines Typ-II-Fehlers bezeichnet man als Power des Tests.

-

Die Power eines statistischen Tests hängt von der

konkreten Beschaffenheit von HA ab, nicht aber von H0.

(19)

Statistisches Testen

Fehlerwahrscheinlichkeiten

H0 beibehalten H0 verworfen

Test-

Entscheidung

Wahrheit

H0 HA

≥ 1- α ββββ

≤≤≤≤αααα 1- β

(20)

ββββ

c

1-α/2

c

α/2

α/2 α/2

T

H0

Statistisches Testen

kritische Werte

HA

(21)

Blutdruck und Herzinfarkt

µ

Pµ(T-2.306, T2.306)

80

81 (79) 85 (75) 90 (70)

0.050 0.058 0.262 0.748

α

=0.05

1- β 1- β 1- β

σ=10 mmHg

H

0

: µ =80 H

A

: µ≠ 80

H

0

H

A

(22)

c

1-α/2

c

α/2

α/2 α/2

T

H0

Statistisches Testen

Effektstärke und Power

HA

ββββ

(23)

H0

c

1-α'/2

c

α'/2

α'/2 α'/2

T

ββββ'

Statistisches Testen

Signifikanz und Power

HA

(24)

Quantile

t-Verteilung

(25)

Blutdruck und Herzinfarkt

µ Pµ(T≤-2.896, T≥2.896)

80 81 (79) 85 (75) 90 (70)

1- β 1- β 1- β H

0

: µ =80 H

A

: µ≠ 80

0.050 0.058 0.262 0.748 0.020

0.024 0.143 0.566 H

0

H

A

σ=10 mmHg

α

=0.02

(26)

-

reflektiert in der Regel mangelndes Vorwissen über realistische Alternativen zur Nullhypothese

-

lautet üblicherweise "ist anders als", "weicht ab von"

oder "unterscheidet sich von"

Eine zweiseitige Alternativhypothese spezifiziert keine Richtung der erwarteten Ergebnisse und

Alternativhypothesen

zweiseitig

HA: Der erwartete diastolische Blutdruck von Patienten mit einer bestimmten Krankheit weicht vom Normwert ab.

(27)

T

HA

c

1-α/2

c

α/2

α/2 α/2

H0

ββββ

HA (?)

Alternativhypothesen

zweiseitig

(28)

α HA

c

1-α T

H0

ββββ

Alternativhypothesen

einseitig

(29)

-

reflektiert entweder gesunden Menschenverstand oder geeignetes Vorwissen aus anderen Experimenten

-

lautet üblicherweise "ist größer als", "ist schwerer als"

oder "ist länger als"

Eine einseitige Alternativhypothese spezifiziert die Richtung der erwarteten Ergebnisse und

Alternativhypothesen

einseitig

HA: Der erwartete diastolische Blutdruck von Patienten mit einer bestimmten Krankheit ist höher als der Normwert.

(30)

Klinische Studie

In einer klinischen Studie werden häufig die

Wahrscheinlichkeiten für einen definierten Heilungserfolg zwischen einem neuen Medikament (πM) und einem

Placebo (πP) verglichen.

H

A

: π

M

> π

P

H

0

: π

M

≤π

P

Signifikanzniveau Obergrenze für die Wahrscheinlichkeit, ein wirkungsloses oder dem Placebo unterlegenes Medikament für wirksam zu erklären

Power Wahrscheinlichkeit, ein wirksames Medikament als wirksam zu erkennen

(31)

0 0

:

H µ ≥ µ

Hypothesen

Teststatistik

0 A

:

H µ < µ

Zufallsvariable

X ∼ N( µ , σ

2

)

beide Parameter unbekannt

0 0

:

H µ ≤ µ H

A

: µ > µ

0

T ≤ t

α,n-1

T ≥ t

1-α,n-1

einseitig

Ein-Stichproben-t-Test

bzw.

bzw.

Ablehnungs- bereich

n /

S

T = X − µ

0

(32)

Quantile

t-Verteilung

(33)

Blutdruck und Herzinfarkt

H

0

: µ≤ 80 H

A

: µ >80

µ

80 75 85 90

1- β 1- β

σ=10 mmHg

0.262 0.748

Pµ(T≥1.860)

0.050 0.005 0.392 0.862

α

=0.02

H

0

H

A

Pµ(|T|2.306)

(34)

Welcher Stichprobenumfang n ist erforderlich, um bei einem Signifikanzniveau α einen

bestimmten Effekt µ - µ

0

mit Power 1- β zu entdecken?

2

0 1

1

z

n z 

 

µ

− µ

⋅ + σ

α β

einseitig zweiseitig

2

0 1 2

/

1

z

n z 

 

µ

− µ

⋅ + σ

α β

Stichprobenumfang

Ein-Stichproben-t-Test

(35)

1 2 3 4 5 10

100 1000

σ = 10 α = 0.05

1-β = 0.90, 0.80, 0.70

µ – µ0 n

Stichprobenumfang (einseitig)

Ein-Stichproben-t-Test

(36)

1 2 3 4 5 10

100 1000

σ = 10 α = 0.05

1-β = 0.90, 0.80, 0.70

µ – µ0 n

Stichprobenumfang (zweiseitig)

Ein-Stichproben-t-Test

(37)

H0: Pepsi schmeckt nicht besser als Coke (π≤0.5).

HA: Pepsi schmeckt besser als Coke (π>0.5).

( )

0.5 0.5 0.044

i 59 100

T

P 100

59 i

i 100

i ⋅ =

⋅



= 

=

c0.05 = 59

Schlussfolgerung: Die Anzahl der Probanden, die Pepsi light bevorzugten (d.h. 56), war nicht signifikant größer als die

Anzahl derer, die Coke light bevorzugten (d.h. 44).

Die Pepsi-Herausforderung

( )

0.5 0.5 0.067

i 58 100

T

P 100

58 i

i 100

i ⋅ =

⋅



= 

=

(38)

"Kein Test, der auf der Wahrscheinlichkeitstheorie beruht, kann für sich genommen etwas Nutzbringendes über das

Wahr oder Unwahr einer Hypothese aussagen."

Neyman J, Pearson E (1933) Phil Trans R Soc A, 231:289-337

Egon Pearson (1895-1980)

Jerzy Neyman (1894-1981)

Statistik und Wahrheit

(39)

"Es würde erheblich zum klareren Verständnis des Signifikanztests

beitragen, wenn sich die allgemeine Einsicht einstellte, dass ein

Signifikanztest bei sinnvollem Einsatz Hypothesen insoweit entkräften kann, als sie den verfügbaren Daten

widersprechen: ein Test wird sie aber niemals als gesichert wahr etablieren können."

Ronald A. Fisher (1890-1962)

Statistik und Wahrheit

(40)

p tobs

T H0

Der p-Wert ist die Wahrscheinlichkeit dafür, dass die Teststatistik T den beobachteten oder einen noch unwahrscheinlicheren Wert als tobs annimmt, wenn die

Nullhypothese wahr ist.

Der p-Wert

(41)

0.1 0.01 0.0001

0.001

Evidenz

1.0

p-Wert

keine

"moderat"

"stark"

"sehr stark"

Der p-Wert

Evidenz gegen H0

(42)

Blutdruck und Herzinfarkt

H

0

: µ =80 H

A

: µ≠ 80 H

0

: µ≤ 80 H

A

: µ >80

p = P(T>2.354)

= 0.023

( ) 0 . 5 0 . 5 0 . 1356

i 56 100

X P

p

100

56 i

i 100

i

⋅ =

 ⋅

 

= 

= ∑

=

Die Pepsi-Herausforderung

p = P(|T|>2.354)

= 0.046

H

0

: π≤ 0.5 H

A

: π >0.5

(43)

Pravastatin und kardiovaskuläre Erkrankungen

koronares Ereignis

nicht tödlicher MI oder Tod durch KHK

CABG oder PTCA Schlaganfall

0.132 0.188 0.038 Placebo (n=2078)

0.102 0.141 0.026 Pravastatin

(n=2081) p

0.003

<0.001 0.030

CAGB: Coronary Artery Bypass Grafting, PTCA: Percutaneous Transluminal Coronary Angioplasty

Sacks FM et al. (1996) N Engl J Med 335: 1001–1009

(44)

Negative Ergebnisse sind genauso wichtig wie positive Ergebnisse, da sie das Unwissen

verringern und auf neue interessante

Hypothesen oder Forschungsziele verweisen.

Sie sind auch notwendig, um zukünftiger Forschung in einem bestimmten Gebiet die richtige Richtung zu weisen (Publikationsbias).

Negative Ergebnisse

(45)

- Statistische Fragestellungen werden üblicherweise in der Form sich gegenseitig ausschließender Hypothesen über

Populationsparameter formuliert.

- Statistische Tests sind Entscheidungsregeln, nach denen eine gegebene Nullhypothese auf der Grundlage von Daten aus einer Stichprobe verworfen oder beibehalten wird.

- Bei der Durchführung eines statistischen Tests können zwei Arten von Fehlern dadurch eintreten, dass entweder die Null- oder die Alternativhypothese fälschlich verworfen wird.

- Die Wahrscheinlichkeit für einen Typ-I-Fehler wird durch das Signifikanzniveau des Tests begrenzt; die Wahrscheinlichkeit, einen Typ-II-Fehler zu vermeiden, heißt Power des Tests.

- Der p-Wert ist ein Maß für die Diskrepanz zwischen der Nullhypothese und den verfügbaren Daten.

Zusammenfassung

Referenzen

ÄHNLICHE DOKUMENTE

Voraussetzung für diese Führungsmodelle ist natürlich, dass bei Stellenausschreibungen entsprechend den Richtlinien zur Chancengleichheit von Frauen und Männern im

Voraussetzung für diese Führungsmodelle ist, dass bei Stellenausschreibungen entsprechend den Richtlinien zur Chancengleichheit von Frauen und Männern im Landratsamt

Voraussetzung für diese Führungsmodelle ist, dass bei Stellenausschreibungen entsprechend den Richtlinien zur Chancengleichheit von Frauen und Männern im Landratsamt

Bei den Stellenbesetzungen in der mittleren Führungsebene zeigt sich, dass Frauen bei entsprechender Qualifikation im Landratsamt gute Chancen bei der Besetzung von

Voraussetzung für diese Führungsmodelle ist natürlich, dass bei Stellenausschreibungen entsprechend den Richtlinien zur Chancengleichheit von Frauen und Männern im

Eine Gruppe von Sch¨ulern wird ein Schuljahr lang nach der alten Trainings- methode unterrichtet und parallel dazu eine Gruppe von Sch¨ulern im selben Schuljahr nach der

Gräfenhainichen, 12.09.2012 Gemäß Ziffer 6.2 der „Grundsätze für die Gewährung von Zuwendungen zur Verbesse- rung der Breitbandversorgung in Sachsen- Anhalt“ ( Gemeinsamer

Bad Schmiedeberg, 05.11.2012 Gemäß Ziffer 6.2 der „Grundsätze für die Gewährung von Zuwendungen zur Verbesse- rung der Breitbandversorgung in Sachsen- Anhalt“ ( Gemeinsamer