5 TESTEN VON HYPOTHESEN II

(1)

5 TESTEN VON HYPOTHESEN II

Lernziele:

1) Die Versuchsanlagen „Parallelversuch“ und „Paarvergleich“ zum Vergleich von zwei Merkmalen unterscheiden können.

2) Mit dem Zwei-Stichproben-t-Test die Mittelwerte von zwei mit gleichen Varianzen normalverteilten Untersuchungsmerkmalen vergleichen können.

3) Mit dem F-Test entscheiden können, ob die Varianzen von zwei unabhängigen Stichproben normalverteilter Variablen

voneinander abweichen bzw. die eine Varianz die andere überschreitet/ unterschreitet.

4) Mit dem 2-Stichproben-t-Test die Varianzen von zwei

unabhängigen Stichproben vergleichen können (Sonderfall des Levene-Tests).

5) Mit dem Welch-Test die Mittelwerte von zwei normalverteilten Untersuchungsmerkmalen vergleichen können.

6) Mit dem Wilcoxon-Rangsummen-Test die Mittelwerte von zwei bis auf die Lage identisch verteilten Untersuchungsmerkmalen im Rahmen von Parallelversuchen vergleichen können.

7) Mit dem Differenzen-t-Test (paired t-test) die Mittelwerte von zwei normalverteilten Untersuchungsmerkmalen vergleichen können.

8) Mit dem Wilcoxon-Test für Paardifferenzen

Mittelwertunterschiede im Rahmen von Paarvergleichen prüfen können.

9) Zwei Wahrscheinlichkeiten im Rahmen eines Parallelversuchs mit großen Stichproben vergleichen können.

10) Zwei Wahrscheinlichkeiten mit abhängigen Stichproben

vergleichen können.

(2)

Übersicht

über grundlegende 2-Stichproben-Testverfahren im Rahmen von Parallelversuchen (mit unabhängigen Stichproben) und Paarvergleichen (mit abhängigen Stichproben) :

• Normalverteilte Untersuchungsmerkmale:

Die Grafik enthält zusätzlich den Rangsummen-Test von Wilcoxon, den Wilcoxon-Test für Paardifferenzen sowie den Vorzeichen-Test als nichtparametrische Alternativen zum 2- Stichproben-t-Test bzw. zum Differenzen-t-Test. Den Testbezeichnungen sind die entsprechenden R-Funktionen beigefügt.

• 2-stufig skalierte Untersuchungsmerkmale:

(3)

Lernziel 5.1:

Die Versuchsanlagen „Parallelversuch“ und „Paarvergleich“ zum Vergleich von zwei Merkmalen unterscheiden können.

Parallelversuch:

• grundlegende Versuchsanlage, um unter kontrollierten

Bedingungen zwei Gruppen hinsichtlich eines interessierenden Untersuchungsmerkmals X (z.B. Präparatwirkung) zu vergleichen.

Bei einem metrischen Untersuchungsmerkmal geht es dabei meist um einen Vergleich von Mittelwerten unter zwei

Versuchsbedingungen, bei einem alternativ skalierten

Untersuchungsmerkmal erfolgt der Vergleich der Gruppen in der Regel an Hand der relativen Häufigkeiten einer

Merkmalsausprägung.

• Aus einer "Zielpopulation" wird eine bestimmte Anzahl von Untersuchungseinheiten (Probanden, Patienten, Proben) ausgewählt und damit zwei (möglichst gleich große) Gruppen, sogenannte "Parallelgruppen" gebildet. Die eine Gruppe ist die Testgruppe (z.B. zur Erprobung eines neuen Präparates), die andere Gruppe in der Regel eine Kontrollgruppe (z.B. eine Placebogruppe oder eine mit einem herkömmlichen Präparat behandelte Gruppe). Durch eine zufällige Zuordnung der Untersuchungseinheiten erreicht man, dass die Gruppen

"strukturgleich" sind. Das bedeutet, dass es in den Gruppen - außer den angewendeten Behandlungen - keine weiteren systematischen Einflussfaktoren gibt.

• Organisation der Beobachtungsdaten beim Parallelversuch:

Die Variablen X

₁

und X

₂

bezeichnen das Untersuchungsmerkmal in den Parallelgruppen; x

₁₁

, x

₂₁

, …, x

_n1,1

und x

₁₂

, x

₂₂

, …, x

_n2,2

sind die an den Untersuchungseinheiten der jeweiligen Gruppe

beobachteten Werte von X

1

bzw. X

2

. Man beachte, dass zwischen den Untersuchungseinheiten der Parallelgruppen keinerlei

Beziehung besteht, die eine Anordnung in Paaren rechtfertigen

(4)

würde. Vielmehr können die Untersuchungseinheiten (und

entsprechend die Stichprobenwerte) der Testgruppe unabhängig von jenen der Kontrollgruppe angeordnet werden. Es ist daher üblich, den Parallelversuch auch als einen Versuch mit

unabhängigen Stichproben zu bezeichnen. Die Unabhängigkeit der Stichproben kommt auch darin zum Ausdruck, dass die

Stichprobenumfänge n

₁

und n

₂

der Parallelgruppen grundsätzlich verschieden sein können; dennoch sollten symmetrische

Versuchsanlagen mit n

1

=n

2

angestrebt werden, weil sie i. Allg.

eine höhere Testgüte aufweisen.

Paarvergleich (oder 2-Stichprobenproblem mit abhängigen (oder verbundenen) Stichproben:

• Auf Grund eines sachlogischen Zusammenhangs kann jeder Wert der einen Stichprobe mit einem Wert der anderen Stichprobe zu einem Wertepaar zusammengefasst werden kann. Ein solcher Zusammenhang ist z.B. gegeben, wenn die Stichprobenwerte durch zweimaliges Beobachten an ein und derselben

Untersuchungseinheit gewonnen wurden.

• Typische Anwendungsfälle sind die sogenannten selbst- kontrollierten Versuche zur Prüfung eines allfälligen

Behandlungseffektes: Um die Auswirkung einer Behandlung auf eine Zielvariable zu prüfen, werden aus einer Zielpopulation n Probanden ausgewählt und an jedem Probanden die Zielvariable vor der Behandlung (Variable X

₁

) sowie nach erfolgter Behandlung (Variable X

₂

) beobachtet. Von jedem Probanden liegt also ein Paar von Beobachtungswerten vor. Die aus einem Paarvergleich

resultierenden Stichproben sind daher als Spalten einer

Datenmatrix zu sehen, in der jede Zeile einem "Block" (z.B. einem Probanden) entspricht, über den die Stichprobenwerte zu

Wertepaaren verbunden werden.

• Organisation der Beobachtungsdaten beim Paarvergleich:

(5)

Lernziel 5.2:

Mit dem Zwei-Stichproben-t-Test die Mittelwerte von zwei mit gleichen Varianzen normalverteilten Untersuchungsmerkmalen vergleichen können.

Ablaufschema:

• Beobachtungsdaten und Modell:

Es liegen zwei (unabhängige) Beobachtungsreihen x

11

, x

21

, ..., x

_n1,1

bzw. x

₁₂

, x

₂₂

, ..., x

_n2,2

vor. Die Mittelwerte und

Varianzen der Stichproben seien x

₁

und x

₂

bzw. s

1

2

und s

2

. Die unter der ersten Versuchsbedingung beobachteten

Merkmalswerte x

_i1

sind Realisierungen der (unabhängigen und identisch verteilten) Zufallsvariablen X

i1

~ N( µ

1

, σ

²1

)

(i=1,2,...,n

1

); das mit diesen Variablen gebildete

Stichprobenmittel sei X

₁

, die Stichprobenvarianz sei S

1 2

. Entsprechend sind die x

_i2

Realisierungen der Zufallsvariablen X

i2

~ N( µ

2

, σ

²2

) (i=1,2,...,n

2

), aus denen wir das

Stichprobenmittel X

₂

sowie die Stichprobenvarianz S

2

bilden.

Es gelte: σ

²1

= σ

²2

(Varianzhomogenität ).

• Hypothesen:

Der Vergleich der Mittelwerte µ

1

und µ

2

erfolgt nach einer der folgenden Testvarianten:

H

0

: µ

1

= µ

2

gegen H

1

: µ

1

≠ µ

2

(Variante II) H

0

: µ

1

≤ µ

2

gegen H

1

: µ

1

> µ

2

(Variante Ia) H

₀

: µ

1

≥ µ

2

gegen H

₁

: µ

1

< µ

2

(Variante Ib)

• Testgröße:

2 1

2

2 1 2

2

1

~ für

1

¹ ²

µ = µ

+

= −

_n₊_n ₋

p

t n S n

X TG X

mit

2 ) 1 (

) 1 (

2 1

2 2 2

2 1 1

− +

= −

n n

S n

S S

_p

n

Ersetzt man X

₁

und X

₂

durch die arithmetischen Mittel x

₁

bzw. x

₂

sowie S

12

und S

22

durch die Varianzen s

12

bzw. s

22

, so erhält man

die Realisierung TG

_s

der Testgröße. Im Falle der Testvarianten Ia

und Ib möge TG

_s

≥ 0 bzw. TG

_s

≤ 0 gelten.

(6)

• Entscheidung mit dem P-Wert

¹

: P < α ⇒ H

0

ablehnen; dabei ist

P=2F

n1+ n2-2

(-|TG

s

|) für die zweiseitige Testvariante II, P=1-F

_{n1+ n2-2}

(TG

_s

) für die Variante Ia,

P=F

_{n1+ n2-2}

(TG

_s

) für die Variante Ib;

F

_{n1+ n2-2}

bezeichnet die Verteilungsfunktionen der t-Verteilung mit dem Freiheitsgrad f=n

₁

+ n

₂

-2.

• Planung des Stichprobenumfangs:

Um auf dem Niveau α mit der Sicherheit 1- β eine Entscheidung für H

₁

herbeizuführen, wenn µ

1

von µ

2

um ∆ ≠ 0 im Sinne der

Alternativhypothese abweicht, kann für symmetrische

Versuchsanlagen mit n

1

=n

2

=n im Falle der 2-seitigen Testvariante II der erforderliche Mindeststichprobenumfang

²

näherungsweise aus

( )

2

1 2 / 2 1

2

β

σ

α

−

+

≈ ∆ z z

n

bestimmt werden. Im Falle der 1-seitigen Testvarianten Ia und Ib ist α/2 durch α zu ersetzen. Bei der Anwendung dieser Formeln muss ein Schätzwert für σ

²

zur Verfügung stehen, z.B. eine Realisierung der gewichteten Stichprobenvarianz S

p

2

. Beispiel 5.1:

Die Konzentration (in µ g/dl) von Eisen im Blutserum wurde bei

15- bis 18-jährigen Schülern (Variable X

1

) und Schülerinnen (Variable X

2

) bestimmt. Die verwendeten Zufallsstichproben haben jeweils den

Umfang n

₁

=n

₂

=20, die Mittelwerte sind x

₁

=102.1, x

₂

=81.4 und die Standardabweichungen s

1

=39.1, s

2

=42.5.

a) Unter der Annahme von mit gleichen Varianzen normalverteilten Grundgesamtheiten X

₁

~ N( µ

1

, σ

²

) und X

₂

~ N( µ

2

, σ

²

) zeigen wir, dass die beobachteten Mittelwerte x

₁

und x

₂

sich auf 5%igem Niveau nicht signifikant unterscheiden.

b) Anschließend bestimmen wir den erforderlichen

1 Die P-Werte für die Varianten des 2-Stichproben-t-Tests erhält man z.B. mit der R-Funktion t.test(), wenn der Parameter var.equal=TRUE gesetzt wird. Mit der Festlegung var.equal=FALSE

(Voreinstellung) führt die R-Funktion t.test() den im Folgenden behandelten Welch-Test zum Vergleich zweier Mittelwerte aus, der keine gleichen Varianzen voraussetzt.

2 Eine exakte Bestimmung des erforderlichen Mindeststichprobenumfangs kann wie im Falle des 1- Stichproben-t-Tests z.B. mit der R-Funktion power.t.test() vorgenommen werden. Wenn man n1=n2=n,

∆, σ und α vorgibt, liefert diese Funktion die entsprechenden Werte der Gütefunktion des 2- Stichproben-t-Tests.

(7)

Mindeststichprobenumfang, der geplant werden müsste, um mit dem Test bei einem Mittelwertunterschied von ∆ = µ

1

- µ

2

=20 mit 90%iger Sicherheit ein signifikantes Ergebnis zu erhalten.

Lösung mit R:

> options(digits=4)

> xquer1 <- 102.1; xquer2 <- 81.4 # Mittelwerte

> s1 <- 39.1; s2 <- 42.5 # Standardabweichungen

> n1 <- n2 <- 20 # Stichprobenumfänge

> # a) H0: mu1=mu2 gegen mu1 <> mu2

> alpha <- 0.05; f <- n1+n2-2

> sp2 <- ((n1-1)*s1^2+(n2-1)*s2^2)/f; sp <- sqrt(sp2)

> tgs <- (xquer1-xquer2)/sp*sqrt(n1*n2/(n1+n2))

> # Entscheidung mit Ablehnungsbereich

> q <- qt(1-alpha/2, f)

> # Entscheidung mit P-Wert

> P <- 2*pt(-abs(tgs), f)

> print(cbind(alpha, f, q, sp, tgs, P)) alpha f q sp tgs P [1,] 0.05 38 2.024 40.84 1.603 0.1172

Wegen P = 11.72% ≥ 5% kann H0 nicht abgelehnt werden.

> # b) Mindeststichprobenumfang: Berechnung mit Näherungsformel

> Delta <- 20; beta <- 0.1

> qa <- qnorm(1-alpha/2); qb <- qnorm(1-beta)

> n <- 2*sp2/Delta^2*(qa+qb)^2

> print(cbind(alpha, qa, beta, qb, n)) alpha qa beta qb n

[1,] 0.05 1.96 0.1 1.282 87.61

> # Mindeststichprobenumfang, exakte Rechnung mit R-Funktion

> power.t.test(delta=20, sd=sp, sig.level=0.05, power=0.9, + type="two.sample", alternative="two.sided")

Two-sample t test power calculation n = 88.58

delta = 20 sd = 40.84 sig.level = 0.05 power = 0.9

alternative = two.sided

NOTE: n is number in *each* group

Lernziel 5.3:

Mit dem F-Test entscheiden können, ob die Varianzen von zwei unabhängigen Stichproben normalverteilter Variablen voneinander abweichen bzw. die eine Varianz die andere überschreitet/

unterschreitet.

Ablaufschema:

• Beobachtungsdaten und Modell:

Es liegen die (voneinander unabhängigen) Stichproben x

11

, x

21

, …, x

_n1,1

und x

₁₂

, x

₂₂

, …, x

_n2,2

mit den Varianzen σ

1

2

bzw. σ

2

vor; die x

_i1

(i=1,2,…,n

1

) sind Realisierungen der (unabhängigen und identisch verteilten) Zufallsvariablen X

_i1

~ N( µ

1

, σ

1

2

); analog sind die x

_i2

(8)

(i=1,2,…,n

2

) Realisierungen der Zufallsvariablen X

i2

~ N( µ

2

, σ

22

).

Aus den Zufallsvariablen X

_i1

und X

_i2

werden die Stichprobenvarianzen S

1

2

bzw. S

2

gebildet.

• Hypothesen und Testgröße:

Der Vergleich der Varianzen σ

12

und σ

22

erfolgt nach einer der folgenden Testvarianten:

H

0

: σ

1

2

= σ

2

gegen H

1

: σ

1

2

≠ σ

2

(Variante II) H

0

: σ

1

2

≤ σ

2

gegen H

1

: σ

1

2

> σ

2

(Variante Ia), H

₀

: σ

1

2

≥ σ

2

gegen H

₁

: σ

1

2

< σ

2

(Variante Ib), Als Testgröße wird das Varianzverhältnis TG=S

1

2

/S

2

verwendet, das unter H

0

F-verteilt ist mit den Freiheitsgraden f

1

=n

1

-1 und f

2

=n

2

-1. Setzt man für S

12

und S

22

die aus den beiden Stichproben berechneten Varianzen s

₁²

bzw. s

₂²

ein, ergibt sich die

Realisierung TG

_s

=s

₁²

/s

₂²

der Testgröße

³

.

• Entscheidung mit dem P-Wert

⁴

: P < α ⇒ H

0

ablehnen; dabei ist

P=1-F

_{n1-1, n2-1}

(TG

_s

) + F

_{n2-1, n1-1}

(1/TG

_s

)=2[1-F

_{n1-1, n2-1}

(TG

_s

)] für die zweiseitige Testvariante II,

P=1-F

_{n1-1, n2-1}

(TG

_s

) für die Variante Ia, P=F

_{n1-1, n2-1}

(TG

_s

) für die Variante Ib;

F

n1-1, n2-1

und F

n2-1, n1-1

bezeichnen die Verteilungsfunktionen der F- Verteilung mit den Freiheitsgraden f

1

=n

1

-1, f

2

=n

2

-1 bzw. f

1

=n

2

-1, f

2

=n

1

-1.

Beispiel 5.2:

Bei einer Untersuchung der Cd-Belastung von Forellen in einem

Fließgewässer wurden an zwei Stellen je zehn Forellen gefangen und der Cd-Gehalt X (in mg/g Frischgewicht) bestimmt. Dabei ergaben sich die Messwerte

Stelle 1: 76.8, 72.3, 74.0, 73.2, 46.1, 76.5, 61.9, 62.4, 65.9, 62.4 Stelle 2: 64.4, 60.0, 59.4, 61.2, 52.0, 58.1, 55.8, 62.0, 57.8, 57.2.

Man nehme an, dass die Cd-Belastungen der Forellen an den Stellen 1 (Variable X

₁

) und 2 (Variable X

₂

) näherungsweise normalverteilt sind.

3 Im Falle der Testvarianten Ia und Ib möge TGs≥ 1 bzw. TGs≤ 1 gelten. Im Falle der 2-seitigen Testvariante nehmen wir TGs≥ 1 an, was durch entsprechende Bezeichnung der Stichproben stets erreicht werden kann.

4 Der P-Wert wurde als Wahrscheinlichkeit definiert, dass - bei Gültigkeit von H0 - die Testgröße einen Wert annimmt, der zumindest so extrem (in Richtung der Alternativhypothese) liegt, wie die

beobachtete Realisierung. In R werden die P-Werte des F-Tests mit der Funktion var.test() bestimmt.

(9)

Die Frage ist, ob sich die Varianzen von X

1

und X

2

auf 5%igem Testniveau signifikant unterscheiden.

Lösung mit R:

> x1 <- c(76.8, 72.3, 74.0, 73.2, 46.1, 76.5, 61.9, 62.4, 65.9, 62.4)

> x2 <- c(64.4, 60.0, 59.4, 61.2, 52.0, 58.1, 55.8, 62.0, 57.8, 57.2)

> # H0: sigma1^2 = sigma2^2 gegen H1: sigma1^2 <> sigma2^2

> alpha <- 0.05; n1 <- n2 <- length(x1)

> x1quer <- mean(x1); var1 <- var(x1); s1 <- sd(x1)

> x2quer <- mean(x2); var2 <- var(x2); s2 <- sd(x2)

> print(cbind(n1, x1quer, s1), digits=4) n1 x1quer s1

[1,] 10 67.15 9.475

> print(cbind(n2, x2quer, s2), digits=4) n2 x2quer s2

[1,] 10 58.79 3.471

> tg <- var1/var2; f1 <- n1-1; f2 <- n2-1

> if (tg>1) {P <- 2*(1-pf(tg, f1, f2))} else {P <- 2*pf(tg, f1, f2)}

> print(cbind(alpha, tg, P)) alpha tg P [1,] 0.05 7.45 0.006268278

> if (P < alpha) {res <- "Entscheidung für H1"} else + {res <- "H0 kann nicht abglehnt werden"}

> print(res)

[1] "Entscheidung für H1"

> # Loesung mit R-Funktion var.test():

> var.test(x1, x2)

F test to compare two variances data: x1 and x2

F = 7.45, num df = 9, denom df = 9, p-value = 0.006268

alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval:

1.850475 29.993655 sample estimates:

ratio of variances 7.45

> #

> # Berechnung der Wahrscheinlichkeit (Power), die beobachtete

> # Abweichung des Varianzverhältnisses von 1 als signifikant zu erkennen

> B <- 10000

> Ps <- replicate(B,

+ var.test(rnorm(n1,x1quer,s1), rnorm(n2,x2quer,s2))$p.value)

> sigres <- sum(Ps<alpha); power <- sigres/B

> print(cbind(sigres, B, power), digits=4) sigres B power

[1,] 8165 10000 0.8165

Hinweis:

Wird der F-Test in Verbindung mit dem 2-Stichproben t-Test als

„Vortest“ zum Nachweis der Varianzhomogenität eingesetzt, kann das Gesamtirrtumsrisiko α

g

für beide Testentscheidungen bis knapp 2 α

ansteigen. Diesen nicht erwünschten Nebeneffekt vermeidet man, wenn

als Alternative zum Mittelwertvergleich mit dem 2-Stichproben t-Test

und dem F-Test als Vortest der folgende, nicht ganz so „scharfe“ Welch-

Test eingesetzt wird.

(10)

Lernziel 5.4:

Mit dem 2-Stichproben-t-Test die Varianzen von zwei unabhängigen Stichproben vergleichen können (Sonderfall des Levene-Tests).

Prüft man in Verbindung mit dem 2-Stichproben-t-Test die Homogenität der Varianzen, so verwendet man dazu meist den Levene-Test, der robuster gegenüber Abweichungen von der Normalverteilungsannahme ist als der F-Test. Die Durchführung ist einfach.

Es seien x

₁₁

, x

₂₁

, …, x

_n1,1

und x

₁₂

, x

₂₂

, …, x

_n2,2

die gemessenen Werte der Parallelstichproben unter der Versuchsbedingung 1 bzw. 2. Wir

bestimmen die arithmetischen Mittel x

₁

und x

₂

der Parallelstichproben und bilden die Stichproben z

_i1

=|x

_i1

- x

₁

| und z

_i2

=|x

_i2

- x

₂

| (i=1, 2, …, n

_i

), in dem wir von jedem Einzelwert den entsprechenden Gruppenmittelwert abziehen und davon den Betrag nehmen. Die arithmetischen Mittel z

₁

und z

₂

der z-Stichproben kann man als Maß für die mittlere Streuung der Originalwerte um den jeweiligen Gruppenmittelwert ansehen. Gibt es zwischen den Varianzen der Originalstichproben einen deutlichen

Unterschied, werden sich auch die arithmetischen Mittel z

₁

und z

₂

unterscheiden. Ob der Unterschied auf einem vorgegebenem

Niveau α signifikant ist, kann mit dem auf die z-Stichproben angewandten 2-Stichproben-t-Test entschieden werden.

Beispiel 5.3:

Es soll mit dem Levene-Test geprüft werden, ob sich die Varianzen der als normalverteilt angenommenen Variablen X

₁

und X

₂

auf 5%igem Testniveau signifikant unterscheiden. Die Stichprobenwerte sind die in Beispiel 5.2 angegebenen Cd-Werte an zwei verschiedenen Stellen eines Fließgewässers.

Lösung mit R:

> x1 <- c(76.8, 72.3, 74.0, 73.2, 46.1, 76.5, 61.9, 62.4, 65.9, 62.4)

> x2 <- c(64.4, 60.0, 59.4, 61.2, 52.0, 58.1, 55.8, 62.0, 57.8, 57.2)

> # H0: sigma1^2 = sigma2^2 vs. H1: sigma1^2 <> sigma2^2

> # a) Lösung mit der Funktion t.test()

> z1 <- abs(x1-mean(x1)); z2 <- abs(x2-mean(x2))

> P <- t.test(z1, z2, var.equal=T)$p.value

> print(P, digits=4) [1] 0.0169

> # b) Lösung mit der Funktion leveneTest() im Paket car

> library(car)

> x12 <- c(x1, x2)

> n1 <- length(x1); n2 <- length(x2)

> stelle <- factor(c(rep(1, n1), rep(2, n2)))

> leveneTest(x12, group=stelle, center=mean)

Levene's Test for Homogeneity of Variance (center = mean) Df F value Pr(>F)

group 1 6.9307 0.0169 *

(11)

18 ---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Lernziel 5.5:

Mit dem Welch-Test die Mittelwerte von zwei normalverteilten Untersuchungsmerkmalen vergleichen können.

Ablaufschema:

• Beobachtungsdaten und Modell, Hypothesen:

wie beim Zwei-Stichproben-t-Test bis auf die Voraussetzung σ

²1

= σ

²2

(Varianzhomogenität ).

• Testgröße:

( )

( ^/ ) ^/( ^/ ¹ ⁾ ( ^/ ^/ ) ^/( ¹ ⁾ ^(abgerunde ^t ^auf ^ganze ^Zahl)

mit

für weise) (näherungs

verteilt -

t

~ / /

2 2 2 2 2 1

2 1 2 1

2 2 2 2 1 2 1

2 1 f

2 2 2 1 2 1

2 1

− +

−

= +

+ =

= −

n n

s n

n s

n s n f s

n S n S

X

TG X µ µ

• Entscheidung:

analog zur Vorgangsweise beim Zwei-Stichproben-t-Test mit dem P-Wert bzw. mit Hilfe des Ablehnungsbereichs; der dortige

Freiheitsgrad n

₁

+n

₂

-2 ist durch f zu ersetzen.

Beispiel 5.4:

Mit den Daten von Aufgabe 5.2 soll geklärt werden, ob der mittlere Cd- Gehalt an der Stelle 1 auf 5%igem Testniveau signifikant über dem entsprechenden Wert an der Stelle 2 liegt.

Lösung mit R:

> x1 <- c(76.8, 72.3, 74.0, 73.2, 46.1, 76.5, 61.9, 62.4, 65.9, 62.4)

> x2 <- c(64.4, 60.0, 59.4, 61.2, 52.0, 58.1, 55.8, 62.0, 57.8, 57.2)

> # a) Datenbeschreibung, Normalverteilungsüberprüfung

> fivenum(x1); fivenum(x2); boxplot(x1, x2, names=c("Stelle 1", "Stelle 2"))

[1] 46.1 62.4 69.1 74.0 76.8 [1] 52.00 57.20 58.75 61.20 64.40

> # H0: Grundgesamtheit X1 bzw. X2 ist normalverteilt

> shapiro.test(x1); shapiro.test(x2) Shapiro-Wilk normality test data: x1

W = 0.86821, p-value = 0.09526

Wegen P = 9.53% >= 5% kann H0 nicht abgelehnt werden!

(12)

Shapiro-Wilk normality test data: x2

W = 0.98459, p-value = 0.985

Wegen P = 98.5% >= 5% kann H0 nicht abgelehnt werden!

> # b) Mittelwertvergleich H0: mu1 <= mu2 gegen mu1 > mu2

> # b1) P-Wert-Berechnung mit Formel

> xquer1 <- mean(x1); s1 <- sd(x1)

> xquer2 <- mean(x2); s2 <- sd(x2)

> n1 <- n2 <- length(x1); se <- sqrt(s1^2/n1+s2^2/n2)

> tg <- (xquer1-xquer2)/se

> fz <- (s1^2/n1+s2^2/n2)^2; fn <- (s1^2/n1)^2/(n1-1)+(s2^2/n2)^2/(n2-1)

> f <- fz/fn; alpha <- 0.05; tq <- qt(1-alpha, f); P <- 1-pt(tg, f)

> print(cbind(tg, f, alpha, tq, P), digits=4) tg f alpha tq P

[1,] 2.62 11.37 0.05 1.791 0.01163 Wegen P = 1.16% < 5% wird H0 abgelehnt!

> # b2) P-Wert-Berechnung mit t.test()

> t.test(x1, x2, alternative="greater") Welch Two Sample t-test

data: x1 and x2

t = 2.6199, df = 11.373, p-value = 0.01163

alternative hypothesis: true difference in means is greater than 0 95 percent confidence interval:

2.646589 Inf sample estimates:

mean of x mean of y 67.15 58.79

> # c) näherungsweise Bestimmung der Wahrscheinlichkeit (Power), die

> # beobachtete Mittelwertdifferenz als siginfikant zu erkennen

> B <- 10000

> Ps <- replicate(B,

+ t.test(rnorm(n1,xquer1, s1), rnorm(n2,xquer2, s2), alternative="greater")$p.value)

> sigres <- sum(Ps < alpha); power <- sigres/B

> print(cbind(sigres, B, power), digits=4) sigres B power

[1,] 7936 10000 0.7936

Lernziel 5.6:*

Mit dem Wilcoxon-Rangsummen-Test die Mittelwerte von zwei bis auf die Lage identisch verteilten Untersuchungsmerkmalen im Rahmen von Parallelversuchen vergleichen können.

Ablaufschema:

• Beobachtungsdaten:

Es liegen von den Variablen X

₁

und X

₂

(X

₁

und X

₂

beziehen sich oft auf ein Merkmal, das unter zwei Bedingungen beobachtet wird) zwei unabhängige Beobachtungsreihen Stichproben x

11

, x

21

, ..., x

n1,1

und x

12

, x

22

, ..., x

n2,2

vor. Diese werden in der folgenden Weise

rangskaliert:

Man kombiniert beide Stichproben und schreibt die Stichprobenwerte

(13)

nach aufsteigender Größe geordnet an. Die Stichprobenwerte werden dann (von 1 bis n

1

+n

2

) durchnummeriert und die erhaltenen

Platznummern (Ränge) den Stichprobenwerten x

i1

und x

i2

als Rangzahlen r

_i1

bzw. r

_i2

zugeordnet. Stimmen mehrere

Stichprobenwerte überein, wird jedem dieser gleichen Werte das arithmetische Mittel der zugeordneten Nummern als Rangzahl zugewiesen. Die Summe der den Werten der ersten Stichprobe zugeteilten Rangzahlen sei r

1

, die Rangsumme der zweiten Stichprobe sei r

2

.

• Modell:

Jedes x

i1

(x

i2

) ist Realisierung einer Zufallsvariablen X

i1

(X

i2

) mit der Verteilungsfunktion F

1

(F

2

). F

1

und F

2

unterscheiden sich nur in der Lage, d.h., Graph von F

2

geht durch Verschiebung um ein bestimmtes θ in Richtung der positiven horizontalen Achse in Graphen von F

₁

über

⁵

.

Bei positivem θ ist zu erwarten, dass X

1

"im Mittel" größere Werte als X

2

annimmt; X

2

wird in diesem Fall als stochastisch kleiner als X

1

bezeichnet. Bei negativem θ ^{wird X}

2

die Zufallsvariable X1 "im Mittel"

übertreffen; in diesem Fall heißt X

2

stochastisch größer als X

1

. Ist schließlich θ =0, fallen die Verteilungsfunktionen F

₁

und F

₂

zusammen und die Zufallsvariablen X

1

und X

2

heißen stochastisch gleich. Die für die X

1

- und X

2

-Reihe berechneten Rangsummen seien R

1

bzw. R

2

mit den Realisierungen r

1

bzw. r

2

.

• Hypothesen und Testgröße:

Fall II: H

₀

: θ = 0 gegen H

₁

: θ ≠ 0 (X

₁

stochastisch ungleich X

₂

) Fall Ia: H

0

: θ ≤ 0 gegen H

1

: θ ^{> 0 (X}

1

stochastisch größer als X

2

) Fall Ib: H

0

: θ ≥ 0 gegen H

1

: θ < 0 (X

1

stochastisch kleiner als X

2

)

Als Testgröße verwenden wir die Summe der Ränge der X

₁

-

Stichprobe, vermindert um den kleinstmöglichen Wert n

₁

(n

¹

+1)/2 dieser Rangsumme, d.h.

TG = W = R

1

-n

1

(n

1

+1)/2.

Für θ =0 ist der Erwartungswert und die Varianz der Testgröße durch E(W)= µ

W

=n

₁

n

₂

/2 bzw. Var(W)= σ

W

2

=n

₁

n

₂

(n

₁

+n

₂

+1)/12

5 Diese Voraussetzung bedeutet im Besonderen, dass die Varianzen von X1 und X2 übereinstimmen müssen. Ist n1=n2 zeichnet sich der Rangsummen-Test von Wilcoxon aber durch seine Robustheit gegenüber ungleichen Varianzen aus.

(14)

gegeben. Bei größeren Werten von n

1

und n

2

(etwa ab n

1

, n

2

> 20) kann die Nullverteilung von W (d.h. die Verteilung unter der

Voraussetzung θ =0) durch die N( µ

W

, σ

W

2

)-Verteilung approximiert werden.

• Entscheidung mit dem P-Wert

⁶

: P < α ⇒ H

₀

ablehnen; dabei ist

P= F

W

( µ

W

-d) + 1- F

W

( µ

W

+d-1) mit d = |TG

s

- µ

W

| für die zweiseitige Testvariante II,

P=1 - F

_W

(TG

_s

-1) für die Variante Ia, P=1 - F

_W

(TG

_s

) für die Variante Ib

(F

W

bezeichnet die Verteilungsfunktionen von W bei Gültigkeit von H

0

).

Beispiel 5.5:

In zwei Entfernungen vom Ufer eines Fließgewässers wurden an jeweils 12 Entnahmestellen die folgenden Werte der Besiedlungsdichten X

₁

und X

2

(Makrozoobenthos pro m

²

) beobachtet. Man prüfe mit dem

Rangsummen-Test von Wilcoxon, ob sich die betrachtete

Besiedlungsdichte im Mittel von der Entfernung 1 zur Entfernung 2 signifikant verändert. Als Signifikanzniveau sei α =0.05 vereinbart.

Entfernung 1:

2389, 1705, 1678, 5766, 1393, 3599, 6182, 872, 1373, 3832, 2952, 800 Entfernung 2:

9123, 1949, 5827, 9657, 4919, 3335, 1520, 5182, 4446, 3006, 4069, 1921

Lösung mit R:

> # Beispiel 5.4 (Rangsummentest von Wilcoxon)

> x1 <- c(2389,1705,1678,5766,1393,3599,6182, 872,1373,3832,2952, 800)

> x2 <- c(9123,1949,5827,9657,4919,3335,1520,5182,4446,3006,4069,1921)

> x1med <- median(x1); s1 <- sd(x1); n1 <- length(x1)

> x2med <- median(x2); s2 <- sd(x2); n2 <- length(x2)

> print(cbind(x1med, x2med, s1, s2, n1, n2), digits=4) x1med x2med s1 s2 n1 n2

[1,] 2047 4258 1815 2630 12 12

> # H0: X1 st.= X2 gegen H1: X1 st. <> X2

> alpha <- 0.05

> # Berechnung des P-Werts mit R-Funktion wilcox.test()

6 In R werden Werte der Verteilungsfunktion FW von W mit der Funktion pwilcox() und die Quantile von F_W mit qwilcox() bestimmt. Mit der Funktion wilcox.test() erhält man den exakten P-Wert des Tests, wenn die Stichprobenumfänge kleiner als 50 sind und keine Bindungen (gleiche Stichprobenwerte) auftreten; andernfalls wird von der Normalverteilungsapproximation Gebrauch gemacht. Einen auch bei Bindungen exakten Rangsummen-Test findet man im R-Paket "exactRankTests" unter der Bezeichnung wilcox.exact().

.

(15)

> wilcox.test(x1, x2)

Wilcoxon rank sum test data: x1 and x2

W = 37, p-value = 0.0449

alternative hypothesis: true location shift is not equal to 0

> # Bestimmung des P-Werts mit pwilcox() (Vert.-funktion der Testgröße W)

> id1 <- c(rep(1, n1)); id2 <- c(rep(2, n2))

> id <- c(id1, id2); x12 <- c(x1, x2); rg12 <- rank(x12)

> r1 <- sum(rg12[id == 1]); r2 <- sum(rg12[id == 2])

> muW <- n1*n2/2; sigmaW <- sqrt(n1*n2*(n1+n2+1)/12)

> tgs <- W <- r1-n1*(n1+1)/2; d <- abs(W-muW);

> P <- pwilcox(muW-d, n1, n2)+1-pwilcox(muW+d-1, n1, n2)

> print(cbind(r1, muW, sigmaW, tgs, d, P), digits=4) r1 muW sigmaW tgs d P

[1,] 115 72 17.32 37 35 0.0449

> # Testentscheidung mit Ablehnungsbereich (W<q1 oder W>q2)

> q1 <- qwilcox(alpha/2, 12, 12); q2 <- qwilcox(1-alpha/2, 12, 12)

> print(cbind(q1, q2, tgs), digits=4) q1 q2 tgs

[1,] 38 106 37

> # Normalverteilungsapproximation

> tgss <- (tgs-muW)/sigmaW; P <- 2*pnorm(-abs(tgss))

> print(cbind(tgss, P), digits=4) tgss P

[1,] -2.021 0.04331

Lernziel 5.7:

Mit dem Differenzen-t-Test (paired t-test) die Mittelwerte von zwei normalverteilten Untersuchungsmerkmalen vergleichen können.

Ablaufschema:

• Beobachtungsdaten und Modell:

n Wertepaare (x

₁₁

, x

₁₂

), (x

₂₁

, x

₂₂

), ..., (x

_n,1

, x

_n,2

) durch Messung der Variablen X

1

(Mittelwert µ

1

) und X

2

(Mittelwert µ

2

) an n

Untersuchungseinheiten

Differenzenstichprobe d

₁

=x

₁₂

- x

₁₁

, d

₂

=x

₂₂

- x

₂₁

, ..., d

_n

=x

_n2

- x

_n1

mit Mittelwert

d

und Varianz s

_d²

.

Jedes d

_i

ist Realisierung einer Zufallsvariablen D

_i

~N( µ

D

, σ

D

2

) mit µ

D

= µ

2

- µ

1

Stichprobenmittel D ~ N( µ

D

, σ

D

2

/n), Stichprobenvarianz S

D 2

• Hypothesen und Testgröße:

Fall II: H

₀

: µ

D

= 0 gegen H

₁

: µ

D

≠ 0 Fall Ia: H

0

: µ

D

≤ 0 gegen H

1

: µ

D

> 0 Fall IIb: H

₀

: µ

D

≥ 0 gegen H

₁

: µ

D

< 0

0 für

/ ~

¹

=

_n₋ _D

D

n t S

TG D µ

(16)

• Entscheidung mit dem P-Wert:

P < α ⇒ H

0

ablehnen; dabei ist

P=2F

n-1

(-|TG

s

|) für die zweiseitige Testvariante II, P=1-F

_n-1

(TG

_s

) für die Variante Ia,

P=F

_n-1

(TG

_s

) für die Variante Ib;

F

_n-1

bezeichnet die Verteilungsfunktionen der t-Verteilung mit dem Freiheitsgrad f=n-1.

• Planung des Stichprobenumfangs:

Um auf Niveau α mit der Sicherheit 1- β eine Entscheidung für H

1

herbeizuführen, wenn µ

D

von 0 um ∆ ≠ 0 im Sinne der Alternativhypothese abweicht, ist das dafür notwendige n näherungsweise im Fall II:

in den Fällen Ia und Ib ist z

1-α^/2

durch z

1-α

zu ersetzen. Bei Anwendung dieser Formeln muss ein Schätzwert für σ

D

zur Verfügung stehen.

Beispiel 5.6:

Ein einfaches Maß für die Wirkung W eines Präparats auf ein Untersuchungsmerkmal ist die Differenz W=X

_n

-X

_v

aus dem

Untersuchungsmerkmal X

n

nach und dem Untersuchungsmerkmal X

v

vor Gabe des Präparats. Es soll festgestellt werden, ob ein Testpräparat B im Mittel eine größere Wirkung zeigt als ein Kontrollpräparat A. Die Untersuchung wird als Paarvergleich so geplant, dass 10 Probanden zuerst mit dem Kontrollpräparat und dann (nach einer angemessenen Zeitdauer zur Vermeidung von Übertragungseffekten) mit dem

Testpräparat behandelt werden. Die mit den Präparaten A und B erzielten (fiktiven) Wirkungen W

A

bzw. W

B

sind:

A: 9.45, 8.50, 7.46, 10.10, 11.81, 9.70, 12.76, 7.03, 10.49, 5.01 B: 11.56, 12.50, 7.15, 13.97, 9.35, 12.67, 13.14, 8.13, 11.64, 9.73 Lösung mit R:

> wA <- c(9.45, 8.50, 7.46, 10.10, 11.81, 9.70, 12.76, 7.03, 10.49, 5.01)

> wB <- c(11.56, 12.50, 7.15, 13.97, 9.35, 12.67, 13.14, 8.13, 11.64, 9.73)

> xquerA <- mean(wA); sA <- sd(wA); xquerB <- mean(wB); sB <- sd(wB);

> n <- nA <- nB <- length(wA)

> print(cbind(xquerA, xquerB, sA, sB, nA, nB), digits=4) xquerA xquerB sA sB nA nB

[1,] 9.231 10.98 2.31 2.274 10 10

> d <- wB-wA; dquer <- mean(d); sd <- sd(d); se <- sd/sqrt(n);

> print(cbind(dquer, sd, se), digits=4) dquer sd se

[1,] 1.753 2.227 0.7041

(

¹ ^/² ¹

)

²

^;

2 2

β

σ

α

−

+

≈ ∆ z z

n

^D

(17)

> # H0: muB <=muA gegen H1: muB > muA <=> H0: muD<=0 gegen H1: muD>0

> # direkte Berechnung des P-Werts (Ablehungsbereichs)

> alpha <- 0.05; tgs <- dquer/se

> P <- 1-pt(tgs, n-1); tq <- qt(1-alpha, n-1)

> print(cbind(alpha, tgs, tq, P), digits=4) alpha tgs tq P

[1,] 0.05 2.49 1.833 0.01722

> # Berechnung des P-Werts mit t.test()

> t.test(d, alternative="greater") One Sample t-test

data: d

t = 2.4896, df = 9, p-value = 0.01722

alternative hypothesis: true mean is greater than 0 95 percent confidence interval:

0.4622372 Inf sample estimates:

mean of x 1.753

Ergebnis: P=1.72% < 5% H1

Lernziel 5.8:*

Mit dem Wilcoxon-Test für Paardifferenzen Mittelwertunterschiede im Rahmen von Paarvergleichen prüfen können, wenn auf die

Differenzenstichprobe die Normalverteilungsvoraussetzung nicht zutrifft.

Ablaufschema:

• Beobachtungsdaten und Modell:

n Wertepaare (x

₁₁

, x

₁₂

), (x

₂₁

, x

₂₂

), ..., (x

_n,1

, x

_n,2

)

Differenzenstichprobe d

₁

=x

₁₂

- x

₁₁

, d

₂

=x

₂₂

- x

₂₁

, ..., d

_n

=x

_n2

- x

_n1

(Paare mit übereinstimmenden Werten bleiben unberücksichtigt);

Paardifferenzen nach aufsteigender Größe der Absolutbeträge anordnen und durchnummerieren, Ordnungsnummern den Paardifferenzen als Rangzahlen zuordnen; Differenzen mit

gleichen Absolutbeträgen erhalten als Rangzahl das arithmetische Mittel der vergebenen Platznummern.

Wenn eine Paardifferenz negativ ist, wird die entsprechende

Rangzahl mit einem negativen Vorzeichen versehen. Die Summe der positiven Rangzahlen sei w

⁺

. Jedes d

i

ist die Realisierung einer Zufallsvariablen D

i

(i=1,2, …, n) mit einer stetigen und

symmetrisch um den Median ζ liegenden Verteilungsfunktion.

• Hypothesen und Testgröße:

Fall II: H

0

: ζ = 0 gegen H

1

: ζ ^≠ ⁰ Fall Ia: H

0

: ζ ≤ 0 gegen H

1

: ζ ^> 0 Fall Ib: H

₀

: ζ ≥ 0 gegen H

₁

: ζ ^{< 0}

Als Testgröße wird die Summe TG = W

⁺

der den positiven

Paardifferenzen D

i

zugeordneten Rangzahlen verwendet. Der

(18)

Mittelwert und die Varianz von W

⁺

ist unter der Voraussetzung ζ =0 durch

E(W

⁺

)= µ

W+

=n(n+1)/4 bzw. Var(W

⁺

)= σ

W+

2

=n(n+1)(2n+1)/24 gegeben

⁷

. Bei größerem n (etwa ab n = 20) kann die Nullverteilung von W

⁺

(d.h. die Verteilung von W

⁺

für ζ =0) durch die

Normalverteilung mit dem Mittelwert µ

W+

und der Varianz σ

W+2

approximiert werden.

• Entscheidung mit dem P-Wert:

P < α ⇒ H

0

ablehnen; dabei ist

P= F

_W+

( µ

W+

-d) + 1- F

_W+

( µ

W+

+d-1) mit d = |TG

_s

- µ

W+

| für die zweiseitige Testvariante II,

P=1 - F

W+

(TG

s

-1) für die Variante Ia, P=1 - F

W+

(TG

s

) für die Variante Ib

(F

W+

bezeichnet die Verteilungsfunktionen von W

⁺

bei Gültigkeit von H

₀

).

Beispiel 5.7:

Zur Erhöhung der Lesegeschwindigkeit unterziehen sich 14 Probanden einem Training. Als Lesegeschwindigkeit (in Wörtern pro Minute) vor und nach dem Training (wir bezeichnen sie mit X

1

bzw. X

2

) ergab sich für die Probanden:

X

₁

: 236, 270, 381, 294, 414, 308, 301, 220, 286, 401, 435, 324, 310, 354 X

₂

: 287, 287, 395, 305, 426, 290, 337, 283, 301, 462, 456, 351, 255, 380 Man zeige mit dem Wilcoxon-Test für abhängige Stichproben, dass das Training zu einer signifikanten ( α =5%) Erhöhung der

Lesegeschwindigkeit geführt hat.

Lösung mit R:

> x1 <- c(236, 270, 381, 294, 414, 308, 301, 220, 286, 401, 435, 324, 310, 354)

> x2 <- c(287, 287, 395, 305, 426, 290, 337, 283, 301, 462, 456, 351, 255, 380)

> # H0: Median1 >= Median2 gegen H1: Median1 < Median2

> alpha <- 0.05; n <- length(x1); d <- x2-x1

> # P-Wert-Berechnung mit der R-Funktion wilcox.test

> wilcox.test(d, alternative="greater", correct=F) Wilcoxon signed rank test

data: d

V = 87, p-value = 0.01477

7 Zur Berechnung von Funktionswerten der Verteilungsfunktion von W⁺ steht in R die Anweisung psignrank() zur Verfügung, Quantile erhält man mit qsignrank().

(19)

alternative hypothesis: true location is greater than 0

> # P-Wert-Berechnung mit Verteilungsfunktion von W+

> rg <- rank(abs(d))*sign(d)

> rgplus <- rg[rg>0]; wplus <- sum(rgplus)

> P <- 1-psignrank(wplus-1, n)

> print(cbind(wplus, P), digits=4) wplus P

[1,] 87 0.01477

Entscheidung: P=1.48% < 5% H1

> # Testentscheidung mit Ablehungsbereich

> q <- qsignrank(1-alpha, n)

> print(cbind(wplus, q), digits=4) wplus q

[1,] 87 79

> # Normalverteilungsapproxiumation

> mwp <- n*(n+1)/4; swp <- sqrt(n*(n+1)*(2*n+1)/24)

> tgs <- (wplus-mwp)/swp; Papprox <- 1-pnorm(tgs)

> print(cbind(mwp, swp, tgs, Papprox), digits=4) mwp swp tgs Papprox

[1,] 52.5 15.93 2.166 0.01516

Lernziel 5.9:

Zwei Wahrscheinlichkeiten im Rahmen eines Parallelversuchs mit großen Stichproben vergleichen können.

Ablaufschema:

• Beobachtungsdaten und Modell: Von einem Untersuchungsmerkmal X

1

liegen zwei unabhängige Stichproben mit den Umfängen n

1

bzw.

n

2

vor. Die Stichproben stammen aus zwei, durch das

Gliederungsmerkmal X

₂

unterschiedenen Grundgesamtheiten; der Wert X

₂

=b

₁

kennzeichnet die eine, der Wert X

₂

=b

₂

die andere

Grundgesamtheit. Das Untersuchungsmerkmal X

₁

setzen wir als binär voraus, d.h., seine Realisierungen beschränken sich auf zwei Werte a

1

und a

2

. In der ersten Stichprobe (X

2

=b

1

) möge n

11

-mal der Wert a

1

und n

21

-mal der Wert a

2

auftreten, in der zweiten Stichprobe (X

2

=b

2

) n

12

-mal der Wert a

1

und n

22

-mal der Wert a

2

. Die Stichproben lassen sich übersichtlich in Gestalt der Vierfeldertafel

Die Werte der ersten und zweiten Stichprobe sind Realisierungen eines Untersuchungsmerkmals X

1

, das als Bernoulli-verteilt

mit den Werten a

1

, a

2

und den Parametern p

1

bzw. p

2

vorausgesetzt wird.

Untersuchungs- merkmal X

1

Gruppe 1 X

2

=b

1

Gruppe 2 X

2

=b

2

(Zeilen-) Summen

Wert a

1

n

11

n

12

n

1.

Wert a

2

n

21

n

22

n

2.

(Spalten-) Summen

n

.1

=n

1

vorgegeben

n.

2

=n

2

vorgegeben

n

..

=n

1

+n

2

(20)

• Hypothesen und Testgröße:

Fall II: H

0

: p

1

= p

2

gegen H

1

: p

1

≠ ^p

2

Fall Ia: H

0

: p

1

≤ ^p

2

gegen H

1

: p

1

> p

2

Fall Ib: H

₀

: p

₁

≥ ^p

2

gegen H

₁

: p

₁

< p

₂

Als Testgröße wird die standardisierte Differenz

2 1

2 1 2

1

) 1

( n n

n n Y

Y Y TG Y

− +

= −

der Anteile Y

₁

und Y

₂

, mit denen die Merkmalsausprägung X

₁

=a

₁

in der ersten bzw. zweiten Stichprobe auftritt verwendet. Y bezeichnet hier den Anteil, mit dem X

₁

=a

₁

in beiden Gruppen auftritt. Die

Verteilung der Testgröße kann mit einer für die Praxis i. Allg.

ausreichenden Genauigkeit durch die Standardnormalverteilung approximiert werden, wenn n

_.j

n

_i.

/n>5 (i, j=1,2) gilt, also die auf den Gesamtumfang n bezogenen Produkte der Spaltensummen mit den Zeilensummen größer als 5 sind. Indem man für Y

₁

, Y

₂

und Y die entsprechenden relativen Häufigkeiten y

₁

=n

₁₁

/n

₁

, y

₂

=n

₁₂

/n

₂

bzw.

y=n

_1.

/n einsetzt, erhält man die Realisierung TG

_s

der Testgröße.

Die Approximation kann verbessert werden, wenn

Stetigkeitskorrektur so vorgenommen wird, dass man in der realisierung der Testgröße y

₁

und y

₂

im Falle y

₁

> y

₂

durch y

₁

- 1/(2n

₁

) bzw. y

₂

+ 1/(2n

₂

) und im Falle y

₁

< y

₂

durch y

₁

+1/(2n

₁

) bzw. y

₂

- 1/(2n

₂

) ersetzt.

• Entscheidung mit dem P-Wert

⁸

: P < α ⇒ H

0

ablehnen; dabei ist

P= 2Φ(-|TG

s

|) für die zweiseitige Testvariante II, P=1 - Φ (TG

_s

) für die Variante Ia,

P= Φ (TG

s

) für die Variante Ib.

• Planung des Stichprobenumfanges:

Um auf dem Niveau α mit der Sicherheit 1- β eine Entscheidung für H

₁

herbeizuführen, wenn p

₁

von p

₂

um ∆ ≠ 0 im Sinne der

Alternativhypothese abweicht, kann für symmetrische

Versuchsanlagen mit n

1

=n

2

=n im Falle der 1-seitigen Testvarianten Ia und Ib der erforderliche Mindeststichprobenumfang näherungsweise aus

8 Zur Durchführung des Tests (mit und ohne Stetigkeitskorrektur) steht in R die Funktion prop.test() zur Verfügung.

(21)

( )

2 2 2

2 1

1

mit 2 arcsin 2 arcsin

2 h p p

h z

n z + = + ∆ −

≈

⁻^α ⁻^β

bestimmt werden. Im Falle der 2-seitigen Testvariante II ist α durch α /2 zu ersetzen

⁹

.

Beispiel 5.8:

Im Zuge einer Studie über den Einfluss der Düngung (Tresterkompost- bzw. Mineraldüngung) auf den Pilzbefall (Falscher Mehltau) von

Weinstöcken (Vitis vinifera) wurden n

₁

=39 Weinstöcke mit Tresterkompost gedüngt und ebenso viele (n

₂

=39) Stöcke

mineralgedüngt. Es stellte sich heraus, dass in der ersten Gruppe (Testgruppe) n

11

=20 Stöcke einen starken Befall (Ausprägung a

1

) und n

21

=19 Stöcke nur ein schwachen bzw. überhaupt keinen Befall

(Ausprägung a

2

) zeigten. In der zweiten Gruppe (Kontrollgruppe) waren n

₁₂

=10 Weinstöcke stark und n

₂₂

=29 nur schwach bis nicht erkennbar befallen.

a) An Hand dieses Beobachtungsergebnisses soll auf 5%igem Testniveau geprüft werden, ob sich das Befallrisiko in den Gruppen signifikant unterscheidet.

b) Ist die Fallzahl in den Gruppen richtig geplant, um mit dem Test eine Abweichung des Befallrisikos bei Tresterkompostdüngung von dem Befallrisiko bei Mineraldüngung um ∆ =0.2 mit einer Sicherheit von 90%

erkennen zu können?

Lösung mit R:

> n.tstark <- 20; n.tschwach <- 19

> n.mstark <- 10; n.mschwach <- 29

> # Voraussetzung für Normalverteilungsapproximation

> nstark <- n.tstark+n.mstark

> nschwach <- n.tschwach+n.mschwach

> nt <- n.tstark+n.tschwach; nm <- n.mstark+n.mschwach

> n <- nt+nm

> e.tstark <- nt*nstark/n; e.tschwach <- nt*nschwach/n

> e.mstark <- nm*nstark/n; e.mschwach <- nm*nschwach/n

> print(cbind(e.tstark, e.tschwach, e.mstark, e.mschwach)) e.tstark e.tschwach e.mstark e.mschwach

[1,] 15 24 15 24

> # a) H0: p(starker Befall|Trester)=p(starker Befall|Mineral)

> # gegen H1: ... ungleich ...

> alpha <- 0.05

> # direkte Berechnung des P-Werts

> y1 <- n.tstark/nt; y2 <- n.mstark/nm; y <- nstark/n

> tgsmc <- (y1-1/2/nt-y2-1/2/nm)/sqrt(y*(1-y))*sqrt(nt*nm/n)

> Pmc <- 2*pnorm(-abs(tgsmc))

> print(cbind(y1, y2, y, tgsmc, Pmc), digits=4) y1 y2 y tgsmc Pmc

[1,] 0.5128 0.2564 0.3846 2.095 0.0362

9 Zur Planung von Stichprobenumfängen mit diesen Formeln kann man die R-Funktion pwr.2p.test() im Paket "pwr" verwenden.

(22)

> # Berechnung des P-Werts mit prop.test()

> prop.test(c(n.tstark, n.mstark), c(nt, nm), alternative="two.sided") 2-sample test for equality of proportions with continuity correction

data: c(n.tstark, n.mstark) out of c(nt, nm) X-squared = 4.3875, df = 1, p-value = 0.0362 alternative hypothesis: two.sided

95 percent confidence interval:

prop 1 prop 2 0.5128205 0.2564103

> # b) Planung des Stichprobenumfangs

> p2 <- y2; Delta <- 0.20; p1 <- p2+Delta; beta <- 0.1

> h <- 2*asin(sqrt(p1))- 2*asin(sqrt(p2))

> za <- qnorm(1-alpha/2); zb <- qnorm(1-beta); nap <- 2*(za+zb)^2/h^2

> print(cbind(p1, p2, za, zb, h, nap), digites=4) p1 p2 za zb h nap

[1,] 0.4564 0.2564 1.96 1.282 0.4216 118.2

> # Mindest-n mit der R-Funktion pwr.2p.test()

> library(pwr)

> pwr.2p.test(h = h, sig.level = 0.05, power = 1-beta, + alternative = "two.sided")

Difference of proportion

power calculation for binomial distribution (arcsine transformation) h = 0.4216

n = 118.2 sig.level = 0.05 power = 0.9

alternative = two.sided NOTE: same sample sizes

Lernziel 5.10:

Zwei Wahrscheinlichkeiten mit abhängigen Stichproben vergleichen können.

Ablaufschema:

• Beobachtungsdaten:

X

₁

, X

₂

… zweistufige Merkmale mit Werten a

₁

und a

₂

(z.B.

Verbesserung bzw. keine Verbesserung oder Nebenwirkung bzw.

keine Nebenwirkung);

X

1

kann ein Untersuchungsmerkmal vor einer Behandlung (Zeitpunkt 1) und X

2

das Untersuchungsmerkmal nach einer Behandlung (Zeitpunkt 2) sein. Beobachtung von X

₁

und X

₂

an n Untersuchungseinheiten

2 abhängige Stichproben

Zusammenfassung in Vierfeldertafel:

X

2

X

1

a

1

a

2

Σ a

1

n

11

n

12

n

1.

a

2

n

21

n

22

n

2.

Σ n

^.1

n

.2

n

(23)

• Hypothesen und Testgröße:

Abkürzungen:

p

_1.

= P(X

₁

=a

₁

) = P(X

₁

=a

₁

und X

₂

=a

₁

) + P(X

₁

=a

₁

und X

₂

=a

₂

), p

_.1

= P(X

₂

=a

₁

) = P(X

₂

=a

₁

und X

₁

=a

₁

) + P(X

₂

=a

₁

und X

₁

=a

₂

), p

12

= P(X

1

=a

1

und X

2

=a

2

), p

21

= P(X

2

=a

1

und X

1

=a

2

);

H

0

: p

1.

= p

.1

vs. H

1

: p

1. ≠

p

.1

H

0

: p

12

= p

21

vs. H

1

: p

12 ≠

p

21

H

₀

: p

₁₂

*:=p

₁₂

/(p

₁₂

+ p

₂₁

) = p

₂₁

/(p

₁₂

+ p

₂₁

) =: p

₂₁

* vs. H

₁

: p

₁₂

*

≠

p

₂₁

* H

0

: p

12

* = ½ vs. H

1

: p

12

*

≠

½ (wegen p

12

*+ p

21

*=1)

Testgröße (Binomialtest):

TG = H

12

~ B

n*,p0

(falls H

0

gilt)

H

12

= Anzahl der Untersuchungseinheiten mit X

1

=a

1

und X

2

=a

2

, n*=n

₁₂

+n

₂₁

, p

₀

=1/2; ersetzt man H

₁₂

durch n

₁₂

, erhält man die Realisierung TG

_s

=n

₁₂

.

Testgröße (McNemar-Statistik, Normalverteilungsapproximation):

H

₂₁

= Anzahl der Untersuchungseinheiten mit X

₁

=a

₂

und X

₂

=a

₁

. Ersetzt man H

12

durch n

12

und H

21

durch n

21

, erhält man die Realisierung TG

s

der Testgröße.

• Entscheidung mit dem P-Wert (Binomialtest)

P < α ⇒ H

0

ablehnen; dabei ist P=F

B

( µ

0

-d)+1- F

B

( µ

0

+d-1);

hier ist F

B

die Verteilungsfunktion der B

n*,1/2

-Verteilung, µ

0

=n*/2 und d= |n

₁₂

- µ

0

|=|n

₁₂

- n

₂₁

|/2.

• Entscheidung mit dem P-Wert (Normalverteilungsapproximation) P < α ⇒ H

0

ablehnen; dabei ist P=1- F

1

(TG

s

);

hier ist F

1

die Verteilungsfunktion der χ

²1

–Verteilung.

• Planung des Stichprobenumfangs:

Notwendiger Mindeststichprobenumfang n* (=n

12

+n

21

), um auf dem Niveau α mit der Sicherheit 1- β eine Entscheidung für H

₁

herbeizuführen, wenn p

₁₂

* von 1/2 um ∆ ≠ 0 abweicht:

( )

2 2

1 2 / 1

) 5 . 0 arcsin 2

5 . 0 arcsin 2

* (

−

∆ +

≈ z

⁻^α

+ z

⁻^β

n

( ) ₉ ₎

für 4 (approx.

H unter

1 ~

|

₁₂ ₂₁

2 0 1 21

12

2 21

12

+ >

+

−

= − n n

H H

H

TG H χ

(24)

Beispiel 5.9:

Im Rahmen einer Studie wurde u.a. der Blutzucker am Beginn (Variable X

₁

) und am Ende (Variable X

₂

) einer Behandlung bestimmt. Die

Ergebnisse der Blutzuckerbestimmung wurden dabei auf einer 2-stufigen Skala mit den Werten a

₁

("im Normbereich") und a

₂

("nicht im

Normbereich") dokumentiert. Bei n

11

=31 Probanden war der

Blutzuckerwert am Beginn und am Ende im Normbereich, bei n

12

=24 Probanden lag der Wert vorher im Normbereich und nachher außerhalb, bei n

₂₁

=13 Probanden vorher außerhalb und nachher innerhalb und bei n

₂₂

=12 vorher und nachher nicht im Normbereich.

a) Ist die Wahrscheinlichkeit, dass der Blutzucker am Beginn im Normbereich liegt, auf 5%igem Testniveau verschieden von der entsprechenden Wahrscheinlichkeit am Ende der Behandlung?

b) Ist der Versuch so geplant, dass der Testausgang mit 90%iger Sicherheit signifikant ist, wenn die Wahrscheinlichkeit p

12

* um 0.1 von ½ abweicht?

Lösung mit R:

> # Vergleich von Wahrscheinlichkeiten mit abhängigen Stichproben

> H <- matrix(c(31, 13, 24, 11), ncol=2); H [,1] [,2]

[1,] 31 24 [2,] 13 11

> ns <- H[1,2]+H[2,1]

> # a) H0: P(Normberreich/Beginn)=P(Normbereich/Ende) vs. H1: ... <> ...

> # exakter P-Wert (Binomialtest)

> alpha <- 0.05; p12d <- H[1,2]/ns

> tgs <- H[1,2]; mu0 <- ns/2; d <- abs(tgs-mu0)

> P <- pbinom(mu0-d, ns, 0.5)+1-pbinom(mu0+d-1, ns, 0.5)

> print(cbind(ns, tgs, p12d, mu0, d, P), digits=4) ns tgs p12d mu0 d P

[1,] 37 24 0.6486 18.5 5.5 0.09887

> binom.test(H[1,2], ns) Exact binomial test data: H[1, 2] and ns

number of successes = 24, number of trials = 37, p-value = 0.09887 alternative hypothesis: true probability of success is not equal to 0.5 95 percent confidence interval:

probability of success 0.6486486

> # Normalverteilungsapproximation

> tgsapprox <- (abs(H[1,2]-H[2,1])-1)/sqrt(ns)

> Papprox <- 2*pnorm(-abs(tgsapprox))

> print(cbind(tgsapprox, Papprox), digits=4) tgsapprox Papprox

[1,] 1.644 0.1002

> # McNemar-Test

> tgsmcnemar <- tgsapprox^2; Pmcnemar <- 1-pchisq(tgsmcnemar, 1)

> print(cbind(tgsmcnemar, Pmcnemar), digits=4) tgsmcnemar Pmcnemar

[1,] 2.703 0.1002

(25)

> mcnemar.test(H)

McNemar's Chi-squared test with continuity correction data: H

McNemar's chi-squared = 2.7027, df = 1, p-value = 0.1002

> # b) Planung des Stichprobenumfangs

> p0 <- 1/2; Delta <- 0.1; p1 <- p0+Delta; beta <- 0.1

> h <- 2*asin(sqrt(p1))- 2*asin(sqrt(p0))

> za <- qnorm(1-alpha/2); zb <- qnorm(1-beta)

> ns <- (za+zb)^2/h^2

> print(cbind(p0, p1, za, zb, h, ns), digits=4) p0 p1 za zb h ns

[1,] 0.5 0.6 1.96 1.282 0.2014 259.2

(26)

Übungsbeispiele

1. a) Es soll untersucht werden, ob die mittlere Menge (in mg) eines Wirkstoffes in mit der Anlage A hergestellten Produkten (Wirkstoffmenge X

A

) sich von jener unterscheidet, die mit der Anlage B (Wirkstoffmenge X

B

) hergestellt werden. Die Werte der Prüfstichproben sind:

Anlage A: 16.1, 15.4, 16.1, 15.6, 16.2, 16.2, 15.9, 16.2, 16.1, 16.0 Anlage B: 16.5, 15.9, 16.3, 16.4, 15.9, 15.9, 16.3, 16.2, 16.0, 16.2

Aus Voruntersuchungen sei bekannt, dass die Wirkstoffmengen X

A

und X

B

mit guter Näherung als normalverteilt betrachtet werden können und die Varianzen nicht von der Anlage abhängen. Als Signifikanzniveau nehme man 5% an.

b) Ferner stelle man fest, ob der Umfang der Prüfstichproben ausreichend groß geplant wurde, um den als relevant angesehenen Mittelwertunterschied ∆=0.25 mit 90%iger Sicherheit erkennen zu können.

2. Das Wachstum einer Kultur (Gewicht in g) wird in Abhängigkeit von 2

Nährlösungen 1 und 2 gemessen. Es ergaben sich die folgenden Messwerte:

Nährlösung 1: 8.17, 7.92, 8.02, 7.97, 6.42, 8.16, 7.32, 7.35 Nährlösung 2: 6.98, 6.94, 6.92, 6.93, 6.62, 7.17, 7.42, 6.95

a) Man überprüfe auf 5%igem Signifikanzniveau, ob die Nährlösung einen signifikanten Einfluss auf das mittlere Wachstum hat?

b) Ist die Annahme gleicher Varianzen gerechtfertigt?

3. In einem Versuch wurde auf 10 Parzellen eine Getreidesorte ausgesät und in einer Hälfte einer jeden Parzelle das Bewässerungssystem A und in der anderen Hälfte das System B angewendet. Die unter den Versuchsbedingungen erzielten Erträge (in kg/ha) sind im Folgenden angeführt. Sind die unter der Bedingung B erzielbaren Erträge im Mittel größer als die Erträge unter der Bedingung A? Man prüfe die Fragestellung auf 5%igem Signifikanzniveau.

A: 7400 5740 5530 6190 3740 5050 4180 6520 4910 4690 B: 8450 6400 6410 7010 3690 6040 4060 6730 4760 5770

.

4. Diffusionstests werden angewendet, um die Wirksamkeit bestimmter Antibiotika auf Mikroorganismen (Krankheitserreger) festzustellen. Diese werden auf einem festen Nährboden zusammen mit dem Antibiotikum aufgebracht. Ist das

Antibiotikum wirksam, entsteht eine Hemmzone, in der der Testorganismus nicht wachsen konnte. Bei der Wirksamkeitsprüfung von 2 Antibiotika A und B wurden in je 15 Versuchen Hemmzonen mit den im Folgenden angeführten

Durchmessern (in mm) beobachtet. Kann an Hand der Daten auf 5%igem Testniveau ein Unterschied in der Wirksamkeit der Antibiotika (d.h. ein Unterschied der mittleren Durchmesser) festgestellt werden?

A: 19.5, 14.0, 12.0, 19.0, 23.0, 28.0, 24.5, 26.0, 25.0, 16.0, 27.5, 17.0, 17.5, 20.0, 18.5 B: 18.0, 21.0, 30.5, 24.0, 20.5, 29.0, 25.5, 27.0, 40.5, 26.5, 22.5, 40.0, 16.5, 21.5, 23.5