5 TESTEN VON HYPOTHESEN II
Lernziele:
1) Die Versuchsanlagen „Parallelversuch“ und „Paarvergleich“ zum Vergleich von zwei Merkmalen unterscheiden können.
2) Mit dem Zwei-Stichproben-t-Test die Mittelwerte von zwei mit gleichen Varianzen normalverteilten Untersuchungsmerkmalen vergleichen können.
3) Mit dem F-Test entscheiden können, ob die Varianzen von zwei unabhängigen Stichproben normalverteilter Variablen
voneinander abweichen bzw. die eine Varianz die andere überschreitet/ unterschreitet.
4) Mit dem 2-Stichproben-t-Test die Varianzen von zwei
unabhängigen Stichproben vergleichen können (Sonderfall des Levene-Tests).
5) Mit dem Welch-Test die Mittelwerte von zwei normalverteilten Untersuchungsmerkmalen vergleichen können.
6) Mit dem Wilcoxon-Rangsummen-Test die Mittelwerte von zwei bis auf die Lage identisch verteilten Untersuchungsmerkmalen im Rahmen von Parallelversuchen vergleichen können.
7) Mit dem Differenzen-t-Test (paired t-test) die Mittelwerte von zwei normalverteilten Untersuchungsmerkmalen vergleichen können.
8) Mit dem Wilcoxon-Test für Paardifferenzen
Mittelwertunterschiede im Rahmen von Paarvergleichen prüfen können.
9) Zwei Wahrscheinlichkeiten im Rahmen eines Parallelversuchs mit großen Stichproben vergleichen können.
10) Zwei Wahrscheinlichkeiten mit abhängigen Stichproben
vergleichen können.
Übersicht
über grundlegende 2-Stichproben-Testverfahren im Rahmen von Parallelversuchen (mit unabhängigen Stichproben) und Paarvergleichen (mit abhängigen Stichproben) :
• Normalverteilte Untersuchungsmerkmale:
Die Grafik enthält zusätzlich den Rangsummen-Test von Wilcoxon, den Wilcoxon-Test für Paardifferenzen sowie den Vorzeichen-Test als nichtparametrische Alternativen zum 2- Stichproben-t-Test bzw. zum Differenzen-t-Test. Den Testbezeichnungen sind die entsprechenden R-Funktionen beigefügt.
• 2-stufig skalierte Untersuchungsmerkmale:
Lernziel 5.1:
Die Versuchsanlagen „Parallelversuch“ und „Paarvergleich“ zum Vergleich von zwei Merkmalen unterscheiden können.
Parallelversuch:
• grundlegende Versuchsanlage, um unter kontrollierten
Bedingungen zwei Gruppen hinsichtlich eines interessierenden Untersuchungsmerkmals X (z.B. Präparatwirkung) zu vergleichen.
Bei einem metrischen Untersuchungsmerkmal geht es dabei meist um einen Vergleich von Mittelwerten unter zwei
Versuchsbedingungen, bei einem alternativ skalierten
Untersuchungsmerkmal erfolgt der Vergleich der Gruppen in der Regel an Hand der relativen Häufigkeiten einer
Merkmalsausprägung.
• Aus einer "Zielpopulation" wird eine bestimmte Anzahl von Untersuchungseinheiten (Probanden, Patienten, Proben) ausgewählt und damit zwei (möglichst gleich große) Gruppen, sogenannte "Parallelgruppen" gebildet. Die eine Gruppe ist die Testgruppe (z.B. zur Erprobung eines neuen Präparates), die andere Gruppe in der Regel eine Kontrollgruppe (z.B. eine Placebogruppe oder eine mit einem herkömmlichen Präparat behandelte Gruppe). Durch eine zufällige Zuordnung der Untersuchungseinheiten erreicht man, dass die Gruppen
"strukturgleich" sind. Das bedeutet, dass es in den Gruppen - außer den angewendeten Behandlungen - keine weiteren systematischen Einflussfaktoren gibt.
• Organisation der Beobachtungsdaten beim Parallelversuch:
Die Variablen X
1und X
2bezeichnen das Untersuchungsmerkmal in den Parallelgruppen; x
11, x
21, …, x
n1,1und x
12, x
22, …, x
n2,2sind die an den Untersuchungseinheiten der jeweiligen Gruppe
beobachteten Werte von X
1bzw. X
2. Man beachte, dass zwischen den Untersuchungseinheiten der Parallelgruppen keinerlei
Beziehung besteht, die eine Anordnung in Paaren rechtfertigen
würde. Vielmehr können die Untersuchungseinheiten (und
entsprechend die Stichprobenwerte) der Testgruppe unabhängig von jenen der Kontrollgruppe angeordnet werden. Es ist daher üblich, den Parallelversuch auch als einen Versuch mit
unabhängigen Stichproben zu bezeichnen. Die Unabhängigkeit der Stichproben kommt auch darin zum Ausdruck, dass die
Stichprobenumfänge n
1und n
2der Parallelgruppen grundsätzlich verschieden sein können; dennoch sollten symmetrische
Versuchsanlagen mit n
1=n
2angestrebt werden, weil sie i. Allg.
eine höhere Testgüte aufweisen.
Paarvergleich (oder 2-Stichprobenproblem mit abhängigen (oder verbundenen) Stichproben:
• Auf Grund eines sachlogischen Zusammenhangs kann jeder Wert der einen Stichprobe mit einem Wert der anderen Stichprobe zu einem Wertepaar zusammengefasst werden kann. Ein solcher Zusammenhang ist z.B. gegeben, wenn die Stichprobenwerte durch zweimaliges Beobachten an ein und derselben
Untersuchungseinheit gewonnen wurden.
• Typische Anwendungsfälle sind die sogenannten selbst- kontrollierten Versuche zur Prüfung eines allfälligen
Behandlungseffektes: Um die Auswirkung einer Behandlung auf eine Zielvariable zu prüfen, werden aus einer Zielpopulation n Probanden ausgewählt und an jedem Probanden die Zielvariable vor der Behandlung (Variable X
1) sowie nach erfolgter Behandlung (Variable X
2) beobachtet. Von jedem Probanden liegt also ein Paar von Beobachtungswerten vor. Die aus einem Paarvergleich
resultierenden Stichproben sind daher als Spalten einer
Datenmatrix zu sehen, in der jede Zeile einem "Block" (z.B. einem Probanden) entspricht, über den die Stichprobenwerte zu
Wertepaaren verbunden werden.
• Organisation der Beobachtungsdaten beim Paarvergleich:
Lernziel 5.2:
Mit dem Zwei-Stichproben-t-Test die Mittelwerte von zwei mit gleichen Varianzen normalverteilten Untersuchungsmerkmalen vergleichen können.
Ablaufschema:
• Beobachtungsdaten und Modell:
Es liegen zwei (unabhängige) Beobachtungsreihen x
11, x
21, ..., x
n1,1bzw. x
12, x
22, ..., x
n2,2vor. Die Mittelwerte und
Varianzen der Stichproben seien x
1und x
2bzw. s
12
und s
22
. Die unter der ersten Versuchsbedingung beobachteten
Merkmalswerte x
i1sind Realisierungen der (unabhängigen und identisch verteilten) Zufallsvariablen X
i1~ N( µ
1, σ
21)
(i=1,2,...,n
1); das mit diesen Variablen gebildete
Stichprobenmittel sei X
1, die Stichprobenvarianz sei S
1 2. Entsprechend sind die x
i2Realisierungen der Zufallsvariablen X
i2~ N( µ
2, σ
22) (i=1,2,...,n
2), aus denen wir das
Stichprobenmittel X
2sowie die Stichprobenvarianz S
22
bilden.
Es gelte: σ
21= σ
22(Varianzhomogenität ).
• Hypothesen:
Der Vergleich der Mittelwerte µ
1und µ
2erfolgt nach einer der folgenden Testvarianten:
H
0: µ
1= µ
2gegen H
1: µ
1≠ µ
2(Variante II) H
0: µ
1≤ µ
2gegen H
1: µ
1> µ
2(Variante Ia) H
0: µ
1≥ µ
2gegen H
1: µ
1< µ
2(Variante Ib)
• Testgröße:
2 1
2
2 1 2
2
1
~ für
1
1
1 2µ = µ
+
= −
n+n −p
t n S n
X TG X
mit
2 ) 1 (
) 1 (
2 1
2 2 2
2 1 1
− +
− +
= −
n n
S n
S S
pn
Ersetzt man X
1und X
2durch die arithmetischen Mittel x
1bzw. x
2sowie S
12und S
22durch die Varianzen s
12bzw. s
22, so erhält man
die Realisierung TG
sder Testgröße. Im Falle der Testvarianten Ia
und Ib möge TG
s≥ 0 bzw. TG
s≤ 0 gelten.
• Entscheidung mit dem P-Wert
1: P < α ⇒ H
0ablehnen; dabei ist
P=2F
n1+ n2-2(-|TG
s|) für die zweiseitige Testvariante II, P=1-F
n1+ n2-2(TG
s) für die Variante Ia,
P=F
n1+ n2-2(TG
s) für die Variante Ib;
F
n1+ n2-2bezeichnet die Verteilungsfunktionen der t-Verteilung mit dem Freiheitsgrad f=n
1+ n
2-2.
• Planung des Stichprobenumfangs:
Um auf dem Niveau α mit der Sicherheit 1- β eine Entscheidung für H
1herbeizuführen, wenn µ
1von µ
2um ∆ ≠ 0 im Sinne der
Alternativhypothese abweicht, kann für symmetrische
Versuchsanlagen mit n
1=n
2=n im Falle der 2-seitigen Testvariante II der erforderliche Mindeststichprobenumfang
2näherungsweise aus
( )
2
21 2 / 2 1
2
β
σ
α−
−
+
≈ ∆ z z
n
bestimmt werden. Im Falle der 1-seitigen Testvarianten Ia und Ib ist α/2 durch α zu ersetzen. Bei der Anwendung dieser Formeln muss ein Schätzwert für σ
2zur Verfügung stehen, z.B. eine Realisierung der gewichteten Stichprobenvarianz S
p2
. Beispiel 5.1:
Die Konzentration (in µ g/dl) von Eisen im Blutserum wurde bei
15- bis 18-jährigen Schülern (Variable X
1) und Schülerinnen (Variable X
2) bestimmt. Die verwendeten Zufallsstichproben haben jeweils den
Umfang n
1=n
2=20, die Mittelwerte sind x
1=102.1, x
2=81.4 und die Standardabweichungen s
1=39.1, s
2=42.5.
a) Unter der Annahme von mit gleichen Varianzen normalverteilten Grundgesamtheiten X
1~ N( µ
1, σ
2) und X
2~ N( µ
2, σ
2) zeigen wir, dass die beobachteten Mittelwerte x
1und x
2sich auf 5%igem Niveau nicht signifikant unterscheiden.
b) Anschließend bestimmen wir den erforderlichen
1 Die P-Werte für die Varianten des 2-Stichproben-t-Tests erhält man z.B. mit der R-Funktion t.test(), wenn der Parameter var.equal=TRUE gesetzt wird. Mit der Festlegung var.equal=FALSE
(Voreinstellung) führt die R-Funktion t.test() den im Folgenden behandelten Welch-Test zum Vergleich zweier Mittelwerte aus, der keine gleichen Varianzen voraussetzt.
2 Eine exakte Bestimmung des erforderlichen Mindeststichprobenumfangs kann wie im Falle des 1- Stichproben-t-Tests z.B. mit der R-Funktion power.t.test() vorgenommen werden. Wenn man n1=n2=n,
∆, σ und α vorgibt, liefert diese Funktion die entsprechenden Werte der Gütefunktion des 2- Stichproben-t-Tests.
Mindeststichprobenumfang, der geplant werden müsste, um mit dem Test bei einem Mittelwertunterschied von ∆ = µ
1- µ
2=20 mit 90%iger Sicherheit ein signifikantes Ergebnis zu erhalten.
Lösung mit R:
> options(digits=4)
> xquer1 <- 102.1; xquer2 <- 81.4 # Mittelwerte
> s1 <- 39.1; s2 <- 42.5 # Standardabweichungen
> n1 <- n2 <- 20 # Stichprobenumfänge
> # a) H0: mu1=mu2 gegen mu1 <> mu2
> alpha <- 0.05; f <- n1+n2-2
> sp2 <- ((n1-1)*s1^2+(n2-1)*s2^2)/f; sp <- sqrt(sp2)
> tgs <- (xquer1-xquer2)/sp*sqrt(n1*n2/(n1+n2))
> # Entscheidung mit Ablehnungsbereich
> q <- qt(1-alpha/2, f)
> # Entscheidung mit P-Wert
> P <- 2*pt(-abs(tgs), f)
> print(cbind(alpha, f, q, sp, tgs, P)) alpha f q sp tgs P [1,] 0.05 38 2.024 40.84 1.603 0.1172
Wegen P = 11.72% ≥ 5% kann H0 nicht abgelehnt werden.
> # b) Mindeststichprobenumfang: Berechnung mit Näherungsformel
> Delta <- 20; beta <- 0.1
> qa <- qnorm(1-alpha/2); qb <- qnorm(1-beta)
> n <- 2*sp2/Delta^2*(qa+qb)^2
> print(cbind(alpha, qa, beta, qb, n)) alpha qa beta qb n
[1,] 0.05 1.96 0.1 1.282 87.61
> # Mindeststichprobenumfang, exakte Rechnung mit R-Funktion
> power.t.test(delta=20, sd=sp, sig.level=0.05, power=0.9, + type="two.sample", alternative="two.sided")
Two-sample t test power calculation n = 88.58
delta = 20 sd = 40.84 sig.level = 0.05 power = 0.9
alternative = two.sided
NOTE: n is number in *each* group
Lernziel 5.3:
Mit dem F-Test entscheiden können, ob die Varianzen von zwei unabhängigen Stichproben normalverteilter Variablen voneinander abweichen bzw. die eine Varianz die andere überschreitet/
unterschreitet.
Ablaufschema:
• Beobachtungsdaten und Modell:
Es liegen die (voneinander unabhängigen) Stichproben x
11, x
21, …, x
n1,1und x
12, x
22, …, x
n2,2mit den Varianzen σ
12
bzw. σ
22
vor; die x
i1(i=1,2,…,n
1) sind Realisierungen der (unabhängigen und identisch verteilten) Zufallsvariablen X
i1~ N( µ
1, σ
12
); analog sind die x
i2(i=1,2,…,n
2) Realisierungen der Zufallsvariablen X
i2~ N( µ
2, σ
22).
Aus den Zufallsvariablen X
i1und X
i2werden die Stichprobenvarianzen S
12
bzw. S
22
gebildet.
• Hypothesen und Testgröße:
Der Vergleich der Varianzen σ
12und σ
22erfolgt nach einer der folgenden Testvarianten:
H
0: σ
12
= σ
22
gegen H
1: σ
12
≠ σ
22
(Variante II) H
0: σ
12
≤ σ
22
gegen H
1: σ
12
> σ
22
(Variante Ia), H
0: σ
12
≥ σ
22
gegen H
1: σ
12
< σ
22
(Variante Ib), Als Testgröße wird das Varianzverhältnis TG=S
12
/S
22
verwendet, das unter H
0F-verteilt ist mit den Freiheitsgraden f
1=n
1-1 und f
2=n
2-1. Setzt man für S
12und S
22die aus den beiden Stichproben berechneten Varianzen s
12bzw. s
22ein, ergibt sich die
Realisierung TG
s=s
12/s
22der Testgröße
3.
• Entscheidung mit dem P-Wert
4: P < α ⇒ H
0ablehnen; dabei ist
P=1-F
n1-1, n2-1(TG
s) + F
n2-1, n1-1(1/TG
s)=2[1-F
n1-1, n2-1(TG
s)] für die zweiseitige Testvariante II,
P=1-F
n1-1, n2-1(TG
s) für die Variante Ia, P=F
n1-1, n2-1(TG
s) für die Variante Ib;
F
n1-1, n2-1und F
n2-1, n1-1bezeichnen die Verteilungsfunktionen der F- Verteilung mit den Freiheitsgraden f
1=n
1-1, f
2=n
2-1 bzw. f
1=n
2-1, f
2=n
1-1.
Beispiel 5.2:
Bei einer Untersuchung der Cd-Belastung von Forellen in einem
Fließgewässer wurden an zwei Stellen je zehn Forellen gefangen und der Cd-Gehalt X (in mg/g Frischgewicht) bestimmt. Dabei ergaben sich die Messwerte
Stelle 1: 76.8, 72.3, 74.0, 73.2, 46.1, 76.5, 61.9, 62.4, 65.9, 62.4 Stelle 2: 64.4, 60.0, 59.4, 61.2, 52.0, 58.1, 55.8, 62.0, 57.8, 57.2.
Man nehme an, dass die Cd-Belastungen der Forellen an den Stellen 1 (Variable X
1) und 2 (Variable X
2) näherungsweise normalverteilt sind.
3 Im Falle der Testvarianten Ia und Ib möge TGs≥ 1 bzw. TGs≤ 1 gelten. Im Falle der 2-seitigen Testvariante nehmen wir TGs≥ 1 an, was durch entsprechende Bezeichnung der Stichproben stets erreicht werden kann.
4 Der P-Wert wurde als Wahrscheinlichkeit definiert, dass - bei Gültigkeit von H0 - die Testgröße einen Wert annimmt, der zumindest so extrem (in Richtung der Alternativhypothese) liegt, wie die
beobachtete Realisierung. In R werden die P-Werte des F-Tests mit der Funktion var.test() bestimmt.
Die Frage ist, ob sich die Varianzen von X
1und X
2auf 5%igem Testniveau signifikant unterscheiden.
Lösung mit R:
> x1 <- c(76.8, 72.3, 74.0, 73.2, 46.1, 76.5, 61.9, 62.4, 65.9, 62.4)
> x2 <- c(64.4, 60.0, 59.4, 61.2, 52.0, 58.1, 55.8, 62.0, 57.8, 57.2)
> # H0: sigma1^2 = sigma2^2 gegen H1: sigma1^2 <> sigma2^2
> alpha <- 0.05; n1 <- n2 <- length(x1)
> x1quer <- mean(x1); var1 <- var(x1); s1 <- sd(x1)
> x2quer <- mean(x2); var2 <- var(x2); s2 <- sd(x2)
> print(cbind(n1, x1quer, s1), digits=4) n1 x1quer s1
[1,] 10 67.15 9.475
> print(cbind(n2, x2quer, s2), digits=4) n2 x2quer s2
[1,] 10 58.79 3.471
> tg <- var1/var2; f1 <- n1-1; f2 <- n2-1
> if (tg>1) {P <- 2*(1-pf(tg, f1, f2))} else {P <- 2*pf(tg, f1, f2)}
> print(cbind(alpha, tg, P)) alpha tg P [1,] 0.05 7.45 0.006268278
> if (P < alpha) {res <- "Entscheidung für H1"} else + {res <- "H0 kann nicht abglehnt werden"}
> print(res)
[1] "Entscheidung für H1"
> # Loesung mit R-Funktion var.test():
> var.test(x1, x2)
F test to compare two variances data: x1 and x2
F = 7.45, num df = 9, denom df = 9, p-value = 0.006268
alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval:
1.850475 29.993655 sample estimates:
ratio of variances 7.45
> #
> # Berechnung der Wahrscheinlichkeit (Power), die beobachtete
> # Abweichung des Varianzverhältnisses von 1 als signifikant zu erkennen
> B <- 10000
> Ps <- replicate(B,
+ var.test(rnorm(n1,x1quer,s1), rnorm(n2,x2quer,s2))$p.value)
> sigres <- sum(Ps<alpha); power <- sigres/B
> print(cbind(sigres, B, power), digits=4) sigres B power
[1,] 8165 10000 0.8165
Hinweis:
Wird der F-Test in Verbindung mit dem 2-Stichproben t-Test als
„Vortest“ zum Nachweis der Varianzhomogenität eingesetzt, kann das Gesamtirrtumsrisiko α
gfür beide Testentscheidungen bis knapp 2 α
ansteigen. Diesen nicht erwünschten Nebeneffekt vermeidet man, wenn
als Alternative zum Mittelwertvergleich mit dem 2-Stichproben t-Test
und dem F-Test als Vortest der folgende, nicht ganz so „scharfe“ Welch-
Test eingesetzt wird.
Lernziel 5.4:
Mit dem 2-Stichproben-t-Test die Varianzen von zwei unabhängigen Stichproben vergleichen können (Sonderfall des Levene-Tests).
Prüft man in Verbindung mit dem 2-Stichproben-t-Test die Homogenität der Varianzen, so verwendet man dazu meist den Levene-Test, der robuster gegenüber Abweichungen von der Normalverteilungsannahme ist als der F-Test. Die Durchführung ist einfach.
Es seien x
11, x
21, …, x
n1,1und x
12, x
22, …, x
n2,2die gemessenen Werte der Parallelstichproben unter der Versuchsbedingung 1 bzw. 2. Wir
bestimmen die arithmetischen Mittel x
1und x
2der Parallelstichproben und bilden die Stichproben z
i1=|x
i1- x
1| und z
i2=|x
i2- x
2| (i=1, 2, …, n
i), in dem wir von jedem Einzelwert den entsprechenden Gruppenmittelwert abziehen und davon den Betrag nehmen. Die arithmetischen Mittel z
1und z
2der z-Stichproben kann man als Maß für die mittlere Streuung der Originalwerte um den jeweiligen Gruppenmittelwert ansehen. Gibt es zwischen den Varianzen der Originalstichproben einen deutlichen
Unterschied, werden sich auch die arithmetischen Mittel z
1und z
2unterscheiden. Ob der Unterschied auf einem vorgegebenem
Niveau α signifikant ist, kann mit dem auf die z-Stichproben angewandten 2-Stichproben-t-Test entschieden werden.
Beispiel 5.3:
Es soll mit dem Levene-Test geprüft werden, ob sich die Varianzen der als normalverteilt angenommenen Variablen X
1und X
2auf 5%igem Testniveau signifikant unterscheiden. Die Stichprobenwerte sind die in Beispiel 5.2 angegebenen Cd-Werte an zwei verschiedenen Stellen eines Fließgewässers.
Lösung mit R:
> x1 <- c(76.8, 72.3, 74.0, 73.2, 46.1, 76.5, 61.9, 62.4, 65.9, 62.4)
> x2 <- c(64.4, 60.0, 59.4, 61.2, 52.0, 58.1, 55.8, 62.0, 57.8, 57.2)
> # H0: sigma1^2 = sigma2^2 vs. H1: sigma1^2 <> sigma2^2
> # a) Lösung mit der Funktion t.test()
> z1 <- abs(x1-mean(x1)); z2 <- abs(x2-mean(x2))
> P <- t.test(z1, z2, var.equal=T)$p.value
> print(P, digits=4) [1] 0.0169
> # b) Lösung mit der Funktion leveneTest() im Paket car
> library(car)
> x12 <- c(x1, x2)
> n1 <- length(x1); n2 <- length(x2)
> stelle <- factor(c(rep(1, n1), rep(2, n2)))
> leveneTest(x12, group=stelle, center=mean)
Levene's Test for Homogeneity of Variance (center = mean) Df F value Pr(>F)
group 1 6.9307 0.0169 *
18 ---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Lernziel 5.5:
Mit dem Welch-Test die Mittelwerte von zwei normalverteilten Untersuchungsmerkmalen vergleichen können.
Ablaufschema:
• Beobachtungsdaten und Modell, Hypothesen:
wie beim Zwei-Stichproben-t-Test bis auf die Voraussetzung σ
21= σ
22(Varianzhomogenität ).
• Testgröße:
( )
( / ) /( / 1 ) ( / / ) /( 1 ) (abgerunde t auf ganze Zahl)
mit
für weise) (näherungs
verteilt -
t
~ / /
2 2 2 2 2 1
2 1 2 1
2 2 2 2 1 2 1
2 1 f
2 2 2 1 2 1
2 1
− +
−
= +
+ =
= −
n n
s n
n s
n s n f s
n S n S
X
TG X µ µ
• Entscheidung:
analog zur Vorgangsweise beim Zwei-Stichproben-t-Test mit dem P-Wert bzw. mit Hilfe des Ablehnungsbereichs; der dortige
Freiheitsgrad n
1+n
2-2 ist durch f zu ersetzen.
Beispiel 5.4:
Mit den Daten von Aufgabe 5.2 soll geklärt werden, ob der mittlere Cd- Gehalt an der Stelle 1 auf 5%igem Testniveau signifikant über dem entsprechenden Wert an der Stelle 2 liegt.
Lösung mit R:
> x1 <- c(76.8, 72.3, 74.0, 73.2, 46.1, 76.5, 61.9, 62.4, 65.9, 62.4)
> x2 <- c(64.4, 60.0, 59.4, 61.2, 52.0, 58.1, 55.8, 62.0, 57.8, 57.2)
> # a) Datenbeschreibung, Normalverteilungsüberprüfung
> fivenum(x1); fivenum(x2); boxplot(x1, x2, names=c("Stelle 1", "Stelle 2"))
[1] 46.1 62.4 69.1 74.0 76.8 [1] 52.00 57.20 58.75 61.20 64.40
> # H0: Grundgesamtheit X1 bzw. X2 ist normalverteilt
> shapiro.test(x1); shapiro.test(x2) Shapiro-Wilk normality test data: x1
W = 0.86821, p-value = 0.09526
Wegen P = 9.53% >= 5% kann H0 nicht abgelehnt werden!
Shapiro-Wilk normality test data: x2
W = 0.98459, p-value = 0.985
Wegen P = 98.5% >= 5% kann H0 nicht abgelehnt werden!
> # b) Mittelwertvergleich H0: mu1 <= mu2 gegen mu1 > mu2
> # b1) P-Wert-Berechnung mit Formel
> xquer1 <- mean(x1); s1 <- sd(x1)
> xquer2 <- mean(x2); s2 <- sd(x2)
> n1 <- n2 <- length(x1); se <- sqrt(s1^2/n1+s2^2/n2)
> tg <- (xquer1-xquer2)/se
> fz <- (s1^2/n1+s2^2/n2)^2; fn <- (s1^2/n1)^2/(n1-1)+(s2^2/n2)^2/(n2-1)
> f <- fz/fn; alpha <- 0.05; tq <- qt(1-alpha, f); P <- 1-pt(tg, f)
> print(cbind(tg, f, alpha, tq, P), digits=4) tg f alpha tq P
[1,] 2.62 11.37 0.05 1.791 0.01163 Wegen P = 1.16% < 5% wird H0 abgelehnt!
> # b2) P-Wert-Berechnung mit t.test()
> t.test(x1, x2, alternative="greater") Welch Two Sample t-test
data: x1 and x2
t = 2.6199, df = 11.373, p-value = 0.01163
alternative hypothesis: true difference in means is greater than 0 95 percent confidence interval:
2.646589 Inf sample estimates:
mean of x mean of y 67.15 58.79
> # c) näherungsweise Bestimmung der Wahrscheinlichkeit (Power), die
> # beobachtete Mittelwertdifferenz als siginfikant zu erkennen
> B <- 10000
> Ps <- replicate(B,
+ t.test(rnorm(n1,xquer1, s1), rnorm(n2,xquer2, s2), alternative="greater")$p.value)
> sigres <- sum(Ps < alpha); power <- sigres/B
> print(cbind(sigres, B, power), digits=4) sigres B power
[1,] 7936 10000 0.7936
Lernziel 5.6*:
Mit dem Wilcoxon-Rangsummen-Test die Mittelwerte von zwei bis auf die Lage identisch verteilten Untersuchungsmerkmalen im Rahmen von Parallelversuchen vergleichen können.
Ablaufschema:
• Beobachtungsdaten:
Es liegen von den Variablen X
1und X
2(X
1und X
2beziehen sich oft auf ein Merkmal, das unter zwei Bedingungen beobachtet wird) zwei unabhängige Beobachtungsreihen Stichproben x
11, x
21, ..., x
n1,1und x
12, x
22, ..., x
n2,2vor. Diese werden in der folgenden Weise
rangskaliert:
Man kombiniert beide Stichproben und schreibt die Stichprobenwerte
nach aufsteigender Größe geordnet an. Die Stichprobenwerte werden dann (von 1 bis n
1+n
2) durchnummeriert und die erhaltenen
Platznummern (Ränge) den Stichprobenwerten x
i1und x
i2als Rangzahlen r
i1bzw. r
i2zugeordnet. Stimmen mehrere
Stichprobenwerte überein, wird jedem dieser gleichen Werte das arithmetische Mittel der zugeordneten Nummern als Rangzahl zugewiesen. Die Summe der den Werten der ersten Stichprobe zugeteilten Rangzahlen sei r
1, die Rangsumme der zweiten Stichprobe sei r
2.
• Modell:
Jedes x
i1(x
i2) ist Realisierung einer Zufallsvariablen X
i1(X
i2) mit der Verteilungsfunktion F
1(F
2). F
1und F
2unterscheiden sich nur in der Lage, d.h., Graph von F
2geht durch Verschiebung um ein bestimmtes θ in Richtung der positiven horizontalen Achse in Graphen von F
1über
5.
Bei positivem θ ist zu erwarten, dass X
1"im Mittel" größere Werte als X
2annimmt; X
2wird in diesem Fall als stochastisch kleiner als X
1bezeichnet. Bei negativem θ wird X
2die Zufallsvariable X1 "im Mittel"
übertreffen; in diesem Fall heißt X
2stochastisch größer als X
1. Ist schließlich θ =0, fallen die Verteilungsfunktionen F
1und F
2zusammen und die Zufallsvariablen X
1und X
2heißen stochastisch gleich. Die für die X
1- und X
2-Reihe berechneten Rangsummen seien R
1bzw. R
2mit den Realisierungen r
1bzw. r
2.
• Hypothesen und Testgröße:
Fall II: H
0: θ = 0 gegen H
1: θ ≠ 0 (X
1stochastisch ungleich X
2) Fall Ia: H
0: θ ≤ 0 gegen H
1: θ > 0 (X
1stochastisch größer als X
2) Fall Ib: H
0: θ ≥ 0 gegen H
1: θ < 0 (X
1stochastisch kleiner als X
2)
Als Testgröße verwenden wir die Summe der Ränge der X
1-
Stichprobe, vermindert um den kleinstmöglichen Wert n
1(n
1+1)/2 dieser Rangsumme, d.h.
TG = W = R
1-n
1(n
1+1)/2.
Für θ =0 ist der Erwartungswert und die Varianz der Testgröße durch E(W)= µ
W=n
1n
2/2 bzw. Var(W)= σ
W2
=n
1n
2(n
1+n
2+1)/12
5 Diese Voraussetzung bedeutet im Besonderen, dass die Varianzen von X1 und X2 übereinstimmen müssen. Ist n1=n2 zeichnet sich der Rangsummen-Test von Wilcoxon aber durch seine Robustheit gegenüber ungleichen Varianzen aus.
gegeben. Bei größeren Werten von n
1und n
2(etwa ab n
1, n
2> 20) kann die Nullverteilung von W (d.h. die Verteilung unter der
Voraussetzung θ =0) durch die N( µ
W, σ
W2
)-Verteilung approximiert werden.
• Entscheidung mit dem P-Wert
6: P < α ⇒ H
0ablehnen; dabei ist
P= F
W( µ
W-d) + 1- F
W( µ
W+d-1) mit d = |TG
s- µ
W| für die zweiseitige Testvariante II,
P=1 - F
W(TG
s-1) für die Variante Ia, P=1 - F
W(TG
s) für die Variante Ib
(F
Wbezeichnet die Verteilungsfunktionen von W bei Gültigkeit von H
0).
Beispiel 5.5:
In zwei Entfernungen vom Ufer eines Fließgewässers wurden an jeweils 12 Entnahmestellen die folgenden Werte der Besiedlungsdichten X
1und X
2(Makrozoobenthos pro m
2) beobachtet. Man prüfe mit dem
Rangsummen-Test von Wilcoxon, ob sich die betrachtete
Besiedlungsdichte im Mittel von der Entfernung 1 zur Entfernung 2 signifikant verändert. Als Signifikanzniveau sei α =0.05 vereinbart.
Entfernung 1:
2389, 1705, 1678, 5766, 1393, 3599, 6182, 872, 1373, 3832, 2952, 800 Entfernung 2:
9123, 1949, 5827, 9657, 4919, 3335, 1520, 5182, 4446, 3006, 4069, 1921
Lösung mit R:
> # Beispiel 5.4 (Rangsummentest von Wilcoxon)
> x1 <- c(2389,1705,1678,5766,1393,3599,6182, 872,1373,3832,2952, 800)
> x2 <- c(9123,1949,5827,9657,4919,3335,1520,5182,4446,3006,4069,1921)
> x1med <- median(x1); s1 <- sd(x1); n1 <- length(x1)
> x2med <- median(x2); s2 <- sd(x2); n2 <- length(x2)
> print(cbind(x1med, x2med, s1, s2, n1, n2), digits=4) x1med x2med s1 s2 n1 n2
[1,] 2047 4258 1815 2630 12 12
> # H0: X1 st.= X2 gegen H1: X1 st. <> X2
> alpha <- 0.05
> # Berechnung des P-Werts mit R-Funktion wilcox.test()
6 In R werden Werte der Verteilungsfunktion FW von W mit der Funktion pwilcox() und die Quantile von F_W mit qwilcox() bestimmt. Mit der Funktion wilcox.test() erhält man den exakten P-Wert des Tests, wenn die Stichprobenumfänge kleiner als 50 sind und keine Bindungen (gleiche Stichprobenwerte) auftreten; andernfalls wird von der Normalverteilungsapproximation Gebrauch gemacht. Einen auch bei Bindungen exakten Rangsummen-Test findet man im R-Paket "exactRankTests" unter der Bezeichnung wilcox.exact().
.
> wilcox.test(x1, x2)
Wilcoxon rank sum test data: x1 and x2
W = 37, p-value = 0.0449
alternative hypothesis: true location shift is not equal to 0
> # Bestimmung des P-Werts mit pwilcox() (Vert.-funktion der Testgröße W)
> id1 <- c(rep(1, n1)); id2 <- c(rep(2, n2))
> id <- c(id1, id2); x12 <- c(x1, x2); rg12 <- rank(x12)
> r1 <- sum(rg12[id == 1]); r2 <- sum(rg12[id == 2])
> muW <- n1*n2/2; sigmaW <- sqrt(n1*n2*(n1+n2+1)/12)
> tgs <- W <- r1-n1*(n1+1)/2; d <- abs(W-muW);
> P <- pwilcox(muW-d, n1, n2)+1-pwilcox(muW+d-1, n1, n2)
> print(cbind(r1, muW, sigmaW, tgs, d, P), digits=4) r1 muW sigmaW tgs d P
[1,] 115 72 17.32 37 35 0.0449
> # Testentscheidung mit Ablehnungsbereich (W<q1 oder W>q2)
> q1 <- qwilcox(alpha/2, 12, 12); q2 <- qwilcox(1-alpha/2, 12, 12)
> print(cbind(q1, q2, tgs), digits=4) q1 q2 tgs
[1,] 38 106 37
> # Normalverteilungsapproximation
> tgss <- (tgs-muW)/sigmaW; P <- 2*pnorm(-abs(tgss))
> print(cbind(tgss, P), digits=4) tgss P
[1,] -2.021 0.04331
Lernziel 5.7:
Mit dem Differenzen-t-Test (paired t-test) die Mittelwerte von zwei normalverteilten Untersuchungsmerkmalen vergleichen können.
Ablaufschema:
• Beobachtungsdaten und Modell:
n Wertepaare (x
11, x
12), (x
21, x
22), ..., (x
n,1, x
n,2) durch Messung der Variablen X
1(Mittelwert µ
1) und X
2(Mittelwert µ
2) an n
Untersuchungseinheiten
Differenzenstichprobe d
1=x
12- x
11, d
2=x
22- x
21, ..., d
n=x
n2- x
n1mit Mittelwert
dund Varianz s
d2.
Jedes d
iist Realisierung einer Zufallsvariablen D
i~N( µ
D, σ
D2
) mit µ
D= µ
2- µ
1Stichprobenmittel D ~ N( µ
D, σ
D2
/n), Stichprobenvarianz S
D 2• Hypothesen und Testgröße:
Fall II: H
0: µ
D= 0 gegen H
1: µ
D≠ 0 Fall Ia: H
0: µ
D≤ 0 gegen H
1: µ
D> 0 Fall IIb: H
0: µ
D≥ 0 gegen H
1: µ
D< 0
0 für
/ ~
1=
=
n− DD
n t S
TG D µ
• Entscheidung mit dem P-Wert:
P < α ⇒ H
0ablehnen; dabei ist
P=2F
n-1(-|TG
s|) für die zweiseitige Testvariante II, P=1-F
n-1(TG
s) für die Variante Ia,
P=F
n-1(TG
s) für die Variante Ib;
F
n-1bezeichnet die Verteilungsfunktionen der t-Verteilung mit dem Freiheitsgrad f=n-1.
• Planung des Stichprobenumfangs:
Um auf Niveau α mit der Sicherheit 1- β eine Entscheidung für H
1herbeizuführen, wenn µ
Dvon 0 um ∆ ≠ 0 im Sinne der Alternativhypothese abweicht, ist das dafür notwendige n näherungsweise im Fall II:
in den Fällen Ia und Ib ist z
1-α/2durch z
1-αzu ersetzen. Bei Anwendung dieser Formeln muss ein Schätzwert für σ
Dzur Verfügung stehen.
Beispiel 5.6:
Ein einfaches Maß für die Wirkung W eines Präparats auf ein Untersuchungsmerkmal ist die Differenz W=X
n-X
vaus dem
Untersuchungsmerkmal X
nnach und dem Untersuchungsmerkmal X
vvor Gabe des Präparats. Es soll festgestellt werden, ob ein Testpräparat B im Mittel eine größere Wirkung zeigt als ein Kontrollpräparat A. Die Untersuchung wird als Paarvergleich so geplant, dass 10 Probanden zuerst mit dem Kontrollpräparat und dann (nach einer angemessenen Zeitdauer zur Vermeidung von Übertragungseffekten) mit dem
Testpräparat behandelt werden. Die mit den Präparaten A und B erzielten (fiktiven) Wirkungen W
Abzw. W
Bsind:
A: 9.45, 8.50, 7.46, 10.10, 11.81, 9.70, 12.76, 7.03, 10.49, 5.01 B: 11.56, 12.50, 7.15, 13.97, 9.35, 12.67, 13.14, 8.13, 11.64, 9.73 Lösung mit R:
> wA <- c(9.45, 8.50, 7.46, 10.10, 11.81, 9.70, 12.76, 7.03, 10.49, 5.01)
> wB <- c(11.56, 12.50, 7.15, 13.97, 9.35, 12.67, 13.14, 8.13, 11.64, 9.73)
> xquerA <- mean(wA); sA <- sd(wA); xquerB <- mean(wB); sB <- sd(wB);
> n <- nA <- nB <- length(wA)
> print(cbind(xquerA, xquerB, sA, sB, nA, nB), digits=4) xquerA xquerB sA sB nA nB
[1,] 9.231 10.98 2.31 2.274 10 10
> d <- wB-wA; dquer <- mean(d); sd <- sd(d); se <- sd/sqrt(n);
> print(cbind(dquer, sd, se), digits=4) dquer sd se
[1,] 1.753 2.227 0.7041
(
1 /2 1)
2;
2 2
β
σ
α−
−
+
≈ ∆ z z
n
D> # H0: muB <=muA gegen H1: muB > muA <=> H0: muD<=0 gegen H1: muD>0
> # direkte Berechnung des P-Werts (Ablehungsbereichs)
> alpha <- 0.05; tgs <- dquer/se
> P <- 1-pt(tgs, n-1); tq <- qt(1-alpha, n-1)
> print(cbind(alpha, tgs, tq, P), digits=4) alpha tgs tq P
[1,] 0.05 2.49 1.833 0.01722
> # Berechnung des P-Werts mit t.test()
> t.test(d, alternative="greater") One Sample t-test
data: d
t = 2.4896, df = 9, p-value = 0.01722
alternative hypothesis: true mean is greater than 0 95 percent confidence interval:
0.4622372 Inf sample estimates:
mean of x 1.753
Ergebnis: P=1.72% < 5% H1
Lernziel 5.8*:
Mit dem Wilcoxon-Test für Paardifferenzen Mittelwertunterschiede im Rahmen von Paarvergleichen prüfen können, wenn auf die
Differenzenstichprobe die Normalverteilungsvoraussetzung nicht zutrifft.
Ablaufschema:
• Beobachtungsdaten und Modell:
n Wertepaare (x
11, x
12), (x
21, x
22), ..., (x
n,1, x
n,2)
Differenzenstichprobe d
1=x
12- x
11, d
2=x
22- x
21, ..., d
n=x
n2- x
n1(Paare mit übereinstimmenden Werten bleiben unberücksichtigt);
Paardifferenzen nach aufsteigender Größe der Absolutbeträge anordnen und durchnummerieren, Ordnungsnummern den Paardifferenzen als Rangzahlen zuordnen; Differenzen mit
gleichen Absolutbeträgen erhalten als Rangzahl das arithmetische Mittel der vergebenen Platznummern.
Wenn eine Paardifferenz negativ ist, wird die entsprechende
Rangzahl mit einem negativen Vorzeichen versehen. Die Summe der positiven Rangzahlen sei w
+. Jedes d
iist die Realisierung einer Zufallsvariablen D
i(i=1,2, …, n) mit einer stetigen und
symmetrisch um den Median ζ liegenden Verteilungsfunktion.
• Hypothesen und Testgröße:
Fall II: H
0: ζ = 0 gegen H
1: ζ ≠ 0 Fall Ia: H
0: ζ ≤ 0 gegen H
1: ζ > 0 Fall Ib: H
0: ζ ≥ 0 gegen H
1: ζ < 0
Als Testgröße wird die Summe TG = W
+der den positiven
Paardifferenzen D
izugeordneten Rangzahlen verwendet. Der
Mittelwert und die Varianz von W
+ist unter der Voraussetzung ζ =0 durch
E(W
+)= µ
W+=n(n+1)/4 bzw. Var(W
+)= σ
W+2
=n(n+1)(2n+1)/24 gegeben
7. Bei größerem n (etwa ab n = 20) kann die Nullverteilung von W
+(d.h. die Verteilung von W
+für ζ =0) durch die
Normalverteilung mit dem Mittelwert µ
W+und der Varianz σ
W+2approximiert werden.
• Entscheidung mit dem P-Wert:
P < α ⇒ H
0ablehnen; dabei ist
P= F
W+( µ
W+-d) + 1- F
W+( µ
W++d-1) mit d = |TG
s- µ
W+| für die zweiseitige Testvariante II,
P=1 - F
W+(TG
s-1) für die Variante Ia, P=1 - F
W+(TG
s) für die Variante Ib
(F
W+bezeichnet die Verteilungsfunktionen von W
+bei Gültigkeit von H
0).
Beispiel 5.7:
Zur Erhöhung der Lesegeschwindigkeit unterziehen sich 14 Probanden einem Training. Als Lesegeschwindigkeit (in Wörtern pro Minute) vor und nach dem Training (wir bezeichnen sie mit X
1bzw. X
2) ergab sich für die Probanden:
X
1: 236, 270, 381, 294, 414, 308, 301, 220, 286, 401, 435, 324, 310, 354 X
2: 287, 287, 395, 305, 426, 290, 337, 283, 301, 462, 456, 351, 255, 380 Man zeige mit dem Wilcoxon-Test für abhängige Stichproben, dass das Training zu einer signifikanten ( α =5%) Erhöhung der
Lesegeschwindigkeit geführt hat.
Lösung mit R:
> x1 <- c(236, 270, 381, 294, 414, 308, 301, 220, 286, 401, 435, 324, 310, 354)
> x2 <- c(287, 287, 395, 305, 426, 290, 337, 283, 301, 462, 456, 351, 255, 380)
> # H0: Median1 >= Median2 gegen H1: Median1 < Median2
> alpha <- 0.05; n <- length(x1); d <- x2-x1
> # P-Wert-Berechnung mit der R-Funktion wilcox.test
> wilcox.test(d, alternative="greater", correct=F) Wilcoxon signed rank test
data: d
V = 87, p-value = 0.01477
7 Zur Berechnung von Funktionswerten der Verteilungsfunktion von W+ steht in R die Anweisung psignrank() zur Verfügung, Quantile erhält man mit qsignrank().
alternative hypothesis: true location is greater than 0
> # P-Wert-Berechnung mit Verteilungsfunktion von W+
> rg <- rank(abs(d))*sign(d)
> rgplus <- rg[rg>0]; wplus <- sum(rgplus)
> P <- 1-psignrank(wplus-1, n)
> print(cbind(wplus, P), digits=4) wplus P
[1,] 87 0.01477
Entscheidung: P=1.48% < 5% H1
> # Testentscheidung mit Ablehungsbereich
> q <- qsignrank(1-alpha, n)
> print(cbind(wplus, q), digits=4) wplus q
[1,] 87 79
> # Normalverteilungsapproxiumation
> mwp <- n*(n+1)/4; swp <- sqrt(n*(n+1)*(2*n+1)/24)
> tgs <- (wplus-mwp)/swp; Papprox <- 1-pnorm(tgs)
> print(cbind(mwp, swp, tgs, Papprox), digits=4) mwp swp tgs Papprox
[1,] 52.5 15.93 2.166 0.01516
Lernziel 5.9:
Zwei Wahrscheinlichkeiten im Rahmen eines Parallelversuchs mit großen Stichproben vergleichen können.
Ablaufschema:
• Beobachtungsdaten und Modell: Von einem Untersuchungsmerkmal X
1liegen zwei unabhängige Stichproben mit den Umfängen n
1bzw.
n
2vor. Die Stichproben stammen aus zwei, durch das
Gliederungsmerkmal X
2unterschiedenen Grundgesamtheiten; der Wert X
2=b
1kennzeichnet die eine, der Wert X
2=b
2die andere
Grundgesamtheit. Das Untersuchungsmerkmal X
1setzen wir als binär voraus, d.h., seine Realisierungen beschränken sich auf zwei Werte a
1und a
2. In der ersten Stichprobe (X
2=b
1) möge n
11-mal der Wert a
1und n
21-mal der Wert a
2auftreten, in der zweiten Stichprobe (X
2=b
2) n
12-mal der Wert a
1und n
22-mal der Wert a
2. Die Stichproben lassen sich übersichtlich in Gestalt der Vierfeldertafel
Die Werte der ersten und zweiten Stichprobe sind Realisierungen eines Untersuchungsmerkmals X
1, das als Bernoulli-verteilt
mit den Werten a
1, a
2und den Parametern p
1bzw. p
2vorausgesetzt wird.
Untersuchungs- merkmal X
1Gruppe 1 X
2=b
1Gruppe 2 X
2=b
2(Zeilen-) Summen
Wert a
1n
11n
12n
1.Wert a
2n
21n
22n
2.(Spalten-) Summen
n
.1=n
1vorgegeben
n.
2=n
2vorgegeben
n
..=n
1+n
2• Hypothesen und Testgröße:
Fall II: H
0: p
1= p
2gegen H
1: p
1≠ p
2Fall Ia: H
0: p
1≤ p
2gegen H
1: p
1> p
2Fall Ib: H
0: p
1≥ p
2gegen H
1: p
1< p
2Als Testgröße wird die standardisierte Differenz
2 1
2 1 2
1
) 1
( n n
n n Y
Y Y TG Y
− +
= −
der Anteile Y
1und Y
2, mit denen die Merkmalsausprägung X
1=a
1in der ersten bzw. zweiten Stichprobe auftritt verwendet. Y bezeichnet hier den Anteil, mit dem X
1=a
1in beiden Gruppen auftritt. Die
Verteilung der Testgröße kann mit einer für die Praxis i. Allg.
ausreichenden Genauigkeit durch die Standardnormalverteilung approximiert werden, wenn n
.jn
i./n>5 (i, j=1,2) gilt, also die auf den Gesamtumfang n bezogenen Produkte der Spaltensummen mit den Zeilensummen größer als 5 sind. Indem man für Y
1, Y
2und Y die entsprechenden relativen Häufigkeiten y
1=n
11/n
1, y
2=n
12/n
2bzw.
y=n
1./n einsetzt, erhält man die Realisierung TG
sder Testgröße.
Die Approximation kann verbessert werden, wenn
Stetigkeitskorrektur so vorgenommen wird, dass man in der realisierung der Testgröße y
1und y
2im Falle y
1> y
2durch y
1- 1/(2n
1) bzw. y
2+ 1/(2n
2) und im Falle y
1< y
2durch y
1+1/(2n
1) bzw. y
2- 1/(2n
2) ersetzt.
• Entscheidung mit dem P-Wert
8: P < α ⇒ H
0ablehnen; dabei ist
P= 2Φ(-|TG
s|) für die zweiseitige Testvariante II, P=1 - Φ (TG
s) für die Variante Ia,
P= Φ (TG
s) für die Variante Ib.
• Planung des Stichprobenumfanges:
Um auf dem Niveau α mit der Sicherheit 1- β eine Entscheidung für H
1herbeizuführen, wenn p
1von p
2um ∆ ≠ 0 im Sinne der
Alternativhypothese abweicht, kann für symmetrische
Versuchsanlagen mit n
1=n
2=n im Falle der 1-seitigen Testvarianten Ia und Ib der erforderliche Mindeststichprobenumfang näherungsweise aus
8 Zur Durchführung des Tests (mit und ohne Stetigkeitskorrektur) steht in R die Funktion prop.test() zur Verfügung.
( )
2 2 2
2 1
1
mit 2 arcsin 2 arcsin
2 h p p
h z
n z + = + ∆ −
≈
−α −βbestimmt werden. Im Falle der 2-seitigen Testvariante II ist α durch α /2 zu ersetzen
9.
Beispiel 5.8:
Im Zuge einer Studie über den Einfluss der Düngung (Tresterkompost- bzw. Mineraldüngung) auf den Pilzbefall (Falscher Mehltau) von
Weinstöcken (Vitis vinifera) wurden n
1=39 Weinstöcke mit Tresterkompost gedüngt und ebenso viele (n
2=39) Stöcke
mineralgedüngt. Es stellte sich heraus, dass in der ersten Gruppe (Testgruppe) n
11=20 Stöcke einen starken Befall (Ausprägung a
1) und n
21=19 Stöcke nur ein schwachen bzw. überhaupt keinen Befall
(Ausprägung a
2) zeigten. In der zweiten Gruppe (Kontrollgruppe) waren n
12=10 Weinstöcke stark und n
22=29 nur schwach bis nicht erkennbar befallen.
a) An Hand dieses Beobachtungsergebnisses soll auf 5%igem Testniveau geprüft werden, ob sich das Befallrisiko in den Gruppen signifikant unterscheidet.
b) Ist die Fallzahl in den Gruppen richtig geplant, um mit dem Test eine Abweichung des Befallrisikos bei Tresterkompostdüngung von dem Befallrisiko bei Mineraldüngung um ∆ =0.2 mit einer Sicherheit von 90%
erkennen zu können?
Lösung mit R:
> n.tstark <- 20; n.tschwach <- 19
> n.mstark <- 10; n.mschwach <- 29
> # Voraussetzung für Normalverteilungsapproximation
> nstark <- n.tstark+n.mstark
> nschwach <- n.tschwach+n.mschwach
> nt <- n.tstark+n.tschwach; nm <- n.mstark+n.mschwach
> n <- nt+nm
> e.tstark <- nt*nstark/n; e.tschwach <- nt*nschwach/n
> e.mstark <- nm*nstark/n; e.mschwach <- nm*nschwach/n
> print(cbind(e.tstark, e.tschwach, e.mstark, e.mschwach)) e.tstark e.tschwach e.mstark e.mschwach
[1,] 15 24 15 24
> # a) H0: p(starker Befall|Trester)=p(starker Befall|Mineral)
> # gegen H1: ... ungleich ...
> alpha <- 0.05
> # direkte Berechnung des P-Werts
> y1 <- n.tstark/nt; y2 <- n.mstark/nm; y <- nstark/n
> tgsmc <- (y1-1/2/nt-y2-1/2/nm)/sqrt(y*(1-y))*sqrt(nt*nm/n)
> Pmc <- 2*pnorm(-abs(tgsmc))
> print(cbind(y1, y2, y, tgsmc, Pmc), digits=4) y1 y2 y tgsmc Pmc
[1,] 0.5128 0.2564 0.3846 2.095 0.0362
9 Zur Planung von Stichprobenumfängen mit diesen Formeln kann man die R-Funktion pwr.2p.test() im Paket "pwr" verwenden.
> # Berechnung des P-Werts mit prop.test()
> prop.test(c(n.tstark, n.mstark), c(nt, nm), alternative="two.sided") 2-sample test for equality of proportions with continuity correction
data: c(n.tstark, n.mstark) out of c(nt, nm) X-squared = 4.3875, df = 1, p-value = 0.0362 alternative hypothesis: two.sided
95 percent confidence interval:
0.02246956 0.49035095 sample estimates:
prop 1 prop 2 0.5128205 0.2564103
> # b) Planung des Stichprobenumfangs
> p2 <- y2; Delta <- 0.20; p1 <- p2+Delta; beta <- 0.1
> h <- 2*asin(sqrt(p1))- 2*asin(sqrt(p2))
> za <- qnorm(1-alpha/2); zb <- qnorm(1-beta); nap <- 2*(za+zb)^2/h^2
> print(cbind(p1, p2, za, zb, h, nap), digites=4) p1 p2 za zb h nap
[1,] 0.4564 0.2564 1.96 1.282 0.4216 118.2
> # Mindest-n mit der R-Funktion pwr.2p.test()
> library(pwr)
> pwr.2p.test(h = h, sig.level = 0.05, power = 1-beta, + alternative = "two.sided")
Difference of proportion
power calculation for binomial distribution (arcsine transformation) h = 0.4216
n = 118.2 sig.level = 0.05 power = 0.9
alternative = two.sided NOTE: same sample sizes
Lernziel 5.10:
Zwei Wahrscheinlichkeiten mit abhängigen Stichproben vergleichen können.
Ablaufschema:
• Beobachtungsdaten:
X
1, X
2… zweistufige Merkmale mit Werten a
1und a
2(z.B.
Verbesserung bzw. keine Verbesserung oder Nebenwirkung bzw.
keine Nebenwirkung);
X
1kann ein Untersuchungsmerkmal vor einer Behandlung (Zeitpunkt 1) und X
2das Untersuchungsmerkmal nach einer Behandlung (Zeitpunkt 2) sein. Beobachtung von X
1und X
2an n Untersuchungseinheiten
2 abhängige Stichproben
Zusammenfassung in Vierfeldertafel:
X
2X
1a
1a
2Σ a
1n
11n
12n
1.a
2n
21n
22n
2.Σ n
.1n
.2n
• Hypothesen und Testgröße:
Abkürzungen:
p
1.= P(X
1=a
1) = P(X
1=a
1und X
2=a
1) + P(X
1=a
1und X
2=a
2), p
.1= P(X
2=a
1) = P(X
2=a
1und X
1=a
1) + P(X
2=a
1und X
1=a
2), p
12= P(X
1=a
1und X
2=a
2), p
21= P(X
2=a
1und X
1=a
2);
H
0: p
1.= p
.1vs. H
1: p
1. ≠p
.1H
0: p
12= p
21vs. H
1: p
12 ≠p
21H
0: p
12*:=p
12/(p
12+ p
21) = p
21/(p
12+ p
21) =: p
21* vs. H
1: p
12*
≠p
21* H
0: p
12* = ½ vs. H
1: p
12*
≠½ (wegen p
12*+ p
21*=1)
Testgröße (Binomialtest):
TG = H
12~ B
n*,p0(falls H
0gilt)
H
12= Anzahl der Untersuchungseinheiten mit X
1=a
1und X
2=a
2, n*=n
12+n
21, p
0=1/2; ersetzt man H
12durch n
12, erhält man die Realisierung TG
s=n
12.
Testgröße (McNemar-Statistik, Normalverteilungsapproximation):
H
21= Anzahl der Untersuchungseinheiten mit X
1=a
2und X
2=a
1. Ersetzt man H
12durch n
12und H
21durch n
21, erhält man die Realisierung TG
sder Testgröße.
• Entscheidung mit dem P-Wert (Binomialtest)
P < α ⇒ H
0ablehnen; dabei ist P=F
B( µ
0-d)+1- F
B( µ
0+d-1);
hier ist F
Bdie Verteilungsfunktion der B
n*,1/2-Verteilung, µ
0=n*/2 und d= |n
12- µ
0|=|n
12- n
21|/2.
• Entscheidung mit dem P-Wert (Normalverteilungsapproximation) P < α ⇒ H
0ablehnen; dabei ist P=1- F
1(TG
s);
hier ist F
1die Verteilungsfunktion der χ
21–Verteilung.
• Planung des Stichprobenumfangs:
Notwendiger Mindeststichprobenumfang n* (=n
12+n
21), um auf dem Niveau α mit der Sicherheit 1- β eine Entscheidung für H
1herbeizuführen, wenn p
12* von 1/2 um ∆ ≠ 0 abweicht:
( )
2 2
1 2 / 1
) 5 . 0 arcsin 2
5 . 0 arcsin 2
* (
−
∆ +
≈ z
−α+ z
−βn
( ) 9 )
für 4 (approx.
H unter
1 ~
|
|
12 212 0 1 21
12
2 21
12
+ >
+
−
= − n n
H H
H
TG H χ
Beispiel 5.9:
Im Rahmen einer Studie wurde u.a. der Blutzucker am Beginn (Variable X
1) und am Ende (Variable X
2) einer Behandlung bestimmt. Die
Ergebnisse der Blutzuckerbestimmung wurden dabei auf einer 2-stufigen Skala mit den Werten a
1("im Normbereich") und a
2("nicht im
Normbereich") dokumentiert. Bei n
11=31 Probanden war der
Blutzuckerwert am Beginn und am Ende im Normbereich, bei n
12=24 Probanden lag der Wert vorher im Normbereich und nachher außerhalb, bei n
21=13 Probanden vorher außerhalb und nachher innerhalb und bei n
22=12 vorher und nachher nicht im Normbereich.
a) Ist die Wahrscheinlichkeit, dass der Blutzucker am Beginn im Normbereich liegt, auf 5%igem Testniveau verschieden von der entsprechenden Wahrscheinlichkeit am Ende der Behandlung?
b) Ist der Versuch so geplant, dass der Testausgang mit 90%iger Sicherheit signifikant ist, wenn die Wahrscheinlichkeit p
12* um 0.1 von ½ abweicht?
Lösung mit R:
> # Vergleich von Wahrscheinlichkeiten mit abhängigen Stichproben
> H <- matrix(c(31, 13, 24, 11), ncol=2); H [,1] [,2]
[1,] 31 24 [2,] 13 11
> ns <- H[1,2]+H[2,1]
> # a) H0: P(Normberreich/Beginn)=P(Normbereich/Ende) vs. H1: ... <> ...
> # exakter P-Wert (Binomialtest)
> alpha <- 0.05; p12d <- H[1,2]/ns
> tgs <- H[1,2]; mu0 <- ns/2; d <- abs(tgs-mu0)
> P <- pbinom(mu0-d, ns, 0.5)+1-pbinom(mu0+d-1, ns, 0.5)
> print(cbind(ns, tgs, p12d, mu0, d, P), digits=4) ns tgs p12d mu0 d P
[1,] 37 24 0.6486 18.5 5.5 0.09887
> binom.test(H[1,2], ns) Exact binomial test data: H[1, 2] and ns
number of successes = 24, number of trials = 37, p-value = 0.09887 alternative hypothesis: true probability of success is not equal to 0.5 95 percent confidence interval:
0.4746113 0.7979002 sample estimates:
probability of success 0.6486486
> # Normalverteilungsapproximation
> tgsapprox <- (abs(H[1,2]-H[2,1])-1)/sqrt(ns)
> Papprox <- 2*pnorm(-abs(tgsapprox))
> print(cbind(tgsapprox, Papprox), digits=4) tgsapprox Papprox
[1,] 1.644 0.1002
> # McNemar-Test
> tgsmcnemar <- tgsapprox^2; Pmcnemar <- 1-pchisq(tgsmcnemar, 1)
> print(cbind(tgsmcnemar, Pmcnemar), digits=4) tgsmcnemar Pmcnemar
[1,] 2.703 0.1002
> mcnemar.test(H)
McNemar's Chi-squared test with continuity correction data: H
McNemar's chi-squared = 2.7027, df = 1, p-value = 0.1002
> # b) Planung des Stichprobenumfangs
> p0 <- 1/2; Delta <- 0.1; p1 <- p0+Delta; beta <- 0.1
> h <- 2*asin(sqrt(p1))- 2*asin(sqrt(p0))
> za <- qnorm(1-alpha/2); zb <- qnorm(1-beta)
> ns <- (za+zb)^2/h^2
> print(cbind(p0, p1, za, zb, h, ns), digits=4) p0 p1 za zb h ns
[1,] 0.5 0.6 1.96 1.282 0.2014 259.2
Übungsbeispiele
1. a) Es soll untersucht werden, ob die mittlere Menge (in mg) eines Wirkstoffes in mit der Anlage A hergestellten Produkten (Wirkstoffmenge X
A) sich von jener unterscheidet, die mit der Anlage B (Wirkstoffmenge X
B) hergestellt werden. Die Werte der Prüfstichproben sind:
Anlage A: 16.1, 15.4, 16.1, 15.6, 16.2, 16.2, 15.9, 16.2, 16.1, 16.0 Anlage B: 16.5, 15.9, 16.3, 16.4, 15.9, 15.9, 16.3, 16.2, 16.0, 16.2
Aus Voruntersuchungen sei bekannt, dass die Wirkstoffmengen X
Aund X
Bmit guter Näherung als normalverteilt betrachtet werden können und die Varianzen nicht von der Anlage abhängen. Als Signifikanzniveau nehme man 5% an.
b) Ferner stelle man fest, ob der Umfang der Prüfstichproben ausreichend groß geplant wurde, um den als relevant angesehenen Mittelwertunterschied ∆=0.25 mit 90%iger Sicherheit erkennen zu können.
2. Das Wachstum einer Kultur (Gewicht in g) wird in Abhängigkeit von 2
Nährlösungen 1 und 2 gemessen. Es ergaben sich die folgenden Messwerte:
Nährlösung 1: 8.17, 7.92, 8.02, 7.97, 6.42, 8.16, 7.32, 7.35 Nährlösung 2: 6.98, 6.94, 6.92, 6.93, 6.62, 7.17, 7.42, 6.95
a) Man überprüfe auf 5%igem Signifikanzniveau, ob die Nährlösung einen signifikanten Einfluss auf das mittlere Wachstum hat?
b) Ist die Annahme gleicher Varianzen gerechtfertigt?
3. In einem Versuch wurde auf 10 Parzellen eine Getreidesorte ausgesät und in einer Hälfte einer jeden Parzelle das Bewässerungssystem A und in der anderen Hälfte das System B angewendet. Die unter den Versuchsbedingungen erzielten Erträge (in kg/ha) sind im Folgenden angeführt. Sind die unter der Bedingung B erzielbaren Erträge im Mittel größer als die Erträge unter der Bedingung A? Man prüfe die Fragestellung auf 5%igem Signifikanzniveau.
A: 7400 5740 5530 6190 3740 5050 4180 6520 4910 4690 B: 8450 6400 6410 7010 3690 6040 4060 6730 4760 5770
.
4. Diffusionstests werden angewendet, um die Wirksamkeit bestimmter Antibiotika auf Mikroorganismen (Krankheitserreger) festzustellen. Diese werden auf einem festen Nährboden zusammen mit dem Antibiotikum aufgebracht. Ist das
Antibiotikum wirksam, entsteht eine Hemmzone, in der der Testorganismus nicht wachsen konnte. Bei der Wirksamkeitsprüfung von 2 Antibiotika A und B wurden in je 15 Versuchen Hemmzonen mit den im Folgenden angeführten
Durchmessern (in mm) beobachtet. Kann an Hand der Daten auf 5%igem Testniveau ein Unterschied in der Wirksamkeit der Antibiotika (d.h. ein Unterschied der mittleren Durchmesser) festgestellt werden?
A: 19.5, 14.0, 12.0, 19.0, 23.0, 28.0, 24.5, 26.0, 25.0, 16.0, 27.5, 17.0, 17.5, 20.0, 18.5 B: 18.0, 21.0, 30.5, 24.0, 20.5, 29.0, 25.5, 27.0, 40.5, 26.5, 22.5, 40.0, 16.5, 21.5, 23.5