Ubungsblatt 4 zur Vorlesung ¨
”Statistische Methoden”
Testtheorie: θ0 vsθ1
Herausgabe des ¨Ubungsblattes: Woche 12, Abgabe der L¨osungen: Woche 13 (bis Freitag, 1615 Uhr), Be- sprechung: Woche 14
Must
Aufgabe 15 [Warum Quotient und nicht Differenz der Dichten?]
Warum ist das Verh¨altnis der Dichten (ausH0undH1) wichtig und nicht zum Beispiel die Differenz?
Dazu folgende 2 Hypothesen: InH0 haben wir die Dichtefunktion auf dem Intervall [0,1] folgendermassen konzentriert:
f0(x) =
8 x∈[0,0.05]
1
9 x∈(0.05,0.95]
10 x∈(0.95,1].
InH1 haben wir die Dichtefunktion auf dem Intervall [0,1] folgendermassen konzentriert:
f1(x) =
10 x∈[0,0.05]
0.5 x∈(0.05,0.95]
1 x∈(0.95,1].
(die Dichten k¨onnen also offenbar wild verschieden sein). Wenn H0 richtig ist, d¨urfen wir in 5 % der F¨alle eine Fehlentscheidung machen (Risiko 1. Art). Wie wird man sich sinnvollerweise verhalten, wenn nur eine Realisationx1 bekannt ist (mit Satz 4.1)? Wie ist das Risiko 2. Art mit der Methode aus Satz 4.1?
Berechnen Sie in den 3 Bereichen auch die Differenzen und die Verh¨altnisse der beiden Dichten aus den beiden Verteilungen. Wie ist das Risiko 2. Art, wenn man auf die Differenz der Dichten schaut statt auf das Verh¨altnis (bei gleichem Risiko 1. Art!).
Sie werden in obigen Rechnungen eine gewisse Freiheit haben, wo Sie den Ablehnungsbereich genau w¨ahlen - aber nur eine gewisseFreiheit!
Aufgabe 16 [Klare F¨alle und Neyman-Pearson]
Gegeben sei eine Stichprobe vom Umfang 10 aus einer Normalverteilung mit Varianz 1. Wir wissen nicht, ob der Mittelwert 0 (H0-Hypothese) oder 100 (H1-Hypothese) ist. Wie sieht ein Test mit dem Lemma von Neyman-Person aus (α= 0.1)? Ist es sinnvoll, hier einfach stur das Lemma von Neyman-Pearson so einzusetzen?
Dr. Christof Luchsinger
Standard Aufgabe 17 [Umkehrung der Fragestellung][3+5 Punkte]
Sei X1, . . . , Xn eine iid Folge von Be(p)-Zufallsgr¨ossen (P[X = 1] = p= 1−P[X = 0]). Eine ForscherIn m¨ochte jetzt einen Test durchf¨uhren. Der Test sieht folgendermassen aus: Die Nullhypothese H0:p= 0.45 wird genau dann abgelehnt, wenn
Xn i=1
Xi≥n/2.
a) Berechnen Sie im Falln= 2 die Gr¨osse des Tests (”dasα”).
b) Berechnen Sie im Falln= 100 die Gr¨osse des Tests (”dasα”). Benutzen Sie den CLT als approximatives Verfahren.
Aufgabe 18 [feineres Testen dank gr¨osserem Stichprobenumfang][3 Punkte]
Sei x1, . . . , xn eine Stichprobe aus einer N(PN,1)-Verteilung. Dabei bezeichnet PN die Personal-Number jedeR StudentIn. Wir testen jetztH0: Mittelwert ist (PN−0.1) gegen H1 : Mittelwert ist PN (wir wissen, dass PN der richtige Wert ist!). Nehmen Sieα= 0.05.
a)n= 36 b)n= 100 c) n= 256 d)n= 400 e) n= 100000
Berechnen Sie zuerst in allen 5 Situationen den Ablehnungsbereich und generieren Sie danach in einer geeigneten Rechenumgebung in allen 5 F¨allen eine solche Stichprobe. Wie werden Sie in diesen 5 Situationen entscheiden (wenn Sie kurz vergessen, dass Siewissen, dass PN der richtige Mittelwert ist)?
Honours
Aufgabe 19 [mit Hilfe von R/S-PLUS; Bsp wo nicht MLQ gilt] [1+2 Punkte]
Die Cauchy-Zufallsgr¨osse (vgl. 1.4.2.5) ist ein praktisches Gegenbeispiel f¨ur viele Untersuchungen (E[|X|] =
∞und vieles mehr). Die Dichtefunktion ist
f(x) = d
π(d2+ (x−m)2);
dabei ist m der Median und d ein Skalenparameter. Wir setzen hier d = 1 und untersuchen mit einer Einerstichprobe (n = 1), ob m= 0 (H0) oder m= 1 (H1). Die minimal suffiziente Statistik ist x:= x1. Wir wollen (und k¨onnen!) Satz 4.1 anwenden. Schwierig wird (wegen fehlendem MLQ) die Berechnung des Ablehnungsbereichs.
a) Untersuchen Sie als Vorbereitung auf b), wie sich der Likelihood-Quotient verh¨alt (wo fallend, steigend, wieder fallend; keine genauen Berechnungen, sondern grobe Absch¨atzung reicht).
b) Berechnen Sie in R/S-PLUS durch pr¨obeln die Grenzen, wo Siemit Satz 4.1die Nullhypothese ablehnen / Alternativhypothese annehmen sollten. Nehmen Sieα= 0.1 und suchen Sie Werte, sodass die Genauigkeit 5 Promille betr¨agt (Risiko erster Art im Intervall [9.5,10.5]). Es wird klar verlangt, dass Satz 4.1 benutzt wird und also das Risiko 2. Art minimiert wird. Wir suchen nicht irgendein Intervall oder Bereich, wo wir H0 ablehnen, sondern den Bereich, damit das Risiko 2. Art minimal ist. Tipp: a<-seq(0,3,0.01) und b<-dcauchy(a,1)/dcauchy(a,0); Vorsicht: Indexe um 1 verschoben ([1]≡0.00 undnicht 0.01)!
Übungsblatt 4 zur Vorlesung “Statistische Methoden” Seite 3 von 8
Übungsblatt 4 zur Vorlesung “Statistische Methoden”
Olivier Warin 5. April 2011
Aufgabe 15 [Warum Quotient und nicht Differenz der Dichten?]
Sei x1 ∈[0,1]eine Stichprobe aus einer stetigen Zufallsgrösse X. Nun wollen wir die folgenden beiden Hypothesen gegeneinander auf dem Niveauα= 5%testen:
H0: Die Dichte vonX hat auf dem Intervall[0,1]die Form f0(x) =
8, x∈[0,0.05]
1
9, x∈(0.05,0.95]
10, x∈(0.95,1].
H1: Die Dichte vonX hat auf dem Intervall[0,1]die Form f1(x) =
10, x∈[0,0.05]
0.5, x∈(0.05,0.95]
1, x∈(0.95,1].
• Zunächst testen wir mit der Methode aus Satz 4.1. Dazu bestimmen wir zuerst einmal den Quoti- enten der beiden Dichten:
f1(x) f0(x)=
1.25, x∈[0,0.05]
4.5, x∈(0.05,0.95]
0.1, x∈(0.95,1].
Wenn wir dem Satz 4.1 strikt folgen wollten, so müssten wir einK∈Rfinden, so dass α=P0
f1(X) f0(X)> K
.
Nun kann man leicht einsehen, dass dies hier nicht möglich ist. Wir wählen den Ablehnungsbereich daher wie folgt:
(0.05,0.5), denn es gilt
α = 0.05 =Z 0.5 0.05
1
9dx = Z 0.5 0.05
f0(x)dx = P0[X ∈(0.05,0.5)] = P0
f1(X)
f0(X) >4, X <0.5 . Also haben wirfast die von Satz 4.1 gewünschte Form gefunden.
Das Risiko zweiter Artβ lautet nun also wie folgt:
β =P1[X6∈(0.05,0.5)] = Z 0.05 0
f1(x)dx+Z 1 0.5
f1(x)dx = 0.775.
• Nun testen wir indem wir die Differenz der Dichten anschauen:
f1(x)−f0(x) =
2, x∈[0,0.05]
7/18, x∈(0.05,0.95)
−9, x∈(0.95,1].
Ähnlich wie oben wählen wir nun den Ablehnungsbereich wie folgt:
(0,0.00625),
denn es gilt
α= 0.05 =Z 0.00625 0
8dx = Z 0.00625 0
f0(x)dx = P0[X ∈(0,0.00625)]
=P0[f1(X)−f0(X)>1, X <0.00625].
Wir haben also fast die analoge Form (mit Differenz statt Quotient) wie in Satz 4.1.
Mit diesem Ablehnungsbereich lautet das Risiko zweiter Artβ wie folgt:
β =P1[X >0.00625] = Z 1 0.00625
f1(x)dx = 0.9375.
Wenn wir mit der Differenz statt mit dem Quotient der Dichten arbeiten erhalten wir also ein deutlich grösseres Risiko erster Art.
Aufgabe 16
Gegeben sei eine Stichprobex= (x1, . . . , x10)vom Umfang 10 aus einer Normalverteilung mit Varianz 1 und Erwartungswertµ. Wir testen jetzt auf dem Niveauα= 0.1mit dem Lemma von Neyman-Person die folgenden zwei Hypothesen gegeneinander:
H0: µ= 0 H1: µ= 100 Die entsprechende gemeinsame Dichtefunktion lautet wie folgt:
f(x)=q Y10 i=1
√12πe−12(xi−µ)2 = 1
32π5exp −1 2
X10 i=1
(xi−µ)2
! .
Somit hat der Likelihood-Quotient die folgende Form:
f1(x)
f0(x) = exp 1 2
X10 i=1
(200xi−100)
!
= exp(1000x−500).
Nach dem Lemma von Neyman-Person (Satz 4.1) brauchen wir nun einK∈Rmit 0.1 =α=P0[exp(1000X−500)> K] = P0
X >logK 1000 +1
| {z 2}
=:K0
.
Natürlich reicht es, wenn wir das K0 bestimmen. Dies können wir schnell tun, da X unter H0 eine N(0,1/10)-Verteilung hat: tun
K0=.
R
qnorm(0.1,0,sqrt(1/10),lower.tail=FALSE) =.
R 0.4052622.
Also werden wirH0 ablehnen, sobaldx> K0 = 0.4052622..
Bemerkung: In dieser Situation ist es natürlich nicht so sinnvoll stur das Lemma von Neyman-Pearson so einzusetzen. Denn man kann sofort erkennen, obH0 oderH1 anzunehmen ist. Wenn man nach dem Lemma von Neyman-Pearson vorgeht, geht man einfach ein Risiko erster Art ein ohne das Risiko 2. Art entsprechend zu reduzieren.
Aufgabe 17 [Umkehrung der Fragestellung]
SeiX1, . . . , Xn eine iid Folge vonBe(p)-Zufallsgrössen (P[X1= 1] =p= 1−P[X1= 0]). Eine ForscherIn möchte jetzt einen Test durchführen. Der Test sieht folgendermassen aus: Die NullhypotheseH0: p= 0.45 wird genau dann abgelehnt, wenn
Xn i=1
Xi > n 2.
Übungsblatt 4 zur Vorlesung “Statistische Methoden” Seite 5 von 8
a) Nehmen wir an, dassn= 2gilt. Nun folgt für die Grösse des Testsα:
α=P0
" n X
i=1
Xi> n 2
#
= P0[X1+X2>1] = 1−P0[X1+X2<1] = 1−P0[X1= 0, X2= 0]
= 1q −P0[X1= 0]P0[X2= 0] = 1−(1−0.45)(1−0.45) = 0.6975.
b) Hier nehmen wir an, dassn = 100 gilt. Jetzt approximieren wir die Grösse des Testsα mit Hilfe des CLTs:
α=P0
" n X
i=1
Xi> n 2
#
= P[Bin(100,0.45)>50]
=P
"
Bin(100,0.45)−100·0.45
p100·0.45·(1−0.45) > 50−100·0.45 p100·0.45·(1−0.45)
#
=.
CLT P[N(0,1)>5/√24.75]
=.
R
pnorm(5/sqrt(24.75), lower.tail=FALSE) =.
R 0.1574393.
Bemerkung: Mit Hilfe von R können wir hier auch auf den CLT verzichten und erhalten so das folgende, etwas genauere Ergebnis:
α=P0
" n X
i=1
Xi> n 2
#
= P[Bin(100,0.45)>50] =.
R
pbinom(50-1,100,0.45,lower.tail=FALSE)
=.
R
0.1827282
Aufgabe 18 [feineres Testen dank grösserem Stichprobenumfang]
Seix1, . . . , xn eine Stichprobe aus einerN(PN,1)-Verteilung. Dabei bezeichnet PN diePersonalNumber jedeR StudentIn. In den Musterlösungen werden wirPN = 2verwenden.
Wir testen jetzt auf dem Niveauα= 0.05H0: Mittelwert ist(PN−0.1)gegenH1: Mittelwert istPN.
Zuerst bestimmen wir dazu den Ablehnungsbereich An (in Abhängigkeit von n). Nach dem Lemma von Neyman-Person hat dieser Ablehnungsbereich die folgende Form:
An=
(x1,· · ·, xn)∈Rnf1(x1,· · ·, xn) f0(x1,· · ·, xn)> Kn
, wobeiKn eine bestimmte reelle Zahl ist.
Wie im Skript auf Seite 69 können wir dieses An aber viel einfacher schreiben (beachte dazu, dass P N−0.1< P N gilt):
An={x∈Rn|x> Kn0}, (∗)
wobeiKn0 eine bestimmte reelle Zahl bezeichnet.
Da wir auf dem Niveauα= 0.05testen wollen, mussKn0 die folgende Gleichung erfüllen:
0.05 =α=P0[X > Kn0] = P[N(PN−0.1,1/n)> Kn0] Z-Trans-=
formation P
N(0,1)>√n(Kn0 −PN + 0.1) . Es folgt√n(Kn0 −PN + 0.1)=.
R
qnorm(0.05,lower.tail=FALSE)und damit Kn0 =.
R
√1nqnorm(0.05,lower.tail=FALSE)+ PN−0.1.
Also wirdKn0 fürn→ ∞immer kleiner und geht gegenPN−0.1. D.h. wennngrösser wird, nehmen wir tendenziell eherH1, was ja richtig ist.
Aufgrund von (∗) reicht es nun für die Ablehnungsbereiche jeweils das zugehörigeKn0 anzugeben:
a) n= 36, alsoKn0 =.
R
qnorm(0.05,lower.tail=FALSE)/sqrt(36)+1.9=.
R 2.174142.
Eine Simulation in R lieferte den folgenden Wert für x:
> mean(rnorm( 3 6 , 2 , 1 ) ) [ 1 ] 1 . 9 7 6 0 6 5
Da1.976065< Kn0 nehmen wir hier (fälschlicherweise)H0an.
b) n= 100, alsoKn0 =.
R
qnorm(0.05,lower.tail=FALSE)/sqrt(100)+1.9=.
R 2.064485.
Eine Simulation in R lieferte den folgenden Wert für x:
> mean(rnorm( 1 0 0 , 2 , 1 ) ) [ 1 ] 1 . 9 8 9 7 4 2
Da1.989742< Kn0 nehmen wir hier ebenfalls (fälschlicherweise)H0 an.
c) n= 256, alsoKn0 =.
R qnorm(0.05,lower.tail=FALSE)/sqrt(256)+1.9=.
R 2.002803.
Eine Simulation in R lieferte den folgenden Wert für x:
> mean(rnorm( 2 5 6 , 2 , 1 ) ) [ 1 ] 2 . 0 8 1 6 0 0
Da2.081600> Kn0 lehnen wir hierH0 ab.
d) n= 400, alsoKn0 =.
R
qnorm(0.05,lower.tail=FALSE)/sqrt(400)+1.9=.
R 1.982243.
Eine Simulation in R lieferte den folgenden Wert für x:
> mean(rnorm( 4 0 0 , 2 , 1 ) ) [ 1 ] 2 . 0 5 6 1 0 2
Da2.056102> Kn0 lehnen wir hierH0 ab.
e) n= 100000, alsoKn0 =.
R
qnorm(0.05,lower.tail=FALSE)/sqrt(10000)+1.9=.
R 1.916449.
Eine Simulation in R lieferte den folgenden Wert für x:
> mean(rnorm( 1 0 0 0 0 , 2 , 1 ) ) [ 1 ] 2 . 0 0 9 8 0 5
Da2.009805> Kn0 lehnen wir hierH0 ab.
Aufgabe 19 [mit Hilfe von R/S-PLUS; Bsp wo nicht MLQ gilt]
In dieser Aufgabe geht es um eine Cauchy-Zufallsgrösse, also um eine stetige Zufallsgrösse mit der fol- genden Dichtefunktion:
f(x) = d
π(d2+ (x−m)2;
dabei ist m der Median und d ein Skalenparameter. Hier setzen wir d = 1 und untersuchen mit einer Einerstichprobe x1 (n= 1), ob m= 0 (H0) oderm= 1(H1) gilt. Eine minimal suffiziente Statistik ist x=x1.
a) Als Vorbereitung betrachten wir den entsprechenden Likelihood-Quotienten:
g(x) := f1(x)
f0(x) = 1 +x2 1 + (x−1)2
⇒ g0(x) = 2x(1 + (x−1)2)−2(x−1)(1 +x2) (x2+ 1)2 .
Übungsblatt 4 zur Vorlesung “Statistische Methoden” Seite 7 von 8
Damit folgt:
g0(x)S0 ⇔ 2x(1 + (x−1)2)−2(x−1)(1 +x2)S0
⇔ x2−x−1 = (x−Φ)(x+ Φ−1)T0,
wobei Φ =1+2√5 (und damit−Φ−1= 1−2√5) die goldene Zahl bezeichnet.
Wir schliessen, dassg auf(−∞,−Φ−1)und auf(Φ,∞)streng monoton fallend und auf(−Φ−1,Φ) streng monton wachsend ist.
Zur besseren Vorstellung ist hier eine Skizze des Graphen:
x g(x)
| 1
2 3
−1
−2
1 2
−1
−2 −Φ−1 Φ
b) Bemerkung: Die Idee dieser Aufgabe war es den Ablehnungsbereich durch Pröbeln herauszufin- den. Da sich aber pröbeln schlecht in eine Musterlösung einbauen lässt, ist hier eine algebraische Lösung der Aufgabe. Wie man die Aufgabe durch Pröbeln lösen kann, erfahren Sie in der Übungs- stunde.
Nach a) können wir die Funktiongjeweils auf den Intervallen(−∞,−Φ−1),(−Φ−1,Φ)und(Φ,∞) umkehren. Wir führen nun die folgenden drei Bezeichungen ein: Die Umkehrabbildung von g
(−∞,−Φ−1)
bezeichnen wir mit ψ1, die Umkehrabbildung von g(
−Φ−1,Φ) bezeichnen wir mit ψ2und die Um- kehrabbildung von g(Φ,
∞) bezeichnen wir mit ψ3.
Laut Satz 4.1 hat der gesuchte Ablehnungsbereich die Form {x ∈ R|g(x) > K}, wobei K eine reelle Zahl mit der folgenden Eigenschaft ist:
0.1 =α=P0[g(X)> K].
Mit Hilfe von a) bestimmen wir schnell minx∈Rg(x) = g(−Φ−1) = 3−2√5 und maxx∈Rg(x) = g(Φ) = 3+2√5. Daraus folgt, dass sicher
3−√ 5
2 < K < 3 +√ 5 2
gelten muss. Denn sonst wäreP0[g(X)> K]0 bzw. 1 und somit sicher nicht gleichα.
Wir vermuten aber gleich noch eine etwas stärkere Bedingung, nämlich 1< K < 3 +√
5 2 .
Dies wird sich auch als richtig herausstellen, daher nehmen wir diese Bedingung an. Denn diese Annahme vereinfacht die Rechnung etwas. Wenn wir hier falsch liegen würden, so müssten wir auf einen Widerspruch kommen und müssten die Annahme verwerfen.
Beachten wir, dassψ2 monoton wachsend undψ3 monoton fallend ist, schliessen wir:
α=P0[g(X)> K]
=P0[g(X)> K, X <−Φ−1]
| {z }
=0(daghier < 1 ist)
+P0[g(X)> K,−Φ−1< X <Φ] +P0[g(X)> K,Φ< X]
=P0[ψ2(K)< X <Φ] +P0[Φ< X < ψ3(K)]
=P0[X <Φ]−P0[X < ψ2(K)] +P0[ψ3(K)]−P0[X <Φ]
=P0[ψ2(K)< X < ψ3(K)].
Also hat der gesuchte Ablehnungsbereich die Form (a, b), wobeia =ψ2(K) undb =ψ3(K). Nun müssen wir nochaundbbestimmen. Dazu beachten wir zuerst, dass gilt
g(a) = g(ψ2(K)) = K = g(ψ3(K)) = g(b) und damit
1 +a2
1 + (1−a)2 = 1 +b2 1 + (1−b)2 woraus durch etwas umformen folgt:
b= a+ 2 2a−1. Zu erfüllen bleibt also die Gleichung
α=P0[a < X < b] = P0
a < X < a+ 2 2a−1
= Z 2a−1a+2
a
f0(x)dx = 1 π
Z 2a−1a+2
a
1 x2+ 1dx
= 1 π
arctan a+ 2 2a−1
−arctan(a) .
Daraus folgt
πα+ arctan(a) = arctan a+ 2 2a−1
.
Mit der Bezeichnung t = tan(πα) und der trigonometrischen Formel tan(x+y) = 1−tantanx+tanxtanyy erhalten wir damit
t+a
1−ta = a+ 2 2a−1. Unter Beachtung, dassa >−Φ−1, führt uns dies zu
a= −(2t−1) +p5(t2+ 1)
t+ 2 =.
R 1.161890289 b= a+ 2
2a−1 =.
R 2.388530504.
Der gesuchte Ablehnungsbereich lautet also wie folgt:
(a, b)= (1.161890289,. 2.388530504).