Dr. Christof Luchsinger Frühjahrsemester 2011 Olivier Warin Seite 1 von 8

(1)

Ubungsblatt 4 zur Vorlesung ¨

”Statistische Methoden”

Testtheorie: θ0 vsθ1

Herausgabe des ¨Ubungsblattes: Woche 12, Abgabe der L¨osungen: Woche 13 (bis Freitag, 1615 Uhr), Be- sprechung: Woche 14

Must

Aufgabe 15 [Warum Quotient und nicht Differenz der Dichten?]

Warum ist das Verh¨altnis der Dichten (ausH⁰undH¹) wichtig und nicht zum Beispiel die Differenz?

Dazu folgende 2 Hypothesen: InH⁰ haben wir die Dichtefunktion auf dem Intervall [0,1] folgendermassen konzentriert:

f0(x) =





8 x∈[0,0.05]

1

9 x∈(0.05,0.95]

10 x∈(0.95,1].

InH¹ haben wir die Dichtefunktion auf dem Intervall [0,1] folgendermassen konzentriert:

f1(x) =





10 x∈[0,0.05]

0.5 x∈(0.05,0.95]

1 x∈(0.95,1].

(die Dichten können also offenbar wild verschieden sein). Wenn H⁰ richtig ist, dürfen wir in 5 % der Fälle eine Fehlentscheidung machen (Risiko 1. Art). Wie wird man sich sinnvollerweise verhalten, wenn nur eine Realisationx1 bekannt ist (mit Satz 4.1)? Wie ist das Risiko 2. Art mit der Methode aus Satz 4.1?

Berechnen Sie in den 3 Bereichen auch die Differenzen und die Verh¨altnisse der beiden Dichten aus den beiden Verteilungen. Wie ist das Risiko 2. Art, wenn man auf die Differenz der Dichten schaut statt auf das Verh¨altnis (bei gleichem Risiko 1. Art!).

Sie werden in obigen Rechnungen eine gewisse Freiheit haben, wo Sie den Ablehnungsbereich genau w¨ahlen - aber nur eine gewisseFreiheit!

Aufgabe 16 [Klare F¨alle und Neyman-Pearson]

Gegeben sei eine Stichprobe vom Umfang 10 aus einer Normalverteilung mit Varianz 1. Wir wissen nicht, ob der Mittelwert 0 (H⁰-Hypothese) oder 100 (H¹-Hypothese) ist. Wie sieht ein Test mit dem Lemma von Neyman-Person aus (α= 0.1)? Ist es sinnvoll, hier einfach stur das Lemma von Neyman-Pearson so einzusetzen?

Dr. Christof Luchsinger

(2)

Standard Aufgabe 17 [Umkehrung der Fragestellung][3+5 Punkte]

Sei X1, . . . , Xn eine iid Folge von Be(p)-Zufallsgrössen (P[X = 1] = p= 1−P[X = 0]). Eine ForscherIn möchte jetzt einen Test durchführen. Der Test sieht folgendermassen aus: Die Nullhypothese H⁰:p= 0.45 wird genau dann abgelehnt, wenn

Xn i=1

Xi≥n/2.

a) Berechnen Sie im Falln= 2 die Gr¨osse des Tests (”dasα”).

b) Berechnen Sie im Falln= 100 die Gr¨osse des Tests (”dasα”). Benutzen Sie den CLT als approximatives Verfahren.

Aufgabe 18 [feineres Testen dank gr¨osserem Stichprobenumfang][3 Punkte]

Sei x1, . . . , xn eine Stichprobe aus einer N(PN,1)-Verteilung. Dabei bezeichnet PN die Personal-Number jedeR StudentIn. Wir testen jetztH⁰: Mittelwert ist (PN−0.1) gegen H¹ : Mittelwert ist PN (wir wissen, dass PN der richtige Wert ist!). Nehmen Sieα= 0.05.

a)n= 36 b)n= 100 c) n= 256 d)n= 400 e) n= 10⁰000

Berechnen Sie zuerst in allen 5 Situationen den Ablehnungsbereich und generieren Sie danach in einer geeigneten Rechenumgebung in allen 5 F¨allen eine solche Stichprobe. Wie werden Sie in diesen 5 Situationen entscheiden (wenn Sie kurz vergessen, dass Siewissen, dass PN der richtige Mittelwert ist)?

Honours

Aufgabe 19 [mit Hilfe von R/S-PLUS; Bsp wo nicht MLQ gilt] [1+2 Punkte]

Die Cauchy-Zufallsgr¨osse (vgl. 1.4.2.5) ist ein praktisches Gegenbeispiel f¨ur viele Untersuchungen (E[|X|] =

∞und vieles mehr). Die Dichtefunktion ist

f(x) = d

π(d²+ (x−m)²);

dabei ist m der Median und d ein Skalenparameter. Wir setzen hier d = 1 und untersuchen mit einer Einerstichprobe (n = 1), ob m= 0 (H⁰) oder m= 1 (H¹). Die minimal suffiziente Statistik ist x:= x1. Wir wollen (und k¨onnen!) Satz 4.1 anwenden. Schwierig wird (wegen fehlendem MLQ) die Berechnung des Ablehnungsbereichs.

a) Untersuchen Sie als Vorbereitung auf b), wie sich der Likelihood-Quotient verh¨alt (wo fallend, steigend, wieder fallend; keine genauen Berechnungen, sondern grobe Absch¨atzung reicht).

b) Berechnen Sie in R/S-PLUS durch pr¨obeln die Grenzen, wo Siemit Satz 4.1die Nullhypothese ablehnen / Alternativhypothese annehmen sollten. Nehmen Sieα= 0.1 und suchen Sie Werte, sodass die Genauigkeit 5 Promille betr¨agt (Risiko erster Art im Intervall [9.5,10.5]). Es wird klar verlangt, dass Satz 4.1 benutzt wird und also das Risiko 2. Art minimiert wird. Wir suchen nicht irgendein Intervall oder Bereich, wo wir H⁰ ablehnen, sondern den Bereich, damit das Risiko 2. Art minimal ist. Tipp: a<-seq(0,3,0.01) und b<-dcauchy(a,1)/dcauchy(a,0); Vorsicht: Indexe um 1 verschoben ([1]≡0.00 undnicht 0.01)!

(3)

Übungsblatt 4 zur Vorlesung “Statistische Methoden” Seite 3 von 8

Übungsblatt 4 zur Vorlesung “Statistische Methoden”

Olivier Warin 5. April 2011

Aufgabe 15 [Warum Quotient und nicht Differenz der Dichten?]

Sei x1 ∈[0,1]eine Stichprobe aus einer stetigen Zufallsgrösse X. Nun wollen wir die folgenden beiden Hypothesen gegeneinander auf dem Niveauα= 5%testen:

H⁰: Die Dichte vonX hat auf dem Intervall[0,1]die Form f0(x) =







8, x∈[0,0.05]

1

9, x∈(0.05,0.95]

10, x∈(0.95,1].

H¹: Die Dichte vonX hat auf dem Intervall[0,1]die Form f1(x) =







10, x∈[0,0.05]

0.5, x∈(0.05,0.95]

1, x∈(0.95,1].

• Zunächst testen wir mit der Methode aus Satz 4.1. Dazu bestimmen wir zuerst einmal den Quoti- enten der beiden Dichten:

f1(x) f0(x)=







1.25, x∈[0,0.05]

4.5, x∈(0.05,0.95]

0.1, x∈(0.95,1].

Wenn wir dem Satz 4.1 strikt folgen wollten, so müssten wir einK∈Rfinden, so dass α=P0

f1(X) f0(X)> K

.

Nun kann man leicht einsehen, dass dies hier nicht möglich ist. Wir wählen den Ablehnungsbereich daher wie folgt:

(0.05,0.5), denn es gilt

α = 0.05 =Z 0.5 0.05

1

9dx = Z 0.5 0.05

f0(x)dx = P0[X ∈(0.05,0.5)] = P0

f1(X)

f0(X) >4, X <0.5 . Also haben wirfast die von Satz 4.1 gewünschte Form gefunden.

Das Risiko zweiter Artβ lautet nun also wie folgt:

β =P1[X6∈(0.05,0.5)] = Z 0.05 0

f1(x)dx+Z 1 0.5

f1(x)dx = 0.775.

• Nun testen wir indem wir die Differenz der Dichten anschauen:

f1(x)−f0(x) =







2, x∈[0,0.05]

7/¹⁸, x∈(0.05,0.95)

−9, x∈(0.95,1].

Ähnlich wie oben wählen wir nun den Ablehnungsbereich wie folgt:

(0,0.00625),

(4)

denn es gilt

α= 0.05 =Z 0.00625 0

8dx = Z 0.00625 0

f0(x)dx = P0[X ∈(0,0.00625)]

=P0[f1(X)−f0(X)>1, X <0.00625].

Wir haben also fast die analoge Form (mit Differenz statt Quotient) wie in Satz 4.1.

Mit diesem Ablehnungsbereich lautet das Risiko zweiter Artβ wie folgt:

β =P1[X >0.00625] = Z 1 0.00625

f1(x)dx = 0.9375.

Wenn wir mit der Differenz statt mit dem Quotient der Dichten arbeiten erhalten wir also ein deutlich grösseres Risiko erster Art.

Aufgabe 16

Gegeben sei eine Stichprobex= (x1, . . . , x10)vom Umfang 10 aus einer Normalverteilung mit Varianz 1 und Erwartungswertµ. Wir testen jetzt auf dem Niveauα= 0.1mit dem Lemma von Neyman-Person die folgenden zwei Hypothesen gegeneinander:

H⁰: µ= 0 H¹: µ= 100 Die entsprechende gemeinsame Dichtefunktion lautet wie folgt:

f(x)=^q Y10 i=1

√12πe⁻¹²^(xⁱ⁻^µ)² = 1

32π⁵exp −1 2

X10 i=1

(xi−µ)²

! .

Somit hat der Likelihood-Quotient die folgende Form:

f1(x)

f0(x) = exp 1 2

X10 i=1

(200xi−100)

!

= exp(1000x−500).

Nach dem Lemma von Neyman-Person (Satz 4.1) brauchen wir nun einK∈Rmit 0.1 =α=P0[exp(1000X−500)> K] = P0

X >logK 1000 +1

| {z 2}

=:K⁰

.

Natürlich reicht es, wenn wir das K⁰ bestimmen. Dies können wir schnell tun, da X unter H⁰ eine N(0,¹/10)-Verteilung hat: tun

K⁰=.

R

qnorm(0.1,0,sqrt(1/10),lower.tail=FALSE) =.

R 0.4052622.

Also werden wirH⁰ ablehnen, sobaldx> K⁰ = 0.4052622..

Bemerkung: In dieser Situation ist es natürlich nicht so sinnvoll stur das Lemma von Neyman-Pearson so einzusetzen. Denn man kann sofort erkennen, obH⁰ oderH¹ anzunehmen ist. Wenn man nach dem Lemma von Neyman-Pearson vorgeht, geht man einfach ein Risiko erster Art ein ohne das Risiko 2. Art entsprechend zu reduzieren.

Aufgabe 17 [Umkehrung der Fragestellung]

SeiX1, . . . , Xn eine iid Folge vonBe(p)-Zufallsgrössen (P[X1= 1] =p= 1−P[X1= 0]). Eine ForscherIn möchte jetzt einen Test durchführen. Der Test sieht folgendermassen aus: Die NullhypotheseH⁰: p= 0.45 wird genau dann abgelehnt, wenn

Xn i=1

Xi > n 2.

(5)

a) Nehmen wir an, dassn= 2gilt. Nun folgt für die Grösse des Testsα:

α=P0

" _n X

i=1

Xi> n 2

#

= P0[X1+X2>1] = 1−P0[X1+X2<1] = 1−P0[X1= 0, X2= 0]

= 1q −P0[X1= 0]P0[X2= 0] = 1−(1−0.45)(1−0.45) = 0.6975.

b) Hier nehmen wir an, dassn = 100 gilt. Jetzt approximieren wir die Grösse des Testsα mit Hilfe des CLTs:

α=P0

" _n X

i=1

Xi> n 2

#

= P[Bin(100,0.45)>50]

=P

"

Bin(100,0.45)−100·0.45

p100·0.45·(1−0.45) > 50−100·0.45 p100·0.45·(1−0.45)

#

=.

CLT P[N(0,1)>⁵/^√^24.75]

=.

R

pnorm(5/sqrt(24.75), lower.tail=FALSE) =.

R 0.1574393.

Bemerkung: Mit Hilfe von R können wir hier auch auf den CLT verzichten und erhalten so das folgende, etwas genauere Ergebnis:

α=P0

" _n X

i=1

Xi> n 2

#

= P[Bin(100,0.45)>50] =.

R

pbinom(50-1,100,0.45,lower.tail=FALSE)

=.

R

0.1827282

Aufgabe 18 [feineres Testen dank grösserem Stichprobenumfang]

Seix1, . . . , xn eine Stichprobe aus einerN(PN,1)-Verteilung. Dabei bezeichnet PN diePersonalNumber jedeR StudentIn. In den Musterlösungen werden wirPN = 2verwenden.

Wir testen jetzt auf dem Niveauα= 0.05H⁰: Mittelwert ist(PN−0.1)gegenH¹: Mittelwert istPN.

Zuerst bestimmen wir dazu den Ablehnungsbereich An (in Abhängigkeit von n). Nach dem Lemma von Neyman-Person hat dieser Ablehnungsbereich die folgende Form:

An=

(x1,· · ·, xn)∈Rⁿf1(x1,· · ·, xn) f0(x1,· · ·, xn)> Kn

, wobeiKn eine bestimmte reelle Zahl ist.

Wie im Skript auf Seite 69 können wir dieses An aber viel einfacher schreiben (beachte dazu, dass P N−0.1< P N gilt):

An={x∈Rⁿ|x> K_n⁰}, (∗)

wobeiK_n⁰ eine bestimmte reelle Zahl bezeichnet.

Da wir auf dem Niveauα= 0.05testen wollen, mussK_n⁰ die folgende Gleichung erfüllen:

0.05 =α=P0[X > K_n⁰] = P[N(PN−0.1,¹/ⁿ)> K_n⁰] ^Z-Trans-=

formation P

N(0,1)>√n(K_n⁰ −PN + 0.1) . Es folgt√n(K_n⁰ −PN + 0.1)=.

R

qnorm(0.05,lower.tail=FALSE)und damit K_n⁰ =.

R

√1nqnorm(0.05,lower.tail=FALSE)+ PN−0.1.

Also wirdK_n⁰ fürn→ ∞immer kleiner und geht gegenPN−0.1. D.h. wennngrösser wird, nehmen wir tendenziell eherH¹, was ja richtig ist.

Aufgrund von (∗) reicht es nun für die Ablehnungsbereiche jeweils das zugehörigeK_n⁰ anzugeben:

a) n= 36, alsoK_n⁰ =.

R

qnorm(0.05,lower.tail=FALSE)/sqrt(36)+1.9=.

R 2.174142.

Eine Simulation in R lieferte den folgenden Wert für x:

(6)

> mean(rnorm( 3 6 , 2 , 1 ) ) [ 1 ] 1 . 9 7 6 0 6 5

Da1.976065< K_n⁰ nehmen wir hier (fälschlicherweise)H⁰an.

b) n= 100, alsoK_n⁰ =.

R

R 2.064485.

> mean(rnorm( 1 0 0 , 2 , 1 ) ) [ 1 ] 1 . 9 8 9 7 4 2

Da1.989742< K_n⁰ nehmen wir hier ebenfalls (fälschlicherweise)H⁰ an.

c) n= 256, alsoK_n⁰ =.

R qnorm(0.05,lower.tail=FALSE)/sqrt(256)+1.9=.

R 2.002803.

> mean(rnorm( 2 5 6 , 2 , 1 ) ) [ 1 ] 2 . 0 8 1 6 0 0

Da2.081600> K_n⁰ lehnen wir hierH⁰ ab.

d) n= 400, alsoK_n⁰ =.

R

R 1.982243.

> mean(rnorm( 4 0 0 , 2 , 1 ) ) [ 1 ] 2 . 0 5 6 1 0 2

e) n= 10⁰000, alsoK_n⁰ =.

R

R 1.916449.

> mean(rnorm( 1 0 0 0 0 , 2 , 1 ) ) [ 1 ] 2 . 0 0 9 8 0 5

Aufgabe 19 [mit Hilfe von R/S-PLUS; Bsp wo nicht MLQ gilt]

In dieser Aufgabe geht es um eine Cauchy-Zufallsgrösse, also um eine stetige Zufallsgrösse mit der folgenden Dichtefunktion:

f(x) = d

π(d²+ (x−m)²;

dabei ist m der Median und d ein Skalenparameter. Hier setzen wir d = 1 und untersuchen mit einer Einerstichprobe x1 (n= 1), ob m= 0 (H⁰) oderm= 1(H¹) gilt. Eine minimal suffiziente Statistik ist x=x1.

a) Als Vorbereitung betrachten wir den entsprechenden Likelihood-Quotienten:

g(x) := f1(x)

f0(x) = 1 +x² 1 + (x−1)²

⇒ g⁰(x) = 2x(1 + (x−1)²)−2(x−1)(1 +x²) (x²+ 1)² .

(7)

Damit folgt:

g⁰(x)S0 ⇔ 2x(1 + (x−1)²)−2(x−1)(1 +x²)S0

⇔ x²−x−1 = (x−Φ)(x+ Φ⁻¹)T0,

wobei Φ =¹⁺₂^√⁵ (und damit−Φ⁻¹= ¹⁻₂^√⁵) die goldene Zahl bezeichnet.

Wir schliessen, dassg auf(−∞,−Φ⁻¹)und auf(Φ,∞)streng monoton fallend und auf(−Φ⁻¹,Φ) streng monton wachsend ist.

Zur besseren Vorstellung ist hier eine Skizze des Graphen:

x g(x)

| 1

2 3

−1

−2

1 2

−1

−2 −Φ⁻¹ Φ

b) Bemerkung: Die Idee dieser Aufgabe war es den Ablehnungsbereich durch Pröbeln herauszufin- den. Da sich aber pröbeln schlecht in eine Musterlösung einbauen lässt, ist hier eine algebraische Lösung der Aufgabe. Wie man die Aufgabe durch Pröbeln lösen kann, erfahren Sie in der Übungs- stunde.

Nach a) können wir die Funktiongjeweils auf den Intervallen(−∞,−Φ⁻¹),(−Φ⁻¹,Φ)und(Φ,∞) umkehren. Wir führen nun die folgenden drei Bezeichungen ein: Die Umkehrabbildung von g

(−∞,−Φ⁻¹)

bezeichnen wir mit ψ1, die Umkehrabbildung von g₍

−Φ⁻¹,Φ) bezeichnen wir mit ψ2und die Um- kehrabbildung von g_(Φ,

∞) bezeichnen wir mit ψ3.

Laut Satz 4.1 hat der gesuchte Ablehnungsbereich die Form {x ∈ R|g(x) > K}, wobei K eine reelle Zahl mit der folgenden Eigenschaft ist:

0.1 =α=P0[g(X)> K].

(8)

Mit Hilfe von a) bestimmen wir schnell min_x∈Rg(x) = g(−Φ⁻¹) = ³⁻₂^√⁵ und max_x∈Rg(x) = g(Φ) = ³⁺₂^√⁵. Daraus folgt, dass sicher

3−√ 5

2 < K < 3 +√ 5 2

gelten muss. Denn sonst wäreP0[g(X)> K]0 bzw. 1 und somit sicher nicht gleichα.

Wir vermuten aber gleich noch eine etwas stärkere Bedingung, nämlich 1< K < 3 +√

5 2 .

Dies wird sich auch als richtig herausstellen, daher nehmen wir diese Bedingung an. Denn diese Annahme vereinfacht die Rechnung etwas. Wenn wir hier falsch liegen würden, so müssten wir auf einen Widerspruch kommen und müssten die Annahme verwerfen.

Beachten wir, dassψ2 monoton wachsend undψ3 monoton fallend ist, schliessen wir:

α=P0[g(X)> K]

=P0[g(X)> K, X <−Φ⁻¹]

| {z }

=0(daghier < 1 ist)

+P0[g(X)> K,−Φ⁻¹< X <Φ] +P0[g(X)> K,Φ< X]

=P0[ψ2(K)< X <Φ] +P0[Φ< X < ψ3(K)]

=P0[X <Φ]−P0[X < ψ2(K)] +P0[ψ3(K)]−P0[X <Φ]

=P0[ψ2(K)< X < ψ3(K)].

Also hat der gesuchte Ablehnungsbereich die Form (a, b), wobeia =ψ2(K) undb =ψ3(K). Nun müssen wir nochaundbbestimmen. Dazu beachten wir zuerst, dass gilt

g(a) = g(ψ2(K)) = K = g(ψ3(K)) = g(b) und damit

1 +a²

1 + (1−a)² = 1 +b² 1 + (1−b)² woraus durch etwas umformen folgt:

b= a+ 2 2a−1. Zu erfüllen bleibt also die Gleichung

α=P0[a < X < b] = P0

a < X < a+ 2 2a−1

= Z _2a−1^a+2

a

f0(x)dx = 1 π

Z _2a−1^a+2

a

1 x²+ 1dx

= 1 π

arctan a+ 2 2a−1

−arctan(a) .

Daraus folgt

πα+ arctan(a) = arctan a+ 2 2a−1

.

Mit der Bezeichnung t = tan(πα) und der trigonometrischen Formel tan(x+y) = _1−tan^tan^x+tan_x_tan^y_y erhalten wir damit

t+a

1−ta = a+ 2 2a−1. Unter Beachtung, dassa >−Φ⁻¹, führt uns dies zu

a= −(2t−1) +p5(t²+ 1)

t+ 2 =.

R 1.161890289 b= a+ 2

2a−1 =.

R 2.388530504.

Der gesuchte Ablehnungsbereich lautet also wie folgt:

(a, b)= (1.161890289,. 2.388530504).