• Keine Ergebnisse gefunden

Dr. Christof Luchsinger Frühjahrsemester 2011 Olivier Warin Seite 1 von 8

N/A
N/A
Protected

Academic year: 2021

Aktie "Dr. Christof Luchsinger Frühjahrsemester 2011 Olivier Warin Seite 1 von 8"

Copied!
8
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Ubungsblatt 4 zur Vorlesung ¨

”Statistische Methoden”

Testtheorie: θ0 vsθ1

Herausgabe des ¨Ubungsblattes: Woche 12, Abgabe der L¨osungen: Woche 13 (bis Freitag, 1615 Uhr), Be- sprechung: Woche 14

Must

Aufgabe 15 [Warum Quotient und nicht Differenz der Dichten?]

Warum ist das Verh¨altnis der Dichten (ausH0undH1) wichtig und nicht zum Beispiel die Differenz?

Dazu folgende 2 Hypothesen: InH0 haben wir die Dichtefunktion auf dem Intervall [0,1] folgendermassen konzentriert:

f0(x) =



8 x∈[0,0.05]

1

9 x∈(0.05,0.95]

10 x∈(0.95,1].

InH1 haben wir die Dichtefunktion auf dem Intervall [0,1] folgendermassen konzentriert:

f1(x) =



10 x∈[0,0.05]

0.5 x∈(0.05,0.95]

1 x∈(0.95,1].

(die Dichten k¨onnen also offenbar wild verschieden sein). Wenn H0 richtig ist, d¨urfen wir in 5 % der F¨alle eine Fehlentscheidung machen (Risiko 1. Art). Wie wird man sich sinnvollerweise verhalten, wenn nur eine Realisationx1 bekannt ist (mit Satz 4.1)? Wie ist das Risiko 2. Art mit der Methode aus Satz 4.1?

Berechnen Sie in den 3 Bereichen auch die Differenzen und die Verh¨altnisse der beiden Dichten aus den beiden Verteilungen. Wie ist das Risiko 2. Art, wenn man auf die Differenz der Dichten schaut statt auf das Verh¨altnis (bei gleichem Risiko 1. Art!).

Sie werden in obigen Rechnungen eine gewisse Freiheit haben, wo Sie den Ablehnungsbereich genau w¨ahlen - aber nur eine gewisseFreiheit!

Aufgabe 16 [Klare F¨alle und Neyman-Pearson]

Gegeben sei eine Stichprobe vom Umfang 10 aus einer Normalverteilung mit Varianz 1. Wir wissen nicht, ob der Mittelwert 0 (H0-Hypothese) oder 100 (H1-Hypothese) ist. Wie sieht ein Test mit dem Lemma von Neyman-Person aus (α= 0.1)? Ist es sinnvoll, hier einfach stur das Lemma von Neyman-Pearson so einzusetzen?

Dr. Christof Luchsinger

(2)

Standard Aufgabe 17 [Umkehrung der Fragestellung][3+5 Punkte]

Sei X1, . . . , Xn eine iid Folge von Be(p)-Zufallsgr¨ossen (P[X = 1] = p= 1−P[X = 0]). Eine ForscherIn m¨ochte jetzt einen Test durchf¨uhren. Der Test sieht folgendermassen aus: Die Nullhypothese H0:p= 0.45 wird genau dann abgelehnt, wenn

Xn i=1

Xi≥n/2.

a) Berechnen Sie im Falln= 2 die Gr¨osse des Tests (”dasα”).

b) Berechnen Sie im Falln= 100 die Gr¨osse des Tests (”dasα”). Benutzen Sie den CLT als approximatives Verfahren.

Aufgabe 18 [feineres Testen dank gr¨osserem Stichprobenumfang][3 Punkte]

Sei x1, . . . , xn eine Stichprobe aus einer N(PN,1)-Verteilung. Dabei bezeichnet PN die Personal-Number jedeR StudentIn. Wir testen jetztH0: Mittelwert ist (PN−0.1) gegen H1 : Mittelwert ist PN (wir wissen, dass PN der richtige Wert ist!). Nehmen Sieα= 0.05.

a)n= 36 b)n= 100 c) n= 256 d)n= 400 e) n= 100000

Berechnen Sie zuerst in allen 5 Situationen den Ablehnungsbereich und generieren Sie danach in einer geeigneten Rechenumgebung in allen 5 F¨allen eine solche Stichprobe. Wie werden Sie in diesen 5 Situationen entscheiden (wenn Sie kurz vergessen, dass Siewissen, dass PN der richtige Mittelwert ist)?

Honours

Aufgabe 19 [mit Hilfe von R/S-PLUS; Bsp wo nicht MLQ gilt] [1+2 Punkte]

Die Cauchy-Zufallsgr¨osse (vgl. 1.4.2.5) ist ein praktisches Gegenbeispiel f¨ur viele Untersuchungen (E[|X|] =

∞und vieles mehr). Die Dichtefunktion ist

f(x) = d

π(d2+ (x−m)2);

dabei ist m der Median und d ein Skalenparameter. Wir setzen hier d = 1 und untersuchen mit einer Einerstichprobe (n = 1), ob m= 0 (H0) oder m= 1 (H1). Die minimal suffiziente Statistik ist x:= x1. Wir wollen (und k¨onnen!) Satz 4.1 anwenden. Schwierig wird (wegen fehlendem MLQ) die Berechnung des Ablehnungsbereichs.

a) Untersuchen Sie als Vorbereitung auf b), wie sich der Likelihood-Quotient verh¨alt (wo fallend, steigend, wieder fallend; keine genauen Berechnungen, sondern grobe Absch¨atzung reicht).

b) Berechnen Sie in R/S-PLUS durch pr¨obeln die Grenzen, wo Siemit Satz 4.1die Nullhypothese ablehnen / Alternativhypothese annehmen sollten. Nehmen Sieα= 0.1 und suchen Sie Werte, sodass die Genauigkeit 5 Promille betr¨agt (Risiko erster Art im Intervall [9.5,10.5]). Es wird klar verlangt, dass Satz 4.1 benutzt wird und also das Risiko 2. Art minimiert wird. Wir suchen nicht irgendein Intervall oder Bereich, wo wir H0 ablehnen, sondern den Bereich, damit das Risiko 2. Art minimal ist. Tipp: a<-seq(0,3,0.01) und b<-dcauchy(a,1)/dcauchy(a,0); Vorsicht: Indexe um 1 verschoben ([1]≡0.00 undnicht 0.01)!

(3)

Übungsblatt 4 zur Vorlesung “Statistische Methoden” Seite 3 von 8

Übungsblatt 4 zur Vorlesung “Statistische Methoden”

Olivier Warin 5. April 2011

Aufgabe 15 [Warum Quotient und nicht Differenz der Dichten?]

Sei x1 ∈[0,1]eine Stichprobe aus einer stetigen Zufallsgrösse X. Nun wollen wir die folgenden beiden Hypothesen gegeneinander auf dem Niveauα= 5%testen:

H0: Die Dichte vonX hat auf dem Intervall[0,1]die Form f0(x) =





8, x∈[0,0.05]

1

9, x∈(0.05,0.95]

10, x∈(0.95,1].

H1: Die Dichte vonX hat auf dem Intervall[0,1]die Form f1(x) =





10, x∈[0,0.05]

0.5, x∈(0.05,0.95]

1, x∈(0.95,1].

• Zunächst testen wir mit der Methode aus Satz 4.1. Dazu bestimmen wir zuerst einmal den Quoti- enten der beiden Dichten:

f1(x) f0(x)=





1.25, x∈[0,0.05]

4.5, x∈(0.05,0.95]

0.1, x∈(0.95,1].

Wenn wir dem Satz 4.1 strikt folgen wollten, so müssten wir einK∈Rfinden, so dass α=P0

f1(X) f0(X)> K

.

Nun kann man leicht einsehen, dass dies hier nicht möglich ist. Wir wählen den Ablehnungsbereich daher wie folgt:

(0.05,0.5), denn es gilt

α = 0.05 =Z 0.5 0.05

1

9dx = Z 0.5 0.05

f0(x)dx = P0[X ∈(0.05,0.5)] = P0

f1(X)

f0(X) >4, X <0.5 . Also haben wirfast die von Satz 4.1 gewünschte Form gefunden.

Das Risiko zweiter Artβ lautet nun also wie folgt:

β =P1[X6∈(0.05,0.5)] = Z 0.05 0

f1(x)dx+Z 1 0.5

f1(x)dx = 0.775.

• Nun testen wir indem wir die Differenz der Dichten anschauen:

f1(x)−f0(x) =





2, x∈[0,0.05]

7/18, x∈(0.05,0.95)

−9, x∈(0.95,1].

Ähnlich wie oben wählen wir nun den Ablehnungsbereich wie folgt:

(0,0.00625),

(4)

denn es gilt

α= 0.05 =Z 0.00625 0

8dx = Z 0.00625 0

f0(x)dx = P0[X ∈(0,0.00625)]

=P0[f1(X)−f0(X)>1, X <0.00625].

Wir haben also fast die analoge Form (mit Differenz statt Quotient) wie in Satz 4.1.

Mit diesem Ablehnungsbereich lautet das Risiko zweiter Artβ wie folgt:

β =P1[X >0.00625] = Z 1 0.00625

f1(x)dx = 0.9375.

Wenn wir mit der Differenz statt mit dem Quotient der Dichten arbeiten erhalten wir also ein deutlich grösseres Risiko erster Art.

Aufgabe 16

Gegeben sei eine Stichprobex= (x1, . . . , x10)vom Umfang 10 aus einer Normalverteilung mit Varianz 1 und Erwartungswertµ. Wir testen jetzt auf dem Niveauα= 0.1mit dem Lemma von Neyman-Person die folgenden zwei Hypothesen gegeneinander:

H0: µ= 0 H1: µ= 100 Die entsprechende gemeinsame Dichtefunktion lautet wie folgt:

f(x)=q Y10 i=1

√12πe12(xiµ)2 = 1

32π5exp −1 2

X10 i=1

(xi−µ)2

! .

Somit hat der Likelihood-Quotient die folgende Form:

f1(x)

f0(x) = exp 1 2

X10 i=1

(200xi−100)

!

= exp(1000x−500).

Nach dem Lemma von Neyman-Person (Satz 4.1) brauchen wir nun einK∈Rmit 0.1 =α=P0[exp(1000X−500)> K] = P0

X >logK 1000 +1

| {z 2}

=:K0

.

Natürlich reicht es, wenn wir das K0 bestimmen. Dies können wir schnell tun, da X unter H0 eine N(0,1/10)-Verteilung hat: tun

K0=.

R

qnorm(0.1,0,sqrt(1/10),lower.tail=FALSE) =.

R 0.4052622.

Also werden wirH0 ablehnen, sobaldx> K0 = 0.4052622..

Bemerkung: In dieser Situation ist es natürlich nicht so sinnvoll stur das Lemma von Neyman-Pearson so einzusetzen. Denn man kann sofort erkennen, obH0 oderH1 anzunehmen ist. Wenn man nach dem Lemma von Neyman-Pearson vorgeht, geht man einfach ein Risiko erster Art ein ohne das Risiko 2. Art entsprechend zu reduzieren.

Aufgabe 17 [Umkehrung der Fragestellung]

SeiX1, . . . , Xn eine iid Folge vonBe(p)-Zufallsgrössen (P[X1= 1] =p= 1−P[X1= 0]). Eine ForscherIn möchte jetzt einen Test durchführen. Der Test sieht folgendermassen aus: Die NullhypotheseH0: p= 0.45 wird genau dann abgelehnt, wenn

Xn i=1

Xi > n 2.

(5)

Übungsblatt 4 zur Vorlesung “Statistische Methoden” Seite 5 von 8

a) Nehmen wir an, dassn= 2gilt. Nun folgt für die Grösse des Testsα:

α=P0

" n X

i=1

Xi> n 2

#

= P0[X1+X2>1] = 1−P0[X1+X2<1] = 1−P0[X1= 0, X2= 0]

= 1q −P0[X1= 0]P0[X2= 0] = 1−(1−0.45)(1−0.45) = 0.6975.

b) Hier nehmen wir an, dassn = 100 gilt. Jetzt approximieren wir die Grösse des Testsα mit Hilfe des CLTs:

α=P0

" n X

i=1

Xi> n 2

#

= P[Bin(100,0.45)>50]

=P

"

Bin(100,0.45)−100·0.45

p100·0.45·(1−0.45) > 50−100·0.45 p100·0.45·(1−0.45)

#

=.

CLT P[N(0,1)>5/24.75]

=.

R

pnorm(5/sqrt(24.75), lower.tail=FALSE) =.

R 0.1574393.

Bemerkung: Mit Hilfe von R können wir hier auch auf den CLT verzichten und erhalten so das folgende, etwas genauere Ergebnis:

α=P0

" n X

i=1

Xi> n 2

#

= P[Bin(100,0.45)>50] =.

R

pbinom(50-1,100,0.45,lower.tail=FALSE)

=.

R

0.1827282

Aufgabe 18 [feineres Testen dank grösserem Stichprobenumfang]

Seix1, . . . , xn eine Stichprobe aus einerN(PN,1)-Verteilung. Dabei bezeichnet PN diePersonalNumber jedeR StudentIn. In den Musterlösungen werden wirPN = 2verwenden.

Wir testen jetzt auf dem Niveauα= 0.05H0: Mittelwert ist(PN−0.1)gegenH1: Mittelwert istPN.

Zuerst bestimmen wir dazu den Ablehnungsbereich An (in Abhängigkeit von n). Nach dem Lemma von Neyman-Person hat dieser Ablehnungsbereich die folgende Form:

An=

(x1,· · ·, xn)∈Rnf1(x1,· · ·, xn) f0(x1,· · ·, xn)> Kn

, wobeiKn eine bestimmte reelle Zahl ist.

Wie im Skript auf Seite 69 können wir dieses An aber viel einfacher schreiben (beachte dazu, dass P N−0.1< P N gilt):

An={x∈Rn|x> Kn0}, (∗)

wobeiKn0 eine bestimmte reelle Zahl bezeichnet.

Da wir auf dem Niveauα= 0.05testen wollen, mussKn0 die folgende Gleichung erfüllen:

0.05 =α=P0[X > Kn0] = P[N(PN−0.1,1/n)> Kn0] Z-Trans-=

formation P

N(0,1)>√n(Kn0 −PN + 0.1) . Es folgt√n(Kn0 −PN + 0.1)=.

R

qnorm(0.05,lower.tail=FALSE)und damit Kn0 =.

R

√1nqnorm(0.05,lower.tail=FALSE)+ PN−0.1.

Also wirdKn0 fürn→ ∞immer kleiner und geht gegenPN−0.1. D.h. wennngrösser wird, nehmen wir tendenziell eherH1, was ja richtig ist.

Aufgrund von (∗) reicht es nun für die Ablehnungsbereiche jeweils das zugehörigeKn0 anzugeben:

a) n= 36, alsoKn0 =.

R

qnorm(0.05,lower.tail=FALSE)/sqrt(36)+1.9=.

R 2.174142.

Eine Simulation in R lieferte den folgenden Wert für x:

(6)

> mean(rnorm( 3 6 , 2 , 1 ) ) [ 1 ] 1 . 9 7 6 0 6 5

Da1.976065< Kn0 nehmen wir hier (fälschlicherweise)H0an.

b) n= 100, alsoKn0 =.

R

qnorm(0.05,lower.tail=FALSE)/sqrt(100)+1.9=.

R 2.064485.

Eine Simulation in R lieferte den folgenden Wert für x:

> mean(rnorm( 1 0 0 , 2 , 1 ) ) [ 1 ] 1 . 9 8 9 7 4 2

Da1.989742< Kn0 nehmen wir hier ebenfalls (fälschlicherweise)H0 an.

c) n= 256, alsoKn0 =.

R qnorm(0.05,lower.tail=FALSE)/sqrt(256)+1.9=.

R 2.002803.

Eine Simulation in R lieferte den folgenden Wert für x:

> mean(rnorm( 2 5 6 , 2 , 1 ) ) [ 1 ] 2 . 0 8 1 6 0 0

Da2.081600> Kn0 lehnen wir hierH0 ab.

d) n= 400, alsoKn0 =.

R

qnorm(0.05,lower.tail=FALSE)/sqrt(400)+1.9=.

R 1.982243.

Eine Simulation in R lieferte den folgenden Wert für x:

> mean(rnorm( 4 0 0 , 2 , 1 ) ) [ 1 ] 2 . 0 5 6 1 0 2

Da2.056102> Kn0 lehnen wir hierH0 ab.

e) n= 100000, alsoKn0 =.

R

qnorm(0.05,lower.tail=FALSE)/sqrt(10000)+1.9=.

R 1.916449.

Eine Simulation in R lieferte den folgenden Wert für x:

> mean(rnorm( 1 0 0 0 0 , 2 , 1 ) ) [ 1 ] 2 . 0 0 9 8 0 5

Da2.009805> Kn0 lehnen wir hierH0 ab.

Aufgabe 19 [mit Hilfe von R/S-PLUS; Bsp wo nicht MLQ gilt]

In dieser Aufgabe geht es um eine Cauchy-Zufallsgrösse, also um eine stetige Zufallsgrösse mit der fol- genden Dichtefunktion:

f(x) = d

π(d2+ (x−m)2;

dabei ist m der Median und d ein Skalenparameter. Hier setzen wir d = 1 und untersuchen mit einer Einerstichprobe x1 (n= 1), ob m= 0 (H0) oderm= 1(H1) gilt. Eine minimal suffiziente Statistik ist x=x1.

a) Als Vorbereitung betrachten wir den entsprechenden Likelihood-Quotienten:

g(x) := f1(x)

f0(x) = 1 +x2 1 + (x−1)2

⇒ g0(x) = 2x(1 + (x−1)2)−2(x−1)(1 +x2) (x2+ 1)2 .

(7)

Übungsblatt 4 zur Vorlesung “Statistische Methoden” Seite 7 von 8

Damit folgt:

g0(x)S0 ⇔ 2x(1 + (x−1)2)−2(x−1)(1 +x2)S0

⇔ x2−x−1 = (x−Φ)(x+ Φ1)T0,

wobei Φ =1+25 (und damit−Φ1= 125) die goldene Zahl bezeichnet.

Wir schliessen, dassg auf(−∞,−Φ1)und auf(Φ,∞)streng monoton fallend und auf(−Φ1,Φ) streng monton wachsend ist.

Zur besseren Vorstellung ist hier eine Skizze des Graphen:

x g(x)

| 1

2 3

−1

−2

1 2

−1

−2 −Φ−1 Φ

b) Bemerkung: Die Idee dieser Aufgabe war es den Ablehnungsbereich durch Pröbeln herauszufin- den. Da sich aber pröbeln schlecht in eine Musterlösung einbauen lässt, ist hier eine algebraische Lösung der Aufgabe. Wie man die Aufgabe durch Pröbeln lösen kann, erfahren Sie in der Übungs- stunde.

Nach a) können wir die Funktiongjeweils auf den Intervallen(−∞,−Φ1),(−Φ1,Φ)und(Φ,∞) umkehren. Wir führen nun die folgenden drei Bezeichungen ein: Die Umkehrabbildung von g

(−∞,−Φ−1)

bezeichnen wir mit ψ1, die Umkehrabbildung von g(

Φ−1,Φ) bezeichnen wir mit ψ2und die Um- kehrabbildung von g(Φ,

) bezeichnen wir mit ψ3.

Laut Satz 4.1 hat der gesuchte Ablehnungsbereich die Form {x ∈ R|g(x) > K}, wobei K eine reelle Zahl mit der folgenden Eigenschaft ist:

0.1 =α=P0[g(X)> K].

(8)

Mit Hilfe von a) bestimmen wir schnell minx∈Rg(x) = g(−Φ1) = 3−25 und maxx∈Rg(x) = g(Φ) = 3+25. Daraus folgt, dass sicher

3−√ 5

2 < K < 3 +√ 5 2

gelten muss. Denn sonst wäreP0[g(X)> K]0 bzw. 1 und somit sicher nicht gleichα.

Wir vermuten aber gleich noch eine etwas stärkere Bedingung, nämlich 1< K < 3 +√

5 2 .

Dies wird sich auch als richtig herausstellen, daher nehmen wir diese Bedingung an. Denn diese Annahme vereinfacht die Rechnung etwas. Wenn wir hier falsch liegen würden, so müssten wir auf einen Widerspruch kommen und müssten die Annahme verwerfen.

Beachten wir, dassψ2 monoton wachsend undψ3 monoton fallend ist, schliessen wir:

α=P0[g(X)> K]

=P0[g(X)> K, X <−Φ1]

| {z }

=0(daghier < 1 ist)

+P0[g(X)> K,−Φ1< X <Φ] +P0[g(X)> K,Φ< X]

=P02(K)< X <Φ] +P0[Φ< X < ψ3(K)]

=P0[X <Φ]−P0[X < ψ2(K)] +P03(K)]−P0[X <Φ]

=P02(K)< X < ψ3(K)].

Also hat der gesuchte Ablehnungsbereich die Form (a, b), wobeia =ψ2(K) undb =ψ3(K). Nun müssen wir nochaundbbestimmen. Dazu beachten wir zuerst, dass gilt

g(a) = g(ψ2(K)) = K = g(ψ3(K)) = g(b) und damit

1 +a2

1 + (1−a)2 = 1 +b2 1 + (1−b)2 woraus durch etwas umformen folgt:

b= a+ 2 2a−1. Zu erfüllen bleibt also die Gleichung

α=P0[a < X < b] = P0

a < X < a+ 2 2a−1

= Z 2a−1a+2

a

f0(x)dx = 1 π

Z 2a−1a+2

a

1 x2+ 1dx

= 1 π

arctan a+ 2 2a−1

−arctan(a) .

Daraus folgt

πα+ arctan(a) = arctan a+ 2 2a−1

.

Mit der Bezeichnung t = tan(πα) und der trigonometrischen Formel tan(x+y) = 1−tantanx+tanxtanyy erhalten wir damit

t+a

1−ta = a+ 2 2a−1. Unter Beachtung, dassa >−Φ1, führt uns dies zu

a= −(2t−1) +p5(t2+ 1)

t+ 2 =.

R 1.161890289 b= a+ 2

2a−1 =.

R 2.388530504.

Der gesuchte Ablehnungsbereich lautet also wie folgt:

(a, b)= (1.161890289,. 2.388530504).

Referenzen

ÄHNLICHE DOKUMENTE

Denn auch hier ist a priori die Unabhängigkeit nicht klar und damit auch nicht die t n−2 -Verteilung. Im freiwilligen Teil von Kapitel 7 werden wir diesen Test nochmals in einer

(Bei mehr als zwei Matrizen wäre dies allerdings im Allgemeinen nur bei zyklischen Vertauschungen erlaubt.).. Übungsblatt 11 zur Vorlesung “Statistische Methoden” Seite 5 von

Bei den folgenden Aufgaben wird (noch) nicht verlangt, dass Sie allf¨allige Beweise v¨ollig exakt f¨ uhren mit Resultaten aus der WT (die Sie ja eh noch nicht haben). L¨osen Sie

Geben Sie zu jedem der 6 F¨alle von Ereignisr¨aumen aus 1.1 ein neues Beispiel aus der ”realen Welt” an, welches man ”sinnvollerweise” mit dem jeweiligen Fall modelliert.

Frühjahrsemester 2012 Olivier Warin Seite 1 von 4... Denn

Hat nun eine dieser Frauen in der Tat Brustkrebs, so ist die Wahrscheinlichkeit eines positiven Mammographiebefundes 80 % (positiv heisst hier, dass der medizinische Apparat

Zeigen Sie: ein Mass µ ist genau dann σ-endlich, wenn es eine abz¨ahlbare Folge (E i ) i ≥ 1 von disjunkten Mengen gibt, sodass E = ∪ E i mit µ[E i ] &lt; ∞ f¨ ur alle i ≥

Da f monoton wachsend ist, muss A also nach oben