Als n¨ achstes betrachten wir eine weitere von X abgeleitete Sch¨ atzvariable:

(1)

Als n¨ achstes betrachten wir eine weitere von X abgeleitete Sch¨ atzvariable:

S :=

v u u t

1 n − 1

n

X

i=1

(X _i − X) ² .

Wir zeigen, dass S ² ein erwartungstreuer Sch¨ atzer f¨ ur die Varianz von X ist. Sei µ := E [X] = E [X _i ] = E [X].

(X

i

− X )

²

= (X

i

− µ + µ − X )

²

= (X

i

− µ)

²

+ (µ − X )

²

+ 2(X

i

− µ)(µ − X)

= (X

i

− µ)

²

+ (µ − X )

²

− 2 n

n

X

j=1

(X

i

− µ)(X

j

− µ)

= n − 2

n (X

i

− µ)

²

+ (µ − X)

²

− 2 n

X

j6=i

(X

i

− µ)(X

j

− µ).

DWT 2 Sch¨atzvariablen 325/476

c

Ernst W. Mayr

(2)

F¨ ur je zwei unabh¨ angige Zufallsvariablen X i , X j mit i 6= j gilt E [(X _i − µ)(X _j − µ)] = E [X _i − µ] · E [X _j − µ]

= ( E [X _i ] − µ) · ( E [X _j ] − µ) = 0 · 0 = 0.

Daraus folgt

E[(X i − X) ² ] = n − 2

n · E[(X i − µ) ² ] + E[(µ − X) ² ]

= n − 2

n · Var[X _i ] + Var[X].

(3)

Wegen Var[X _i ] = Var[X] und Var[X] = _n ¹ Var[X] folgt nun E [(X _i − X) ² ] = n − 1

n · Var[X], und somit gilt f¨ ur S ²

E [S ² ] = 1 n − 1

n

X

i=1

E [(X _i − X) ² ]

= 1

n − 1 · n · n − 1

n · Var[X] = Var[X].

S ² ist also eine erwartungstreue Sch¨ atzvariable f¨ ur die Varianz von X.

c

Ernst W. Mayr

(4)

Die vorangegangene Rechnung erkl¨ art, warum man als Sch¨ atzer nicht 1

n

X

i=1

(X _i − X) ² 6= ^! S ²

verwendet, wie man vielleicht intuitiv erwarten w¨ urde.

(5)

Definition 121 Die Zufallsvariablen

X := 1 n

n

X

i=1

X i und S ² := 1 n − 1

n

X

i=1

(X i − X) ²

heißen Stichprobenmittel bzw. Stichprobenvarianz der Stichprobe X 1 , . . . , X n . X und S ² sind erwartungstreue Sch¨ atzer f¨ ur den Erwartungswert bzw. die Varianz.

c

Ernst W. Mayr

(6)

2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Sch¨ atzvariablen

Wir betrachten nun ein Verfahren zur Konstruktion von Sch¨ atzvariablen f¨ ur Parameter von Verteilungen. Sei

X ~ = (X ₁ , . . . , X _n ).

Bei X ₁ , . . . , X _n handelt es sich um unabh¨ angige Kopien der Zufallsvariablen X mit der Dichte f(x; θ). Hierbei sei θ der gesuchte Parameter der Verteilung. Wir setzen

f (x; θ) = Pr[X = x], wobei θ ein Parameter der Verteilung ist.

Wenn wir den Parameter explizit angeben wollen, so schreiben wir daf¨ ur auch

f(x; θ) = Pr _θ [X = x]. Eine Stichprobe liefert f¨ ur jede Variable X i einen Wert x i .

Diese Werte fassen wir ebenfalls zu einem Vektor ~x = (x ₁ , . . . , x _n ) zusammen.

(7)

Der Ausdruck

L(~x; θ) :=

n

Y

i=1

f (x _i ; θ) =

n

Y

i=1

Pr _θ [X _i = x _i ]

unabh.

= Pr θ [X 1 = x 1 , . . . , X n = x n ]

entspricht der Wahrscheinlichkeit, dass wir die Stichprobe ~x erhalten, wenn wir den Parameter mit dem Wert θ belegen.

Wir betrachten nun eine feste Stichprobe ~x und fassen L(~x; θ) somit als Funktion von θ auf. In diesem Fall nennen wir L die Likelihood-Funktion der Stichprobe.

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Sch¨atzvariablen 331/476

c

Ernst W. Mayr

(8)

Es erscheint sinnvoll, zu einer gegebenen Stichprobe ~x den Parameter θ so zu w¨ ahlen, dass L(x; θ) maximal wird.

Definition 122

Ein Sch¨ atzwert θ b f¨ ur den Parameter einer Verteilung f(x; θ) heißt

Maximum-Likelihood-Sch¨ atzwert (ML-Sch¨ atzwert) f¨ ur eine Stichprobe ~x, wenn gilt

L(~x; θ) ≤ L(~x; θ) b f¨ ur alle θ.

(9)

Beispiel 123

Wir konstruieren mit der ML-Methode einen Sch¨ atzer f¨ ur den Parameter p der Bernoulli-Verteilung. Es gilt Pr _p [X _i = 1] = p und Pr _p [X _i = 0] = 1 − p. Daraus schließen wir, dass Pr p [X i = x i ] = p ^x

ⁱ

(1 − p) ^1−x

ⁱ

, und stellen die Likelihood-Funktion

L(~x; p) =

n

Y

i=1

p ^x

ⁱ

· (1 − p) ^1−x

ⁱ

auf.

Wir suchen als Sch¨ atzer f¨ ur p den Wert, an dem die Funktion L maximal wird. Wir erhalten

ln L(~x; p) =

n

X

i=1

(x i · ln p + (1 − x i ) · ln(1 − p))

= n¯ x · ln p + (n − n¯ x) · ln(1 − p).

Hierbei bezeichnet x ¯ das arithmetische Mittel _n ¹ P n i=1 x _i .

c

Ernst W. Mayr

(10)

Beispiel (Forts.)

Wir finden das Maximum durch Nullsetzen der Ableitung:

d ln L(~x; p) d p = n¯ x

p − n − n¯ x 1 − p = 0.

Diese Gleichung hat die L¨ osung p = ¯ x.

(11)

Beispiel 124

Die Zufallsvariable X sei N (µ, σ ² )-verteilt, und wir suchen Sch¨ atzvariablen f¨ ur die Parameter µ und σ. Nach Definition der Likelihood-Funktion gilt

L(~x; µ, σ ² ) = 1

√ 2πσ n

·

n

Y

i=1

exp

− (x i − µ) ² 2σ ²

. Durch Logarithmieren erhalten wir

ln L(~x; µ, σ ² ) = −n(ln √

2π + ln σ) +

n

X

i=1

− (x i − µ) ² 2σ ²

.

DWT 335/476

c

Ernst W. Mayr

(12)

Beispiel 124

F¨ ur die Nullstellen der Ableitungen ergibt sich

∂ ln L

∂µ =

n

X

i=1

x i − µ σ ²

= 0, !

∂ ln L

∂σ = − n σ +

n

X

i=1

(x _i − µ) ² σ ³

= 0, !

also

µ = ¯ x und σ ² = 1 n

n

X

i=1

(x _i − µ) ² . Wir haben also durch die ML-Methode

” fast“ das Stichprobenmittel und die

Stichprobenvarianz erhalten. Allerdings besitzt der Sch¨ atzer f¨ ur die Varianz hier den

Vorfaktor ¹ _n statt _n−1 ¹ . Die ML-Sch¨ atzvariable f¨ ur die Varianz ist somit nicht

erwartungstreu.

(13)

3. Konfidenzintervalle

Bei der Verwendung von Sch¨ atzvariablen geht man davon aus, dass der erhaltene Sch¨ atzwert

” nahe“ beim gesuchten Parameter θ liegt. Die Sch¨ atzungen werden

” besser“, je gr¨ oßer die betrachtete Stichprobe ist. Diese Angaben sind aus

quantitativer Sicht nat¨ urlich unbefriedigend, da nicht erkennbar ist, wie gut man sich auf den Sch¨ atzwert verlassen kann.

Die L¨ osung dieses Problems besteht darin, statt einer Sch¨ atzvariablen U zwei Sch¨ atzer U ₁ und U ₂ zu betrachten. U ₁ und U ₂ werden so gew¨ ahlt, dass

Pr[U 1 ≤ θ ≤ U 2 ] ≥ 1 − α.

Die Wahrscheinlichkeit 1 − α heißt Konfidenzniveau und kann dem

” Sicherheitsbed¨ urfnis“ angepasst werden.

c

Ernst W. Mayr

(14)

Wenn wir f¨ ur eine konkrete Stichprobe die Sch¨ atzer U 1 und U 2 berechnen und davon ausgehen, dass θ ∈ [U ₁ , U ₂ ] ist, so ziehen wir h¨ ochstens mit Wahrscheinlichkeit α einen falschen Schluss. [U ₁ , U ₂ ] heißt Konfidenzintervall.

In vielen F¨ allen verwendet man nur eine Sch¨ atzvariable U und konstruiert mittels

U 1 := U − δ und U 2 := U + δ ein symmetrisches Konfidenzintervall [U − δ, U + δ].

(15)

Sei X eine N (µ, σ ² )-verteilte Zufallsvariable, und seien X ₁ , . . . , X _n n zugeh¨ orige Stichprobenvariablen. Gem¨ aß der Additivit¨ at der Normalverteilung (siehe Satz 113) ist das Stichprobenmittel X ebenfalls normalverteilt mit X ∼ N (µ, ^σ _n

²

). Wir suchen f¨ ur X ein symmetrisches Konfidenzintervall.

Nach Satz 100 ist

Z := √

n · X − µ σ standardnormalverteilt.

c

Ernst W. Mayr

(16)

F¨ ur Z betrachten wir das Konfidenzintervall [−c, c] f¨ ur ein geeignetes c > 0 und setzen Pr[−c ≤ Z ≤ c] = 1 ^! − α.

Aufl¨ osen nach µ ergibt Pr

X − cσ

√ n ≤ µ ≤ X + cσ

√ n !

= 1 − α . Das gesuchte Konfidenzintervall lautet also

K = [X − cσ

√ n , X + cσ

√ n ] .

(17)

Den Parameter c w¨ ahlen wir wie folgt:

Pr[−c ≤ Z ≤ c] = Φ(c) − Φ(−c) = 1 ^! − α.

Wegen der Symmetrie von Φ gilt Φ(−x) = 1 − Φ(x) und wir erhalten Φ(c) − Φ(−c) = 2 · Φ(c) − 1 = 1 ^! − α ⇐⇒ Φ(c) = 1 − α

2 , also

c = Φ ⁻¹ 1 − α

2 .

c

Ernst W. Mayr

(18)

Definition 125

X sei eine stetige Zufallsvariable mit Verteilung F _X . Eine Zahl x γ mit F X (x γ ) = γ

heißt γ -Quantil von X bzw. der Verteilung F X . Definition 126

F¨ ur die Standardnormalverteilung bezeichnet z γ das γ-Quantil.

(19)

Damit k¨ onnen wir das gesuchte Konfidenzintervall angeben durch K =

X − z ₍₁₋

^α

2

) σ

√ n , X + z ₍₁₋

^α

2

) σ

√ n

.

c

Ernst W. Mayr

(20)

4. Testen von Hypothesen

4.1 Einf¨ uhrung

Bislang haben wir versucht, Parameter von Verteilungen zu sch¨ atzen. In der Praxis ist man jedoch oft an der eigentlichen Kenntnis dieser Parameter gar nicht interessiert, sondern man m¨ ochte gewisse, damit zusammenh¨ angende Behauptungen ¨ uberpr¨ ufen.

Im Folgenden stellen wir die Bestandteile eines statistischen Tests anhand eines abstrakten Beispiels vor. Wir betrachten dazu eine Zufallsvariable X mit

Pr[X = 1] = p und Pr[X = 0] = 1 − p. Durch einen Test soll ¨ uberpr¨ uft werden, ob

p < 1/3 oder p ≥ 1/3 gilt.

(21)

Definition eines Tests

Wir betrachten eine Stichprobe von n unabh¨ angigen Stichprobenvariablen X 1 , . . . , X n , die dieselbe Verteilung wie die Zufallsvariable X besitzen. Zu einem zugeh¨ origen Stichprobenvektor ~x m¨ ussen wir nun die Frage beantworten, ob wir f¨ ur diesen Versuchsausgang die Hypothese

” p ≥ 1/3“ annehmen oder ablehnen.

Sei

K := {~x ∈ R ⁿ ; ~x f¨ uhrt zur Ablehnung der Hypothese}.

K nennen wir den Ablehnungsbereich oder den kritischen Bereich des Tests.

DWT 4.1 Einf¨uhrung 344/476

c

Ernst W. Mayr

(22)

Gew¨ ohnlich wird K konstruiert, indem man die Zufallsvariablen X ₁ , . . . , X _n zu einer neuen Variablen T, der so genannten Testgr¨ oße, zusammenfasst. Dann unterteilt man den Wertebereich R von T in mehrere Bereiche, die entweder zur Ablehnung der Hypothese f¨ uhren sollen oder nicht. Dabei betrachtet man meist ein einzelnes

halboffenes oder abgeschlossenes Intervall und spricht dann von einem einseitigen bzw.

von einem zweiseitigen Test.

Die Menge K e ⊆ R enthalte die Werte von T , die zur Ablehnung der Hypothese f¨ uhren

sollen. Da wir Tests immer ¨ uber eine Testgr¨ oße definieren, werden wir der Einfachheit

halber auch K e als Ablehnungsbereich bezeichnen. K e ⊆ R entspricht direkt dem

Ablehnungbereich K = T ⁻¹ ( K) e ⊆ R ⁿ , wie wir ihn oben festgelegt haben.

(23)

Die zu ¨ uberpr¨ ufende Hypothese bezeichnen wir mit H 0 und sprechen deshalb auch von der Nullhypothese. Bei manchen Tests formuliert man noch eine zweite Hypothese H ₁ , die so genannte Alternative. Im Beispiel k¨ onnen wir

H ₀ : p ≥ 1/3 und H ₁ : p < 1/3 setzen.

Manchmal verzichtet man darauf, H ₁ anzugeben. Dann besteht die Alternative wie oben einfach darin, dass H 0 nicht gilt. In diesem Fall nennen wir H 1 triviale Alternative.

c

Ernst W. Mayr

(24)

Ein echter, also nicht-trivialer Alternativtest l¨ age beispielsweise vor, wenn wir ansetzen H ₀ ⁰ : p ≥ 1/3 und H ₁ ⁰ : p ≤ 1/6.

Beispiel 127

Wir untersuchen eine Festplatte, von der bekannt ist, dass sie zu einer von zwei Baureihen geh¨ ort. Die mittleren Zugriffszeiten dieser Baureihen betragen 9ms

bzw. 12ms. Wir m¨ ochten nun herausfinden, zu welchem Typ die betrachtete Festplatte

geh¨ ort, indem wir die Zugriffszeit bei n Zugriffen bestimmen. Hier w¨ urde man dann

ansetzen: H 0 : µ ≤ 9 und H 1 := µ ≥ 12, wobei µ die mittlere Zugriffszeit bezeichnet.

(25)

Fehler bei statistischen Tests

Bei jedem statistischen Test k¨ onnen mit einer gewissen Wahrscheinlichkeit falsche Schl¨ usse gezogen werden. Dieser Fall tritt beispielsweise ein, wenn H ₀ gilt, aber das Ergebnis ~x der Stichprobe im Ablehnungsbereich K liegt.

Dann spricht man von einem Fehler 1. Art.

Analog erhalten wir einen Fehler 2. Art, wenn H ₀ nicht gilt und ~x nicht im Ablehnungsbereich liegt.

Fehler 1. Art : H ₀ gilt, wird aber abgelehnt.

Fehler 2. Art : H 0 gilt nicht, wird aber angenommen.

c

Ernst W. Mayr

(26)

F¨ ur die Beurteilung eines Tests ist es wesentlich, mit welcher Wahrscheinlichkeit diese beiden Fehler eintreten k¨ onnen. Ziel ist es nat¨ urlich, diese Wahrscheinlichkeiten m¨ oglichst klein zu halten. Allerdings sind die Minimierung des Fehlers 1. Art und des Fehlers 2. Art gegenl¨ aufige Ziele, so dass ein vern¨ unftiger Ausgleich zwischen beiden Fehlern gefunden werden muss. Wenn man beispielsweise K = ∅ setzt, so erh¨ alt man Wahrscheinlichkeit Null f¨ ur den Fehler 1. Art, da H 0 immer angenommen wird.

Allerdings tritt der Fehler 2. Art dann mit Wahrscheinlichkeit Eins ein, wenn H 0 nicht

gilt.

(27)

Die Wahrscheinlichkeit f¨ ur den Fehler 1. Art wird mit α bezeichnet, und man spricht deshalb gelegentlich vom α-Fehler. α heißt auch Signifikanzniveau des Tests.

In der Praxis ist es ¨ ublich, sich ein Signifikanzniveau α vorzugeben (¨ ubliche Werte hierf¨ ur sind 0,05, 0,01 oder 0,001) und dann den Test so auszulegen (also den Ablehnungsbereich K so zu bestimmen), dass die Wahrscheinlichkeit f¨ ur den Fehler 1. Art den Wert α besitzt.

c

Ernst W. Mayr

(28)

Konstruktion eines einfachen Tests

Wir konstruieren einen Test f¨ ur den Parameter p einer Bernoulli-verteilten Zufallsvariablen X. Wir setzen

H 0 : p ≥ p 0 , H 1 : p < p 0 . Als Testgr¨ oße verwenden wir

T := X ₁ + . . . + X _n .

F¨ ur gr¨ oßere Wahrscheinlichkeiten p erwarten wir auch gr¨ oßere Werte f¨ ur T. Deshalb ist

es sinnvoll, einen Ablehnungsbereich der Art K := [0, k] f¨ ur T zu w¨ ahlen, wobei k ∈ R

geeignet festzulegen ist. Wir konstruieren hier also einen einseitigen Test, w¨ ahrend f¨ ur

eine Nullhypothese H ₀ : p = p ₀ sowohl zu kleine als auch zu große Werte von T zur

Ablehnung von H 0 f¨ uhren sollten und somit ein zweiseitiger Test vorzuziehen w¨ are.

(29)

T ist binomialverteilt. Da wir von einem großen Stichprobenumfang n ausgehen, bietet es sich an, die Verteilung von T nach dem Grenzwertsatz von de Moivre (siehe

Korollar 116) durch die Normalverteilung zu approximieren.

Sei

T ˜ := T − np p np(1 − p) . T ˜ ist ann¨ ahernd standardnormalverteilt.

c

Ernst W. Mayr

(30)

Wir berechnen f¨ ur jeden Wert von k das zugeh¨ orige Signifikanzniveau α des Tests.

Fehlerwahrscheinlichkeit 1. Art = max

p∈H

₀

Pr _p [T ∈ K]

= max

p∈H

₀

Pr _p [T ≤ k]

Fehlerwahrscheinlichkeit 2. Art = sup

p∈H

1

Pr _p [T 6∈ K]

= sup

p∈H

1

Pr _p [T > k]

(31)

F¨ ur den Fehler 1. Art α erhalten wir α = max

p≥p

0

Pr p [T ≤ k] = Pr p=p

0

[T ≤ k]

= Pr p=p

0

"

T ˜ ≤ k − np p np(1 − p)

#

= Pr

"

T ˜ ≤ k − np 0

p np 0 (1 − p 0 )

#

≈ Φ k − np 0

p np 0 (1 − p 0 )

! .

c

Ernst W. Mayr

(32)

Unter Verwendung der Quantile der Standardnormalverteilung ergibt sich damit:

Ist k so gew¨ ahlt, dass (k − np ₀ )/ p

np ₀ (1 − p ₀ ) = z _α , so ist das Signifikanzniveau gleich α.

Ist das gew¨ unschte Signifikanzniveau α des Tests vorgegeben, so erh¨ alt man den Wert k = k(n) in Abh¨ angigkeit vom Umfang n der Stichprobe durch

k = z α · p

np 0 (1 − p 0 ) + np 0 . (8)

Kleinere Werte f¨ ur k verkleinern zwar den Fehler 1. Art, vergr¨ oßern jedoch den

Annahmebereich und damit die Wahrscheinlichkeit f¨ ur einen Fehler 2. Art.

(33)

Verhalten der Testfehler

Wie verhalten sich die m¨ oglichen Testfehler des konstruierten Verfahrens? Was geschieht beispielsweise, wenn p nur geringf¨ ugig kleiner als p 0 ist?

In diesem Fall betrachten wir beim Fehler 2. Art die Wahrscheinlichkeit Pr p=p

0

−ε [T ≥ k] ≈ Pr p=p

0

[T ≥ k] ≈ 1 − α . Wenn sich also die

” wahren“ Verh¨ altnisse nur minimal von unserer Nullhypothese unterscheiden, so werden wir diese

” im Zweifelsfall“ annehmen.

c

Ernst W. Mayr

(34)

Bei echten Alternativtests werden f¨ ur hinreichend große Stichproben und einen geeignet eingestellten Ablehnungsbereich beide Testfehler klein.

Beispiel 128

Die Abbruchrate p der Transaktionen in einem Online-Datenbanksystem wurde bereits fr¨ uher einmal ermittelt. Allerdings sind die entsprechenden Daten verloren gegangen und die Entwickler erinnern sich nur noch, dass das Ergebnis entweder p = 1/3 oder p = 1/6 lautete. Unter dieser Annahme w¨ urde man den Test wie folgt ansetzen:

H 0 : p ≥ 1/3, H ₁ ⁰ : p ≤ 1/6.

(35)

Beispiel (Forts.)

F¨ ur den Fehler 2. Art erh¨ alt man nun:

Fehlerwahrsch. 2. Art = max

p≤1/6 Pr p [T > k]

≈ 1 − Φ k − (1/6) · n p (1/6) · (5/6)n

! .

Mit den obigen Werten k = 25 und n = 100 ergibt sich mit Φ

150 − 100

√ 5 · 10

= Φ( √

5) ≈ 0,9871

ein Fehler 2. Art der Gr¨ oße 0,0129, w¨ ahrend sich f¨ ur die triviale Alternative H ₁ : p < 1/3 ein Wert von etwa 0,95 ergibt.

c

Ernst W. Mayr

Als n¨ achstes betrachten wir eine weitere von X abgeleitete Sch¨ atzvariable: