Als n¨ achstes betrachten wir eine weitere von X abgeleitete Sch¨ atzvariable:
S :=
v u u t
1 n − 1
n
X
i=1
(X i − X) 2 .
Wir zeigen, dass S 2 ein erwartungstreuer Sch¨ atzer f¨ ur die Varianz von X ist. Sei µ := E [X] = E [X i ] = E [X].
(X
i− X )
2= (X
i− µ + µ − X )
2= (X
i− µ)
2+ (µ − X )
2+ 2(X
i− µ)(µ − X)
= (X
i− µ)
2+ (µ − X )
2− 2 n
n
X
j=1
(X
i− µ)(X
j− µ)
= n − 2
n (X
i− µ)
2+ (µ − X)
2− 2 n
X
j6=i
(X
i− µ)(X
j− µ).
DWT 2 Sch¨atzvariablen 325/476
c
Ernst W. Mayr
F¨ ur je zwei unabh¨ angige Zufallsvariablen X i , X j mit i 6= j gilt E [(X i − µ)(X j − µ)] = E [X i − µ] · E [X j − µ]
= ( E [X i ] − µ) · ( E [X j ] − µ) = 0 · 0 = 0.
Daraus folgt
E[(X i − X) 2 ] = n − 2
n · E[(X i − µ) 2 ] + E[(µ − X) 2 ]
= n − 2
n · Var[X i ] + Var[X].
Wegen Var[X i ] = Var[X] und Var[X] = n 1 Var[X] folgt nun E [(X i − X) 2 ] = n − 1
n · Var[X], und somit gilt f¨ ur S 2
E [S 2 ] = 1 n − 1
n
X
i=1
E [(X i − X) 2 ]
= 1
n − 1 · n · n − 1
n · Var[X] = Var[X].
S 2 ist also eine erwartungstreue Sch¨ atzvariable f¨ ur die Varianz von X.
DWT 2 Sch¨atzvariablen 327/476
c
Ernst W. Mayr
Die vorangegangene Rechnung erkl¨ art, warum man als Sch¨ atzer nicht 1
n
n
X
i=1
(X i − X) 2 6= ! S 2
verwendet, wie man vielleicht intuitiv erwarten w¨ urde.
Definition 121 Die Zufallsvariablen
X := 1 n
n
X
i=1
X i und S 2 := 1 n − 1
n
X
i=1
(X i − X) 2
heißen Stichprobenmittel bzw. Stichprobenvarianz der Stichprobe X 1 , . . . , X n . X und S 2 sind erwartungstreue Sch¨ atzer f¨ ur den Erwartungswert bzw. die Varianz.
DWT 2 Sch¨atzvariablen 329/476
c
Ernst W. Mayr
2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Sch¨ atzvariablen
Wir betrachten nun ein Verfahren zur Konstruktion von Sch¨ atzvariablen f¨ ur Parameter von Verteilungen. Sei
X ~ = (X 1 , . . . , X n ).
Bei X 1 , . . . , X n handelt es sich um unabh¨ angige Kopien der Zufallsvariablen X mit der Dichte f(x; θ). Hierbei sei θ der gesuchte Parameter der Verteilung. Wir setzen
f (x; θ) = Pr[X = x], wobei θ ein Parameter der Verteilung ist.
Wenn wir den Parameter explizit angeben wollen, so schreiben wir daf¨ ur auch
f(x; θ) = Pr θ [X = x]. Eine Stichprobe liefert f¨ ur jede Variable X i einen Wert x i .
Diese Werte fassen wir ebenfalls zu einem Vektor ~x = (x 1 , . . . , x n ) zusammen.
Der Ausdruck
L(~x; θ) :=
n
Y
i=1
f (x i ; θ) =
n
Y
i=1
Pr θ [X i = x i ]
unabh.
= Pr θ [X 1 = x 1 , . . . , X n = x n ]
entspricht der Wahrscheinlichkeit, dass wir die Stichprobe ~x erhalten, wenn wir den Parameter mit dem Wert θ belegen.
Wir betrachten nun eine feste Stichprobe ~x und fassen L(~x; θ) somit als Funktion von θ auf. In diesem Fall nennen wir L die Likelihood-Funktion der Stichprobe.
DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Sch¨atzvariablen 331/476
c
Ernst W. Mayr
Es erscheint sinnvoll, zu einer gegebenen Stichprobe ~x den Parameter θ so zu w¨ ahlen, dass L(x; θ) maximal wird.
Definition 122
Ein Sch¨ atzwert θ b f¨ ur den Parameter einer Verteilung f(x; θ) heißt
Maximum-Likelihood-Sch¨ atzwert (ML-Sch¨ atzwert) f¨ ur eine Stichprobe ~x, wenn gilt
L(~x; θ) ≤ L(~x; θ) b f¨ ur alle θ.
Beispiel 123
Wir konstruieren mit der ML-Methode einen Sch¨ atzer f¨ ur den Parameter p der Bernoulli-Verteilung. Es gilt Pr p [X i = 1] = p und Pr p [X i = 0] = 1 − p. Daraus schließen wir, dass Pr p [X i = x i ] = p xi(1 − p) 1−xi, und stellen die Likelihood-Funktion
, und stellen die Likelihood-Funktion
L(~x; p) =
n
Y
i=1
p xi· (1 − p) 1−xi
auf.
auf.
Wir suchen als Sch¨ atzer f¨ ur p den Wert, an dem die Funktion L maximal wird. Wir erhalten
ln L(~x; p) =
n
X
i=1
(x i · ln p + (1 − x i ) · ln(1 − p))
= n¯ x · ln p + (n − n¯ x) · ln(1 − p).
Hierbei bezeichnet x ¯ das arithmetische Mittel n 1 P n i=1 x i .
DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Sch¨atzvariablen 333/476
c
Ernst W. Mayr
Beispiel (Forts.)
Wir finden das Maximum durch Nullsetzen der Ableitung:
d ln L(~x; p) d p = n¯ x
p − n − n¯ x 1 − p = 0.
Diese Gleichung hat die L¨ osung p = ¯ x.
Beispiel 124
Die Zufallsvariable X sei N (µ, σ 2 )-verteilt, und wir suchen Sch¨ atzvariablen f¨ ur die Parameter µ und σ. Nach Definition der Likelihood-Funktion gilt
L(~x; µ, σ 2 ) = 1
√ 2πσ n
·
n
Y
i=1
exp
− (x i − µ) 2 2σ 2
. Durch Logarithmieren erhalten wir
ln L(~x; µ, σ 2 ) = −n(ln √
2π + ln σ) +
n
X
i=1
− (x i − µ) 2 2σ 2
.
DWT 335/476
c
Ernst W. Mayr
Beispiel 124
F¨ ur die Nullstellen der Ableitungen ergibt sich
∂ ln L
∂µ =
n
X
i=1
x i − µ σ 2
= 0, !
∂ ln L
∂σ = − n σ +
n
X
i=1
(x i − µ) 2 σ 3
= 0, !
also
µ = ¯ x und σ 2 = 1 n
n
X
i=1
(x i − µ) 2 . Wir haben also durch die ML-Methode
” fast“ das Stichprobenmittel und die
Stichprobenvarianz erhalten. Allerdings besitzt der Sch¨ atzer f¨ ur die Varianz hier den
Vorfaktor 1 n statt n−1 1 . Die ML-Sch¨ atzvariable f¨ ur die Varianz ist somit nicht
erwartungstreu.
3. Konfidenzintervalle
Bei der Verwendung von Sch¨ atzvariablen geht man davon aus, dass der erhaltene Sch¨ atzwert
” nahe“ beim gesuchten Parameter θ liegt. Die Sch¨ atzungen werden
” besser“, je gr¨ oßer die betrachtete Stichprobe ist. Diese Angaben sind aus
quantitativer Sicht nat¨ urlich unbefriedigend, da nicht erkennbar ist, wie gut man sich auf den Sch¨ atzwert verlassen kann.
Die L¨ osung dieses Problems besteht darin, statt einer Sch¨ atzvariablen U zwei Sch¨ atzer U 1 und U 2 zu betrachten. U 1 und U 2 werden so gew¨ ahlt, dass
Pr[U 1 ≤ θ ≤ U 2 ] ≥ 1 − α.
Die Wahrscheinlichkeit 1 − α heißt Konfidenzniveau und kann dem
” Sicherheitsbed¨ urfnis“ angepasst werden.
DWT 3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Sch¨atzvariablen 336/476
c
Ernst W. Mayr
Wenn wir f¨ ur eine konkrete Stichprobe die Sch¨ atzer U 1 und U 2 berechnen und davon ausgehen, dass θ ∈ [U 1 , U 2 ] ist, so ziehen wir h¨ ochstens mit Wahrscheinlichkeit α einen falschen Schluss. [U 1 , U 2 ] heißt Konfidenzintervall.
In vielen F¨ allen verwendet man nur eine Sch¨ atzvariable U und konstruiert mittels
U 1 := U − δ und U 2 := U + δ ein symmetrisches Konfidenzintervall [U − δ, U + δ].
Sei X eine N (µ, σ 2 )-verteilte Zufallsvariable, und seien X 1 , . . . , X n n zugeh¨ orige Stichprobenvariablen. Gem¨ aß der Additivit¨ at der Normalverteilung (siehe Satz 113) ist das Stichprobenmittel X ebenfalls normalverteilt mit X ∼ N (µ, σ n2). Wir suchen f¨ ur X ein symmetrisches Konfidenzintervall.
Nach Satz 100 ist
Z := √
n · X − µ σ standardnormalverteilt.
DWT 3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Sch¨atzvariablen 338/476
c
Ernst W. Mayr
F¨ ur Z betrachten wir das Konfidenzintervall [−c, c] f¨ ur ein geeignetes c > 0 und setzen Pr[−c ≤ Z ≤ c] = 1 ! − α.
Aufl¨ osen nach µ ergibt Pr
X − cσ
√ n ≤ µ ≤ X + cσ
√ n !
= 1 − α . Das gesuchte Konfidenzintervall lautet also
K = [X − cσ
√ n , X + cσ
√ n ] .
Den Parameter c w¨ ahlen wir wie folgt:
Pr[−c ≤ Z ≤ c] = Φ(c) − Φ(−c) = 1 ! − α.
Wegen der Symmetrie von Φ gilt Φ(−x) = 1 − Φ(x) und wir erhalten Φ(c) − Φ(−c) = 2 · Φ(c) − 1 = 1 ! − α ⇐⇒ Φ(c) = 1 − α
2 , also
c = Φ −1 1 − α
2
.
DWT 3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Sch¨atzvariablen 340/476
c
Ernst W. Mayr
Definition 125
X sei eine stetige Zufallsvariable mit Verteilung F X . Eine Zahl x γ mit F X (x γ ) = γ
heißt γ -Quantil von X bzw. der Verteilung F X . Definition 126
F¨ ur die Standardnormalverteilung bezeichnet z γ das γ-Quantil.
Damit k¨ onnen wir das gesuchte Konfidenzintervall angeben durch K =
X − z (1−α
2
) σ
√ n , X + z (1−α
2
) σ
√ n
.
DWT 3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Sch¨atzvariablen 342/476
c
Ernst W. Mayr
4. Testen von Hypothesen
4.1 Einf¨ uhrung
Bislang haben wir versucht, Parameter von Verteilungen zu sch¨ atzen. In der Praxis ist man jedoch oft an der eigentlichen Kenntnis dieser Parameter gar nicht interessiert, sondern man m¨ ochte gewisse, damit zusammenh¨ angende Behauptungen ¨ uberpr¨ ufen.
Im Folgenden stellen wir die Bestandteile eines statistischen Tests anhand eines abstrakten Beispiels vor. Wir betrachten dazu eine Zufallsvariable X mit
Pr[X = 1] = p und Pr[X = 0] = 1 − p. Durch einen Test soll ¨ uberpr¨ uft werden, ob
p < 1/3 oder p ≥ 1/3 gilt.
Definition eines Tests
Wir betrachten eine Stichprobe von n unabh¨ angigen Stichprobenvariablen X 1 , . . . , X n , die dieselbe Verteilung wie die Zufallsvariable X besitzen. Zu einem zugeh¨ origen Stichprobenvektor ~x m¨ ussen wir nun die Frage beantworten, ob wir f¨ ur diesen Versuchsausgang die Hypothese
” p ≥ 1/3“ annehmen oder ablehnen.
Sei
K := {~x ∈ R n ; ~x f¨ uhrt zur Ablehnung der Hypothese}.
K nennen wir den Ablehnungsbereich oder den kritischen Bereich des Tests.
DWT 4.1 Einf¨uhrung 344/476
c
Ernst W. Mayr
Gew¨ ohnlich wird K konstruiert, indem man die Zufallsvariablen X 1 , . . . , X n zu einer neuen Variablen T, der so genannten Testgr¨ oße, zusammenfasst. Dann unterteilt man den Wertebereich R von T in mehrere Bereiche, die entweder zur Ablehnung der Hypothese f¨ uhren sollen oder nicht. Dabei betrachtet man meist ein einzelnes
halboffenes oder abgeschlossenes Intervall und spricht dann von einem einseitigen bzw.
von einem zweiseitigen Test.
Die Menge K e ⊆ R enthalte die Werte von T , die zur Ablehnung der Hypothese f¨ uhren
sollen. Da wir Tests immer ¨ uber eine Testgr¨ oße definieren, werden wir der Einfachheit
halber auch K e als Ablehnungsbereich bezeichnen. K e ⊆ R entspricht direkt dem
Ablehnungbereich K = T −1 ( K) e ⊆ R n , wie wir ihn oben festgelegt haben.
Die zu ¨ uberpr¨ ufende Hypothese bezeichnen wir mit H 0 und sprechen deshalb auch von der Nullhypothese. Bei manchen Tests formuliert man noch eine zweite Hypothese H 1 , die so genannte Alternative. Im Beispiel k¨ onnen wir
H 0 : p ≥ 1/3 und H 1 : p < 1/3 setzen.
Manchmal verzichtet man darauf, H 1 anzugeben. Dann besteht die Alternative wie oben einfach darin, dass H 0 nicht gilt. In diesem Fall nennen wir H 1 triviale Alternative.
DWT 4.1 Einf¨uhrung 346/476
c
Ernst W. Mayr
Ein echter, also nicht-trivialer Alternativtest l¨ age beispielsweise vor, wenn wir ansetzen H 0 0 : p ≥ 1/3 und H 1 0 : p ≤ 1/6.
Beispiel 127
Wir untersuchen eine Festplatte, von der bekannt ist, dass sie zu einer von zwei Baureihen geh¨ ort. Die mittleren Zugriffszeiten dieser Baureihen betragen 9ms
bzw. 12ms. Wir m¨ ochten nun herausfinden, zu welchem Typ die betrachtete Festplatte
geh¨ ort, indem wir die Zugriffszeit bei n Zugriffen bestimmen. Hier w¨ urde man dann
ansetzen: H 0 : µ ≤ 9 und H 1 := µ ≥ 12, wobei µ die mittlere Zugriffszeit bezeichnet.
Fehler bei statistischen Tests
Bei jedem statistischen Test k¨ onnen mit einer gewissen Wahrscheinlichkeit falsche Schl¨ usse gezogen werden. Dieser Fall tritt beispielsweise ein, wenn H 0 gilt, aber das Ergebnis ~x der Stichprobe im Ablehnungsbereich K liegt.
Dann spricht man von einem Fehler 1. Art.
Analog erhalten wir einen Fehler 2. Art, wenn H 0 nicht gilt und ~x nicht im Ablehnungsbereich liegt.
Fehler 1. Art : H 0 gilt, wird aber abgelehnt.
Fehler 2. Art : H 0 gilt nicht, wird aber angenommen.
DWT 4.1 Einf¨uhrung 348/476
c
Ernst W. Mayr
F¨ ur die Beurteilung eines Tests ist es wesentlich, mit welcher Wahrscheinlichkeit diese beiden Fehler eintreten k¨ onnen. Ziel ist es nat¨ urlich, diese Wahrscheinlichkeiten m¨ oglichst klein zu halten. Allerdings sind die Minimierung des Fehlers 1. Art und des Fehlers 2. Art gegenl¨ aufige Ziele, so dass ein vern¨ unftiger Ausgleich zwischen beiden Fehlern gefunden werden muss. Wenn man beispielsweise K = ∅ setzt, so erh¨ alt man Wahrscheinlichkeit Null f¨ ur den Fehler 1. Art, da H 0 immer angenommen wird.
Allerdings tritt der Fehler 2. Art dann mit Wahrscheinlichkeit Eins ein, wenn H 0 nicht
gilt.
Die Wahrscheinlichkeit f¨ ur den Fehler 1. Art wird mit α bezeichnet, und man spricht deshalb gelegentlich vom α-Fehler. α heißt auch Signifikanzniveau des Tests.
In der Praxis ist es ¨ ublich, sich ein Signifikanzniveau α vorzugeben (¨ ubliche Werte hierf¨ ur sind 0,05, 0,01 oder 0,001) und dann den Test so auszulegen (also den Ablehnungsbereich K so zu bestimmen), dass die Wahrscheinlichkeit f¨ ur den Fehler 1. Art den Wert α besitzt.
DWT 4.1 Einf¨uhrung 350/476
c
Ernst W. Mayr
Konstruktion eines einfachen Tests
Wir konstruieren einen Test f¨ ur den Parameter p einer Bernoulli-verteilten Zufallsvariablen X. Wir setzen
H 0 : p ≥ p 0 , H 1 : p < p 0 . Als Testgr¨ oße verwenden wir
T := X 1 + . . . + X n .
F¨ ur gr¨ oßere Wahrscheinlichkeiten p erwarten wir auch gr¨ oßere Werte f¨ ur T. Deshalb ist
es sinnvoll, einen Ablehnungsbereich der Art K := [0, k] f¨ ur T zu w¨ ahlen, wobei k ∈ R
geeignet festzulegen ist. Wir konstruieren hier also einen einseitigen Test, w¨ ahrend f¨ ur
eine Nullhypothese H 0 : p = p 0 sowohl zu kleine als auch zu große Werte von T zur
Ablehnung von H 0 f¨ uhren sollten und somit ein zweiseitiger Test vorzuziehen w¨ are.
T ist binomialverteilt. Da wir von einem großen Stichprobenumfang n ausgehen, bietet es sich an, die Verteilung von T nach dem Grenzwertsatz von de Moivre (siehe
Korollar 116) durch die Normalverteilung zu approximieren.
Sei
T ˜ := T − np p np(1 − p) . T ˜ ist ann¨ ahernd standardnormalverteilt.
DWT 4.1 Einf¨uhrung 352/476
c
Ernst W. Mayr
Wir berechnen f¨ ur jeden Wert von k das zugeh¨ orige Signifikanzniveau α des Tests.
Fehlerwahrscheinlichkeit 1. Art = max
p∈H
0Pr p [T ∈ K]
= max
p∈H
0Pr p [T ≤ k]
Fehlerwahrscheinlichkeit 2. Art = sup
p∈H
1Pr p [T 6∈ K]
= sup
p∈H
1Pr p [T > k]
F¨ ur den Fehler 1. Art α erhalten wir α = max
p≥p
0Pr p [T ≤ k] = Pr p=p0[T ≤ k]
= Pr p=p0
"
T ˜ ≤ k − np p np(1 − p)
#
= Pr
"
T ˜ ≤ k − np 0
p np 0 (1 − p 0 )
#
≈ Φ k − np 0
p np 0 (1 − p 0 )
! .
DWT 4.1 Einf¨uhrung 354/476
c
Ernst W. Mayr
Unter Verwendung der Quantile der Standardnormalverteilung ergibt sich damit:
Ist k so gew¨ ahlt, dass (k − np 0 )/ p
np 0 (1 − p 0 ) = z α , so ist das Signifikanzniveau gleich α.
Ist das gew¨ unschte Signifikanzniveau α des Tests vorgegeben, so erh¨ alt man den Wert k = k(n) in Abh¨ angigkeit vom Umfang n der Stichprobe durch
k = z α · p
np 0 (1 − p 0 ) + np 0 . (8)
Kleinere Werte f¨ ur k verkleinern zwar den Fehler 1. Art, vergr¨ oßern jedoch den
Annahmebereich und damit die Wahrscheinlichkeit f¨ ur einen Fehler 2. Art.
Verhalten der Testfehler
Wie verhalten sich die m¨ oglichen Testfehler des konstruierten Verfahrens? Was geschieht beispielsweise, wenn p nur geringf¨ ugig kleiner als p 0 ist?
In diesem Fall betrachten wir beim Fehler 2. Art die Wahrscheinlichkeit Pr p=p0−ε [T ≥ k] ≈ Pr p=p
0[T ≥ k] ≈ 1 − α . Wenn sich also die
” wahren“ Verh¨ altnisse nur minimal von unserer Nullhypothese unterscheiden, so werden wir diese
” im Zweifelsfall“ annehmen.
DWT 4.1 Einf¨uhrung 356/476
c
Ernst W. Mayr
Bei echten Alternativtests werden f¨ ur hinreichend große Stichproben und einen geeignet eingestellten Ablehnungsbereich beide Testfehler klein.
Beispiel 128
Die Abbruchrate p der Transaktionen in einem Online-Datenbanksystem wurde bereits fr¨ uher einmal ermittelt. Allerdings sind die entsprechenden Daten verloren gegangen und die Entwickler erinnern sich nur noch, dass das Ergebnis entweder p = 1/3 oder p = 1/6 lautete. Unter dieser Annahme w¨ urde man den Test wie folgt ansetzen:
H 0 : p ≥ 1/3, H 1 0 : p ≤ 1/6.
Beispiel (Forts.)
F¨ ur den Fehler 2. Art erh¨ alt man nun:
Fehlerwahrsch. 2. Art = max
p≤1/6 Pr p [T > k]
≈ 1 − Φ k − (1/6) · n p (1/6) · (5/6)n
! .
Mit den obigen Werten k = 25 und n = 100 ergibt sich mit Φ
150 − 100
√ 5 · 10
= Φ( √
5) ≈ 0,9871
ein Fehler 2. Art der Gr¨ oße 0,0129, w¨ ahrend sich f¨ ur die triviale Alternative H 1 : p < 1/3 ein Wert von etwa 0,95 ergibt.
DWT 4.1 Einf¨uhrung 358/476
c
Ernst W. Mayr