Definition 1. X = (X1, . . . , Xn) heißt Stichprobe vom Umfang n wenn X1, . . . , Xn stochastisch unabh¨angig und alle identisch so wie eine Zufallsvariable Y verteilt sind. x = (x1, . . . , xn) heißt Realisierung.
Verteilungsfunktion von Y bis auf deren Parameter θ bekannt. Unbekannten Parameter werden mittels der Stichprobe gesch¨atzt.
Definition 2. Die Zufallsvariable T = T(X1, . . . , Xn) heißt Sch¨atzfunktion (Sch¨atzer) und die Realisation t = t(x1, . . . , xn) Sch¨atzwert.
G¨utekriterien f¨ur eine Folge von Sch¨atzern (Tn)n∈N f¨ur θ:
• (asymptotische) Erwartungstreue:
( lim
n→∞)E(Tn) = θ, b(T, θ) := E(T) − θ den Bias.
1
• Konsistenz: Tn heißt konsistent, falls
n→∞lim P(|Tn − θ| > ²) = 0 gilt.
• Effizienz: T ist wirksamster (effektiver) Sch¨atzer f¨ur θ, wenn f¨ur alle anderen Sch¨atzer T0 gilt:
E((T − θ)2) ≤ E((T0 − θ)2),
d.h. T hat den kleinsten mittleren quadratischen Fehler (MSE). Unter allen erwartungstreuen Sch¨atzern hat der wirksamste Sch¨atzer die kleinste Varianz.
2
Sch¨atzmethoden
• Die Momentenmethode liefert erwartungstreue und konsistente Sch¨atzer.
• Die Maximum–Likelihood (ML) Methode liefert keinesfalls immer erwar- tungstreue Sch¨atzer. Existiert jedoch ein effektiver Sch¨atzer, so wird dieser durch die ML Methode bestimmt.
3
Momente und Quantile 1. Moment um Null:
µ = E(X) :=
Z
xdF(x)
Empirische Mittel X = n1 P
Xi ist erwartungstreu f¨ur E(Xi) = µ.
X ist konsistent und effektivster linearer Sch¨atzer.
Falls var(Xi) = σ2, dann var(X) = σ2/n.
Xi iid∼ N(µ, σ2) impliziert X ∼ N ¡
µ, σ2/n¢ .
4
2. zentrales Moment:
σ2 = var(X) := E((X − µ)2).
S2 = n−11 P
(Xi − X)2 ist erwartungstreu und konsistent f¨ur σ2. Xi iid∼ N(µ, σ2), so sind X und S2 unabh¨angig und es gilt
n − 1
σ2 S2 ∼ χ2n−1, sowie X − µ S/√
n ∼ tn−1.
S12 = n1 P
(Xi − X)2 ist wegen E(S12) = n−1n σ2 nicht erwartungstreu.
Er ist aber effektiver Sch¨atzer f¨ur σ2. 5
k-tes zentrales Moment:
µk = E((X − µ)k).
I.a. standardisierte Formen verwendet
• Schiefe α3 = µ3/σ3 mit Sch¨atzer ˆ
α3 =
1 n
P(Xi − X)3
S13 , var(ˆα3) ≈ 6/n
• Kurtosis (Exzeß, Schw¨anzigkeit) α4 = µ4/σ4 − 3 mit Sch¨atzer ˆ
α4 =
1 n
P(Xi − X)4
S14 − 3 , var(ˆα4) ≈ 24/n 6
Momente einiger ausgew¨ahlter Verteilungen.
Verteilung E(X) var(X) α3 α4
Normal(0,1) 0 1 0 0
Uniform(−1,1) 0 1/3 0 -1.2
DoppelExp(1) 0 2 0 3
Exponential(1) 1 1 2 6
χ210 10 20 0.894 1.2
7
Geordnete Stichprobe:
Definition 3. Sei g(x1, . . . , xn) = (x(1), . . . , x(n)) mit x(1) ≤ · · · ≤ x(n).
x(.) = (x(1), . . . , x(n)) ist die geordnete Stichprobe zu x = (x1, . . . , xn).
X(.) = (X(1), . . . , X(n)) ist die geordnete Statistik (Ordnungsstatistik) und X(i) die i-te geordnete Statistik.
Quantile:
Definition 4. xp f¨ur (0 < p < 1) mit P(X < xp) ≤ p ≤ P(X ≤ xp) heißt theoretisches p-tes Quantil von X. Das empirische p-tes Quantil
Q(p) =
½ 1
2(X(np) + X(np+1)) f¨ur ganzzahliges np
X([np]+1) sonst
ist ein asymptotisch erwartungstreuer und konsistenter Sch¨atzer f¨ur xp. 8
xp
0p1 F(x|θ)
xp xp
0p1
P(X<xp)≤p
P(X≤xp)≥p F(x|θ)
xp
0p1
P(X≤xp)≥p F(x|θ)
P(X<xp)≤p
9
Empirische Quantile sch¨atzen die (unbekannten) theoretischen Quantile. Aussagen
¨uber deren G¨ute liefert der folgende Satz.
Satz 1. Sei X1, . . . , Xn eine Stichprobe f¨ur eine stetig verteilte Population mit Dichte f(x|θ) und Verteilungsfunktion F(x|θ). F¨ur 0 < p < 1 sei xp das p-te Quantil zu F(x|θ). Ist k = [np] + 1 und f(x) in xp stetig und positiv, so gilt
X(k) as∼ N µ
xp, 1 f2(xp|θ)
p(1 − p) n
¶ .
X(k) ist also asymptotisch erwartungstreuer und konsistenter Sch¨atzer f¨ur xp.
10
Beispiel 1. Empirische Median X˜ = Q(0.5) hat also asymptotische Varianz var( ˜X) = 1/(4nf2(x0.5|θ)).
Falls Xi iid∼ N(µ, σ2), folgt f(x0.5|µ, σ2) = 1/√
2πσ2 und damit var( ˜X) ≈ 2π
4 σ2
n = 1.5708σ2 n .
Da var(X) = σ2/n < var( ˜X) = 1.5708σ2/n, ist X effizienter als X˜. Die asymptotische relative Effizienz von X gegen¨uber X˜ ist somit
are(X,X˜) = var( ˜X)/var(X) = π/2 = 1.5708.
Um var( ˜X) oder var(X) zu sch¨atzen ben¨otigt man einen Sch¨atzer f¨ur σ2.
• Momentensch¨atzer hat Nachteil, dass X˜ auf ordinalen Aspekt beruht, S2 aber auf einen intervallskalierten.
11
• Daher verwendet man einen auf Quantile beruhenden Sch¨atzer f¨ur σ2. ¨Ublich ist die Verwendung des Inter-Quartile Range IQR = Q(0.75) − Q(0.25).
Unter Xi iid∼ N(µ, σ2) gilt
iqr = x0.75 − x0.25 = (µ + z0.75σ) − (µ + z0.25σ) = 2z0.75σ
mit zp dem p-ten Quantil der N(0,1)-Verteilung. Wegen z0.75 = 0.6745 folgt hierf¨ur σ = iqr/(2 · 0.6745), was den robusten Varianzsch¨atzer
ˆ
σIQR2 = IQR2 1.3492 motiviert. Dieser liefert schließlich
c
var( ˜X) = 1.5708σˆIQR2
n = 0.8639IQR2 n . 12
Gleichverteilung: Xi iid∼ U(−a, a), 0 < a. Da E(X) = 0, var(X) = a2/3 folgt var( ˜X) = 4a2/(4n) = a2/n , var(X) = a2/(3n),
also var(X) < var( ˜X).
Doppel-Exponential- (Laplace-)verteilung: Xi iid∼ DExp(µ, σ2) mit Dichte f(x|µ, σ2) = 1/(2σ) exp(−|x − µ|/σ), x, µ ∈ R, σ > 0.
Da E(X) = µ, var(X) = 2σ2 folgt
var( ˜X) = 4σ2/(4n) = σ2/n , var(X) = 2σ2/n , also var(X) > var( ˜X) mit asymptotisch relativer Effizienz 1/2.
13
Variationskoeffizient
Momenten-Verh¨altnis von Standardabweichung zu Erwartung, also θ = σ/µ .
Ist somit ein relatives (dimensionsloses) Streuungsmaß mit Einheit µ.
Empirischer Variationskoeffizient
θˆ = S/X .
F¨ur eine normalverteilte Stichprobe gilt var(ˆθ) = θ2/2n.
F¨ur eine exponentialverteilte Stichprobe mit E(X) = λ und var(X) = λ2 erh¨alt man θ = λ/λ = 1, d.h. der Variationskoeffizient ist konstant.
Liegt eine Stichprobe aus einer Poissonverteilung vor mit E(X) = var(X) = λ, so ist θ = √
λ/λ = 1/√ λ.
14
Konfidenzintervalle
Annahme: X1, . . . , Xn iid∼ Fθ.
Gesucht: U = U(X1, . . . , Xn), O = O(X1, . . . , Xn), sodass f¨ur das wahre θ gilt Pθ(U ≤ θ ≤ O) = 1 − α, α ∈ (0,1).
Das Intervall [U, O] ist ein Konfidenzintervall (KIV) f¨ur θ zum Niveau 1 − α.
Intuitive Bedeutung: KIV ist ein Intervall, das mit Wahrscheinlichkeit 1 − α (groß) den unbekannten Parameter θ ¨uberdeckt.
Aber: Sei (x1, . . . , xn) eine Realisation, dann enth¨alt [u, o] den wahren Parameter θ oder eben nicht.
Zu sagen, dass θ ∈ [u, o] mit W! 1 − α ist somit unsinnig!
15
Und trotzdem: Sei [Ur, Or], r = 1, . . . , R, eine Folge iid KIVs f¨ur θ zum Niveau 1 − α, dann resultiert mit dem Starken Gesetz der großen Zahlen (SLLN)
1 R
XR r=1
I[Ur,Or](θ) f.s.→ 1 − α.
Hierbei gilt f¨ur die Indikatoren I[Ur,Or](θ) iid∼ Bernoulli(1 − α), also E
³
I[Ur,Or](θ)
´
= 1 − α .
Das heißt ?
16
Konfidenzintervalle bei Normalverteilung: Xi iid∼ N(µ, σ2) 1. F¨ur µ (σ bekannt):
X ∼ N µ
µ, σ2 n
¶
⇒ Z := X − µ σ/√
n ∼ N(0,1)
P(zα/2 ≤ Z ≤ z1−α/2) = P µ
X − σ
√n z1−α/2 ≤ µ ≤ X + σ
√n z1−α/2
¶
= 1 − α .
17
2. F¨ur µ (σ unbekannt):
T := X − µ S/√
n ∼ tn−1
P(tn−1;α/2 ≤ T ≤ tn−1;1−α/2) = P
µ
X − S
√n tn−1;1−α/2 ≤ µ ≤ X + S
√n tn−1;1−α/2
¶
= 1 − α .
18
3. F¨ur σ2 (µ unbekannt):
Y := (n − 1)
σ2 S2 ∼ χ2n−1
P(χ2n−1;α/2 ≤ Y ≤ χ2n−1;1−α/2) = P
à (n − 1)S2
χ2n−1;1−α/2 ≤ σ2 ≤ (n − 1)S2 χ2n−1;α/2
!
= 1 − α.
19
F¨ur eine beliebige Verteilung F mit E(Xi) = µ und var(Xi) = σ2 folgt mit ZGWS X − µ
σ/√ n
as∼ N(0,1).
KIVs wie zuvor, aber mit asymptotischer ¨Uberdeckungwahrscheinlichkeit 1 − α.
20
Nichtparametrische KIVs
X1, . . . , Xn iid∼ F, F streng monoton und stetig, somit xp eindeutig.
Ansatz:
P(X(k) < xp < X(`)) = 1 − α
mit k < `. (X(k), X(`)) ein Konfidenzintervall f¨ur xp zum Niveau 1 − α. Sei dazu
Yi(x) =
½ 0 falls Xi > x 1 falls Xi < x , so ist Yi(x) iid∼ Binomial(1, F(x)) und T(x) = P
i Yi(x) ∼ Binomial(n, F(x)).
21
Damit folgt
P(X(k) < xp < X(`)) = P(X(k) < xp, X(`) > xp)
= P(#(Xi < xp) ≥ k, #(Xi < xp) ≤ ` − 1)
= P(k ≤ T(xp) ≤ ` − 1) = 1 − α .
• Exakte Berechnung mittels Binomial-Verteilung, da T(xp) ∼ Binomial(n, p)
• Approximation durch DeMoivre-Laplace:
P(X(k) < xp < X(`)) = P(k ≤ T(xp) ≤ ` − 1)
≈ Φ
Ã` − 1 − np + 1/2 pnp(1 − p)
!
| {z }
1−α/2
−Φ
Ãk − np − 1/2 pnp(1 − p)
!
| {z }
α/2
≈ 1 − α .
22
• Bei n groß wird Verteilung des Medians durch die Normal approximiert. Daf¨ur ist
c
var( ˜X) = 0.8639IQR2 n .
Als alternatives approximatives Konfidenzintervall f¨ur den theoretischen Median resultiert
P µ
X˜ − z1−α/2 q
var( ˜c X) ≤ x0.5 ≤ X˜ + z1−α/2 q
var( ˜c X)
¶
≈ 1 − α .
23
0 20 40 60 80 100
−0.4−0.20.00.20.40.6
R = 100 , N(0,1): alpha.mc = 0.08
repetition
CIV(median)
24
Hypothesentests
Zweck: Aussagen oder Hypothesen ¨uber Verteilung einer ZV’en Y anhand der Stichprobe X1, . . . , Xn zu untermauern.
Ein Hypothesentest beinhaltet:
• Testproblem: Nullhypothese H0 und Alternativhypothese H1.
• Teststatistik: T = T(X1, . . . , Xn).
• Entscheidungsregel: Jeder Realisation von T wird Entscheidung f¨ur oder gegen die vorliegende Hypothese zugeordnet:
(a) Entscheidung f¨ur H0, falls T nicht in C realisiert.
(b) Entscheidung f¨ur H1, falls T in C realisiert.
C heißt kritischer Bereich.
25
Parametrische Statistik: Hypothesen ¨uber Werte eines Parameters θ.
Bezeichne Ω0 die unter H0 zul¨assigen Parameterwerte und Ω1 die unter H1 zul¨assigen. Je nach Gestalt dieser Mengen unterscheiden wir
(a) einfache
(b) zusammengesetzte Testprobleme.
Bei univariaten Testproblemen gibt es im wesentlichen (a) einseitige und
(b) zweiseitige Fragestellungen.
26
Die Entscheidung f¨ur H0 oder H1 kann richtig oder falsch sein:
Entscheidung
H0 annehmen ablehnen
richtig 1 − α α
falsch 1 − β β
Ziel: α und 1 − β m¨oglichst klein halten. (Widerspr¨uchliche Forderung!!)
Ublich:¨ α vorgegeben, Annahmebereich bestimmen und Fehler 1 − β berechnen.
1 − β kann groß werden. Da der wahre Wert des Parameters unbekannt, kann man ¨uber Fehler 2. Art keine genaue Auskunft geben. Nur Fehler 1. Art ist unter Kontrolle und damit nur die damit verbundene Entscheidung: “H0 verwerfen”.
Richtige Entscheidungen:
(a) P(T /∈ C|H0 richtig) = 1 − α (durch Niveau bestimmt!!) (b) P(T ∈ C|H1 richtig) = β (Macht des Tests).
27
f(x|H0) f(x|H1)
µ0 tc µ1
α 1− β
28
Parametrische Tests bei Normalverteilung
1. Test auf µ bei σ bekannt (Gaußtest):
H0 H1 Entscheidung kritische Werte gegen H0, falls
µ = µ0 µ 6= µ0 X < c3 oder X > c4 c3 = µ0 − z1−α/2 σ/√ n c4 = µ0 + z1−α/2 σ/√
n µ ≤ µ0 µ > µ0 X > c1 c1 = µ0 + z1−α σ/√
n µ ≥ µ0 µ < µ0 X < c2 c2 = µ0 − z1−α σ/√
n
29
2. Test auf µ bei σ unbekannt (t–Test):
H0 H1 Entscheidung kritische Werte gegen H0, falls
µ = µ0 µ 6= µ0 X < c3 oder X > c4 c3 = µ0 − tn−1;1−α/2 S/√ n c4 = µ0 + tn−1;1−α/2 S/√
n µ ≤ µ0 µ > µ0 X > c1 c1 = µ0 + tn−1;1−α S/√
n µ ≥ µ0 µ < µ0 X < c2 c2 = µ0 − tn−1;1−α S/√
n mit S2 = (n − 1)−1 Pn
i=1
(Xi − X)2.
30
3. Test auf σ2 bei µ bekannt (χ2-Test):
H0 H1 Entscheidung kritische Werte gegen H0, falls
σ2 = σ02 σ2 6= σ02 T < c3 oder T > c4 c3 = σ02χ2n;α/2 c4 = σ02χ2n;1−α/2 σ2 ≤ σ02 σ2 > σ02 T > c1 c1 = σ02χ2n;1−α σ2 ≥ σ02 σ2 < σ02 T < c2 c2 = σ02χ2n;α mit T = Pn
i=1
(Xi − µ)2.
31
4. Test auf σ2 bei µ unbekannt (χ2-Test):
H0 H1 Entscheidung kritische Werte gegen H0, falls
σ2 = σ02 σ2 6= σ02 T < c3 oder T > c4 c3 = σ02χ2n−1;α/2 c4 = σ02χ2n−1;1−α/2 σ2 ≤ σ02 σ2 > σ02 T > c1 c1 = σ02χ2n−1;1−α σ2 ≥ σ02 σ2 < σ02 T < c2 c2 = σ02χ2n−1;α mit T = Pn
i=1
(Xi − X)2.
32
p-Wert
F¨ur Tests liefern Computerprogramme keine logische Entscheidung sondern den p-Wert. Dieser ist die anhand der Stichprobe beobachtete Type I Error Rate.
Satz 2. [Probability Integral Transformation] Habe X stetige Verteilungs- funktion FX(x) und sei Y = FX(X). Dann ist Y gleichverteilt auf (0,1), d.h.
P(Y ≤ y) = y , 0 < y < 1. Beweis:
P(Y ≤ y) = P(FX(X) ≤ y) = P(FX−1(FX(X)) ≤ FX−1(y))
= P(X ≤ FX−1(y)) = FX(FX−1(y)) = y . Bemerkung: Ist X diskret, so gilt: P(Y ≤ y) ≤ y, f¨ur 0 ≤ y ≤ 1.
33
Definition 5. FX ist stochastisch gr¨oßer als FY , falls FX(t) ≤ FY(t) f¨ur alle t gilt. F¨ur X ∼ FX und Y ∼ FY folgt P(X ≤ t) = FX(t) ≤ FY(t) = P(Y ≤ t) und f¨ur alle t gilt
P(X > t) ≥ P(Y > t) .
Nach dem Test wird Ergebnis mitgeteilt. Eine M¨oglichkeit ist es α und damit die Entscheidung bzgl. H0 zu berichten. Alternativ kann p-Wert ¨ubermittelt werden.
Definition 6. Der p-Wert p(X) ist eine Teststatistik mit 0 ≤ p(x) ≤ 1. Kleine Werte von p(X) weisen auf die Richtigkeit von H1 hin. Ein p-Wert ist g¨ultig, falls f¨ur jedes θ ∈ Θ0 und jedes 0 ≤ α ≤ 1 gilt
Pθ(p(X) ≤ α) ≤ α .
Ist p(X) g¨ultig, kann damit ein Level α Test konstruiert werden. Der Test, der H0 genau dann verwirft wenn p(X) ≤ α ist ein Level α Test.
Wie kann nun ein g¨ultiger p-Wert definiert werden?
34
Satz 3. Sei W(X) eine Teststatistik. Große Werte von W sprechen gegen H0. Definiere f¨ur einen beliebigen Stichprobenpunkt x
p(x) = sup
θ∈Θ0
Pθ(W(X) ≥ W(x)).
Damit ist p(X) ein g¨ultiger p-Wert.
Beweis: Fixiere ein θ ∈ Θ0. Sei daf¨ur Fθ(w) die cdf von −W(X). Definiere daf¨ur pθ(x) = Pθ(W(X) ≥ W(x)) = Pθ(−W(X) ≤ −W(x)) = Fθ(−W(x)).
F¨ur dieses θ entspricht die ZV’e pθ(X) dem Fθ(−W(X)). Mit Satz 2 folgt, dass die Verteilung von pθ(X) stochastisch gr¨oßer oder gleich einer Uniform(0, 1) ist.
D.h. f¨ur jedes 0 ≤ α ≤ 1 gilt Pθ(pθ(X) ≤ α) ≤ α.
35
Nun ist der p-Wert definiert ¨uber alle θ ∈ Θ0, und es gilt daf¨ur f¨ur jedes x p(x) = sup
θ0∈Θ0
pθ0(x) ≥ pθ(x),
da der gr¨oßte p-Wert f¨ur alle Elemente in Θ0 zumindest so groß ist als f¨ur unseren Wert θ. Somit gilt auch f¨ur jedes θ ∈ Θ0 und jedes 0 ≤ α ≤ 1
Pθ(p(X) ≤ α) ≤ Pθ(pθ(X) ≤ α) ≤ α und p(X) ist daher ein g¨ultiger p-Wert.
36
Beispiel: Sei X1, . . . , Xn Zufallsstichprobe aus N(µ, σ2) und teste H0: µ = µ0 gegen H1: µ 6= µ0.
LRT verwirft H0 f¨ur große Werte von W(X) = |X − µ0|/(S/√ n).
F¨ur µ = µ0 folgt (X − µ0)/(S/√
n) einer tn−1-Verteilung, unabh¨angig von σ.
Deshalb gilt hierf¨ur
p(x) = Pθ0(W(X) ≥ W(x)) = 2P
³
Tn−1 ≥ (x − µ0)/(s/√ n)
´ .
37
Tests auf G¨ ute der Anpassung
Zweck: Pr¨ufe ob beobachtetes Merkmal aus bestimmter Verteilung stammt.
Definition 7. Sei X1, . . . , Xn Zufallsstichprobe aus der Verteilungsfunktion F. Fn(x) = 1
n(Anzahl der Xi ≤ x) , −∞ < x < ∞
nennt man die empirische Verteilungsfunktion der Xi, d.h. jedem Xi wird die Wahrscheinlichkeit 1/n zugeordnet.
38
Eigenschaften von Fn Als Realisation:
• monoton steigende Treppenfunktion mit Unstetigkeitsstellen in x(1), . . . , x(n).
• ungebundene Beobachtung: Sprung der H¨ohe 1/n;
Bindung von k Beobachtungen: H¨ohe des Treppensprungs k/n.
• F¨ur jede Realisation x1, . . . , xn ist Fn(x) eine Verteilungsfunktion.
39
Als Zufallsvariable:
• F¨ur jedes x ist Fn(x) eine Zufallsvariable.
• Fn(x) ist diskret mit den Realisationen i/n, i = 0, . . . , n.
Genauer gilt: F¨ur alle x ∈ R gilt, dass nFn(x) ∼ Binomial(n, F(x)).
• Es gilt der sogenannte Zentralsatz der Statistik (Satz von Glivenko-Cantelli) Satz 4. Sei X1, . . . , Xn iid∼ F dann gilt
sup
x∈R
|Fn(x) − F(x)| f.s.→ 0, (n → ∞),
also die fast sichere gleichm¨aßige Konvergenz.
40
Satz 5. Seien X1, . . . , Xn iid∼ F. Dann gilt f¨ur jedes feste x ∈ R P
µ
Fn(x) = i n
¶
= µn
i
¶
Fi(x)(1 − F(x))n−i , i = 0, . . . , n .
Es gilt also nFn(x) ∼ Binomial(n, F(x)), und daher E(Fn(x)) = F(x) sowie var(Fn(x)) = F(x)(1 − F(x))/n.
41
Der Kolmogorov-Smirnov Test (1933)
X1, . . . , Xn iid∼ F, stetig jedoch unbekannt.
Testproblem: F = F0, wobei F0 vollst¨andig spezifiziert ist. Alternative: F 6= F0. Teststatistik: Zentralsatz der Statistik (Glivenko-Cantelli) legt als KS-Statistik (f¨ur die zweiseitige Fragestellung) Kn = supx∈R |Fn(x) − F0(x)| nahe.
Entscheidungsregel: Unter H0 sollte Kn klein sein. Daher wird bei großen Realisationen H0 abgelehnt.
Bei Verletzung der Voraussetzungen, z.B. F0 diskret, oder nur bis auf die Parameter vollst¨andig spezifiziert, ist der KS-Test konservativ.
42
Hypothesen
• Test A: H0 : F(x) = F0(x) ∀x ∈ R, H1 : ∃x ∈ R : F(x) 6= F0(x)
• Test B: H0 : F(x) ≤ F0(x) ∀x ∈ R, H1 : ∃x ∈ R : F(x) > F0(x)
• Test C: H0 : F(x) ≥ F0(x) ∀x ∈ R, H1 : ∃x ∈ R : F(x) < F0(x) KS-Teststatistiken
• Test A: Kn = supx∈R|F0(x) − Fn(x)|
• Test B: Kn− = supx∈R(Fn(x) − F0(x))
• Test C: Kn+ = supx∈R(F0(x) − Fn(x))
43
Entscheidungsregel: H0 wird abgelehnt, wenn
• Test A: kn ≥ kn;1−α; P(Kn ≥ kn;1−α) = α
• Test B: kn− ≥ kn;1−α− ; P(Kn− ≥ kn;1−α− ) = α
• Test C: kn+ ≥ kn;1−α+ ; P(Kn+ ≥ kn;1−α+ ) = α
44
Begriff: Verteilungsfreiheit
Lemma 1. Unter der Annahme der Stetigkeit von F0 sind Kn, Kn+ und Kn− unter H0 verteilungsfrei, d.h. unabh¨angig vom konkreten F0.
Beweis: Betrachte streng monotones F0, dann gilt
∃ F0−1 mit F0
³
F0−1(y)
´
= y , y ∈ (0,1) (1)
P
³
F0(X) ≤ u
´
= u , d.h. F0(X) ∼ U(0,1). (2) Damit folgt unter H0
Kn = sup
x∈R
|F0(x) − Fn(x)| (1)= sup
y∈(0,1)
¯¯
¯F0
³
F0−1(y)
´
− Fn
³
F0−1(y)
´¯¯
¯
= sup
y∈(0,1)
¯¯
¯¯
¯y − 1 n
Xn i=1
I(−∞,F−1
0 (y)](Xi)
¯¯
¯¯
¯ = sup
y∈(0,1)
¯¯
¯¯
¯y − 1 n
Xn i=1
I(0,y](F0(Xi))
¯¯
¯¯
¯ 45
Satz 6. Ist F0 stetig, so gilt f¨ur alle z > 0 (1) lim
n→∞P µ
Kn ≤ z
√n
¶
= L(z) = 1 − 2
X∞ k=1
(−1)k−1e−2k2z2 ,
(2) lim
n→∞P µ
Kn+ ≤ z
√n
¶
= L+(z) = 1 − e−2z2 .
Aus Punkt (2) folgt
n→∞lim P µ
Kn+ ≤ z
√n
¶
= lim
n→∞ P µ
4nKn+2 ≤ 4nz2 n
¶
= 1 − e−2z2 . Mit Vn = 4nKn+2 und v = 4z2 folgt weiters
n→∞lim P (Vn ≤ v) = 1 − e−v/2 = Fχ2
2(v). 46
Daher ist Vn = 4nKn+2 asymptotisch χ22-verteilt. Also resultiert asymptotisch P ¡
Kn+ ≤ kn;α+ ¢
= α ≈ P ¡
Vn ≤ 4nkn;α+2 ¢
= P ¡
Vn ≤ χ22;α¢ d.h.
kn;α+ ≈ s
χ22;α 4n . F¨ur 1 − α = 0.95 gilt χ22;0.95 = 5.99, also kn;0.95+ ≈
q
χ22;0.95/4n = 1.22/√ n.
Quantile kn;α sind f¨ur n ≤ 40 exakt tabelliert. F¨ur n > 40 kann auf Quantile der asymptotischen Verteilung zur¨uckgegriffen werden.
Beispiel: Bezinverbrauch ∼ N(12,1). Stichprobe vom Umfang n = 10.
Testproblem: H0 : F(x) = Φ(x|12,1) gegen H1 : F(x) 6= Φ(x|12,1).
Entscheidung zum Niveau α = 0.05.
47
Daten:
i x(i) Φ(x(i)) Fn+ Fn− d+n d−n 1 11.5 0.309 0.1 0.0 0.209 0.309 2 11.8 0.421 0.2 0.1 0.221 0.321 3 12.0 0.500 0.3 0.2 0.200 0.300 4 12.4 0.655 0.4 0.3 0.255 0.355 5 12.5 0.691 0.5 0.4 0.191 0.291 6 12.6 0.726 0.6 0.5 0.126 0.226 7 12.8 0.788 0.7 0.6 0.088 0.188 8 12.9 0.816 0.8 0.7 0.016 0.116 9 13.0 0.841 0.9 0.8 0.059 0.041 10 13.2 0.885 1.0 0.9 0.115 0.015
48
10 11 12 13 14 15
0.00.20.40.60.81.0
ecdf(milage)
x
Fn(x)
49
Folgerung: In x(4) = 12.4 realisiert Kn in k10 = 0.355. Wegen k10;0.95 = 0.409 kann H0 nicht abgelehnt werden.
> milage <- c(11.5,11.8,12.0,12.4,12.5,12.6,12.8,12.9,13.0,13.2)
> ks.test(milage, "pnorm", 12, 1)
One-sample Kolmogorov-Smirnov test data: milage
D = 0.3554, p-value = 0.1598
alternative hypothesis: two.sided
50
Der χ
2-Test, Pearson 1900
Anpassungstest der auf H¨aufigkeiten basiert. Daten daher beliebig skaliert.
Prinzip: Beobachtungen x1, . . . , xn in k disjunkte Klassen einteilen. Teststatistik erfasst Abweichungen der beobachteten H¨aufigkeiten nj von den theoretischen H¨aufigkeiten npj unter H0.
Klasse 1 2 . . . k
Anzahl d. Beobachtungen n1 n2 . . . nk
Testproblem A: Falls F0 vollst¨andig spezifiziert
Teste H0 : F(x) = F0(x) gegen H1 : F(x) 6= F0(x), 51
Teststatistik:
Tχ2 =
Xk j=1
(Nj − npj)2 npj
as∼ χ2k−1.
Entscheidungsregel: H0 kann abgelehnt werden, falls tχ2 ≥ χ2k−1;1−α.
Beispiel: W¨urfel 120 mal werfen. Teste Hypothese W¨urfel ist fair (k = 6 Klassen)
H0 : pj = 1/6 , j = 1, . . . ,6 ; H1 : pj 6= 1/6 .
52
Daten
Klasse 1 2 3 4 5 6 Summe
nj 20 30 20 25 15 10 120
npj 20 20 20 20 20 20 120
(nj − npj)2
npj 0 5 0 5/4 5/4 5 12.5
Folgerung: F¨ur α = 0.01 ist χ25,0.99 = 15.08 > tχ2 der W¨urfel als fair zu werten.
Bei α = 0.05 wegen χ25,0.95 = 11.07 < tχ2 jedoch als unfair.
> dice <- c(20, 30, 20, 25, 15, 10)
> chisq.test(dice, p = rep(1/6, 6))
Chi-squared test for given probabilities data: dice
X-squared = 12.5, df = 5, p-value = 0.02854 53
Testproblem B: Unbekannte Parameter θ1, . . . , θr in F0, modifizierter χ2-Test:
H0 : F(x) = F0(x|θ1, . . . , θr) gegen H1 : F(x) 6= F0(x|θ1, . . . , θr).
Teststatistik:
Tχm2 =
Xk j=1
³
Nj − npj(ˆθ1, . . . ,θˆr)
´2 npj(ˆθ1, . . . ,θˆr)
as∼ χ2k−r−1 ,
falls θ1, . . . , θr nach der ML-Methode bzgl. gruppierter Daten gesch¨atzt wurden, d.h.
θmax1,...,θr
Yk j=1
pj(θ1, . . . , θr)nj ,
oder nach der Minimum-χ2 Methode, bei der θˆ1, . . . ,θˆr so bestimmt werden, dass Tχm2 minimal.
54
Frage nach der Klasseneinteilung:
F¨ur welches n und f¨ur welche pj ist die Approximation der Verteilung von Tχ2 durch die χ2-Verteilung gerechtfertigt?
Faustregel: npj ≥ 5.
> breaks <- c(-Inf, seq(-2, 2), +Inf); breaks
[1] -Inf -2 -1 0 1 2 Inf
> p0 <- 2:length(breaks) # init
> mean <- 0; sd <- 1
> for (k in 2:length(breaks))
p0[k-1] <- pnorm(breaks[k], mean, sd) - pnorm(breaks[k-1], mean, sd)
> p0
[1] 0.02275 0.13591 0.34134 0.34134 0.13591 0.02275
> 5/p0[1]
[1] 219.7789
> x <- rnorm(250, mean=0.3, sd=1)
55
> n <- table(cut(x, b=breaks)); n
(-Inf,-2] (-2,-1] (-1,0] (0,1] (1,2] (2,Inf]
5 20 82 89 48 6
> (n-p0*250)^2/(p0*250)
(-Inf,-2] (-2,-1] (-1,0] (0,1] (1,2] (2,Inf]
0.08311189 5.74919955 0.13042697 0.15730172 5.78829424 0.01716661
> chisq.test(n, p=p0)
Chi-squared test for given probabilities data: n
X-squared = 11.9255, df = 5, p-value = 0.03582
> plot(seq(-3,3,0.05), dnorm(seq(-3,3,0.05)), xlab="x", ylab="N(0,1) Dichte")
> e <- round(p0*250)
> for (k in 2:length(breaks)) { text(-4.7+k, 0, n[k-1])
text(-4.3+k, 0, e[k-1]) }
56
−3 −2 −1 0 1 2 3
0.00.10.20.30.4
x
N(0,1) Dichte
5 6 20 34 82 85 89 85 48 34 6 6
57
Vergleich KS-Test mit χ2-Test
• KS-Test ist exakt f¨ur kleine n ≤ 40. Der χ2-Test ist ein approximativer Test.
• χ2-Test: Klasseneinteilung ⇒ Informationsverlust.
• Der KS-Test basiert auf Annahme einer stetigen Verteilung, der χ2-Test nicht.
• Bei Sch¨atzung der Parameter in F0(x) hat Kˆn (Sch¨atzer f¨ur die Parameter substituiert) nicht dieselbe Verteilung wie Kn; Fehler ist nicht unter Kontrolle.
Beim χ2-Test verringert sich in diesem Fall die Anzahl der Freiheitsgrade um die Anzahl der gesch¨atzten Parameter.
• χ2-Test nur zweiseitig anwendbar, KS-Test auch einseitig.
58
Shapiro-Wilk Test
Erkennt Abweichungen von der Normalverteilung:
H0 : Xi ∼ N(µ, σ2) gegen H1 : Xi 6∼ N(µ, σ2)
KS-Test und auch χ2-Test daf¨ur nicht geeignet. Die Shapiro-Wilk W Statistik vergleicht 2 Sch¨atzungen f¨ur die Varianz unter Normalverteilung
W =
£Pn
i=1 aiX(i)¤2 Pn
i=1(Xi − X)2 .
Z¨ahler ist proportional dem Quadrat des besten (minimale Varianz, unbiased) linearen Sch¨atzers f¨ur die Standardabweichung. Nenner ist die Quadratsumme der Abweichungen der Beobachtungen vom Mittel. Die Koeffizienten ai werden approximiert.
59
Beispiel: Benzinverbrauch: µ = 12 und σ2 = 1 verwendet, jedoch
> mean(milage) [1] 12.47
> var(milage) [1] 0.3045556
> shapiro.test(milage)
Shapiro-Wilk normality test data: milage
W = 0.9529, p-value = 0.7026
KS-Test lieferte p-Wert von 0.16. KS-Test mit gesch¨atzter Hypothese liefert
> ks.test(milage, "pnorm", mean(milage), sd(milage)) One-sample Kolmogorov-Smirnov test
data: milage
D = 0.1495, p-value = 0.9787
alternative hypothesis: two.sided
60
Binomial-Test: F¨ur k = 2 Klassen.
Aufteilung der X1, . . . , Xn in zwei Klassen K1, K2.
Sei P(Xi ∈ K1) = p (f¨ur alle i gleich, da Xi identisch verteilt).
Testproblem: H0 : p = p0 gegen H1 : p 6= p0
Teststatistik: T = Anzahl (Xi ∈ K1) H∼0 Binomial(n, p0).
Testprozedur: Da T diskret gibt es f¨ur bel. α kein tα mit P(T ≤ tα) = α exakt.
Deshalb Ungleichungen der Form P(T ≤ tα) ≤ α verwenden.
Seien t1−α1 = mint {t|P(T ≥ t) ≤ α1}, und tα2 = maxt {t|P(T ≤ t) ≤ α2} mit α1 + α2 = α.
H0 ablehnen, falls t ≥ t1−α1 oder t ≤ tα2
61
Beispiel: Es wird behauptet, dass Maschine maximal 5% defekte Ger¨ate produ- ziert. In Stichprobe (n = 20) sind 3 defekte St¨ucke. Kann damit die Behauptung widerlegt werden (α = 0.10)?
Teste H0 : p ≤ 0.05 gegen H1 : p > 0.05
Bestimme kritisches Quantil t1−α ∈ {0,1, . . . , n} wof¨ur gilt
p≤0.05max Pp(T ≥ t1−α) = P0.05(T ≥ t1−α) ≤ α .
> n <- 20; p <- 0.05; 1 - pbinom(seq(0, n), n, p)
[1] 6.415141e-01 2.641605e-01 7.548367e-02 1.590153e-02 ...
P(T ≥ 2) = 1 − P(T ≤ 1) = 0.2642 > α P(T ≥ 3) = 1 − P(T ≤ 2) = 0.0755 < α
somit t1−α = 3. Folgerung: Lehne H0 auf exaktem Niveau α∗ = 0.0755 ab.
62
> binom.test(x=3, n=20, p=0.05, alternative="greater") Exact binomial test
data: 3 and 20
number of successes = 3, number of trials = 20, p-value = 0.07548
alternative hypothesis: true probability of success is greater than 0.05 95 percent confidence interval:
0.04216941 1.00000000 sample estimates:
probability of success 0.15
> binom.test(x=3, n=20, p=0.05, alt="greater", conf.level=0.90)$conf.int [1] 0.0564179 1.0000000
attr(,"conf.level") [1] 0.9
63
Normalverteilungsapproximation
F¨ur n groß verwende DeMoivre-Laplace. F¨ur T ∼ Binomial(n, p) gilt approximativ
P(t1−α ≤ T) ≈ 1 − Φ
Ãt1−α − np − 1/2 pnp(1 − p)
!
= α .
Approximation umso besser, je n¨aher p bei 1/2 liegt.
64
Tests f¨ ur Quantile
Teste nichtparametrisch mit Vorzeichentest auf ein beliebiges Quantil und mit Wilcoxon Vorzeichen-Rangtest auf den Median.
Die Wilcoxon-Statistik verwendet R¨ange der Stichprobenvariablen.
Definition 8. Seien X1, . . . , Xn ∼ F stetig. Der Rang Ri = R(Xi) gibt die Anzahl aller Xj an die Xi nicht ¨ubertreffen
R(Xi) = ](Xj ≤ Xi), j = 1, . . . , n .
R(Xi) ist diskretverteilt mit den Realisationen 1,2, . . . , n.
Beispiel: Zu (8,4,2,6,10) geh¨oren die R¨ange (4,2,1,3,5).
65