Deﬁnition 1. X = (X1

(1)

Definition 1. X = (X₁, . . . , X_n) heißt Stichprobe vom Umfang n wenn X₁, . . . , X_n stochastisch unabh¨angig und alle identisch so wie eine Zufallsvariable Y verteilt sind. x = (x₁, . . . , x_n) heißt Realisierung.

Verteilungsfunktion von Y bis auf deren Parameter θ bekannt. Unbekannten Parameter werden mittels der Stichprobe gesch¨atzt.

Definition 2. Die Zufallsvariable T = T(X₁, . . . , X_n) heißt Schätzfunktion (Schätzer) und die Realisation t = t(x₁, . . . , x_n) Schätzwert.

Gütekriterien für eine Folge von Schätzern (T_n)_n∈N für θ:

• (asymptotische) Erwartungstreue:

( lim

n→∞)E(T_n) = θ, b(T, θ) := E(T) − θ den Bias.

1

(2)

• Konsistenz: T_n heißt konsistent, falls

n→∞lim P(|T_n − θ| > ²) = 0 gilt.

• Effizienz: T ist wirksamster (effektiver) Schätzer für θ, wenn für alle anderen Schätzer T⁰ gilt:

E((T − θ)²) ≤ E((T⁰ − θ)²),

d.h. T hat den kleinsten mittleren quadratischen Fehler (MSE). Unter allen erwartungstreuen Sch¨atzern hat der wirksamste Sch¨atzer die kleinste Varianz.

2

(3)

Sch¨atzmethoden

• Die Momentenmethode liefert erwartungstreue und konsistente Sch¨atzer.

• Die Maximum–Likelihood (ML) Methode liefert keinesfalls immer erwartungstreue Sch¨atzer. Existiert jedoch ein effektiver Sch¨atzer, so wird dieser durch die ML Methode bestimmt.

3

(4)

Momente und Quantile 1. Moment um Null:

µ = E(X) :=

Z

xdF(x)

Empirische Mittel X = _n¹ P

X_i ist erwartungstreu f¨ur E(X_i) = µ.

X ist konsistent und effektivster linearer Sch¨atzer.

Falls var(X_i) = σ², dann var(X) = σ²/n.

X_i ^iid∼ N(µ, σ²) impliziert X ∼ N ¡

µ, σ²/n¢ .

4

(5)

2. zentrales Moment:

σ² = var(X) := E((X − µ)²).

S² = _n−1¹ P

(X_i − X)² ist erwartungstreu und konsistent für σ². X_i îid∼ N(µ, σ²), so sind X und S² unabhängig und es gilt

n − 1

σ² S² ∼ χ²_n−1, sowie X − µ S/√

n ∼ t_n−1.

S₁² = _n¹ P

(X_i − X)² ist wegen E(S₁²) = ⁿ⁻¹_n σ² nicht erwartungstreu.

Er ist aber effektiver Sch¨atzer f¨ur σ². 5

(6)

k-tes zentrales Moment:

µ_k = E((X − µ)^k).

I.a. standardisierte Formen verwendet

• Schiefe α₃ = µ₃/σ³ mit Sch¨atzer ˆ

α₃ =

1 n

P(X_i − X)³

S₁³ , var(ˆα₃) ≈ 6/n

• Kurtosis (Exzeß, Schw¨anzigkeit) α₄ = µ₄/σ⁴ − 3 mit Sch¨atzer ˆ

α₄ =

1 n

P(X_i − X)⁴

S₁⁴ − 3 , var(ˆα₄) ≈ 24/n 6

(7)

Momente einiger ausgew¨ahlter Verteilungen.

Verteilung E(X) var(X) α₃ α₄

Normal(0,1) 0 1 0 0

Uniform(−1,1) 0 1/3 0 -1.2

DoppelExp(1) 0 2 0 3

Exponential(1) 1 1 2 6

χ²₁₀ 10 20 0.894 1.2

7

(8)

Geordnete Stichprobe:

Definition 3. Sei g(x₁, . . . , x_n) = (x₍₁₎, . . . , x_(n)) mit x₍₁₎ ≤ · · · ≤ x_(n).

x_(.) = (x₍₁₎, . . . , x_(n)) ist die geordnete Stichprobe zu x = (x₁, . . . , x_n).

X_(.) = (X₍₁₎, . . . , X_(n)) ist die geordnete Statistik (Ordnungsstatistik) und X_(i) die i-te geordnete Statistik.

Quantile:

Definition 4. x_p f¨ur (0 < p < 1) mit P(X < x_p) ≤ p ≤ P(X ≤ x_p) heißt theoretisches p-tes Quantil von X. Das empirische p-tes Quantil

Q(p) =

½ ₁

2(X_(np) + X_(np+1)) f¨ur ganzzahliges np

X_([np]+1) sonst

ist ein asymptotisch erwartungstreuer und konsistenter Sch¨atzer f¨ur x_p. 8

(9)

xp

0p1 F(x|θ)

xp xp

0p1

P(^X<xp)≤p

P(^X≤xp)≥p F(x|θ)

xp

0p1

P(^X≤xp)≥p F(x|θ)

P(^X<xp)≤p

9

(10)

Empirische Quantile sch¨atzen die (unbekannten) theoretischen Quantile. Aussagen

¨uber deren G¨ute liefert der folgende Satz.

Satz 1. Sei X₁, . . . , X_n eine Stichprobe f¨ur eine stetig verteilte Population mit Dichte f(x|θ) und Verteilungsfunktion F(x|θ). F¨ur 0 < p < 1 sei x_p das p-te Quantil zu F(x|θ). Ist k = [np] + 1 und f(x) in x_p stetig und positiv, so gilt

X_(k) ^as∼ N µ

x_p, 1 f²(x_p|θ)

p(1 − p) n

¶ .

X_(k) ist also asymptotisch erwartungstreuer und konsistenter Sch¨atzer f¨ur x_p.

10

(11)

Beispiel 1. Empirische Median X˜ = Q(0.5) hat also asymptotische Varianz var( ˜X) = 1/(4nf²(x_0.5|θ)).

Falls X_i ^iid∼ N(µ, σ²), folgt f(x_0.5|µ, σ²) = 1/√

2πσ² und damit var( ˜X) ≈ 2π

4 σ²

n = 1.5708σ² n .

Da var(X) = σ²/n < var( ˜X) = 1.5708σ²/n, ist X effizienter als X˜. Die asymptotische relative Effizienz von X gegen¨uber X˜ ist somit

are(X,X˜) = var( ˜X)/var(X) = π/2 = 1.5708.

Um var( ˜X) oder var(X) zu schätzen benötigt man einen Schätzer für σ².

• Momentensch¨atzer hat Nachteil, dass X˜ auf ordinalen Aspekt beruht, S² aber auf einen intervallskalierten.

11

(12)

• Daher verwendet man einen auf Quantile beruhenden Schätzer für σ². Üblich ist die Verwendung des Inter-Quartile Range IQR = Q(0.75) − Q(0.25).

Unter X_i ^iid∼ N(µ, σ²) gilt

iqr = x_0.75 − x_0.25 = (µ + z_0.75σ) − (µ + z_0.25σ) = 2z_0.75σ

mit z_p dem p-ten Quantil der N(0,1)-Verteilung. Wegen z_0.75 = 0.6745 folgt hierf¨ur σ = iqr/(2 · 0.6745), was den robusten Varianzsch¨atzer

ˆ

σ_IQR² = IQR² 1.349² motiviert. Dieser liefert schließlich

c

var( ˜X) = 1.5708σˆ_IQR²

n = 0.8639IQR² n . 12

(13)

Gleichverteilung: X_i ^iid∼ U(−a, a), 0 < a. Da E(X) = 0, var(X) = a²/3 folgt var( ˜X) = 4a²/(4n) = a²/n , var(X) = a²/(3n),

also var(X) < var( ˜X).

Doppel-Exponential- (Laplace-)verteilung: X_i ^iid∼ DExp(µ, σ²) mit Dichte f(x|µ, σ²) = 1/(2σ) exp(−|x − µ|/σ), x, µ ∈ R, σ > 0.

Da E(X) = µ, var(X) = 2σ² folgt

var( ˜X) = 4σ²/(4n) = σ²/n , var(X) = 2σ²/n , also var(X) > var( ˜X) mit asymptotisch relativer Effizienz 1/2.

13

(14)

Variationskoeffizient

Momenten-Verh¨altnis von Standardabweichung zu Erwartung, also θ = σ/µ .

Ist somit ein relatives (dimensionsloses) Streuungsmaß mit Einheit µ.

Empirischer Variationskoeffizient

θˆ = S/X .

F¨ur eine normalverteilte Stichprobe gilt var(ˆθ) = θ²/2n.

F¨ur eine exponentialverteilte Stichprobe mit E(X) = λ und var(X) = λ² erh¨alt man θ = λ/λ = 1, d.h. der Variationskoeffizient ist konstant.

Liegt eine Stichprobe aus einer Poissonverteilung vor mit E(X) = var(X) = λ, so ist θ = √

λ/λ = 1/√ λ.

14

(15)

Konfidenzintervalle

Annahme: X₁, . . . , X_n ^iid∼ F_θ.

Gesucht: U = U(X₁, . . . , X_n), O = O(X₁, . . . , X_n), sodass f¨ur das wahre θ gilt P_θ(U ≤ θ ≤ O) = 1 − α, α ∈ (0,1).

Das Intervall [U, O] ist ein Konfidenzintervall (KIV) f¨ur θ zum Niveau 1 − α.

Intuitive Bedeutung: KIV ist ein Intervall, das mit Wahrscheinlichkeit 1 − α (groß) den unbekannten Parameter θ ¨uberdeckt.

Aber: Sei (x₁, . . . , x_n) eine Realisation, dann enth¨alt [u, o] den wahren Parameter θ oder eben nicht.

Zu sagen, dass θ ∈ [u, o] mit W! 1 − α ist somit unsinnig!

15

(16)

Und trotzdem: Sei [U_r, O_r], r = 1, . . . , R, eine Folge iid KIVs f¨ur θ zum Niveau 1 − α, dann resultiert mit dem Starken Gesetz der großen Zahlen (SLLN)

1 R

XR r=1

I_[U_r_,O_r_](θ) ^f.s.→ 1 − α.

Hierbei gilt f¨ur die Indikatoren I_[U_r_,O_r_](θ) ^iid∼ Bernoulli(1 − α), also E

³

I_[U_r_,O_r_](θ)

´

= 1 − α .

Das heißt ?

16

(17)

Konfidenzintervalle bei Normalverteilung: X_i ^iid∼ N(µ, σ²) 1. F¨ur µ (σ bekannt):

X ∼ N µ

µ, σ² n

¶

⇒ Z := X − µ σ/√

n ∼ N(0,1)

P(z_α/2 ≤ Z ≤ z_1−α/2) = P µ

X − σ

√n z_1−α/2 ≤ µ ≤ X + σ

√n z_1−α/2

¶

= 1 − α .

17

(18)

2. F¨ur µ (σ unbekannt):

T := X − µ S/√

n ∼ t_n−1

P(t_n−1;α/2 ≤ T ≤ t_{n−1;1−α/2}) = P

µ

X − S

√n t_{n−1;1−α/2} ≤ µ ≤ X + S

√n t_{n−1;1−α/2}

¶

= 1 − α .

18

(19)

3. F¨ur σ² (µ unbekannt):

Y := (n − 1)

σ² S² ∼ χ²_n−1

P(χ²_n−1;α/2 ≤ Y ≤ χ²_{n−1;1−α/2}) = P

Ã (n − 1)S²

χ²_{n−1;1−α/2} ≤ σ² ≤ (n − 1)S² χ²_n−1;α/2

!

= 1 − α.

19

(20)

F¨ur eine beliebige Verteilung F mit E(X_i) = µ und var(X_i) = σ² folgt mit ZGWS X − µ

σ/√ n

as∼ N(0,1).

KIVs wie zuvor, aber mit asymptotischer ¨Uberdeckungwahrscheinlichkeit 1 − α.

20

(21)

Nichtparametrische KIVs

X₁, . . . , X_n ^iid∼ F, F streng monoton und stetig, somit x_p eindeutig.

Ansatz:

P(X_(k) < x_p < X_(`)) = 1 − α

mit k < `. (X_(k), X_(`)) ein Konfidenzintervall f¨ur x_p zum Niveau 1 − α. Sei dazu

Y_i(x) =

½ 0 falls X_i > x 1 falls X_i < x , so ist Y_i(x) ^iid∼ Binomial(1, F(x)) und T(x) = P

i Y_i(x) ∼ Binomial(n, F(x)).

21

(22)

Damit folgt

P(X_(k) < x_p < X_(`)) = P(X_(k) < x_p, X_(`) > x_p)

= P(#(X_i < x_p) ≥ k, #(X_i < x_p) ≤ ` − 1)

= P(k ≤ T(x_p) ≤ ` − 1) = 1 − α .

• Exakte Berechnung mittels Binomial-Verteilung, da T(x_p) ∼ Binomial(n, p)

• Approximation durch DeMoivre-Laplace:

P(X_(k) < x_p < X_(`)) = P(k ≤ T(x_p) ≤ ` − 1)

≈ Φ

Ã` − 1 − np + 1/2 pnp(1 − p)

!

| {z }

1−α/2

−Φ

Ãk − np − 1/2 pnp(1 − p)

!

| {z }

α/2

≈ 1 − α .

22

(23)

• Bei n groß wird Verteilung des Medians durch die Normal approximiert. Daf¨ur ist

c

var( ˜X) = 0.8639IQR² n .

Als alternatives approximatives Konfidenzintervall f¨ur den theoretischen Median resultiert

P µ

X˜ − z_1−α/2 q

var( ˜c X) ≤ x_0.5 ≤ X˜ + z_1−α/2 q

var( ˜c X)

¶

≈ 1 − α .

23

(24)

0 20 40 60 80 100

−0.4−0.20.00.20.40.6

R = 100 , N(0,1): alpha.mc = 0.08

repetition

CIV(median)

24

(25)

Hypothesentests

Zweck: Aussagen oder Hypothesen ¨uber Verteilung einer ZV’en Y anhand der Stichprobe X₁, . . . , X_n zu untermauern.

Ein Hypothesentest beinhaltet:

• Testproblem: Nullhypothese H₀ und Alternativhypothese H₁.

• Teststatistik: T = T(X₁, . . . , X_n).

• Entscheidungsregel: Jeder Realisation von T wird Entscheidung f¨ur oder gegen die vorliegende Hypothese zugeordnet:

(a) Entscheidung f¨ur H₀, falls T nicht in C realisiert.

(b) Entscheidung f¨ur H₁, falls T in C realisiert.

C heißt kritischer Bereich.

25

(26)

Parametrische Statistik: Hypothesen ¨uber Werte eines Parameters θ.

Bezeichne Ω₀ die unter H₀ zul¨assigen Parameterwerte und Ω₁ die unter H₁ zul¨assigen. Je nach Gestalt dieser Mengen unterscheiden wir

(a) einfache

(b) zusammengesetzte Testprobleme.

Bei univariaten Testproblemen gibt es im wesentlichen (a) einseitige und

(b) zweiseitige Fragestellungen.

26

(27)

Die Entscheidung f¨ur H₀ oder H₁ kann richtig oder falsch sein:

Entscheidung

H₀ annehmen ablehnen

richtig 1 − α α

falsch 1 − β β

Ziel: α und 1 − β m¨oglichst klein halten. (Widerspr¨uchliche Forderung!!)

Ublich:¨ α vorgegeben, Annahmebereich bestimmen und Fehler 1 − β berechnen.

1 − β kann groß werden. Da der wahre Wert des Parameters unbekannt, kann man ¨uber Fehler 2. Art keine genaue Auskunft geben. Nur Fehler 1. Art ist unter Kontrolle und damit nur die damit verbundene Entscheidung: “H₀ verwerfen”.

Richtige Entscheidungen:

(a) P(T /∈ C|H₀ richtig) = 1 − α (durch Niveau bestimmt!!) (b) P(T ∈ C|H₁ richtig) = β (Macht des Tests).

27

(28)

f(x|H₀) f(x|H₁)

µ₀ t_c µ₁

α 1− β

28

(29)

Parametrische Tests bei Normalverteilung

1. Test auf µ bei σ bekannt (Gaußtest):

H₀ H₁ Entscheidung kritische Werte gegen H₀, falls

µ = µ₀ µ 6= µ₀ X < c₃ oder X > c₄ c₃ = µ₀ − z_1−α/2 σ/√ n c₄ = µ₀ + z_1−α/2 σ/√

n µ ≤ µ₀ µ > µ₀ X > c₁ c₁ = µ₀ + z_1−α σ/√

n µ ≥ µ₀ µ < µ₀ X < c₂ c₂ = µ₀ − z_1−α σ/√

n

29

(30)

2. Test auf µ bei σ unbekannt (t–Test):

µ = µ₀ µ 6= µ₀ X < c₃ oder X > c₄ c₃ = µ₀ − t_{n−1;1−α/2} S/√ n c₄ = µ₀ + t_{n−1;1−α/2} S/√

n µ ≤ µ₀ µ > µ₀ X > c₁ c₁ = µ₀ + t_n−1;1−α S/√

n µ ≥ µ₀ µ < µ₀ X < c₂ c₂ = µ₀ − t_n−1;1−α S/√

n mit S² = (n − 1)⁻¹ Pⁿ

i=1

(X_i − X)².

30

(31)

3. Test auf σ² bei µ bekannt (χ²-Test):

σ² = σ₀² σ² 6= σ₀² T < c₃ oder T > c₄ c₃ = σ₀²χ²_n;α/2 c₄ = σ₀²χ²_n;1−α/2 σ² ≤ σ₀² σ² > σ₀² T > c₁ c₁ = σ₀²χ²_n;1−α σ² ≥ σ₀² σ² < σ₀² T < c₂ c₂ = σ₀²χ²_n;α mit T = Pⁿ

i=1

(X_i − µ)².

31

(32)

4. Test auf σ² bei µ unbekannt (χ²-Test):

σ² = σ₀² σ² 6= σ₀² T < c₃ oder T > c₄ c₃ = σ₀²χ²_n−1;α/2 c₄ = σ₀²χ²_{n−1;1−α/2} σ² ≤ σ₀² σ² > σ₀² T > c₁ c₁ = σ₀²χ²_n−1;1−α σ² ≥ σ₀² σ² < σ₀² T < c₂ c₂ = σ₀²χ²_n−1;α mit T = Pⁿ

i=1

(X_i − X)².

32

(33)

p-Wert

F¨ur Tests liefern Computerprogramme keine logische Entscheidung sondern den p-Wert. Dieser ist die anhand der Stichprobe beobachtete Type I Error Rate.

Satz 2. [Probability Integral Transformation] Habe X stetige Verteilungs- funktion F_X(x) und sei Y = F_X(X). Dann ist Y gleichverteilt auf (0,1), d.h.

P(Y ≤ y) = y , 0 < y < 1. Beweis:

P(Y ≤ y) = P(F_X(X) ≤ y) = P(F_X⁻¹(F_X(X)) ≤ F_X⁻¹(y))

= P(X ≤ F_X⁻¹(y)) = F_X(F_X⁻¹(y)) = y . Bemerkung: Ist X diskret, so gilt: P(Y ≤ y) ≤ y, f¨ur 0 ≤ y ≤ 1.

33

(34)

Definition 5. F_X ist stochastisch größer als F_Y , falls F_X(t) ≤ F_Y(t) für alle t gilt. Für X ∼ F_X und Y ∼ F_Y folgt P(X ≤ t) = F_X(t) ≤ F_Y(t) = P(Y ≤ t) und für alle t gilt

P(X > t) ≥ P(Y > t) .

Nach dem Test wird Ergebnis mitgeteilt. Eine M¨oglichkeit ist es α und damit die Entscheidung bzgl. H₀ zu berichten. Alternativ kann p-Wert ¨ubermittelt werden.

Definition 6. Der p-Wert p(X) ist eine Teststatistik mit 0 ≤ p(x) ≤ 1. Kleine Werte von p(X) weisen auf die Richtigkeit von H₁ hin. Ein p-Wert ist g¨ultig, falls f¨ur jedes θ ∈ Θ₀ und jedes 0 ≤ α ≤ 1 gilt

P_θ(p(X) ≤ α) ≤ α .

Ist p(X) g¨ultig, kann damit ein Level α Test konstruiert werden. Der Test, der H₀ genau dann verwirft wenn p(X) ≤ α ist ein Level α Test.

Wie kann nun ein g¨ultiger p-Wert definiert werden?

34

(35)

Satz 3. Sei W(X) eine Teststatistik. Große Werte von W sprechen gegen H₀. Definiere f¨ur einen beliebigen Stichprobenpunkt x

p(x) = sup

θ∈Θ₀

P_θ(W(X) ≥ W(x)).

Damit ist p(X) ein g¨ultiger p-Wert.

Beweis: Fixiere ein θ ∈ Θ₀. Sei daf¨ur F_θ(w) die cdf von −W(X). Definiere daf¨ur p_θ(x) = P_θ(W(X) ≥ W(x)) = P_θ(−W(X) ≤ −W(x)) = F_θ(−W(x)).

F¨ur dieses θ entspricht die ZV’e p_θ(X) dem F_θ(−W(X)). Mit Satz 2 folgt, dass die Verteilung von p_θ(X) stochastisch gr¨oßer oder gleich einer Uniform(0, 1) ist.

D.h. f¨ur jedes 0 ≤ α ≤ 1 gilt P_θ(p_θ(X) ≤ α) ≤ α.

35

(36)

Nun ist der p-Wert definiert über alle θ ∈ Θ₀, und es gilt dafür für jedes x p(x) = sup

θ⁰∈Θ₀

p_θ⁰(x) ≥ p_θ(x),

da der größte p-Wert für alle Elemente in Θ₀ zumindest so groß ist als für unseren Wert θ. Somit gilt auch für jedes θ ∈ Θ₀ und jedes 0 ≤ α ≤ 1

P_θ(p(X) ≤ α) ≤ P_θ(p_θ(X) ≤ α) ≤ α und p(X) ist daher ein g¨ultiger p-Wert.

36

(37)

Beispiel: Sei X₁, . . . , X_n Zufallsstichprobe aus N(µ, σ²) und teste H₀: µ = µ₀ gegen H₁: µ 6= µ₀.

LRT verwirft H₀ f¨ur große Werte von W(X) = |X − µ₀|/(S/√ n).

F¨ur µ = µ₀ folgt (X − µ₀)/(S/√

n) einer t_n−1-Verteilung, unabh¨angig von σ.

Deshalb gilt hierf¨ur

p(x) = P_θ₀(W(X) ≥ W(x)) = 2P

³

T_n−1 ≥ (x − µ₀)/(s/√ n)

´ .

37

(38)

Tests auf G¨ ute der Anpassung

Zweck: Pr¨ufe ob beobachtetes Merkmal aus bestimmter Verteilung stammt.

Definition 7. Sei X₁, . . . , X_n Zufallsstichprobe aus der Verteilungsfunktion F. F_n(x) = 1

n(Anzahl der X_i ≤ x) , −∞ < x < ∞

nennt man die empirische Verteilungsfunktion der X_i, d.h. jedem X_i wird die Wahrscheinlichkeit 1/n zugeordnet.

38

(39)

Eigenschaften von F_n Als Realisation:

• monoton steigende Treppenfunktion mit Unstetigkeitsstellen in x₍₁₎, . . . , x_(n).

• ungebundene Beobachtung: Sprung der H¨ohe 1/n;

Bindung von k Beobachtungen: H¨ohe des Treppensprungs k/n.

• F¨ur jede Realisation x₁, . . . , x_n ist F_n(x) eine Verteilungsfunktion.

39

(40)

Als Zufallsvariable:

• F¨ur jedes x ist F_n(x) eine Zufallsvariable.

• F_n(x) ist diskret mit den Realisationen i/n, i = 0, . . . , n.

Genauer gilt: F¨ur alle x ∈ R gilt, dass nF_n(x) ∼ Binomial(n, F(x)).

• Es gilt der sogenannte Zentralsatz der Statistik (Satz von Glivenko-Cantelli) Satz 4. Sei X₁, . . . , X_n ^iid∼ F dann gilt

sup

x∈R

|F_n(x) − F(x)| ^f.s.→ 0, (n → ∞),

also die fast sichere gleichm¨aßige Konvergenz.

40

(41)

Satz 5. Seien X₁, . . . , X_n ^iid∼ F. Dann gilt f¨ur jedes feste x ∈ R P

µ

F_n(x) = i n

¶

= µn

i

¶

Fⁱ(x)(1 − F(x))ⁿ⁻ⁱ , i = 0, . . . , n .

Es gilt also nF_n(x) ∼ Binomial(n, F(x)), und daher E(F_n(x)) = F(x) sowie var(F_n(x)) = F(x)(1 − F(x))/n.

41

(42)

Der Kolmogorov-Smirnov Test (1933)

X₁, . . . , X_n ^iid∼ F, stetig jedoch unbekannt.

Testproblem: F = F₀, wobei F₀ vollst¨andig spezifiziert ist. Alternative: F 6= F₀. Teststatistik: Zentralsatz der Statistik (Glivenko-Cantelli) legt als KS-Statistik (f¨ur die zweiseitige Fragestellung) K_n = sup_x∈R |F_n(x) − F₀(x)| nahe.

Entscheidungsregel: Unter H₀ sollte K_n klein sein. Daher wird bei großen Realisationen H₀ abgelehnt.

Bei Verletzung der Voraussetzungen, z.B. F₀ diskret, oder nur bis auf die Parameter vollst¨andig spezifiziert, ist der KS-Test konservativ.

42

(43)

Hypothesen

• Test A: H₀ : F(x) = F₀(x) ∀x ∈ R, H₁ : ∃x ∈ R : F(x) 6= F₀(x)

• Test B: H₀ : F(x) ≤ F₀(x) ∀x ∈ R, H₁ : ∃x ∈ R : F(x) > F₀(x)

• Test C: H₀ : F(x) ≥ F₀(x) ∀x ∈ R, H₁ : ∃x ∈ R : F(x) < F₀(x) KS-Teststatistiken

• Test A: K_n = sup_x∈R|F₀(x) − F_n(x)|

• Test B: K_n⁻ = sup_x∈R(F_n(x) − F₀(x))

• Test C: K_n⁺ = sup_x∈R(F₀(x) − F_n(x))

43

(44)

Entscheidungsregel: H₀ wird abgelehnt, wenn

• Test A: k_n ≥ k_n;1−α; P(K_n ≥ k_n;1−α) = α

• Test B: k_n⁻ ≥ k_n;1−α⁻ ; P(K_n⁻ ≥ k_n;1−α⁻ ) = α

• Test C: k_n⁺ ≥ k_n;1−α⁺ ; P(K_n⁺ ≥ k_n;1−α⁺ ) = α

44

(45)

Begriff: Verteilungsfreiheit

Lemma 1. Unter der Annahme der Stetigkeit von F₀ sind K_n, K_n⁺ und K_n⁻ unter H₀ verteilungsfrei, d.h. unabh¨angig vom konkreten F₀.

Beweis: Betrachte streng monotones F₀, dann gilt

∃ F₀⁻¹ mit F₀

³

F₀⁻¹(y)

´

= y , y ∈ (0,1) (1)

P

³

F₀(X) ≤ u

´

= u , d.h. F₀(X) ∼ U(0,1). (2) Damit folgt unter H₀

K_n = sup

x∈R

|F₀(x) − F_n(x)| ⁽¹⁾= sup

y∈(0,1)

¯¯

¯F₀

³

F₀⁻¹(y)

´

− F_n

³

F₀⁻¹(y)

´¯¯

¯

= sup

y∈(0,1)

¯¯

¯y − 1 n

Xn i=1

I_(−∞,F⁻¹

0 (y)](X_i)

¯¯

¯ = sup

y∈(0,1)

¯¯

¯y − 1 n

Xn i=1

I_(0,y](F₀(X_i))

¯¯

¯ 45

(46)

Satz 6. Ist F₀ stetig, so gilt f¨ur alle z > 0 (1) lim

n→∞P µ

K_n ≤ z

√n

¶

= L(z) = 1 − 2

X∞ k=1

(−1)^k−1e^−2k²^z² ,

(2) lim

n→∞P µ

K_n⁺ ≤ z

√n

¶

= L⁺(z) = 1 − e^−2z² .

Aus Punkt (2) folgt

n→∞lim P µ

K_n⁺ ≤ z

√n

¶

= lim

n→∞ P µ

4nK_n⁺² ≤ 4nz² n

¶

= 1 − e^−2z² . Mit V_n = 4nK_n⁺² und v = 4z² folgt weiters

n→∞lim P (V_n ≤ v) = 1 − e^−v/2 = F_χ²

2(v). 46

(47)

Daher ist V_n = 4nK_n⁺² asymptotisch χ²₂-verteilt. Also resultiert asymptotisch P ¡

K_n⁺ ≤ k_n;α⁺ ¢

= α ≈ P ¡

V_n ≤ 4nk_n;α⁺² ¢

= P ¡

V_n ≤ χ²_2;α¢ d.h.

k_n;α⁺ ≈ s

χ²_2;α 4n . F¨ur 1 − α = 0.95 gilt χ²_2;0.95 = 5.99, also k_n;0.95⁺ ≈

q

χ²_2;0.95/4n = 1.22/√ n.

Quantile k_n;α sind für n ≤ 40 exakt tabelliert. Für n > 40 kann auf Quantile der asymptotischen Verteilung zurückgegriffen werden.

Beispiel: Bezinverbrauch ∼ N(12,1). Stichprobe vom Umfang n = 10.

Testproblem: H₀ : F(x) = Φ(x|12,1) gegen H₁ : F(x) 6= Φ(x|12,1).

Entscheidung zum Niveau α = 0.05.

47

(48)

Daten:

i x_(i) Φ(x_(i)) F_n⁺ F_n⁻ d⁺_n d⁻_n 1 11.5 0.309 0.1 0.0 0.209 0.309 2 11.8 0.421 0.2 0.1 0.221 0.321 3 12.0 0.500 0.3 0.2 0.200 0.300 4 12.4 0.655 0.4 0.3 0.255 0.355 5 12.5 0.691 0.5 0.4 0.191 0.291 6 12.6 0.726 0.6 0.5 0.126 0.226 7 12.8 0.788 0.7 0.6 0.088 0.188 8 12.9 0.816 0.8 0.7 0.016 0.116 9 13.0 0.841 0.9 0.8 0.059 0.041 10 13.2 0.885 1.0 0.9 0.115 0.015

48

(49)

10 11 12 13 14 15

0.00.20.40.60.81.0

ecdf(milage)

x

Fn(x)

49

(50)

Folgerung: In x₍₄₎ = 12.4 realisiert K_n in k₁₀ = 0.355. Wegen k_10;0.95 = 0.409 kann H₀ nicht abgelehnt werden.

> milage <- c(11.5,11.8,12.0,12.4,12.5,12.6,12.8,12.9,13.0,13.2)

> ks.test(milage, "pnorm", 12, 1)

One-sample Kolmogorov-Smirnov test data: milage

D = 0.3554, p-value = 0.1598

alternative hypothesis: two.sided

50

(51)

Der χ

²

-Test, Pearson 1900

Anpassungstest der auf H¨aufigkeiten basiert. Daten daher beliebig skaliert.

Prinzip: Beobachtungen x₁, . . . , x_n in k disjunkte Klassen einteilen. Teststatistik erfasst Abweichungen der beobachteten H¨aufigkeiten n_j von den theoretischen H¨aufigkeiten np_j unter H₀.

Klasse 1 2 . . . k

Anzahl d. Beobachtungen n₁ n₂ . . . n_k

Testproblem A: Falls F₀ vollst¨andig spezifiziert

Teste H₀ : F(x) = F₀(x) gegen H₁ : F(x) 6= F₀(x), 51

(52)

Teststatistik:

T_χ² =

Xk j=1

(N_j − np_j)² np_j

as∼ χ²_k−1.

Entscheidungsregel: H₀ kann abgelehnt werden, falls t_χ² ≥ χ²_k−1;1−α.

Beispiel: W¨urfel 120 mal werfen. Teste Hypothese W¨urfel ist fair (k = 6 Klassen)

H₀ : p_j = 1/6 , j = 1, . . . ,6 ; H₁ : p_j 6= 1/6 .

52

(53)

Daten

Klasse 1 2 3 4 5 6 Summe

n_j 20 30 20 25 15 10 120

np_j 20 20 20 20 20 20 120

(n_j − np_j)²

np_j 0 5 0 5/4 5/4 5 12.5

Folgerung: F¨ur α = 0.01 ist χ²_5,0.99 = 15.08 > t_χ² der W¨urfel als fair zu werten.

Bei α = 0.05 wegen χ²_5,0.95 = 11.07 < t_χ² jedoch als unfair.

> dice <- c(20, 30, 20, 25, 15, 10)

> chisq.test(dice, p = rep(1/6, 6))

Chi-squared test for given probabilities data: dice

X-squared = 12.5, df = 5, p-value = 0.02854 53

(54)

Testproblem B: Unbekannte Parameter θ₁, . . . , θ_r in F₀, modifizierter χ²-Test:

H₀ : F(x) = F₀(x|θ₁, . . . , θ_r) gegen H₁ : F(x) 6= F₀(x|θ₁, . . . , θ_r).

Teststatistik:

T_χ^m2 =

Xk j=1

³

N_j − np_j(ˆθ₁, . . . ,θˆ_r)

´₂ np_j(ˆθ₁, . . . ,θˆ_r)

as∼ χ²_k−r−1 ,

falls θ₁, . . . , θ_r nach der ML-Methode bzgl. gruppierter Daten gesch¨atzt wurden, d.h.

θmax₁,...,θ_r

Yk j=1

p_j(θ₁, . . . , θ_r)ⁿ^j ,

oder nach der Minimum-χ² Methode, bei der θˆ₁, . . . ,θˆ_r so bestimmt werden, dass T_χ^m₂ minimal.

54

(55)

Frage nach der Klasseneinteilung:

F¨ur welches n und f¨ur welche p_j ist die Approximation der Verteilung von T_χ² durch die χ²-Verteilung gerechtfertigt?

Faustregel: np_j ≥ 5.

> breaks <- c(-Inf, seq(-2, 2), +Inf); breaks

[1] -Inf -2 -1 0 1 2 Inf

> p0 <- 2:length(breaks) # init

> mean <- 0; sd <- 1

> for (k in 2:length(breaks))

p0[k-1] <- pnorm(breaks[k], mean, sd) - pnorm(breaks[k-1], mean, sd)

> p0

[1] 0.02275 0.13591 0.34134 0.34134 0.13591 0.02275

> 5/p0[1]

[1] 219.7789

> x <- rnorm(250, mean=0.3, sd=1)

55

(56)

> n <- table(cut(x, b=breaks)); n

(-Inf,-2] (-2,-1] (-1,0] (0,1] (1,2] (2,Inf]

5 20 82 89 48 6

> (n-p0*250)^2/(p0*250)

(-Inf,-2] (-2,-1] (-1,0] (0,1] (1,2] (2,Inf]

0.08311189 5.74919955 0.13042697 0.15730172 5.78829424 0.01716661

> chisq.test(n, p=p0)

Chi-squared test for given probabilities data: n

X-squared = 11.9255, df = 5, p-value = 0.03582

> plot(seq(-3,3,0.05), dnorm(seq(-3,3,0.05)), xlab="x", ylab="N(0,1) Dichte")

> e <- round(p0*250)

> for (k in 2:length(breaks)) { text(-4.7+k, 0, n[k-1])

text(-4.3+k, 0, e[k-1]) }

56

(57)

−3 −2 −1 0 1 2 3

0.00.10.20.30.4

x

N(0,1) Dichte

5 6 20 34 82 85 89 85 48 34 6 6

57

(58)

Vergleich KS-Test mit χ²-Test

• KS-Test ist exakt f¨ur kleine n ≤ 40. Der χ²-Test ist ein approximativer Test.

• χ²-Test: Klasseneinteilung ⇒ Informationsverlust.

• Der KS-Test basiert auf Annahme einer stetigen Verteilung, der χ²-Test nicht.

• Bei Schätzung der Parameter in F₀(x) hat Kˆ_n (Schätzer für die Parameter substituiert) nicht dieselbe Verteilung wie K_n; Fehler ist nicht unter Kontrolle.

Beim χ²-Test verringert sich in diesem Fall die Anzahl der Freiheitsgrade um die Anzahl der gesch¨atzten Parameter.

• χ²-Test nur zweiseitig anwendbar, KS-Test auch einseitig.

58

(59)

Shapiro-Wilk Test

Erkennt Abweichungen von der Normalverteilung:

H₀ : X_i ∼ N(µ, σ²) gegen H₁ : X_i 6∼ N(µ, σ²)

KS-Test und auch χ²-Test dafür nicht geeignet. Die Shapiro-Wilk W Statistik vergleicht 2 Schätzungen für die Varianz unter Normalverteilung

W =

£P_n

i=1 a_iX_(i)¤₂ P_n

i=1(X_i − X)² .

Zähler ist proportional dem Quadrat des besten (minimale Varianz, unbiased) linearen Schätzers für die Standardabweichung. Nenner ist die Quadratsumme der Abweichungen der Beobachtungen vom Mittel. Die Koeffizienten a_i werden approximiert.

59

(60)

Beispiel: Benzinverbrauch: µ = 12 und σ² = 1 verwendet, jedoch

> mean(milage) [1] 12.47

> var(milage) [1] 0.3045556

> shapiro.test(milage)

Shapiro-Wilk normality test data: milage

W = 0.9529, p-value = 0.7026

KS-Test lieferte p-Wert von 0.16. KS-Test mit gesch¨atzter Hypothese liefert

> ks.test(milage, "pnorm", mean(milage), sd(milage)) One-sample Kolmogorov-Smirnov test

data: milage

D = 0.1495, p-value = 0.9787

alternative hypothesis: two.sided

60

(61)

Binomial-Test: F¨ur k = 2 Klassen.

Aufteilung der X₁, . . . , X_n in zwei Klassen K₁, K₂.

Sei P(X_i ∈ K₁) = p (f¨ur alle i gleich, da X_i identisch verteilt).

Testproblem: H₀ : p = p₀ gegen H₁ : p 6= p₀

Teststatistik: T = Anzahl (X_i ∈ K₁) ^H∼⁰ Binomial(n, p₀).

Testprozedur: Da T diskret gibt es f¨ur bel. α kein t_α mit P(T ≤ t_α) = α exakt.

Deshalb Ungleichungen der Form P(T ≤ t_α) ≤ α verwenden.

Seien t_1−α₁ = min_t {t|P(T ≥ t) ≤ α₁}, und t_α₂ = max_t {t|P(T ≤ t) ≤ α₂} mit α₁ + α₂ = α.

H₀ ablehnen, falls t ≥ t_1−α₁ oder t ≤ t_α₂

61

(62)

Beispiel: Es wird behauptet, dass Maschine maximal 5% defekte Ger¨ate produ- ziert. In Stichprobe (n = 20) sind 3 defekte St¨ucke. Kann damit die Behauptung widerlegt werden (α = 0.10)?

Teste H₀ : p ≤ 0.05 gegen H₁ : p > 0.05

Bestimme kritisches Quantil t_1−α ∈ {0,1, . . . , n} wof¨ur gilt

p≤0.05max P_p(T ≥ t_1−α) = P_0.05(T ≥ t_1−α) ≤ α .

> n <- 20; p <- 0.05; 1 - pbinom(seq(0, n), n, p)

[1] 6.415141e-01 2.641605e-01 7.548367e-02 1.590153e-02 ...

P(T ≥ 2) = 1 − P(T ≤ 1) = 0.2642 > α P(T ≥ 3) = 1 − P(T ≤ 2) = 0.0755 < α

somit t_1−α = 3. Folgerung: Lehne H₀ auf exaktem Niveau α^∗ = 0.0755 ab.

62

(63)

> binom.test(x=3, n=20, p=0.05, alternative="greater") Exact binomial test

data: 3 and 20

number of successes = 3, number of trials = 20, p-value = 0.07548

alternative hypothesis: true probability of success is greater than 0.05 95 percent confidence interval:

0.04216941 1.00000000 sample estimates:

probability of success 0.15

> binom.test(x=3, n=20, p=0.05, alt="greater", conf.level=0.90)$conf.int [1] 0.0564179 1.0000000

attr(,"conf.level") [1] 0.9

63

(64)

Normalverteilungsapproximation

F¨ur n groß verwende DeMoivre-Laplace. F¨ur T ∼ Binomial(n, p) gilt approximativ

P(t_1−α ≤ T) ≈ 1 − Φ

Ãt_1−α − np − 1/2 pnp(1 − p)

!

= α .

Approximation umso besser, je n¨aher p bei 1/2 liegt.

64

(65)

Tests f¨ ur Quantile

Teste nichtparametrisch mit Vorzeichentest auf ein beliebiges Quantil und mit Wilcoxon Vorzeichen-Rangtest auf den Median.

Die Wilcoxon-Statistik verwendet R¨ange der Stichprobenvariablen.

Definition 8. Seien X₁, . . . , X_n ∼ F stetig. Der Rang R_i = R(X_i) gibt die Anzahl aller X_j an die X_i nicht ¨ubertreffen

R(X_i) = ](X_j ≤ X_i), j = 1, . . . , n .

R(X_i) ist diskretverteilt mit den Realisationen 1,2, . . . , n.

Beispiel: Zu (8,4,2,6,10) geh¨oren die R¨ange (4,2,1,3,5).

65