Maximum-Likelikood-Sch ¨atzung

(1)

Vorlesung 13a

Maximum-Likelikood-Sch ¨atzung

(2)

1. Goldene Idee der Statistik:

Daten aufgefasst als

Realisierungen von Zufallsvariablen

(3)

Statistisches Modell:

eine Zufallsvariable X, bei deren Verteilung ein Parameter ϑ frei bleibt:

P_ϑ^(X ∈ da) = ρ_ϑ(da), ϑ ∈ Θ X

S

z.B. ϑ = (µ, σ²) bei der Normalverteilung, oder ϑ = p beim M ¨unzwurf.

(4)

P_ϑ⁽^X ∈ da) = ρ_ϑ(da), ϑ ∈ Θ X

Θ S

Θ . . .Menge der Parameter S . . . Beobachtungsraum ˆ

(5)

P_ϑ^(X ∈ da) = ρ_ϑ(da), ϑ ∈ Θ X

Θ S

Der Parameter ϑ soll aus den Daten gesch ¨atzt werden.

Dazu verarbeitet man X zu einem Sch ¨atzer ϑˆ f ¨ur ϑ.

(6)

P_ϑ^(X ∈ da) = ρ_ϑ(da), ϑ ∈ Θ

ϑˆ X

h Θ S

Der Parameter ϑ soll aus den Daten gesch ¨atzt werden.

Dazu verarbeitet man X zu einem Sch ¨atzer ϑˆ f ¨ur ϑ.

(7)

P_ϑ⁽^X ∈ da) = ρ_ϑ(da), ϑ ∈ Θ

ϑˆ X

h Θ S

Θ . . .Menge der Parameter S . . . Beobachtungsraum

ϑˆ := h(X) . . . Sch ¨atzer f ¨ur den Parameter ϑ

(8)

P_ϑ⁽^X ∈ da) = ρ_ϑ(da), ϑ ∈ Θ PSfr

ϑˆ X

h Θ S

Θ . . .Menge der Parameter S . . . Beobachtungsraum

ϑˆ := h(X) . . . Sch ¨atzer f ¨ur den Parameter ϑ

(9)

Naheliegende (“naive”) Sch ¨atzer:

f ¨ur p aus einem n-fachen p-M ¨unzwurf (X₁, . . . , X_n):

pˆ = ¹_n(X₁ + · · · + X_n). Und allgemeiner:

f ¨ur µ aus unabh ¨angigen reellwertigen

Zufallsvariablen (X₁, . . . , X_n) mit E^[^X_i^{] =} ^µ^: µˆ = ¹_n(X₁ + · · · + X_n).

(10)

2. Das Maximum-Likelihood-Prinzip

(11)

ϑˆ X

h Θ S

Ein tragf ¨ahiges Prinzip zur Wahl der Abbidung h: Sei h(a) dasjenige ϑ, f ¨ur das die Wahrscheinlichkeit,

den Ausgang a zu erhalten, maximal wird.

(12)

ϑˆ X

h a ∈ S

Θ

Ein tragf ähiges Prinzip zur Wahl der Abbidung h: F ür diskretes X: W ähle h(a) so, dass

P_h(a)^(X ⁼ ^{a) = max}

ϑ∈Θ P_ϑ^(X ⁼ ^a).

Die Zufallsvariable ϑˆ := h(X) nennt man dann

Maximum-Likelikood-Sch ¨atzer f ¨ur ϑ auf der Basis von X:

(13)

ϑˆ X

h a ∈ S

Θ

F ¨ur eine Familie mit Dichten, ρ_ϑ(da) = f_ϑ(a) da, ϑ ∈ Θ , geht man analog vor: W ¨ahle h(a) so, dass

f_h(a)(a) = max

ϑ∈Θ f_ϑ(a).

Die Zufallsvariable ϑˆ := h(X) nennt man dann

Maximum-Likelikood-Sch ¨atzer f ¨ur ϑ auf der Basis von X.

(14)

3. Beispiel: M ¨unzwurf.

(15)

(X₁, . . . , X_n) sei n-facher p-M ¨unzwurf mit unbekanntem p, K_n := X₁ + · · · + X_n die Anzahl der Erfolge.

Beobachtet wird die Realisierung (a₁, . . . , a_n) mit k = a₁ + . . . + a_n.

Behauptung: Unter allen p ist k/n derjenige Parameter, f ¨ur den Pp(X₁ = a₁, . . . , X_n = a_n) = p^k(1 − p)ⁿ⁻^k

maximal ist.

Wir betrachten zuerst die F ¨alle k = n und k = 0.

Hierf ¨ur stimmt die Behauptung wegen P1(K_n = n) = P0(K_n = 0) = 1.

(16)

Behauptung: Unter allen p ist k/n derjenige Parameter, f ¨ur den Pp(X₁ = a₁, . . . , X_n = a_n) = p^k(1 − p)ⁿ⁻^k

maximal ist.

Denn: Der Logarithmus der rechten Seite ist k ln p + (n − k) ln(1 − p).

Die F ¨alle k ∈ {0, 1} hatten wir schon betrachtet.

F ¨ur 0 < k < n hat dieser Ausdruck sein Maximum in p = k/n, wie man durch Differenzieren feststellt.

Also ist 1

n(X₁ + · · · + X_n)

(17)

F ¨ur k = n (kein Misserfolg in n Versuchen) ergibt sich 1 als Maximum-Likelikood-Sch ¨atzung von p.

Das ist m ¨oglicherweise zu optimistisch.

Eine Alternative bietet der sogenannte Bayes-Sch ¨atzer (vgl Buch S. 127).

Hier denkt man an ein zweistufiges Experiment:

1. eine auf [0, 1] uniform verteilte Zufallsvariable U 2. gegeben {U = u} einen M ¨unzwurf mit

Erfolgswahrscheinlichkeit U. p˜ := E^[^U|K] .

(18)

In der n ¨achsten Vorlesung (13b) werden wir sehen:

Z₁, Z₂, . . . sei ein M ¨unzwurf mit uniform auf [0, 1] verteiltem zuf ¨alligem Erfolgsparameter U,

K_n sei die Anzahl der Erfolge in den ersten n Versuchen.

Dann ist

E^[^U | K_n = k] = k + 1 n + 2. Man nennt dies auch den

Bayes-Sch ¨atzer f ¨ur die Erfolgswahrscheinlichkeit

(bei a priori uniform verteilter Erfolgswahrscheinlichkeit).

(19)

4. Beispiel:

Unabh ¨angige, identisch normalverteilte

Zufallsvariable.

(20)

X₁, . . . , X_n seien unabh ¨angig und N(µ, σ²)-verteilt, µ ∈ R, σ² ∈ R₊.

Behauptung:

Der ML-Sch ¨atzer f ¨ur ϑ = (µ, σ) ist dann (ˆµ, ˆσ) mit

µˆ := ¹_n(X₁ + · · · + X_n),

ˆσ² := ¹_n(X₁ − µ)ˆ ² + · · · + (X_n − µ)ˆ ² .

(21)

Denn: Die gemeinsame Dichtefunktion ist ϕ_µ,σ2(a₁) · · · ϕ_µ,σ2(a_n)

mit ϕ_µ,σ2(x) = (2πσ²)⁻^1/2e⁻^(x⁻^µ)²^/(2σ²⁾, x ∈ R. Damit ist die Aufgabe: Finde f ¨ur gegebenes (a₁, . . . , a_n)

das maximierende (µ, σ²).

(22)

Im ersten Schritt betrachten wir f ¨ur festes σ² die Abbildung µ 7→ L(µ, σ) := ln ϕ_µ,σ2(a₁) + · · · + ln ϕ_µ,σ2(a_n)

= const − n ln σ − 1 2σ²

(a₁ − µ)² + . . . + (a_n − µ)² . Diese wird maximiert bei m = ¹_n(a₁ + · · · + a_n) (warum?)

Im zweiten Schritt

differenzieren wir die Abbildung σ 7→ L(m, σ):

d

dσL(m, σ) = −n

σ − 1 σ³

(a₁ − m)² + · · · + (a_n − m)². Damit bekommen wir f ¨ur das Quadrat der Maximalstelle

σˆ² := ¹(a − m)² + · · · + (a − m)².

(23)

Fazit: F ür unabh ängige, N(µ, σ²)-verteilte X₁, . . . , X_n ist der ML-Sch ätzer f ür σ²

die uns aus ¨Ubungsaufgabe 29 bekannte Zufallsvariable ˆσ² = 1

n

Xn i=1

(X_i − M)².

Dort haben wir gesehen:

E₍_µ,σ²₎ ^h^ˆ^σ²ⁱ ⁼ ⁿ⁻_n¹^σ²^.

(24)

E_(µ,σ²₎ ^h^ˆ^σ²ⁱ ⁼ ⁿ⁻_n¹^σ²^.

Der Sch ¨atzer σˆ² ist also nicht “erwartungstreu”, wohl aber seine Modifikation

S² := _nⁿ

−1σˆ² = _n¹

−1

(X₁ − M)² + · · · + (X_n − Mˆ )².

Und es gilt sogar (siehe Buch S. 138) der Satz von Gosset-Fisher:

M und S² sind unabh ¨angig, und ^S²

σ² ist so verteilt wie die Summe aus n − 1 Quadraten von unabh ¨angigen standard-normalverteilten Z_i.

(25)

5. Beispiel:

Einfache lineare Regression.

(26)

x₁, . . . , x_n seien feste reelle Zahlen, Y_i = β₀ + β₁x_i + σZ_i, i = 1, . . . , n, mit Z₁, . . . , Z_n unabh ¨angig, N(0, 1)-verteilt.

Die Dichtefunktion von Y = (Y₁, . . . , Y_n) hat am Ausgang a = (a₁, . . . , a_n) den Wert

(∗) 1

(2πσ²)^n/2 exp

−|a − µ|² 2σ²

,

mit µ_i := β₀ + β₁x_i, µ := (µ₁, . . . , µ_n).

(27)

Wieder maximieren wir zuerst bei festgehaltenem σ. Damit ergeben sich die uns aus Vorlesung 8a, Abschnitt 8,

wohlbekannten Koeffizienten der Regressionsgeraden:

b₁ =

Pn

i=1(a_i − ¯a)(x_i − x¯)

Pn

i=1(x_i − x)¯ ² , b₀ = ¯a − b₁¯x . Betrachten wir jetzt (∗) als Funktion von σ,

mit µˆ_i := b₀ + b₁x_i statt µ_i,

so finden wir durch Logarithmieren und Differenzieren dessen Maximalstelle bei

1 n

Xn i=1

(a_i − µˆ_i)².

(28)

Der ML-Sch ¨atzer f ¨ur (β₀, β₁, σ²) ergibt sich durch Einsetzen von Y anstelle von a:

βˆ₁ =

Pn

i=1(Y_i − Y¯)(x_i − ¯x)

Pn

i=1(x_i − x¯)² , βˆ₀ = ¯Y − β¯₁¯x , ˆσ² = ¹_n ^Xⁿ

i=1

(Y_i − ( ˆβ₀ + ˆβ₁x_i))².

Ein erwartungstreuer Sch ¨atzer mit sch ¨onen Verteilungseigenschaften (siehe Buch S. 138) ist s² := ⁿ ˆσ² = ¹ ^Pⁿ Y − ( ˆβ + ˆβ x )².

(29)

F ¨ur alle, die Geometrie m ¨ogen:

Der n-dimensionale Datenvektor a soll dargestellt werden durch einen 2-dimensionalen “systematischen Beitrag”

plus ein (m ¨oglichst kleines) Residuum (“Rest”):

a = b₀1 ⁺ ^b1x + r, mit |r|² = min!.

Dabei ist 1 = (1, . . . , 1) und x := (x₁, . . . , x_n).

Im folgenden Bild (vgl Buch S. 136) ist K der von 1 ^und ^x aufgespannte 2-dimensionale Teilraum des Datenraumes Rⁿ.

(30)

Rⁿ

K Y σZ µ

R = P_K_⊥Y = √ nˆσ

µˆ = P_KY

(31)

6. Beispiel:

Zweiseitige Exponentialverteilung.

(32)

F ¨ur ϑ ∈ R seien X₁, . . . , X_n

unabh ¨angig und identisch verteilt mit Dichte

g_ϑ(x) := ¹₂e^−|^x⁻^ϑ^|, x ∈ R. Was ist der ML-Sch ¨atzer f ¨ur ϑ?

(33)

f_ϑ(a₁, . . . , a_n) := ¹₂^{n n}^Y

i=1

e^−|^aⁱ⁻^ϑ^|, a_i ∈ R

Betrachten wir erst einmal den Fall n = 2, und f ¨ur festes a₁, a₂ ∈ R die Funktion

ℓ : ϑ 7→ |a₁ − ϑ| + |a₂ − ϑ|. Angenommen, a₁ < a₂.

F ür ϑ < a₁ hat ℓ die Steigung −2, f ür ϑ > a₂ hat ℓ die Steigung +2, f ür ϑ ∈ (a₁, a₂) hat ℓ die Steigung 0.

Also ist jedes ϑ ∈ [a₁, a₂] Minimalstelle von ℓ.

(34)

f_ϑ(a₁, . . . , a_n) := ¹₂^{n n}^Y

i=1

e^−|^aⁱ⁻^ϑ^|, a_i ∈ R Betrachten wir jetzt den Fall n = 3,

und f ¨ur festes a₁, a₂, a₃ ∈ R die Funktion ℓ : ϑ 7→ |a₁ − ϑ| + |a₂ − ϑ| + |a₃ − ϑ|.

Angenommen, a₁ < a₂ < a₃. F ¨ur ϑ < a₂ hat ℓ negative Steigung,

f ¨ur ϑ > a₂ hat ℓ positive Steigung.

Also ist a₂ die einzige Minimalstelle von ℓ. Was 2 und 3 recht ist, soll n billig sein.

(35)

Definition. Seien a₁, . . . , a_n ∈ R.

Eine Zahl heißt Median von a₁, . . . , a_n , wenn

ebenso viele der a_i links wie rechts von ihr liegen.

F ür ungerades n f ührt die Definition auf einen einzigen Wert, f ür gerades n f ührt sie auf ein Intervall.

(36)

Fazit:

Im Besipiel der zweisitigen Exponentialverteilung ist der ML-Sch ¨atzer f ¨ur den Lageparameter (das “Zentrum”) ϑ

von der Form

h(X₁, . . . , X_n) := Median von X₁, . . . , X_n

(und nicht, wie man auf die Schnelle vielleicht vermuten w ¨urde, der arithmetische Mittelwert der X_i).

(37)

7. Beispiel:

Uniforme Verteilung

(38)

X₁, . . . , X_n seien unabh ¨angig und uniform verteilt auf [0, ϑ].

Was ist der ML-Sch ¨atzer f ¨ur ϑ?

Die Dichtefunktion von (X₁, . . . , X_n) ist

f_ϑ(a₁, . . . , a_n) = _ϑ¹_n, 0 ≤ min(a_i) ≤ max(a_i) ≤ ϑ.

F ¨ur festes (a₁, . . . , a_n) wird sie maximiert bei ϑ = max(a_i).

Also ist

ˆ

(39)

Unter P_ϑ ^ist ^max{X_i : i = 1, . . . , n} so verteilt wie ϑ max{U_i : i = 1, . . . , n},

mit U₁, . . . , U_n unabh ¨angig und Unif([0, 1])-verteilt.

Also ist (vgl. die kommende Vorlesung 13b)

E_ϑ^[ˆ^{ϑ] =} E_ϑ^[max{X_i : i = 1, . . . , n}] = _n₊₁ⁿ ϑ.