Vergleich von Sch¨ atzfunktionen

(1)

Beurteilung von Sch¨ atzfunktionen

Bisher:Zwei Methoden zur Konstruktion von Sch¨atzfunktionen bekannt.

Problem:

Wie kann Güte/Qualität dieser Methoden bzw. der resultierenden Schätzfunktionen beurteilt werden?

L¨osung:

Zu gegebener Schätzfunktionθbfürθ: Untersuchung deszufälligen Schätzfehlersbθ−θ (bzw. dessen Verteilung)

Naheliegende Forderung f¨ur

”gute“ Sch¨atzfunktionen:

Verteilung des Sch¨atzfehler sollte m¨oglichst

”dicht“ um 0 konzentriert sein (d.h. Verteilung vonθbsollte m¨oglichst

”dicht“ umθkonzentriert sein) Aber:

I Was bedeutet das?

I Wie vergleicht man zwei Sch¨atzfunktionenθbundθ? Wann ist Sch¨e atzfunktion bθ

”besser“ alseθ(und was bedeutet

”besser“)?

I Was ist zu beachten, wenn Verteilung des Schätzfehlersnoch vom zu schätzenden Parameter abhängt?

Schließende Statistik (WS 2020/21) Folie 52

(2)

Bias, Erwartungstreue

Eine offensichtlich gute Eigenschaft von Schätzfunktionen ist, wenn der zu schätzende (wahre) Parameter zumindestim Mittelgetroffen wird, d.h. der erwarteteSchätzfehler gleich Null ist:

Definition 3.4 (Bias, Erwartungstreue)

SeienW eine parametrische Verteilungsannahme mit Parameterraum Θ,θbeine Sch¨atzfunktion f¨urθ. Dann heißt

1 der erwartete Sch¨atzfehler

Bias(bθ) := E(bθ−θ) = E(bθ)−θ dieVerzerrungoder derBiasvonbθ,

2 die Schätzfunktionbθerwartungstreu fürθoder auchunverzerrt fürθ, falls Bias(bθ) = 0 bzw. E(bθ) =θ für alleθ∈Θ gilt.

3 Ist allgemeinerg: Θ→Reine (messbare) Abbildung, so betrachtet man auch Schätzfunktioneng(θ) f¨d urg(θ) und nennt dieseerwartungstreu fürg(θ), wenn E(g(θ)d −g(θ)) = 0 bzw. E(gd(θ)) =g(θ) für alleθ∈Θ gilt.

(3)

Bemerkungen

Obwohl Definition 3.4 auch f¨ur mehrdimensionale Parameterr¨aume Θ geeignet ist (

”0“ entspricht dann ggf. dem Nullvektor), betrachten wir zur Vereinfachung im Folgenden meist nur nocheindimensionale

Parameterr¨aume Θ⊆R.

Ist beispielsweiseW als Verteilungsannahme f¨urY die Menge aller AlternativverteilungenB(1,p) mit Parameterp∈Θ = [0,1], so ist der ML-Sch¨atzerbp=X =¹_nPn

i=1X_i bei Vorliegen einer Zufallsstichprobe X1, . . . ,Xn zuY erwartungstreu f¨urp, denn es gilt:

E(bp) = E 1 n

n

X

i=1

Xi

!

E linear

= 1

n

X

i=1

E(Xi)

F_Xi=FY

= 1

n

X

i=1

E(Y)

= 1

n·n·p=pf¨ur allep∈[0,1]

(4)

Allgemeiner gilt, dassX bei Vorliegen einer Zufallsstichprobe stets erwartungstreu f¨ur E(Y) ist, denn es gilt analog zu oben:

E(X) = E 1 n

n

X

i=1

Xi

!

E linear

= 1

n

X

i=1

E(Xi)

F_Xi=FY

= 1

n

X

i=1

E(Y)

= 1

n ·n·E(Y) = E(Y) Genauso ist klar, dass man für beliebiges k mit demk-ten empirischen MomentX^k bei Vorliegen einer Zufallsstichprobe stets erwartungstreue Schätzer für dask-te theoretische Moment E(Y^k) erhält, denn es gilt:

E(X^k) = E 1 n

n

X

i=1

X_i^k

!

= 1 n

n

X

i=1

E(X_i^k) = 1 n

n

X

i=1

E(Y^k) = E(Y^k)

(5)

Der nach der Methode der Momente erhaltene Sch¨atzer cσ²=X²−X² Verschiebungssatz

= 1

n

X

i=1

(Xi−X)² f¨ur den Parameterσ²einer normalverteilten Zufallsvariable istnicht erwartungstreu f¨urσ².

Bezeichnetσ²:= Var(Y) n¨amlich die (unbekannte) Varianz der ZufallsvariablenY, so kann gezeigt werden, dass f¨urcσ²generell

E(cσ²) =n−1 n σ²

gilt. Einen erwartungstreuen Schätzer fürσ²erhält man folglich mit der sogenanntenStichprobenvarianz

S²= 1 n−1

n

X

i=1

(Xi−X)²= n n−1σc² , denn es gilt offensichtlich

E(S²) = E n

n−1cσ²

= n

n−1E cσ²

= n

n−1·n−1

n ·σ²=σ².

(6)

Vergleich von Sch¨ atzfunktionen

Beim Vergleich von Schätzfunktionen:oft Beschränkung auf erwartungstreue Schätzfunktionen

In der Regel: viele erwartungstreue Sch¨atzfunktionen denkbar.

F¨ur die Sch¨atzung vonµ:=E(Y) beispielsweise allegewichtetenMittel

µb_w₁_,...,w_n:=

n

X

i=1

w_i·X_i

mit der EigenschaftPn

i=1w_i= 1 erwartungstreu f¨urµ, denn es gilt dann offensichtlich

E (µbw₁,...,w_n) = E

n

X

i=1

wi·Xi

!

=

n

X

i=1

wiE(Xi) = E(Y)·

n

X

i=1

wi= E(Y) =µ . Problem: Welche Sch¨atzfunktion ist

”die beste“?

Ubliche Auswahl (bei Beschr¨¨ ankung auf erwartungstreue Sch¨atzfunktionen!):

Sch¨atzfunktionen mit geringererStreuung (Varianz)bevorzugen.

(7)

Wirksamkeit, Effizienz

Definition 3.5 (Wirksamkeit, Effizienz)

SeiW eine parametrische Verteilungsannahme mit Parameterraum Θ.

1 Seienbθundθeerwartungstreue Sch¨atzfunktionen f¨urθ. Dann heißtbθ mindestens so wirksamwieθ, wenne

Var(bθ)≤Var(eθ) f¨ur alleθ∈Θ

gilt.θbheißt wirksamerals θ, wenne außerdemVar(bθ)<Var(eθ) f¨ur mindestens einθ∈Θ gilt.

2 Istθbmindestens so wirksam wie alle (anderen) Schätzfunktionen einer Klasse mit erwartungstreuen Schätzfunktionen fürθ, so nennt man bθeffizientin dieser Klasse erwartungstreuer Schätzfunktionen.

Die Begriffe

”Wirksamkeit“ und

”Effizienz“ betrachtet man analog zu Definition 3.5 ebenfalls, wenn Funktioneng(θ) vonθgesch¨atzt werden.

Sd(bθ) = q

Var(bθ) wird auchStandardfehleroder Stichprobenfehlervonθb genannt.

(8)

Beispiel: Effizienz

Betrachte Klasse der (linearen) erwartungstreuen Sch¨atzfunktionen

µbw₁,...,w_n:=

n

X

i=1

wi·Xi

mitPn

i=1wi= 1 f¨ur den Erwartungswertµ:=E(Y) aus Folie 57.

Für welchew1, . . . ,wn erhält man (bei Vorliegen einer einfachen Stichprobe) die in dieser KlasseeffizienteSchätzfunktionµbw1,...,wn?

Suche nach den Gewichtenw1, . . . ,wn (mitPn

i=1wi= 1), f¨ur die Var(µbw₁,...,w_n) m¨oglichst klein wird.

Man kann zeigen, dass Var(bµ_w₁_,...,w_n) minimal wird, wenn wi = 1

n f¨ur allei∈ {1, . . . ,n}

gew¨ahlt wird.

Damit istX also effizient in der Klasse der linearen erwartungstreuen Sch¨atzfunktionen f¨ur den Erwartungswertµeiner Verteilung!

(9)

Mittlerer quadratischer Fehler (MSE)

Wenn Erwartungstreue im Vordergrund steht, ist Auswahl nach minimaler Varianz der Sch¨atzfunktion sinnvoll.

Ist Erwartungstreue nicht das

”übergeordnete“ Ziel, verwendet man zur Beurteilung der Qualität von Schätzfunktionen häufig auch den sogenannten mittleren quadratischen Fehler (mean square error, MSE).

Definition 3.6 (Mittlerer quadratischer Fehler (MSE))

SeiW eine parametrische Verteilungsannahme mit Parameterraum Θ,bθeine Sch¨atzfunktion f¨urθ∈Θ. Dann heißt MSE(bθ) := Eh

(bθ−θ)²i

dermittlere quadratische Fehler (mean square error, MSE)vonθ.b

Mit dem (umgestellten) Varianzzerlegungssatz erh¨alt man direkt Eh

(bθ−θ)²i

= Var(bθ−θ)

| {z }

=Var(bθ)

+h

E(bθ−θ)i2

| {z }

=(Bias(bθ))²

,

für erwartungstreue Schätzfunktionen stimmt der MSE einer Schätzfunktion also gerade mit der Varianz überein!

(10)

Konsistenz im quadratischen Mittel

Basierend auf dem MSE ist ein

”minimales“ Qualitätskriterium für Schätzfunktionen etabliert.

Das Kriterium fordert (im Prinzip), dass man den MSE durch Vergr¨oßerung des Stichprobenumfangs beliebig klein bekommen muss.

Zur Formulierung des Kriteriums müssen Schätzfunktionenθbn für

”variable“

Stichprobengr¨oßenn∈Nbetrachtet werden.

Definition 3.7 (Konsistenz im quadratischen Mittel)

SeienW eine parametrische Verteilungsannahme mit Parameterraum Θ,θb_n eine Sch¨atzfunktion f¨urθ∈Θ zum Stichprobenumfangn∈N.

Dann heißt die (Familie von) Sch¨atzfunktion(en) θb_nkonsistent im quadratischen Mittel f¨urθ, falls

n→∞lim MSE(bθn) = lim

n→∞Eh

(bθn−θ)²i

= 0 f¨ur alleθ∈Θ gilt.

(11)

Mit der (additiven) Zerlegung des MSE in Varianz und quadrierten Bias aus Folie 60 erh¨alt man sofort:

Satz 3.8

Seien W eine parametrische Verteilungsannahme mit ParameterraumΘ,θbn eine Schätzfunktion fürθ∈Θzum Stichprobenumfang n∈N. Dann ist die Familie bθ_n von Schätzfunktionen genau dann konsistent im quadratischen Mittel fürθ, wenn sowohl

1 lim

n→∞E(bθn−θ) = 0 bzw. lim

n→∞E(bθn) =θals auch

2 lim

n→∞Var(bθn) = 0 f¨ur alleθ∈Θgilt.

Eigenschaft ¹ aus Satz 3.8 wird auchasymptotische Erwartungstreue genannt; asymptotische Erwartungstreue ist offensichtlich schw¨acher als Erwartungstreue.

Es gibt also auch (Familien von) Sch¨atzfunktionen, die f¨ur einen Parameterθ zwar konsistent im quadratischen Mittel sind, aber nicht erwartungstreu.

(12)

Beispiel: Konsistenz im quadratischen Mittel

Voraussetzung (wie ¨ublich):X1, . . . ,Xneinfache Stichprobe zuY.

Bekannt: Istµ:= E(Y) der unbekannte Erwartungswert der interessierenden ZufallsvariableY, so istXn= 1

n

X

i=1

Xi f¨ur allen∈Nerwartungstreu.

Istσ²:= Var(Y) die Varianz von Y, so erh¨alt man f¨ur die Varianz vonXn

(vgl. Beweis der Effizienz vonX unter allen linearen erwartungstreuen Sch¨atzfunktionen f¨urµ):

Var(Xn) = Var 1 n

n

X

i=1

Xi

!

= 1 n²

n

X

i=1

Var(Xi)

| {z }

=σ²

=σ² n

Es gilt also lim

n→∞Var(Xn) = lim

n→∞

σ²

n = 0, damit folgt zusammen mit der Erwartungstreue, dassX_n konsistent im quadratischen Mittel f¨urµist.

(13)

Verteilung des Stichprobenmittels X

Bisher:Interesse meist an einigenMomenten(Erwartungswert und Varianz) von Sch¨atzfunktionen, insbesondere des StichprobenmittelsX.

Bereits bekannt: Istµ:=E(Y),σ²:= Var(Y) undX₁, . . . ,X_neine einfache Stichprobe zuY, so gilt

E(X) =µ sowie Var(X) = σ² n .

Damit Aussagen ¨uber Erwartungstreue, Wirksamkeit, Konsistenz m¨oglich.

Jetzt:Interesse an ganzerVerteilungvon Sch¨atzfunktionen, insbesondereX. Verteilungsaussagen entweder

I auf Grundlage des Verteilungstyps vonY aus der Verteilungsannahme in speziellen Situationenexaktm¨oglich oder

I auf Grundlage des zentralen Grenzwertsatzes (bei genügend großem Stichprobenumfang!) allgemeinernäherungsweise (approximativ)möglich.

Wir unterscheiden im Folgenden nur zwischen:

I Y normalverteilt Verwendung der exakten Verteilung vonX.

I Y nicht normalverteilt Verwendung der N¨aherung der Verteilung vonX aus dem zentralen Grenzwertsatz.

(14)

Aus ” Deskriptive Statistik und Wahrscheinlichkeitsrechnung“:

1 GiltY ∼N(µ, σ²), so istX exaktnormalverteilt mit Erwartungswertµund Varianz ^σ_n², es gilt also

X ∼N

µ,σ² n

.

2 IstY beliebig verteilt mit E(Y) =:µund Var(Y) =:σ², so rechtfertigt der zentrale Grenzwertsatzfür ausreichend große Stichprobenumfängendie Näherung der tatsächlichen Verteilung vonX durch eine Normalverteilung mit Erwartungswertµund Varianz ^σ_n² (wie oben!), man schreibt dann auch

X ∼^• N

µ,σ² n

und sagt

”X ist approximativ (n¨aherungsweise)N µ,^σ_n²

-verteilt“.

Der Standardabweichung Sd(X) = q

Var(X) vonX (also der Standardfehler der SchätzfunktionX fürµ) wird häufig mitσ_X :=^√^σ_n abgekürzt.

(15)

Die Qualität der Näherung der Verteilung im Fall ² wird mit zunehmendem Stichprobenumfang höher, hängt aberganz entscheidend vom

Verteilungstyp (und sogar der konkreten Verteilung) vonY ab!

Pauschale Kriterien an den Stichprobenumfangn(

”Daumenregeln“, z.B.

n≥30) finden sich h¨aufig in der Literatur, sind aber nicht ganz unkritisch.

VerteilungseigenschaftX ∼N µ,^σ_n²

bzw.X ∼^• N µ,^σ_n²

wird meistens (¨aquivalent!) in der (auch aus dem zentralen Grenzwertsatz bekannten) Gestalt

X−µ σ

√n∼N(0,1) bzw. X−µ σ

√n∼^• N(0,1)

verwendet, da dann Verwendung von Tabellen zur Standardnormalverteilung m¨oglich.

Im Folgenden: Einige Beispiele für Qualität von Näherungen durch Vergleich der Dichtefunktion der Standardnormalverteilungsapproximation mit der tatsächlichen Verteilung von ^X^−µ_σ √

nf¨ur unterschiedliche Stichprobenumf¨angen.

(16)

Beispiel: N¨ aherung, falls Y ∼ Unif(20, 50)

−4 −2 0 2 4

0.00.10.20.30.4

x

f(x)

N(0,1) n=3 n=5 n=10

(17)

Beispiel: N¨ aherung, falls Y ∼ Exp(2)

−4 −2 0 2 4

0.00.10.20.30.4

x

f(x)

N(0,1) n=3 n=5 n=10 n=30 n=250

(18)

Beispiel: N¨ aherung, falls Y ∼ B (1, 0.5)

−4 −2 0 2 4

0.00.10.20.30.4

x

f(x)

N(0,1) n=3 n=5 n=10 n=30 n=250 n=1000

(19)

Beispiel: N¨ aherung, falls Y ∼ B (1, 0.05)

−4 −2 0 2 4

0.00.10.20.30.4

x

f(x)

N(0,1) n=3 n=5 n=10 n=30 n=250 n=1000