Vergleich von Sch¨atzfunktionen

(1)

3 Parameterpunktsch¨atzer Eigenschaften von Sch¨atzfunktionen 3.3

Beurteilung von Sch¨atzfunktionen

Bisher:Zwei Methoden zur Konstruktion von Sch¨atzfunktionen bekannt.

Problem:

Wie kann Güte/Qualität dieser Methoden bzw. der resultierenden Schätzfunktionen beurteilt werden?

L¨osung:

Zu gegebener Schätzfunktionθbfür θ: Untersuchung deszufälligen Schätzfehlersθb−θ(bzw. dessen Verteilung)

Naheliegende Forderung f¨ur”gute“ Sch¨atzfunktionen:

Verteilung des Schätzfehler sollte möglichst”dicht“ um 0 konzentriert sein (d.h. Verteilung vonθbsollte möglichst”dicht“ umθ konzentriert sein) Aber:

I Was bedeutet das?

I Wie vergleicht man zwei Sch¨atzfunktionenbθundθ? Wann ist Sch¨atzfunktione θb

”besser“ alsθe(und was bedeutet

”besser“)?

I Was ist zu beachten, wenn Verteilung des Schätzfehlersnoch vom zu schätzenden Parameter abhängt?

Schließende Statistik (WS 2020/21) Folie 52

Bias, Erwartungstreue

Eine offensichtlich gute Eigenschaft von Schätzfunktionen ist, wenn der zu schätzende (wahre) Parameter zumindestim Mittelgetroffen wird, d.h. der erwarteteSchätzfehler gleich Null ist:

Definition 3.4 (Bias, Erwartungstreue)

SeienW eine parametrische Verteilungsannahme mit Parameterraum Θ,θbeine Sch¨atzfunktion f¨urθ. Dann heißt

1 der erwartete Sch¨atzfehler

Bias(θ) := E(b θb−θ) = E(θ)b −θ dieVerzerrungoder derBiasvonbθ,

2 die Schätzfunktionbθerwartungstreu fürθoder auchunverzerrt fürθ, falls Bias(bθ) = 0 bzw. E(θ) =b θ für alleθ∈Θ gilt.

3 Ist allgemeinerg: Θ→Reine (messbare) Abbildung, so betrachtet man auch Schätzfunktioneng(θ) fürd g(θ) und nennt dieseerwartungstreu fürg(θ), wenn E(gd(θ)−g(θ)) = 0 bzw. E(gd(θ)) =g(θ) für alleθ∈Θ gilt.

Bemerkungen

Obwohl Definition 3.4 auch f¨ur mehrdimensionale Parameterr¨aume Θ geeignet ist (

”0“ entspricht dann ggf. dem Nullvektor), betrachten wir zur Vereinfachung im Folgenden meist nur noch eindimensionale

Parameterr¨aume Θ⊆R.

Ist beispielsweiseW als Verteilungsannahme f¨urY die Menge aller Alternativverteilungen B(1,p) mit Parameter p∈Θ = [0,1], so ist der ML-Sch¨atzerbp=X = ¹_nPn

i=1X_i bei Vorliegen einer Zufallsstichprobe X₁, . . . ,X_n zuY erwartungstreu f¨urp, denn es gilt:

E(bp) = E 1 n

Xn

i=1

X_i

!

E linear

= 1

n Xn

i=1

E(X_i)

F_Xi=FY

= 1

n Xn

i=1

E(Y)

= 1

n·n·p=pf¨ur allep∈[0,1]

Allgemeiner gilt, dassX bei Vorliegen einer Zufallsstichprobe stets erwartungstreu f¨ur E(Y) ist, denn es gilt analog zu oben:

E(X) = E 1 n

Xn

i=1

X_i

!

E linear

= 1

n Xn

i=1

E(X_i)

F_Xi=FY

= 1

n Xn i=1

E(Y)

= 1

n·n·E(Y) = E(Y) Genauso ist klar, dass man für beliebigesk mit demk-ten empirischen MomentX^k bei Vorliegen einer Zufallsstichprobe stets erwartungstreue Schätzer für dask-te theoretische Moment E(Y^k) erhält, denn es gilt:

E(X^k) = E 1 n

Xn

i=1

X_i^k

!

= 1 n

Xn

i=1

E(X_i^k) =1 n

Xn

i=1

E(Y^k) = E(Y^k)

(2)

Der nach der Methode der Momente erhaltene Sch¨atzer cσ²=X²−X² Verschiebungssatz

= 1

n Xn

i=1

(X_i−X)² f¨ur den Parameter σ²einer normalverteilten Zufallsvariable istnicht erwartungstreu f¨urσ².

Bezeichnet σ²:= Var(Y) n¨amlich die (unbekannte) Varianz der ZufallsvariablenY, so kann gezeigt werden, dass f¨urcσ² generell

E(cσ²) =n−1 n σ²

gilt. Einen erwartungstreuen Schätzer fürσ² erhält man folglich mit der sogenannten Stichprobenvarianz

S²= 1 n−1

Xn

i=1

(Xi−X)²= n n−1cσ², denn es gilt offensichtlich

E(S²) = E n

n−1σc²

= n

n−1E cσ²

= n

n−1 ·n−1

n ·σ²=σ².

Vergleich von Sch¨atzfunktionen

Beim Vergleich von Schätzfunktionen:oftBeschränkung auf erwartungstreue Schätzfunktionen

In der Regel: viele erwartungstreue Sch¨atzfunktionen denkbar.

F¨ur die Sch¨atzung vonµ:=E(Y) beispielsweise allegewichtetenMittel b

µ_w₁_,...,w_n :=

Xn

i=1

w_i·X_i mit der EigenschaftPn

i=1w_i= 1 erwartungstreu f¨urµ, denn es gilt dann offensichtlich

E (µbw1,...,wn) = E Xn

i=1

wi·Xi

!

= Xn

i=1

wiE(Xi) = E(Y)· Xn

i=1

wi = E(Y) =µ . Problem: Welche Sch¨atzfunktion ist”die beste“?

Ubliche Auswahl (bei Beschränkung auf erwartungstreue Schätzfunktionen!):¨ Schätzfunktionen mit geringererStreuung (Varianz)bevorzugen.

Wirksamkeit, Effizienz

Definition 3.5 (Wirksamkeit, Effizienz)

SeiW eine parametrische Verteilungsannahme mit Parameterraum Θ.

1 Seienθbundθeerwartungstreue Sch¨atzfunktionen f¨urθ. Dann heißtθb mindestens so wirksamwie eθ, wenn

Var(bθ)≤Var(θ) f¨ur allee θ∈Θ

gilt. bθheißtwirksamerals eθ, wennaußerdemVar(bθ)<Var(θ) f¨ure mindestens einθ∈Θ gilt.

2 Ist θbmindestens so wirksam wie alle (anderen) Schätzfunktionen einer Klasse mit erwartungstreuen Schätzfunktionen für θ, so nennt manθbeffizientin dieser Klasse erwartungstreuer Schätzfunktionen.

Die Begriffe

”Wirksamkeit“ und

”Effizienz“ betrachtet man analog zu Definition 3.5 ebenfalls, wenn Funktioneng(θ) vonθ gesch¨atzt werden.

Sd(bθ) = q

Var(θ) wird auchb StandardfehleroderStichprobenfehler vonbθ genannt.

Beispiel: Effizienz

Betrachte Klasse der (linearen) erwartungstreuen Sch¨atzfunktionen b

µw1,...,wn :=

Xn

i=1

w_i·X_i mitPn

i=1w_i= 1 f¨ur den Erwartungswertµ:=E(Y) aus Folie 57.

Für welchew₁, . . . ,w_n erhält man (bei Vorliegen einer einfachen Stichprobe) die in dieser KlasseeffizienteSchätzfunktionµbw1,...,wn?

Suche nach den Gewichtenw₁, . . . ,w_n (mitPn

i=1w_i= 1), f¨ur die Var(µbw1,...,wn) m¨oglichst klein wird.

Man kann zeigen, dass Var(bµ_w₁_,...,w_n) minimal wird, wenn w_i = 1

n f¨ur allei∈ {1, . . . ,n} gew¨ahlt wird.

Damit istX also effizient in der Klasse der linearen erwartungstreuen Sch¨atzfunktionen f¨ur den Erwartungswertµeiner Verteilung!

(3)

Mittlerer quadratischer Fehler (MSE)

Wenn Erwartungstreue im Vordergrund steht, ist Auswahl nach minimaler Varianz der Sch¨atzfunktion sinnvoll.

Ist Erwartungstreue nicht das

”übergeordnete“ Ziel, verwendet man zur Beurteilung der Qualität von Schätzfunktionen häufig auch den sogenannten mittleren quadratischen Fehler (mean square error, MSE).

Definition 3.6 (Mittlerer quadratischer Fehler (MSE))

SeiW eine parametrische Verteilungsannahme mit Parameterraum Θ,θbeine Sch¨atzfunktion f¨urθ∈Θ. Dann heißt MSE(θ) := Eb h

(θb−θ)²i

der mittlere quadratische Fehler (mean square error, MSE)vonθ.b

Mit dem (umgestellten) Varianzzerlegungssatz erh¨alt man direkt Eh

(bθ−θ)²i

= Var(bθ−θ)

| {z }

=Var(θ)b

+h

E(bθ−θ)i2

| {z }

=(Bias(bθ))²

,

für erwartungstreue Schätzfunktionen stimmt der MSE einer Schätzfunktion also gerade mit der Varianz überein!

Konsistenz im quadratischen Mittel

Basierend auf dem MSE ist ein

”minimales“ Qualitätskriterium für Schätzfunktionen etabliert.

Das Kriterium fordert (im Prinzip), dass man den MSE durch Vergr¨oßerung des Stichprobenumfangs beliebig klein bekommen muss.

Zur Formulierung des Kriteriums müssen Schätzfunktionenθbn für”variable“

Stichprobengr¨oßenn∈Nbetrachtet werden.

Definition 3.7 (Konsistenz im quadratischen Mittel)

SeienW eine parametrische Verteilungsannahme mit Parameterraum Θ,θbneine Sch¨atzfunktion f¨urθ∈Θ zum Stichprobenumfangn∈N.

Dann heißt die (Familie von) Sch¨atzfunktion(en)bθ_nkonsistent im quadratischen Mittel f¨urθ, falls

n→∞lim MSE(bθn) = lim

n→∞Eh

(bθn−θ)²i

= 0 f¨ur alleθ∈Θ gilt.

Mit der (additiven) Zerlegung des MSE in Varianz und quadrierten Bias aus Folie 60 erh¨alt man sofort:

Satz 3.8

Seien W eine parametrische Verteilungsannahme mit ParameterraumΘ, bθ_neine Schätzfunktion fürθ∈Θzum Stichprobenumfang n∈N. Dann ist die Familieθb_n von Schätzfunktionen genau dann konsistent im quadratischen Mittel fürθ, wenn sowohl

1 lim

n→∞E(bθn−θ) = 0 bzw. lim

n→∞E(bθn) =θ als auch

2 lim

n→∞Var(θbn) = 0 f¨ur alleθ∈Θgilt.

Eigenschaft ¹ aus Satz 3.8 wird auchasymptotische Erwartungstreue genannt; asymptotische Erwartungstreue ist offensichtlich schw¨acher als Erwartungstreue.

Es gibt also auch (Familien von) Sch¨atzfunktionen, die f¨ur einen Parameter θ zwar konsistent im quadratischen Mittel sind, aber nicht erwartungstreu.

Beispiel: Konsistenz im quadratischen Mittel

Voraussetzung (wie ¨ublich):X₁, . . . ,X_neinfache Stichprobe zuY.

Bekannt: Istµ:= E(Y) der unbekannte Erwartungswert der interessierenden ZufallsvariableY, so istX_n= 1

n Xn i=1

X_i f¨ur allen∈Nerwartungstreu.

Istσ²:= Var(Y) die Varianz vonY, so erhält man für die Varianz vonX_n (vgl. Beweis der Effizienz vonX unter allen linearen erwartungstreuen Schätzfunktionen fürµ):

Var(Xn) = Var 1 n

Xn

i=1

Xi

!

= 1 n²

Xn

i=1

Var(Xi)

| {z }

=σ²

=σ² n

Es gilt also lim

n→∞Var(X_n) = lim

n→∞

σ²

n = 0, damit folgt zusammen mit der Erwartungstreue, dassX_n konsistent im quadratischen Mittel f¨urµist.

(4)

4 Schwankungsintervalle Verteilung des Stichprobenmittels 4.1

Verteilung des Stichprobenmittels X

Bisher: Interesse meist an einigenMomenten(Erwartungswert und Varianz) von Sch¨atzfunktionen, insbesondere des Stichprobenmittels X.

Bereits bekannt: Istµ:=E(Y),σ²:= Var(Y) undX₁, . . . ,X_n eine einfache Stichprobe zu Y, so gilt

E(X) =µ sowie Var(X) =σ² n .

Damit Aussagen ¨uber Erwartungstreue, Wirksamkeit, Konsistenz m¨oglich.

Jetzt:Interesse an ganzerVerteilungvon Sch¨atzfunktionen, insbesondereX. Verteilungsaussagen entweder

I auf Grundlage des Verteilungstyps vonY aus der Verteilungsannahme in speziellen Situationenexaktm¨oglich oder

I auf Grundlage des zentralen Grenzwertsatzes (bei genügend großem Stichprobenumfang!) allgemeinernäherungsweise (approximativ)möglich.

Wir unterscheiden im Folgenden nur zwischen:

I Y normalverteilt Verwendung der exakten Verteilung vonX.

I Y nicht normalverteilt Verwendung der N¨aherung der Verteilung vonX aus dem zentralen Grenzwertsatz.

Aus ” Deskriptive Statistik und Wahrscheinlichkeitsrechnung“:

1 GiltY ∼N(µ, σ²), so istX exaktnormalverteilt mit Erwartungswertµund Varianz ^σ_n², es gilt also

X ∼N

µ,σ² n

.

2 IstY beliebig verteilt mit E(Y) =:µund Var(Y) =:σ², so rechtfertigt der zentrale Grenzwertsatzfür ausreichend große Stichprobenumfängendie Näherung der tatsächlichen Verteilung vonX durch eine Normalverteilung mit Erwartungswertµund Varianz ^σ_n² (wie oben!), man schreibt dann auch

X ∼^• N

µ,σ² n

und sagt

”X ist approximativ (n¨aherungsweise)N µ,^σ_n²

-verteilt“.

Der Standardabweichung Sd(X) = q

Var(X) vonX (also der Standardfehler der SchätzfunktionX fürµ) wird häufig mitσ_X :=√^σ

n abgek¨urzt.

Die Qualität der Näherung der Verteilung im Fall ² wird mit zunehmendem Stichprobenumfang höher, hängt aberganz entscheidendvom

Verteilungstyp (und sogar der konkreten Verteilung) von Y ab!

Pauschale Kriterien an den Stichprobenumfangn(

”Daumenregeln“, z.B.

n≥30) finden sich h¨aufig in der Literatur, sind aber nicht ganz unkritisch.

Verteilungseigenschaft X ∼N µ,^σ_n²

bzw.X ∼^• N µ,^σ_n²

wird meistens (¨aquivalent!) in der (auch aus dem zentralen Grenzwertsatz bekannten) Gestalt

X−µ σ

√n∼N(0,1) bzw. X−µ σ

√n∼^• N(0,1)

verwendet, da dann Verwendung von Tabellen zur Standardnormalverteilung m¨oglich.

Im Folgenden: Einige Beispiele für Qualität von Näherungen durch Vergleich der Dichtefunktion der Standardnormalverteilungsapproximation mit der tatsächlichen Verteilung von ^X−_σ^µ√nfür unterschiedliche

Stichprobenumf¨ange n.

Beispiel: N¨aherung, falls Y ∼ Unif(20, 50)

−4 −2 0 2 4

0.00.10.20.30.4

x

f(x)

N(0,1) n=3 n=5 n=10

(5)

Beispiel: N¨aherung, falls Y ∼ Exp(2)

−4 −2 0 2 4

0.00.10.20.30.4

x

f(x)

N(0,1) n=3 n=5 n=10 n=30 n=250

Beispiel: N¨aherung, falls Y ∼ B (1, 0.5)

−4 −2 0 2 4

0.00.10.20.30.4

x

f(x)

N(0,1) n=3 n=5 n=10 n=30 n=250 n=1000

Beispiel: N¨aherung, falls Y ∼ B(1, 0.05)

−4 −2 0 2 4

0.00.10.20.30.4

x

f(x)

N(0,1) n=3 n=5 n=10 n=30 n=250 n=1000