3 Parameterpunktsch¨atzer Eigenschaften von Sch¨atzfunktionen 3.3
Beurteilung von Sch¨atzfunktionen
Bisher:Zwei Methoden zur Konstruktion von Sch¨atzfunktionen bekannt.
Problem:
Wie kann G¨ute/Qualit¨at dieser Methoden bzw. der resultierenden Sch¨atzfunktionen beurteilt werden?
L¨osung:
Zu gegebener Sch¨atzfunktionθbf¨ur θ: Untersuchung deszuf¨alligen Sch¨atzfehlersθb−θ(bzw. dessen Verteilung)
Naheliegende Forderung f¨ur”gute“ Sch¨atzfunktionen:
Verteilung des Sch¨atzfehler sollte m¨oglichst”dicht“ um 0 konzentriert sein (d.h. Verteilung vonθbsollte m¨oglichst”dicht“ umθ konzentriert sein) Aber:
I Was bedeutet das?
I Wie vergleicht man zwei Sch¨atzfunktionenbθundθ? Wann ist Sch¨atzfunktione θb
”besser“ alsθe(und was bedeutet
”besser“)?
I Was ist zu beachten, wenn Verteilung des Sch¨atzfehlersnoch vom zu sch¨atzenden Parameter abh¨angt?
Schließende Statistik (WS 2020/21) Folie 52
3 Parameterpunktsch¨atzer Eigenschaften von Sch¨atzfunktionen 3.3
Bias, Erwartungstreue
Eine offensichtlich gute Eigenschaft von Sch¨atzfunktionen ist, wenn der zu sch¨atzende (wahre) Parameter zumindestim Mittelgetroffen wird, d.h. der erwarteteSch¨atzfehler gleich Null ist:
Definition 3.4 (Bias, Erwartungstreue)
SeienW eine parametrische Verteilungsannahme mit Parameterraum Θ,θbeine Sch¨atzfunktion f¨urθ. Dann heißt
1 der erwartete Sch¨atzfehler
Bias(θ) := E(b θb−θ) = E(θ)b −θ dieVerzerrungoder derBiasvonbθ,
2 die Sch¨atzfunktionbθerwartungstreu f¨urθoder auchunverzerrt f¨urθ, falls Bias(bθ) = 0 bzw. E(θ) =b θ f¨ur alleθ∈Θ gilt.
3 Ist allgemeinerg: Θ→Reine (messbare) Abbildung, so betrachtet man auch Sch¨atzfunktioneng(θ) f¨urd g(θ) und nennt dieseerwartungstreu f¨urg(θ), wenn E(gd(θ)−g(θ)) = 0 bzw. E(gd(θ)) =g(θ) f¨ur alleθ∈Θ gilt.
Schließende Statistik (WS 2020/21) Folie 53
3 Parameterpunktsch¨atzer Eigenschaften von Sch¨atzfunktionen 3.3
Bemerkungen
Obwohl Definition 3.4 auch f¨ur mehrdimensionale Parameterr¨aume Θ geeignet ist (
”0“ entspricht dann ggf. dem Nullvektor), betrachten wir zur Vereinfachung im Folgenden meist nur noch eindimensionale
Parameterr¨aume Θ⊆R.
Ist beispielsweiseW als Verteilungsannahme f¨urY die Menge aller Alternativverteilungen B(1,p) mit Parameter p∈Θ = [0,1], so ist der ML-Sch¨atzerbp=X = 1nPn
i=1Xi bei Vorliegen einer Zufallsstichprobe X1, . . . ,Xn zuY erwartungstreu f¨urp, denn es gilt:
E(bp) = E 1 n
Xn
i=1
Xi
!
E linear
= 1
n Xn
i=1
E(Xi)
FXi=FY
= 1
n Xn
i=1
E(Y)
= 1
n·n·p=pf¨ur allep∈[0,1]
Schließende Statistik (WS 2020/21) Folie 54
3 Parameterpunktsch¨atzer Eigenschaften von Sch¨atzfunktionen 3.3
Allgemeiner gilt, dassX bei Vorliegen einer Zufallsstichprobe stets erwartungstreu f¨ur E(Y) ist, denn es gilt analog zu oben:
E(X) = E 1 n
Xn
i=1
Xi
!
E linear
= 1
n Xn
i=1
E(Xi)
FXi=FY
= 1
n Xn i=1
E(Y)
= 1
n·n·E(Y) = E(Y) Genauso ist klar, dass man f¨ur beliebigesk mit demk-ten empirischen MomentXk bei Vorliegen einer Zufallsstichprobe stets erwartungstreue Sch¨atzer f¨ur dask-te theoretische Moment E(Yk) erh¨alt, denn es gilt:
E(Xk) = E 1 n
Xn
i=1
Xik
!
= 1 n
Xn
i=1
E(Xik) =1 n
Xn
i=1
E(Yk) = E(Yk)
Schließende Statistik (WS 2020/21) Folie 55
3 Parameterpunktsch¨atzer Eigenschaften von Sch¨atzfunktionen 3.3
Der nach der Methode der Momente erhaltene Sch¨atzer cσ2=X2−X2 Verschiebungssatz
= 1
n Xn
i=1
(Xi−X)2 f¨ur den Parameter σ2einer normalverteilten Zufallsvariable istnicht erwartungstreu f¨urσ2.
Bezeichnet σ2:= Var(Y) n¨amlich die (unbekannte) Varianz der ZufallsvariablenY, so kann gezeigt werden, dass f¨urcσ2 generell
E(cσ2) =n−1 n σ2
gilt. Einen erwartungstreuen Sch¨atzer f¨urσ2 erh¨alt man folglich mit der sogenannten Stichprobenvarianz
S2= 1 n−1
Xn
i=1
(Xi−X)2= n n−1cσ2, denn es gilt offensichtlich
E(S2) = E n
n−1σc2
= n
n−1E cσ2
= n
n−1 ·n−1
n ·σ2=σ2.
Schließende Statistik (WS 2020/21) Folie 56
3 Parameterpunktsch¨atzer Eigenschaften von Sch¨atzfunktionen 3.3
Vergleich von Sch¨atzfunktionen
Beim Vergleich von Sch¨atzfunktionen:oftBeschr¨ankung auf erwartungstreue Sch¨atzfunktionen
In der Regel: viele erwartungstreue Sch¨atzfunktionen denkbar.
F¨ur die Sch¨atzung vonµ:=E(Y) beispielsweise allegewichtetenMittel b
µw1,...,wn :=
Xn
i=1
wi·Xi mit der EigenschaftPn
i=1wi= 1 erwartungstreu f¨urµ, denn es gilt dann offensichtlich
E (µbw1,...,wn) = E Xn
i=1
wi·Xi
!
= Xn
i=1
wiE(Xi) = E(Y)· Xn
i=1
wi = E(Y) =µ . Problem: Welche Sch¨atzfunktion ist”die beste“?
Ubliche Auswahl (bei Beschr¨ankung auf erwartungstreue Sch¨atzfunktionen!):¨ Sch¨atzfunktionen mit geringererStreuung (Varianz)bevorzugen.
Schließende Statistik (WS 2020/21) Folie 57
3 Parameterpunktsch¨atzer Eigenschaften von Sch¨atzfunktionen 3.3
Wirksamkeit, Effizienz
Definition 3.5 (Wirksamkeit, Effizienz)
SeiW eine parametrische Verteilungsannahme mit Parameterraum Θ.
1 Seienθbundθeerwartungstreue Sch¨atzfunktionen f¨urθ. Dann heißtθb mindestens so wirksamwie eθ, wenn
Var(bθ)≤Var(θ) f¨ur allee θ∈Θ
gilt. bθheißtwirksamerals eθ, wennaußerdemVar(bθ)<Var(θ) f¨ure mindestens einθ∈Θ gilt.
2 Ist θbmindestens so wirksam wie alle (anderen) Sch¨atzfunktionen einer Klasse mit erwartungstreuen Sch¨atzfunktionen f¨ur θ, so nennt manθbeffizientin dieser Klasse erwartungstreuer Sch¨atzfunktionen.
Die Begriffe
”Wirksamkeit“ und
”Effizienz“ betrachtet man analog zu Definition 3.5 ebenfalls, wenn Funktioneng(θ) vonθ gesch¨atzt werden.
Sd(bθ) = q
Var(θ) wird auchb StandardfehleroderStichprobenfehler vonbθ genannt.
Schließende Statistik (WS 2020/21) Folie 58
3 Parameterpunktsch¨atzer Eigenschaften von Sch¨atzfunktionen 3.3
Beispiel: Effizienz
Betrachte Klasse der (linearen) erwartungstreuen Sch¨atzfunktionen b
µw1,...,wn :=
Xn
i=1
wi·Xi mitPn
i=1wi= 1 f¨ur den Erwartungswertµ:=E(Y) aus Folie 57.
F¨ur welchew1, . . . ,wn erh¨alt man (bei Vorliegen einer einfachen Stichprobe) die in dieser KlasseeffizienteSch¨atzfunktionµbw1,...,wn?
Suche nach den Gewichtenw1, . . . ,wn (mitPn
i=1wi= 1), f¨ur die Var(µbw1,...,wn) m¨oglichst klein wird.
Man kann zeigen, dass Var(bµw1,...,wn) minimal wird, wenn wi = 1
n f¨ur allei∈ {1, . . . ,n} gew¨ahlt wird.
Damit istX also effizient in der Klasse der linearen erwartungstreuen Sch¨atzfunktionen f¨ur den Erwartungswertµeiner Verteilung!
Schließende Statistik (WS 2020/21) Folie 59
3 Parameterpunktsch¨atzer Eigenschaften von Sch¨atzfunktionen 3.3
Mittlerer quadratischer Fehler (MSE)
Wenn Erwartungstreue im Vordergrund steht, ist Auswahl nach minimaler Varianz der Sch¨atzfunktion sinnvoll.
Ist Erwartungstreue nicht das
”¨ubergeordnete“ Ziel, verwendet man zur Beurteilung der Qualit¨at von Sch¨atzfunktionen h¨aufig auch den sogenannten mittleren quadratischen Fehler (mean square error, MSE).
Definition 3.6 (Mittlerer quadratischer Fehler (MSE))
SeiW eine parametrische Verteilungsannahme mit Parameterraum Θ,θbeine Sch¨atzfunktion f¨urθ∈Θ. Dann heißt MSE(θ) := Eb h
(θb−θ)2i
der mittlere quadratische Fehler (mean square error, MSE)vonθ.b
Mit dem (umgestellten) Varianzzerlegungssatz erh¨alt man direkt Eh
(bθ−θ)2i
= Var(bθ−θ)
| {z }
=Var(θ)b
+h
E(bθ−θ)i2
| {z }
=(Bias(bθ))2
,
f¨ur erwartungstreue Sch¨atzfunktionen stimmt der MSE einer Sch¨atzfunktion also gerade mit der Varianz ¨uberein!
Schließende Statistik (WS 2020/21) Folie 60
3 Parameterpunktsch¨atzer Eigenschaften von Sch¨atzfunktionen 3.3
Konsistenz im quadratischen Mittel
Basierend auf dem MSE ist ein
”minimales“ Qualit¨atskriterium f¨ur Sch¨atzfunktionen etabliert.
Das Kriterium fordert (im Prinzip), dass man den MSE durch Vergr¨oßerung des Stichprobenumfangs beliebig klein bekommen muss.
Zur Formulierung des Kriteriums m¨ussen Sch¨atzfunktionenθbn f¨ur”variable“
Stichprobengr¨oßenn∈Nbetrachtet werden.
Definition 3.7 (Konsistenz im quadratischen Mittel)
SeienW eine parametrische Verteilungsannahme mit Parameterraum Θ,θbneine Sch¨atzfunktion f¨urθ∈Θ zum Stichprobenumfangn∈N.
Dann heißt die (Familie von) Sch¨atzfunktion(en)bθnkonsistent im quadratischen Mittel f¨urθ, falls
n→∞lim MSE(bθn) = lim
n→∞Eh
(bθn−θ)2i
= 0 f¨ur alleθ∈Θ gilt.
Schließende Statistik (WS 2020/21) Folie 61
3 Parameterpunktsch¨atzer Eigenschaften von Sch¨atzfunktionen 3.3
Mit der (additiven) Zerlegung des MSE in Varianz und quadrierten Bias aus Folie 60 erh¨alt man sofort:
Satz 3.8
Seien W eine parametrische Verteilungsannahme mit ParameterraumΘ, bθneine Sch¨atzfunktion f¨urθ∈Θzum Stichprobenumfang n∈N. Dann ist die Familieθbn von Sch¨atzfunktionen genau dann konsistent im quadratischen Mittel f¨urθ, wenn sowohl
1 lim
n→∞E(bθn−θ) = 0 bzw. lim
n→∞E(bθn) =θ als auch
2 lim
n→∞Var(θbn) = 0 f¨ur alleθ∈Θgilt.
Eigenschaft 1 aus Satz 3.8 wird auchasymptotische Erwartungstreue genannt; asymptotische Erwartungstreue ist offensichtlich schw¨acher als Erwartungstreue.
Es gibt also auch (Familien von) Sch¨atzfunktionen, die f¨ur einen Parameter θ zwar konsistent im quadratischen Mittel sind, aber nicht erwartungstreu.
Schließende Statistik (WS 2020/21) Folie 62
3 Parameterpunktsch¨atzer Eigenschaften von Sch¨atzfunktionen 3.3
Beispiel: Konsistenz im quadratischen Mittel
Voraussetzung (wie ¨ublich):X1, . . . ,Xneinfache Stichprobe zuY.
Bekannt: Istµ:= E(Y) der unbekannte Erwartungswert der interessierenden ZufallsvariableY, so istXn= 1
n Xn i=1
Xi f¨ur allen∈Nerwartungstreu.
Istσ2:= Var(Y) die Varianz vonY, so erh¨alt man f¨ur die Varianz vonXn (vgl. Beweis der Effizienz vonX unter allen linearen erwartungstreuen Sch¨atzfunktionen f¨urµ):
Var(Xn) = Var 1 n
Xn
i=1
Xi
!
= 1 n2
Xn
i=1
Var(Xi)
| {z }
=σ2
=σ2 n
Es gilt also lim
n→∞Var(Xn) = lim
n→∞
σ2
n = 0, damit folgt zusammen mit der Erwartungstreue, dassXn konsistent im quadratischen Mittel f¨urµist.
Schließende Statistik (WS 2020/21) Folie 63
4 Schwankungsintervalle Verteilung des Stichprobenmittels 4.1
Verteilung des Stichprobenmittels X
Bisher: Interesse meist an einigenMomenten(Erwartungswert und Varianz) von Sch¨atzfunktionen, insbesondere des Stichprobenmittels X.
Bereits bekannt: Istµ:=E(Y),σ2:= Var(Y) undX1, . . . ,Xn eine einfache Stichprobe zu Y, so gilt
E(X) =µ sowie Var(X) =σ2 n .
Damit Aussagen ¨uber Erwartungstreue, Wirksamkeit, Konsistenz m¨oglich.
Jetzt:Interesse an ganzerVerteilungvon Sch¨atzfunktionen, insbesondereX. Verteilungsaussagen entweder
I auf Grundlage des Verteilungstyps vonY aus der Verteilungsannahme in speziellen Situationenexaktm¨oglich oder
I auf Grundlage des zentralen Grenzwertsatzes (bei gen¨ugend großem Stichprobenumfang!) allgemeinern¨aherungsweise (approximativ)m¨oglich.
Wir unterscheiden im Folgenden nur zwischen:
I Y normalverteilt Verwendung der exakten Verteilung vonX.
I Y nicht normalverteilt Verwendung der N¨aherung der Verteilung vonX aus dem zentralen Grenzwertsatz.
Schließende Statistik (WS 2020/21) Folie 64
4 Schwankungsintervalle Verteilung des Stichprobenmittels 4.1
Aus ” Deskriptive Statistik und Wahrscheinlichkeitsrechnung“:
1 GiltY ∼N(µ, σ2), so istX exaktnormalverteilt mit Erwartungswertµund Varianz σn2, es gilt also
X ∼N
µ,σ2 n
.
2 IstY beliebig verteilt mit E(Y) =:µund Var(Y) =:σ2, so rechtfertigt der zentrale Grenzwertsatzf¨ur ausreichend große Stichprobenumf¨angendie N¨aherung der tats¨achlichen Verteilung vonX durch eine Normalverteilung mit Erwartungswertµund Varianz σn2 (wie oben!), man schreibt dann auch
X ∼• N
µ,σ2 n
und sagt
”X ist approximativ (n¨aherungsweise)N µ,σn2
-verteilt“.
Der Standardabweichung Sd(X) = q
Var(X) vonX (also der Standardfehler der Sch¨atzfunktionX f¨urµ) wird h¨aufig mitσX :=√σ
n abgek¨urzt.
Schließende Statistik (WS 2020/21) Folie 65
4 Schwankungsintervalle Verteilung des Stichprobenmittels 4.1
Die Qualit¨at der N¨aherung der Verteilung im Fall 2 wird mit zunehmendem Stichprobenumfang h¨oher, h¨angt aberganz entscheidendvom
Verteilungstyp (und sogar der konkreten Verteilung) von Y ab!
Pauschale Kriterien an den Stichprobenumfangn(
”Daumenregeln“, z.B.
n≥30) finden sich h¨aufig in der Literatur, sind aber nicht ganz unkritisch.
Verteilungseigenschaft X ∼N µ,σn2
bzw.X ∼• N µ,σn2
wird meistens (¨aquivalent!) in der (auch aus dem zentralen Grenzwertsatz bekannten) Gestalt
X−µ σ
√n∼N(0,1) bzw. X−µ σ
√n∼• N(0,1)
verwendet, da dann Verwendung von Tabellen zur Standardnormalverteilung m¨oglich.
Im Folgenden: Einige Beispiele f¨ur Qualit¨at von N¨aherungen durch Vergleich der Dichtefunktion der Standardnormalverteilungsapproximation mit der tats¨achlichen Verteilung von X−σµ√nf¨ur unterschiedliche
Stichprobenumf¨ange n.
Schließende Statistik (WS 2020/21) Folie 66
4 Schwankungsintervalle Verteilung des Stichprobenmittels 4.1
Beispiel: N¨aherung, falls Y ∼ Unif(20, 50)
−4 −2 0 2 4
0.00.10.20.30.4
x
f(x)
N(0,1) n=3 n=5 n=10
Schließende Statistik (WS 2020/21) Folie 67
4 Schwankungsintervalle Verteilung des Stichprobenmittels 4.1
Beispiel: N¨aherung, falls Y ∼ Exp(2)
−4 −2 0 2 4
0.00.10.20.30.4
x
f(x)
N(0,1) n=3 n=5 n=10 n=30 n=250
Schließende Statistik (WS 2020/21) Folie 68
4 Schwankungsintervalle Verteilung des Stichprobenmittels 4.1
Beispiel: N¨aherung, falls Y ∼ B (1, 0.5)
−4 −2 0 2 4
0.00.10.20.30.4
x
f(x)
N(0,1) n=3 n=5 n=10 n=30 n=250 n=1000
Schließende Statistik (WS 2020/21) Folie 69
4 Schwankungsintervalle Verteilung des Stichprobenmittels 4.1
Beispiel: N¨aherung, falls Y ∼ B(1, 0.05)
−4 −2 0 2 4
0.00.10.20.30.4
x
f(x)
N(0,1) n=3 n=5 n=10 n=30 n=250 n=1000
Schließende Statistik (WS 2020/21) Folie 70