Beurteilung von Sch¨ atzfunktionen
Bisher:Zwei Methoden zur Konstruktion von Sch¨atzfunktionen bekannt.
Problem:
Wie kann G¨ute/Qualit¨at dieser Methoden bzw. der resultierenden Sch¨atzfunktionen beurteilt werden?
L¨osung:
Zu gegebener Sch¨atzfunktionθbf¨urθ: Untersuchung deszuf¨alligen Sch¨atzfehlersbθ−θ (bzw. dessen Verteilung)
Naheliegende Forderung f¨ur
”gute“ Sch¨atzfunktionen:
Verteilung des Sch¨atzfehler sollte m¨oglichst
”dicht“ um 0 konzentriert sein (d.h. Verteilung vonθbsollte m¨oglichst
”dicht“ umθkonzentriert sein) Aber:
I Was bedeutet das?
I Wie vergleicht man zwei Sch¨atzfunktionenθbundθ? Wann ist Sch¨e atzfunktion bθ
”besser“ alseθ(und was bedeutet
”besser“)?
I Was ist zu beachten, wenn Verteilung des Sch¨atzfehlersnoch vom zu sch¨atzenden Parameter abh¨angt?
Schließende Statistik (WS 2020/21) Folie 52
Bias, Erwartungstreue
Eine offensichtlich gute Eigenschaft von Sch¨atzfunktionen ist, wenn der zu sch¨atzende (wahre) Parameter zumindestim Mittelgetroffen wird, d.h. der erwarteteSch¨atzfehler gleich Null ist:
Definition 3.4 (Bias, Erwartungstreue)
SeienW eine parametrische Verteilungsannahme mit Parameterraum Θ,θbeine Sch¨atzfunktion f¨urθ. Dann heißt
1 der erwartete Sch¨atzfehler
Bias(bθ) := E(bθ−θ) = E(bθ)−θ dieVerzerrungoder derBiasvonbθ,
2 die Sch¨atzfunktionbθerwartungstreu f¨urθoder auchunverzerrt f¨urθ, falls Bias(bθ) = 0 bzw. E(bθ) =θ f¨ur alleθ∈Θ gilt.
3 Ist allgemeinerg: Θ→Reine (messbare) Abbildung, so betrachtet man auch Sch¨atzfunktioneng(θ) f¨d urg(θ) und nennt dieseerwartungstreu f¨urg(θ), wenn E(g(θ)d −g(θ)) = 0 bzw. E(gd(θ)) =g(θ) f¨ur alleθ∈Θ gilt.
Bemerkungen
Obwohl Definition 3.4 auch f¨ur mehrdimensionale Parameterr¨aume Θ geeignet ist (
”0“ entspricht dann ggf. dem Nullvektor), betrachten wir zur Vereinfachung im Folgenden meist nur nocheindimensionale
Parameterr¨aume Θ⊆R.
Ist beispielsweiseW als Verteilungsannahme f¨urY die Menge aller AlternativverteilungenB(1,p) mit Parameterp∈Θ = [0,1], so ist der ML-Sch¨atzerbp=X =1nPn
i=1Xi bei Vorliegen einer Zufallsstichprobe X1, . . . ,Xn zuY erwartungstreu f¨urp, denn es gilt:
E(bp) = E 1 n
n
X
i=1
Xi
!
E linear
= 1
n
n
X
i=1
E(Xi)
FXi=FY
= 1
n
n
X
i=1
E(Y)
= 1
n·n·p=pf¨ur allep∈[0,1]
Schließende Statistik (WS 2020/21) Folie 54
Allgemeiner gilt, dassX bei Vorliegen einer Zufallsstichprobe stets erwartungstreu f¨ur E(Y) ist, denn es gilt analog zu oben:
E(X) = E 1 n
n
X
i=1
Xi
!
E linear
= 1
n
n
X
i=1
E(Xi)
FXi=FY
= 1
n
n
X
i=1
E(Y)
= 1
n ·n·E(Y) = E(Y) Genauso ist klar, dass man f¨ur beliebiges k mit demk-ten empirischen MomentXk bei Vorliegen einer Zufallsstichprobe stets erwartungstreue Sch¨atzer f¨ur dask-te theoretische Moment E(Yk) erh¨alt, denn es gilt:
E(Xk) = E 1 n
n
X
i=1
Xik
!
= 1 n
n
X
i=1
E(Xik) = 1 n
n
X
i=1
E(Yk) = E(Yk)
Der nach der Methode der Momente erhaltene Sch¨atzer cσ2=X2−X2 Verschiebungssatz
= 1
n
n
X
i=1
(Xi−X)2 f¨ur den Parameterσ2einer normalverteilten Zufallsvariable istnicht erwartungstreu f¨urσ2.
Bezeichnetσ2:= Var(Y) n¨amlich die (unbekannte) Varianz der ZufallsvariablenY, so kann gezeigt werden, dass f¨urcσ2generell
E(cσ2) =n−1 n σ2
gilt. Einen erwartungstreuen Sch¨atzer f¨urσ2erh¨alt man folglich mit der sogenanntenStichprobenvarianz
S2= 1 n−1
n
X
i=1
(Xi−X)2= n n−1σc2 , denn es gilt offensichtlich
E(S2) = E n
n−1cσ2
= n
n−1E cσ2
= n
n−1·n−1
n ·σ2=σ2.
Schließende Statistik (WS 2020/21) Folie 56
Vergleich von Sch¨ atzfunktionen
Beim Vergleich von Sch¨atzfunktionen:oft Beschr¨ankung auf erwartungstreue Sch¨atzfunktionen
In der Regel: viele erwartungstreue Sch¨atzfunktionen denkbar.
F¨ur die Sch¨atzung vonµ:=E(Y) beispielsweise allegewichtetenMittel
µbw1,...,wn:=
n
X
i=1
wi·Xi
mit der EigenschaftPn
i=1wi= 1 erwartungstreu f¨urµ, denn es gilt dann offensichtlich
E (µbw1,...,wn) = E
n
X
i=1
wi·Xi
!
=
n
X
i=1
wiE(Xi) = E(Y)·
n
X
i=1
wi= E(Y) =µ . Problem: Welche Sch¨atzfunktion ist
”die beste“?
Ubliche Auswahl (bei Beschr¨¨ ankung auf erwartungstreue Sch¨atzfunktionen!):
Sch¨atzfunktionen mit geringererStreuung (Varianz)bevorzugen.
Wirksamkeit, Effizienz
Definition 3.5 (Wirksamkeit, Effizienz)
SeiW eine parametrische Verteilungsannahme mit Parameterraum Θ.
1 Seienbθundθeerwartungstreue Sch¨atzfunktionen f¨urθ. Dann heißtbθ mindestens so wirksamwieθ, wenne
Var(bθ)≤Var(eθ) f¨ur alleθ∈Θ
gilt.θbheißt wirksamerals θ, wenne außerdemVar(bθ)<Var(eθ) f¨ur mindestens einθ∈Θ gilt.
2 Istθbmindestens so wirksam wie alle (anderen) Sch¨atzfunktionen einer Klasse mit erwartungstreuen Sch¨atzfunktionen f¨urθ, so nennt man bθeffizientin dieser Klasse erwartungstreuer Sch¨atzfunktionen.
Die Begriffe
”Wirksamkeit“ und
”Effizienz“ betrachtet man analog zu Definition 3.5 ebenfalls, wenn Funktioneng(θ) vonθgesch¨atzt werden.
Sd(bθ) = q
Var(bθ) wird auchStandardfehleroder Stichprobenfehlervonθb genannt.
Schließende Statistik (WS 2020/21) Folie 58
Beispiel: Effizienz
Betrachte Klasse der (linearen) erwartungstreuen Sch¨atzfunktionen
µbw1,...,wn:=
n
X
i=1
wi·Xi
mitPn
i=1wi= 1 f¨ur den Erwartungswertµ:=E(Y) aus Folie 57.
F¨ur welchew1, . . . ,wn erh¨alt man (bei Vorliegen einer einfachen Stichprobe) die in dieser KlasseeffizienteSch¨atzfunktionµbw1,...,wn?
Suche nach den Gewichtenw1, . . . ,wn (mitPn
i=1wi= 1), f¨ur die Var(µbw1,...,wn) m¨oglichst klein wird.
Man kann zeigen, dass Var(bµw1,...,wn) minimal wird, wenn wi = 1
n f¨ur allei∈ {1, . . . ,n}
gew¨ahlt wird.
Damit istX also effizient in der Klasse der linearen erwartungstreuen Sch¨atzfunktionen f¨ur den Erwartungswertµeiner Verteilung!
Mittlerer quadratischer Fehler (MSE)
Wenn Erwartungstreue im Vordergrund steht, ist Auswahl nach minimaler Varianz der Sch¨atzfunktion sinnvoll.
Ist Erwartungstreue nicht das
”¨ubergeordnete“ Ziel, verwendet man zur Beurteilung der Qualit¨at von Sch¨atzfunktionen h¨aufig auch den sogenannten mittleren quadratischen Fehler (mean square error, MSE).
Definition 3.6 (Mittlerer quadratischer Fehler (MSE))
SeiW eine parametrische Verteilungsannahme mit Parameterraum Θ,bθeine Sch¨atzfunktion f¨urθ∈Θ. Dann heißt MSE(bθ) := Eh
(bθ−θ)2i
dermittlere quadratische Fehler (mean square error, MSE)vonθ.b
Mit dem (umgestellten) Varianzzerlegungssatz erh¨alt man direkt Eh
(bθ−θ)2i
= Var(bθ−θ)
| {z }
=Var(bθ)
+h
E(bθ−θ)i2
| {z }
=(Bias(bθ))2
,
f¨ur erwartungstreue Sch¨atzfunktionen stimmt der MSE einer Sch¨atzfunktion also gerade mit der Varianz ¨uberein!
Schließende Statistik (WS 2020/21) Folie 60
Konsistenz im quadratischen Mittel
Basierend auf dem MSE ist ein
”minimales“ Qualit¨atskriterium f¨ur Sch¨atzfunktionen etabliert.
Das Kriterium fordert (im Prinzip), dass man den MSE durch Vergr¨oßerung des Stichprobenumfangs beliebig klein bekommen muss.
Zur Formulierung des Kriteriums m¨ussen Sch¨atzfunktionenθbn f¨ur
”variable“
Stichprobengr¨oßenn∈Nbetrachtet werden.
Definition 3.7 (Konsistenz im quadratischen Mittel)
SeienW eine parametrische Verteilungsannahme mit Parameterraum Θ,θbn eine Sch¨atzfunktion f¨urθ∈Θ zum Stichprobenumfangn∈N.
Dann heißt die (Familie von) Sch¨atzfunktion(en) θbnkonsistent im quadratischen Mittel f¨urθ, falls
n→∞lim MSE(bθn) = lim
n→∞Eh
(bθn−θ)2i
= 0 f¨ur alleθ∈Θ gilt.
Mit der (additiven) Zerlegung des MSE in Varianz und quadrierten Bias aus Folie 60 erh¨alt man sofort:
Satz 3.8
Seien W eine parametrische Verteilungsannahme mit ParameterraumΘ,θbn eine Sch¨atzfunktion f¨urθ∈Θzum Stichprobenumfang n∈N. Dann ist die Familie bθn von Sch¨atzfunktionen genau dann konsistent im quadratischen Mittel f¨urθ, wenn sowohl
1 lim
n→∞E(bθn−θ) = 0 bzw. lim
n→∞E(bθn) =θals auch
2 lim
n→∞Var(bθn) = 0 f¨ur alleθ∈Θgilt.
Eigenschaft 1 aus Satz 3.8 wird auchasymptotische Erwartungstreue genannt; asymptotische Erwartungstreue ist offensichtlich schw¨acher als Erwartungstreue.
Es gibt also auch (Familien von) Sch¨atzfunktionen, die f¨ur einen Parameterθ zwar konsistent im quadratischen Mittel sind, aber nicht erwartungstreu.
Schließende Statistik (WS 2020/21) Folie 62
Beispiel: Konsistenz im quadratischen Mittel
Voraussetzung (wie ¨ublich):X1, . . . ,Xneinfache Stichprobe zuY.
Bekannt: Istµ:= E(Y) der unbekannte Erwartungswert der interessierenden ZufallsvariableY, so istXn= 1
n
n
X
i=1
Xi f¨ur allen∈Nerwartungstreu.
Istσ2:= Var(Y) die Varianz von Y, so erh¨alt man f¨ur die Varianz vonXn
(vgl. Beweis der Effizienz vonX unter allen linearen erwartungstreuen Sch¨atzfunktionen f¨urµ):
Var(Xn) = Var 1 n
n
X
i=1
Xi
!
= 1 n2
n
X
i=1
Var(Xi)
| {z }
=σ2
=σ2 n
Es gilt also lim
n→∞Var(Xn) = lim
n→∞
σ2
n = 0, damit folgt zusammen mit der Erwartungstreue, dassXn konsistent im quadratischen Mittel f¨urµist.
Verteilung des Stichprobenmittels X
Bisher:Interesse meist an einigenMomenten(Erwartungswert und Varianz) von Sch¨atzfunktionen, insbesondere des StichprobenmittelsX.
Bereits bekannt: Istµ:=E(Y),σ2:= Var(Y) undX1, . . . ,Xneine einfache Stichprobe zuY, so gilt
E(X) =µ sowie Var(X) = σ2 n .
Damit Aussagen ¨uber Erwartungstreue, Wirksamkeit, Konsistenz m¨oglich.
Jetzt:Interesse an ganzerVerteilungvon Sch¨atzfunktionen, insbesondereX. Verteilungsaussagen entweder
I auf Grundlage des Verteilungstyps vonY aus der Verteilungsannahme in speziellen Situationenexaktm¨oglich oder
I auf Grundlage des zentralen Grenzwertsatzes (bei gen¨ugend großem Stichprobenumfang!) allgemeinern¨aherungsweise (approximativ)m¨oglich.
Wir unterscheiden im Folgenden nur zwischen:
I Y normalverteilt Verwendung der exakten Verteilung vonX.
I Y nicht normalverteilt Verwendung der N¨aherung der Verteilung vonX aus dem zentralen Grenzwertsatz.
Schließende Statistik (WS 2020/21) Folie 64
Aus ” Deskriptive Statistik und Wahrscheinlichkeitsrechnung“:
1 GiltY ∼N(µ, σ2), so istX exaktnormalverteilt mit Erwartungswertµund Varianz σn2, es gilt also
X ∼N
µ,σ2 n
.
2 IstY beliebig verteilt mit E(Y) =:µund Var(Y) =:σ2, so rechtfertigt der zentrale Grenzwertsatzf¨ur ausreichend große Stichprobenumf¨angendie N¨aherung der tats¨achlichen Verteilung vonX durch eine Normalverteilung mit Erwartungswertµund Varianz σn2 (wie oben!), man schreibt dann auch
X ∼• N
µ,σ2 n
und sagt
”X ist approximativ (n¨aherungsweise)N µ,σn2
-verteilt“.
Der Standardabweichung Sd(X) = q
Var(X) vonX (also der Standardfehler der Sch¨atzfunktionX f¨urµ) wird h¨aufig mitσX :=√σn abgek¨urzt.
Die Qualit¨at der N¨aherung der Verteilung im Fall 2 wird mit zunehmendem Stichprobenumfang h¨oher, h¨angt aberganz entscheidend vom
Verteilungstyp (und sogar der konkreten Verteilung) vonY ab!
Pauschale Kriterien an den Stichprobenumfangn(
”Daumenregeln“, z.B.
n≥30) finden sich h¨aufig in der Literatur, sind aber nicht ganz unkritisch.
VerteilungseigenschaftX ∼N µ,σn2
bzw.X ∼• N µ,σn2
wird meistens (¨aquivalent!) in der (auch aus dem zentralen Grenzwertsatz bekannten) Gestalt
X−µ σ
√n∼N(0,1) bzw. X−µ σ
√n∼• N(0,1)
verwendet, da dann Verwendung von Tabellen zur Standardnormalverteilung m¨oglich.
Im Folgenden: Einige Beispiele f¨ur Qualit¨at von N¨aherungen durch Vergleich der Dichtefunktion der Standardnormalverteilungsapproximation mit der tats¨achlichen Verteilung von X−µσ √
nf¨ur unterschiedliche Stichprobenumf¨angen.
Schließende Statistik (WS 2020/21) Folie 66
Beispiel: N¨ aherung, falls Y ∼ Unif(20, 50)
−4 −2 0 2 4
0.00.10.20.30.4
x
f(x)
N(0,1) n=3 n=5 n=10
Beispiel: N¨ aherung, falls Y ∼ Exp(2)
−4 −2 0 2 4
0.00.10.20.30.4
x
f(x)
N(0,1) n=3 n=5 n=10 n=30 n=250
Schließende Statistik (WS 2020/21) Folie 68
Beispiel: N¨ aherung, falls Y ∼ B (1, 0.5)
−4 −2 0 2 4
0.00.10.20.30.4
x
f(x)
N(0,1) n=3 n=5 n=10 n=30 n=250 n=1000
Beispiel: N¨ aherung, falls Y ∼ B (1, 0.05)
−4 −2 0 2 4
0.00.10.20.30.4
x
f(x)
N(0,1) n=3 n=5 n=10 n=30 n=250 n=1000
Schließende Statistik (WS 2020/21) Folie 70