Konsistenz des ML-Sch¨ atzers im verallgemeinerten linearen Modell mit kanonischer Linkfunktion
Wir betrachten das verallgemeinerte lineare Modell
IEYi=h(xTi β) , i= 1, . . . , n bzw.
g(IEYi) =xTi β , i= 1, . . . , n
wobei die Zufallsvariablen Yi unabh¨angig sind und aus einer Exponential-Dispersions- Familie mit der Dichtefunktion
f(y) =c(y, ϕ) exp
yθ−A(θ) ϕ
stammen. Wir wollen die Konsistenz der Folge der ML-Sch¨atzer nβˆn
o
f¨ur den Fall un- tersuchen, dass g die kanonische Linkfunktion der Exponential-Dispersions-Familie ist.
Der Dispersionsparameter ϕ spielt bei diesen Betrachtungen keine Rolle, da das Score- Gleichungssystem unabh¨angig vonϕ ist. Deshalb setzen wir o.B.d.A.ϕ= 1.
Grundidee:Taylorentwicklung der Loglikelihood-Funktion in der Umgebung des wahren Parametervektorsβ0
F¨ur δ >0 definieren wir eine Folge von Umgebungen vonβ0 durch:
Nn(δ) = n
β:||FnT /2(β0)(β−β0)|| ≤δo
n= 1,2, . . .
= n
β: (β−β0)TFnT /2(β0)(β−β0)≤δ2 o
Wir wollen zeigen, dass mit beliebig großer Wahrscheinlichkeit die eindeutige L¨osung der Score-Gleichungen in dieser Umgebung liegt. Wenn die Folge der Umgebungen sich f¨ur n→ ∞ auf den Punktβ0 zusammenzieht, folgt die Konvergenz des ML-Sch¨atzers. Daher fordern wir:
(D) F¨ur den kleinsten Eigenwertλmin der Fisher-Informations-MatrixFn(β0) gilt:
n→∞lim λmin =∞ (Divergenz) (O) Der zul¨assige Parameterraum B ist eine offene Teilmenge desRk. Wegen
(β−β0)TFnT /2(β0)(β−β0)≥λmin||β−β0||2
sichert Voraussetzung (D) die Kontraktionseigenschaft der Umgebungen Nn(δ) und die Voraussetzung (O) sichert, dass f¨ur hinreichend großes n die Umgebung vollst¨andig im zul¨assigen ParameterraumB enthalten ist.
1
F¨ur alle Randpunkte der Umgebung Nn(δ), β ∈ ∂Nn(δ) liefert die Taylorentwicklung 2.Ordnung der Loglikelihood-Funktion:
ln(β) =n(β0) +
k
X
j=1
∂ln(β)
∂βj |β=β0
(βj −βj0) +1 2
k
X
j=1 k
X
l=1
∂2ln(β)
∂βj∂βl|β=˜β
(βj−βj0)(βl−βl0) (1)
=n(β0) + (β−β0)T∂ln(β)
∂β |β=β0
+1
2(β−β0)T
∂ln2(β)
∂β∂βT|β=˜
β
(β−β0) (2) f¨ur eine Zwischenstelle ˜β(∈Nn(δ)).
Die 1. Ableitungen der Loglikelihood-Funktion bilden die Score-Funktion Sn(β); die Ma- trix der partiellen 2. Ableitungen ist die negative beobachtete Fisher-Informations-Matrix In(˜β), die bei kanonischer Linkfunktion nicht von den Beobachtungen der Zielgr¨oße ab- h¨angt und daher mit der erwarteten Fisher-Informations-Matrix Fn(˜β) ¨ubereinstimmt.
ln(β) =n(β0) + (β−β0)TSn(β0)−1
2(β−β0)TFn(˜β)(β−β0) (3)
=n(β0) +δ(β−β0)TFn1/2(β0)
δ Fn−1/2(β0)Sn(β0) (4)
−δ2 2
(β−β0)TFn1/2(β0)
δ Fn−1/2(β0)Fn(˜β)Fn−T /2(β0)FnT /2(β0)(β−β0)
δ (5)
(6) Mit der Bezeichnung v=FnT /2(β0)(β−β0)/δ erhalten wir also:
ln(β)−ln(β0) =δvTFn−1/2(β0)Sn(β0)−δ2
2vTFn−1/2(β0)Fn(˜β)Fn−T /2(β0)v (7) Daβ ein Randpunkt der Umgebung Nn(δ) ist, gilt:
kFnT /2(β−β0)k=δ und daher (8)
FnT /2(β−β0) δ
=kvk= 1 . (9)
Wir werden zeigen, dass mit beliebig großer Wahrscheinlichkeit
ln(β)−ln(β0)<0 ∀β ∈∂Nn(δ) (10) gilt. Daraus folgt die Existenz eines inneren Maximums der Loglikelihood-Funktion in- nerhalb vonNn(δ). Wegen der positiven Definitheit der Fisher-Informations-MatrixFn(β) stimmt dieses Maximum mit der eindeutigen L¨osung der Score-Gleichungen ¨uberein. Damit ergibt sich Maximum-Likelihood-Sch¨atzer als L¨osung der Score-Gleichungen und wegen der Kontraktionseigenschaft der Umgebungen Nn(δ) folgt auch die stochastische Konvergenz gegenβ0.
2
Um (10) zu zeigen, werden wir den linearen Term in(7) nach oben und den quadratischen Term nach unten absch¨atzen. Die Cauchy-Schwarzsche Ungleichung liefert
vTFn−1/2Sn(β0)≤ kvk
Fn−1/2Sn(β0) wobei das Gleichheitszeichen f¨ur v= F
−1/2 n Sn(β0)
kFn−1/2Sn(β0)k angenommen wird.
Wegen
IESn(β) =ok und (11)
Fn(β) =Cov(Sn(β)) (12)
gilt
Cov
Fn−1/2(β0)
=Fn−1/2(β0))Fn(β0)Fn−T /2(β0)) =Ik . Daraus ergibt sich
IE
Fn−1/2(β0))Sn(β0)
2
=k und die Markovsche Ungleichung liefert:
P
Fn−1/2(β0))Sn(β0)
2
> ε
≤ IE
Fn−1/2(β0))Sn(β0)
2
ε = k
ε bzw.
P
Fn−1/2(β0))Sn(β0)
2
< ε
≥1−k ε . Andererseits folgt aus Voraussetzung (C):
wTFn(˜β)w≥cwTFn(β0)w ∀w∈Rk und damit insbesondere f¨ur w=Fn−T /2(β0)v:
vTFn−1/2(β0)Fn(˜β)Fn−T /2(β0)v≥cvTFn−1/2(β0)Fn(β0)Fn−T /2(β0)v=c . Zusammenfassend ergibt sich
P
δvTFn−1/2(β0)Sn(β0)< δ2
2 vTFn−1/2(β0)Fn(˜β)Fn−T /2(β0)v
(13)
=P
vTFn−1/2(β0)Sn(β0)< δ
2vTFn−1/2(β0)Fn(˜β)Fn−T /2(β0)v
(14)
≥P
Fn−1/2(β0)Sn(β0) < δ
2c
(15)
=P
Fn−1/2(β0)Sn(β0)
2
< δ2c2 4
(16)
≥1− 4k
δ2c2 (17)
= 1−η (18)
3
f¨ur η= 4k/(c2η) und hinreichend großesn. Daraus ergibt sich P({ln(β)−ln(β0)<0 ∀β ∈∂Nn(δ)})≥1−η und damit die Konsistenz des ML-Sch¨atzers.
Satz 0.1. Unter den Voraussetzungen (O), (D) und (C) gilt f¨ur die Folge der Maximum- Likelihood-Sch¨atzerβˆnim verallgemeinerten linearen Modell mit kanonischer Link-Funktion:
• limn→∞P(Sn(ˆβn) =ok) = 1
• βˆn−→P β0 Gilt zus¨atzlich
(N) F¨ur alle δ >0 gilt:
β∈Nmaxn(δ)
kFn−1/2(β0)Fn(β)Fn−T /2(β0)−Ikkn→ ∞−→ 0 so l¨aßt sich auch die asymptotische Normalit¨at des ML-Sch¨atzers zeigen.
Satz 0.2. Unter den Voraussetzungen (O), (D) und (N) gilt f¨ur die Folge der Maximum- Likelihood-Sch¨atzerβˆ
nim verallgemeinerten linearen Modell mit kanonischer Link-Funktion:
FnT /2(ˆβn−β0)−→d N(ok,Ik) Beweis:ohne Beweis
4