Konsistenz des ML-Sch¨ atzers im verallgemeinerten linearen Modell mit kanonischer Linkfunktion

(1)

Konsistenz des ML-Sch¨ atzers im verallgemeinerten linearen Modell mit kanonischer Linkfunktion

Wir betrachten das verallgemeinerte lineare Modell

IEY_i=h(x^T_i β) , i= 1, . . . , n bzw.

g(IEYi) =x^T_i β , i= 1, . . . , n

wobei die Zufallsvariablen Yi unabh¨angig sind und aus einer Exponential-Dispersions- Familie mit der Dichtefunktion

f(y) =c(y, ϕ) exp

yθ−A(θ) ϕ

stammen. Wir wollen die Konsistenz der Folge der ML-Sch¨atzer nβˆ_n

o

f¨ur den Fall un- tersuchen, dass g die kanonische Linkfunktion der Exponential-Dispersions-Familie ist.

Der Dispersionsparameter ϕ spielt bei diesen Betrachtungen keine Rolle, da das Score- Gleichungssystem unabh¨angig vonϕ ist. Deshalb setzen wir o.B.d.A.ϕ= 1.

Grundidee:Taylorentwicklung der Loglikelihood-Funktion in der Umgebung des wahren Parametervektorsβ⁰

F¨ur δ >0 definieren wir eine Folge von Umgebungen vonβ⁰ durch:

N_n(δ) = n

β:||F_n^{T /2}(β⁰)(β−β⁰)|| ≤δo

n= 1,2, . . .

= n

β: (β−β⁰)^TF_n^{T /2}(β⁰)(β−β⁰)≤δ² o

Wir wollen zeigen, dass mit beliebig großer Wahrscheinlichkeit die eindeutige Lösung der Score-Gleichungen in dieser Umgebung liegt. Wenn die Folge der Umgebungen sich für n→ ∞ auf den Punktβ⁰ zusammenzieht, folgt die Konvergenz des ML-Schätzers. Daher fordern wir:

(D) F¨ur den kleinsten Eigenwertλ_min der Fisher-Informations-MatrixF_n(β⁰) gilt:

n→∞lim λmin =∞ (Divergenz) (O) Der zul¨assige Parameterraum B ist eine offene Teilmenge desR^k. Wegen

(β−β⁰)^TF_n^{T /2}(β⁰)(β−β⁰)≥λ_min||β−β⁰||²

sichert Voraussetzung (D) die Kontraktionseigenschaft der Umgebungen N_n(δ) und die Voraussetzung (O) sichert, dass für hinreichend großes n die Umgebung vollständig im zulässigen ParameterraumB enthalten ist.

1

(2)

F¨ur alle Randpunkte der Umgebung N_n(δ), β ∈ ∂N_n(δ) liefert die Taylorentwicklung 2.Ordnung der Loglikelihood-Funktion:

l_n(β) =_n(β⁰) +

k

X

j=1

∂l_n(β)

∂βj |β=β⁰

(β_j −β_j⁰) +1 2

k

X

j=1 k

X

l=1

∂²l_n(β)

∂βj∂βl|β=˜β

(β_j−β_j⁰)(β_l−β_l⁰) (1)

=_n(β⁰) + (β−β⁰)^T∂ln(β)

∂β _|β=β0

+1

2(β−β⁰)^T





∂l_n²(β)

∂β∂β^T_|β=˜

β



(β−β⁰) (2) f¨ur eine Zwischenstelle ˜β(∈N_n(δ)).

Die 1. Ableitungen der Loglikelihood-Funktion bilden die Score-Funktion S_n(β); die Ma- trix der partiellen 2. Ableitungen ist die negative beobachtete Fisher-Informations-Matrix I_n(˜β), die bei kanonischer Linkfunktion nicht von den Beobachtungen der Zielgröße ab- hängt und daher mit der erwarteten Fisher-Informations-Matrix F_n(˜β) übereinstimmt.

ln(β) =n(β⁰) + (β−β⁰)^TSn(β⁰)−1

2(β−β⁰)^TFn(˜β)(β−β⁰) (3)

=_n(β⁰) +δ(β−β⁰)^TF_n^1/2(β⁰)

δ F_n^−1/2(β₀)S_n(β⁰) (4)

−δ² 2

(β−β⁰)^TFn^1/2(β⁰)

δ F_n^−1/2(β₀)Fn(˜β)F_n^{−T /2}(β₀)Fn^{T /2}(β₀)(β−β⁰)

δ (5)

(6) Mit der Bezeichnung v=Fn^{T /2}(β₀)(β−β⁰)/δ erhalten wir also:

ln(β)−ln(β⁰) =δv^TF_n^−1/2(β₀)Sn(β⁰)−δ²

2v^TF_n^−1/2(β⁰)Fn(˜β)F_n^{−T /2}(β⁰)v (7) Daβ ein Randpunkt der Umgebung Nn(δ) ist, gilt:

kF_n^{T /2}(β−β⁰)k=δ und daher (8)

Fn^{T /2}(β−β⁰) δ

=kvk= 1 . (9)

Wir werden zeigen, dass mit beliebig großer Wahrscheinlichkeit

ln(β)−ln(β⁰)<0 ∀β ∈∂Nn(δ) (10) gilt. Daraus folgt die Existenz eines inneren Maximums der Loglikelihood-Funktion in- nerhalb vonNn(δ). Wegen der positiven Definitheit der Fisher-Informations-MatrixFn(β) stimmt dieses Maximum mit der eindeutigen Lösung der Score-Gleichungen überein. Damit ergibt sich Maximum-Likelihood-Schätzer als Lösung der Score-Gleichungen und wegen der Kontraktionseigenschaft der Umgebungen Nn(δ) folgt auch die stochastische Konvergenz gegenβ⁰.

2

(3)

Um (10) zu zeigen, werden wir den linearen Term in(7) nach oben und den quadratischen Term nach unten absch¨atzen. Die Cauchy-Schwarzsche Ungleichung liefert

v^TF_n^−1/2Sn(β⁰)≤ kvk

F_n^−1/2Sn(β⁰) wobei das Gleichheitszeichen f¨ur v= ^F

−1/2 n Sn(β⁰)

kF_n^−1/2Sn(β⁰)k angenommen wird.

Wegen

IESn(β) =o_k und (11)

F_n(β) =Cov(S_n(β)) (12)

gilt

Cov

F_n^−1/2(β⁰)

=F_n^−1/2(β⁰))Fn(β⁰)F_n^{−T /2}(β⁰)) =Ik . Daraus ergibt sich

IE

F_n^−1/2(β⁰))Sn(β⁰)

2

=k und die Markovsche Ungleichung liefert:

P

F_n^−1/2(β⁰))S_n(β⁰)

2

> ε

≤ IE

F_n^−1/2(β⁰))S_n(β⁰)

2

ε = k

ε bzw.

P

F_n^−1/2(β⁰))Sn(β⁰)

2

< ε

≥1−k ε . Andererseits folgt aus Voraussetzung (C):

w^TFn(˜β)w≥cw^TFn(β⁰)w ∀w∈R^k und damit insbesondere f¨ur w=Fn^{−T /2}(β⁰)v:

v^TF_n^−1/2(β⁰)Fn(˜β)F_n^{−T /2}(β⁰)v≥cv^TF_n^−1/2(β⁰)Fn(β⁰)F_n^{−T /2}(β⁰)v=c . Zusammenfassend ergibt sich

P

δv^TF_n^−1/2(β⁰)Sn(β⁰)< δ²

2 v^TF_n^−1/2(β⁰)Fn(˜β)F_n^{−T /2}(β⁰)v

(13)

=P

v^TF_n^−1/2(β⁰)S_n(β⁰)< δ

2v^TF_n^−1/2(β⁰)F_n(˜β)F_n^{−T /2}(β⁰)v

(14)

≥P

F_n^−1/2(β⁰)S_n(β⁰) < δ

2c

(15)

=P

F_n^−1/2(β⁰)Sn(β⁰)

2

< δ²c² 4

(16)

≥1− 4k

δ²c² (17)

= 1−η (18)

3

(4)

f¨ur η= 4k/(c²η) und hinreichend großesn. Daraus ergibt sich P({l_n(β)−l_n(β⁰)<0 ∀β ∈∂N_n(δ)})≥1−η und damit die Konsistenz des ML-Sch¨atzers.

Satz 0.1. Unter den Voraussetzungen (O), (D) und (C) gilt f¨ur die Folge der Maximum- Likelihood-Sch¨atzerβˆ_nim verallgemeinerten linearen Modell mit kanonischer Link-Funktion:

• limn→∞P(Sn(ˆβ_n) =o_k) = 1

• βˆ_n−→^P β⁰ Gilt zus¨atzlich

(N) F¨ur alle δ >0 gilt:

β∈Nmaxn(δ)

kF_n^−1/2(β⁰)F_n(β)F_n^{−T /2}(β⁰)−Ikkn→ ∞^−→ 0 so läßt sich auch die asymptotische Normalität des ML-Schätzers zeigen.

Satz 0.2. Unter den Voraussetzungen (O), (D) und (N) gilt f¨ur die Folge der Maximum- Likelihood-Sch¨atzerβˆ

nim verallgemeinerten linearen Modell mit kanonischer Link-Funktion:

F_n^{T /2}(ˆβ_n−β⁰)−→^d N(o_k,Ik) Beweis:ohne Beweis

4