LS-Sch¨atzer
Sei µ = Xβ mit rg(X) = p und β = (β1, . . . , βp)t SSE(β) = (y − µ)t(y − µ)
= yty − 2βtXty + βtXtXβ Minimiere SSE(β) bzgl. β:
∂
∂βSSE(β) = −2Xty + 2XtXβ.
Minimum definiert durch
XtXβˆ = Xty.
Falls XtX regul¨ar (voller Rang p) βˆ = (XtX)−1Xty.
Minimum (pos. semidefinit)?
Prognosevektor ˆ
µ = Xβˆ = X(XtX)−1Xty = Hy mit der Hat Matrix
H = X(XtX)−1Xt. H ist symmetrisch und idempotent, da
HHt = X(XtX)−1Xt(X(XtX)−1Xt)t
= X(XtX)−1Xt = H.
Residuen
r = y − µˆ = y − Hy = (I − H)y.
I − H symmetrisch und idempotent, da
(I − H)(I − H)t = I − 2H + H = I − H.
Da H (bzw. I −H) symmetrisch und idempotent ist rg(H) = tr(H) (bzw. rg(I − H) = tr(I − H))
tr(H) = tr(X(XtX)−1Xt) = tr(Ip) = p, tr(I − H) = tr(In) − tr(H) = n − p.
Weiters ist
SSE( ˆβ) = rtr = yt(I −H)t(I −H)y = yt(I −H)y.
Sei A := I − H und E(y) = µ, var(y) = σ2I E(SSE( ˆβ)) = E(ytAy)
= E
(y − µ)tA(y − µ)
+µtAy + ytAµ − µtAµ
mit den Skalaren ytAµ = µtAy (A symmetrisch), E(ytAµ) = µtAµ. Somit Summe 2-er Skalare
Nun ist
E((y − µ)tA(y − µ)) = tr
E((y − µ)tA(y − µ))
= tr
E(A(y − µ)(y − µ)t)
= tr(Aσ2I) = σ2tr(I − H)
= σ2(n − p) und
µtAµ = (Xβ)t(I − H)(Xβ)
= βtXtXβ − βtXtX(XtX)−1XtXβ = 0.
Daher
E(SSE( ˆβ)) = σ2(n − p).
Somit ist 1
n − pSSE( ˆβ) = 1 n − p
Xn
i=1
(yi − µˆi)2
ein unverzerrter Sch¨atzer f¨ur σ2.
Momente
βˆ = (XtX)−1Xty, µˆ = Hy, r = (I − H)y.
Falls E(y) = Xβ gilt:
• E( ˆβ) = (XtX)−1XtE(y) = β,
• E(ˆµ) = HE(y) = Xβ = µ,
• E(r) = (I − H)E(y) = Xβ − HXβ = 0.
Falls var(y) = σ2I gilt:
• var( ˆβ) = σ2(XtX)−1,
• var(ˆµ) = Hvar(y)Ht = σ2H,
• var(r) = (I − H)var(y)(I − H)t = σ2(I − H).
ANOVA-Zerlegung
X(yi − y)¯ 2
| {z }
SST
= X
{(yi − µˆi) − (¯y − µˆi)}2
= X
(yi − µˆi)2
| {z }
SSE
+ X
(¯y − µˆi)2
| {z }
SSR
−2X
(yi − µˆi)(¯y − µˆi).
Nun ist bei Intercept-Modellen X(yi − µˆi
| {z }
ri
)(¯y − µˆi) = y¯X
ri − X ˆ µiri
= 0 − (Hy)t(I − H)y
= −ytHy + ytHy = 0.
Daher gilt
SST = SSE + SSR.
Totale Variabilit¨at (SST)
= durch Modell nicht erkl¨arte Variabilit¨at (SSE) + durch Modell erkl¨arte Variabilit¨at (SSR).
Unabh¨angigkeit linearer Formen
Sei y ein ZV mit E(y) = µ und Kovarianzmatrix Σ.
Die Kovarianz 2-er linearer Formen u = aty, v = bty ist
cov(u, v) = cov(aty, bty) = atcov(y, y)b
= atvar(y)b = atΣb.
Falls y ∼ N(µ, σ2I), ist
cov( ˆβ, r) = σ2(XtX)−1Xt(I − X(XtX)−1Xt)
= 0,
womit die Unabh¨angigkeit von βˆ mit r folgt.
Unabh¨angigkeit lin.-quadrat. Formen
Sei y ∼ N(0, I). B sei eine feste q × n Matrix und A eine feste symmetrische n × n Matrix. By ist unabh¨angig von ytAy, falls
BA = 0.
Mit SSE( ˆβ) = yt(I − H)y und βˆ = (XtX)−1Xty folgt wegen
(XtX)−1Xt(I − H) = 0 die Unabh¨angigkeit von βˆ und SSE( ˆβ).
• Wie ist SSE( ˆβ) verteilt?
Unabh¨angigkeit quadratischer Formen
Satz von Cochran: Sei y ∼ N(0, I). L¨asst sich die quadratische Form yty als Summe von k quadrati- schen Formen ytAiy schreiben, wobei Ai symmetri- sche Matrizen mit rg(Ai) = ri sind, also
yty = ytIny =
Xk
i=1
ytAiy,
dann ist
Xk
i=1
ri = rg(In) = n
eine notwendige und hinreichende Bedingung f¨ur 1. ytAiy ∼ χ2ri
2. ytAiy sind unabh¨angig.
Bemerkung: Falls y ∼ N(0, σ2I), dann betrachte y/σ und man erh¨alt ytAiy/σ2 ∼ χ2ri.
Verallgemeinerung: auf die Zerlegung von ytBy m¨oglich, d.h. l¨aßt sich ytBy mit rg(B) = rB und B idempotent schreiben als
ytBy =
Xk
i=1
ytAiy, dann ist
Xk
i=1
ri = rg(B)
eine notwendige und hinreichende Bedingung f¨ur die Aussagen des Satzes von Cochran.
Satz: Falls y ∼ N(µ,Σ), so ist 1. ytAy nicht-zentral χ2-verteilt
2. mit Nichtzentralit¨atsparameter Ω = 12µtAµ 3. und Freiheitsgrad rg(A)
dann und nur dann wenn AΣ idempotent.
Bemerkung: F¨ur eine χ2n-Verteilung (µ = 0, Σ = I, A = I) ist Ω = 0 und AΣ = I idempotent.
Mit dem Einsvektor 1 l¨asst sich schreiben:
SST =
Xn
i=1
(yi − y)¯ 2 = (y − y¯1)t(y − y1)¯
= (y − 1
n1ty1)t(y − 1
n1ty1)
= (yt − 1
nyt11t)(y − 1
n11ty)
= yt(I − 1
n11t)(I − 1
n11t)y.
Da I − n111t symmetrisch und wegen
11t11t =
1 . . . 1 ... ... ...
1 . . . 1
1 . . . 1 ... ... ...
1 . . . 1
= n11t
folgt (I−1
n11t)(I−1
n11t) = I−2
n11t+ 1
n2n11t = I−1
n11t, die Idempotenz der Zentriermatrix. Somit ist
Weiters ist
SSE( ˆβ) = yt(I − H)y.
Außerdem resultiert SSR( ˆβ) =
Xn
i=1
(ˆµi − y¯)2 = (ˆµ − y1)¯ t(ˆµ − y1)¯
= (ytH − 1
nyt11t)(Hy − 1
n11ty)
= yt(H − 1
n11t)(H − 1
n11t)y.
Da H eine Projektionsmatrix auf den von den Spalten von X aufgespannten Raum ist, also 1tH = 1 gilt, folgt die Idempotenz
(H − 1
n11t)(H − 1
n11t) = H − 2
n11t + 1
n211t11t
= H − 1 n11t und damit
SSR( ˆβ) = yt(H − 1
n11t)y.
R¨ange der ANOVA-Zerlegung
SST = yt(I − 1
n11t)y = ytBy rg(B) = tr(I) − 1
ntr(11t) = n − 1.
SSE( ˆβ) = yt(I − H)y = ytA1y rg(A1) = tr(I) − tr(H) = n − p.
SSR( ˆβ) = yt(H − 1
n11t)y = ytA2y rg(A2) = tr(H) − 1
ntr(11t) = p − 1
nn = p − 1.
Also gilt:
rg(B) = rg(A1) + rg(A2),
Wie bereits gezeigt, ist f¨ur E(y) = µ, var(y) = Σ und A idempotent
E(ytAy) = tr(AΣ) + µtAµ.
Somit ist f¨ur E(y) = Xβ, var(y) = σ2I E(SSR( ˆβ)) = tr(σ2A2) + βtXtA2Xβ
= σ2(p − 1) + βtXt(H − 1
n11t)Xβ.
F¨ur den zweiten Term (2Ω) folgt βtXt(H − 1
n11t)Xβ = βtXt(I − 1
n11t)Xβ.
Nun gilt f¨ur Interceptmodelle
Xt
1 − n1 −n1 . . . −n1
−n1 1 − n1 . . . −n1 . ..
−n1 1 − n1
X =
0 . . . 0 x xx x ... ... ...
x xx x
,
wobei der mit x markierte Block Dimension (p−1)×p hat. Daher ist Ω = 0 nur f¨ur β = (β1,0, . . . ,0)t. In diesem Fall ist SSR( ˆβ)/σ2 ∼ χ2p−1.
Interessanterweise gilt jedoch f¨ur beliebiges β E(SSE( ˆβ)) = tr(σ2A1) + βtXtA1Xβ
= σ2(n − p) + 0 und SSE( ˆβ)/σ2 ∼ χ2n−p.
Unter H0 : β2 = . . . = βp = 0 ist deshalb SSR( ˆβ)/(p − 1)
SSE( ˆβ)/(n − p) ∼ Fp−1,n−p.
Anmerkung: Die Gr¨oße SSE( ˆβ)/(n − p) ist er- wartungstreuer Sch¨atzer f¨ur σ2 unter E(yi) = xtiβ.
SSR( ˆβ)/(p−1) ist nur erwartungstreu, falls E(yi) = β1 f¨ur alle i = 1, . . . , n.
Likelihood-Ratio Test
Sei β = (β1, β2)t ∈ Θ ⊆ Rp mit β1 = (β1, . . . , βq)t und β2 = (βq+1, . . . , βp)t, q < p.
Betrachtet wird die p − q dimensionale Hypothese H0 : β2 = β20
oder allgemeiner: H0 bildet Rp auf Rq ab.
L(β;y) sei die Likelihood Funktion der Stichprobe Λ = supβ∈H0 L(β;y)
supβ∈Θ L(β;y) Nun gilt
λ = −2 log Λ ∼ χ2p−q.
Freiheitsgrade entsprechen der Anzahl der Parameter, die in H0 fixiert sind.
F¨ur y ∼ N(Xβ, σ2I) (σ2 fest) gilt
logL(β;y) = −n
2 log(2πσ2) − 1 2σ2
Xn
i=1
(yi − µˆi)2
Sei H0 : β2 = 0, X = (X1|X2), βˆ MLE f¨ur das Modell E(y) = Xβ und βˆ1 MLE f¨ur das reduzierte Modell E(y) = X1β1. Dann ist
maxβ∈Θ L(β;y) = L( ˆβ;y)
βmax∈H0 L(β;y) = L( ˆβ1;y)
Somit resultiert als Likelihood-Ratio Statistik λ = −2
log L( ˆβ1;y) − logL( ˆβ;y)
= 1
σ2
Xn
i=1
(yi − xtiβˆ1)2 −
Xn
i=1
(yi − xtiβ)ˆ
= 1
σ2(SSE( ˆβ1) − SSE( ˆβ))
= 1
σ2(SSR( ˆβ) − SSR( ˆβ1)) H∼0 χ2p−q.
Merke: Die doppelte Log-Likelihood Differenz zweier nested models (Deviance-Reduktion)ist χ2-verteilt.
Falls σ2 unbekannt, wird es basierend auf das sa- turierte Modell gesch¨atzt und oben verwendet,z.B.
durch SSE( ˆβ)/(n−p). F¨ur die LRT-Statistik ergibt sich
(SSR( ˆβ) − SSR( ˆβ1))/(p − q)
SSE( ˆβ)/(n − p) ∼ Fp−q,n−p. Multiples Bestimmtheitsmaß
Die multiple Korrelation zwischen y und X = (X1|. . .|Xp) wird gesch¨atzt durch Ry,X mit
Ry,X2 = Rty,XR−X,X1 Ry,X,
mit Ry,X = (Ry,X1, . . . , Ry,Xp)t und der p×p Matrix RX,X = (RXi,Xj). Es gilt |Ry,X| ≤ 1.
Das multiple Bestimmtheitsmaß By,X = SSR( ˆβ)
SST = Ry,X2
beschreibt den Anteil der Variabilit¨at in y, der durch das Modell erkl¨art ist. Es gilt 0 ≤ By,X ≤ 1.
Wald-Test
Test auf eine Komponente βj von β:
H0 : βj = βj0 (= 0)
Da βˆ ∼ N(β, σ2(XtX)−1), ist Z =
βˆj − βj0 σ
q
xtixi H∼0 N(0,1)
Weiters sind S2 = n−1p P
(yi−µˆi)2 und βˆ unabh¨angig und
V = n − p
σ2 S2 = 1
σ2SSE( ˆβ) ∼ χ2n−p. Daher gilt
T = Z
pV /(n − p) = βˆj
S q
xtixi H0
∼ tn−p. Daher