(1)LS-Sch¨atzer Sei µ = Xβ mit rg(X

(1)

LS-Sch¨atzer

Sei µ = Xβ mit rg(X) = p und β = (β1, . . . , βp)^t SSE(β) = (y − µ)^t(y − µ)

= y^ty − 2β^tX^ty + β^tX^tXβ Minimiere SSE(β) bzgl. β:

∂

∂βSSE(β) = −2X^ty + 2X^tXβ.

Minimum definiert durch

X^tXβˆ = X^ty.

Falls X^tX regul¨ar (voller Rang p) βˆ = (X^tX)⁻¹X^ty.

Minimum (pos. semidefinit)?

(2)

Prognosevektor ˆ

µ = Xβˆ = X(X^tX)⁻¹X^ty = Hy mit der Hat Matrix

H = X(X^tX)⁻¹X^t. H ist symmetrisch und idempotent, da

HH^t = X(X^tX)⁻¹X^t(X(X^tX)⁻¹X^t)^t

= X(X^tX)⁻¹X^t = H.

Residuen

r = y − µˆ = y − Hy = (I − H)y.

I − H symmetrisch und idempotent, da

(I − H)(I − H)^t = I − 2H + H = I − H.

(3)

Da H (bzw. I −H) symmetrisch und idempotent ist rg(H) = tr(H) (bzw. rg(I − H) = tr(I − H))

tr(H) = tr(X(X^tX)⁻¹X^t) = tr(Ip) = p, tr(I − H) = tr(I_n) − tr(H) = n − p.

Weiters ist

SSE( ˆβ) = r^tr = y^t(I −H)^t(I −H)y = y^t(I −H)y.

Sei A := I − H und E(y) = µ, var(y) = σ²I E(SSE( ˆβ)) = E(y^tAy)

= E

(y − µ)^tA(y − µ)

+µ^tAy + y^tAµ − µ^tAµ

mit den Skalaren y^tAµ = µ^tAy (A symmetrisch), E(y^tAµ) = µ^tAµ. Somit Summe 2-er Skalare

(4)

Nun ist

E((y − µ)^tA(y − µ)) = tr

E((y − µ)^tA(y − µ))

= tr

E(A(y − µ)(y − µ)^t)

= tr(Aσ²I) = σ²tr(I − H)

= σ²(n − p) und

µ^tAµ = (Xβ)^t(I − H)(Xβ)

= β^tX^tXβ − β^tX^tX(X^tX)⁻¹X^tXβ = 0.

Daher

E(SSE( ˆβ)) = σ²(n − p).

Somit ist 1

n − pSSE( ˆβ) = 1 n − p

Xn

i=1

(y_i − µˆ_i)²

ein unverzerrter Sch¨atzer f¨ur σ².

(5)

Momente

βˆ = (X^tX)⁻¹X^ty, µˆ = Hy, r = (I − H)y.

Falls E(y) = Xβ gilt:

• E( ˆβ) = (X^tX)⁻¹X^tE(y) = β,

• E(ˆµ) = HE(y) = Xβ = µ,

• E(r) = (I − H)E(y) = Xβ − HXβ = 0.

Falls var(y) = σ²I gilt:

• var( ˆβ) = σ²(X^tX)⁻¹,

• var(ˆµ) = Hvar(y)H^t = σ²H,

• var(r) = (I − H)var(y)(I − H)^t = σ²(I − H).

(6)

ANOVA-Zerlegung

X(y_i − y)¯ ²

| {z }

SST

= X

{(y_i − µˆ_i) − (¯y − µˆ_i)}²

= X

(yi − µˆi)²

| {z }

SSE

+ X

(¯y − µˆi)²

| {z }

SSR

−2X

(y_i − µˆ_i)(¯y − µˆ_i).

Nun ist bei Intercept-Modellen X(y_i − µˆ_i

| {z }

r_i

)(¯y − µˆ_i) = y¯X

r_i − X ˆ µ_ir_i

= 0 − (Hy)^t(I − H)y

= −y^tHy + y^tHy = 0.

Daher gilt

SST = SSE + SSR.

Totale Variabilit¨at (SST)

= durch Modell nicht erklärte Variabilität (SSE) + durch Modell erklärte Variabilität (SSR).

(7)

Unabh¨angigkeit linearer Formen

Sei y ein ZV mit E(y) = µ und Kovarianzmatrix Σ.

Die Kovarianz 2-er linearer Formen u = a^ty, v = b^ty ist

cov(u, v) = cov(a^ty, b^ty) = a^tcov(y, y)b

= a^tvar(y)b = a^tΣb.

Falls y ∼ N(µ, σ²I), ist

cov( ˆβ, r) = σ²(X^tX)⁻¹X^t(I − X(X^tX)⁻¹X^t)

= 0,

womit die Unabh¨angigkeit von βˆ mit r folgt.

(8)

Unabh¨angigkeit lin.-quadrat. Formen

Sei y ∼ N(0, I). B sei eine feste q × n Matrix und A eine feste symmetrische n × n Matrix. By ist unabh¨angig von y^tAy, falls

BA = 0.

Mit SSE( ˆβ) = y^t(I − H)y und βˆ = (X^tX)⁻¹X^ty folgt wegen

(X^tX)⁻¹X^t(I − H) = 0 die Unabh¨angigkeit von βˆ und SSE( ˆβ).

• Wie ist SSE( ˆβ) verteilt?

(9)

Unabh¨angigkeit quadratischer Formen

Satz von Cochran: Sei y ∼ N(0, I). L¨asst sich die quadratische Form y^ty als Summe von k quadrati- schen Formen y^tA_iy schreiben, wobei A_i symmetrische Matrizen mit rg(Ai) = ri sind, also

y^ty = y^tIny =

Xk

i=1

y^tAiy,

dann ist

Xk

i=1

r_i = rg(I_n) = n

eine notwendige und hinreichende Bedingung f¨ur 1. y^tAiy ∼ χ²_r_i

2. y^tAiy sind unabh¨angig.

Bemerkung: Falls y ∼ N(0, σ²I), dann betrachte y/σ und man erh¨alt y^tAiy/σ² ∼ χ²_r_i.

(10)

Verallgemeinerung: auf die Zerlegung von y^tBy m¨oglich, d.h. l¨aßt sich y^tBy mit rg(B) = r_B und B idempotent schreiben als

y^tBy =

Xk

i=1

y^tA_iy, dann ist

Xk

i=1

r_i = rg(B)

eine notwendige und hinreichende Bedingung f¨ur die Aussagen des Satzes von Cochran.

Satz: Falls y ∼ N(µ,Σ), so ist 1. y^tAy nicht-zentral χ²-verteilt

2. mit Nichtzentralit¨atsparameter Ω = ¹₂µ^tAµ 3. und Freiheitsgrad rg(A)

dann und nur dann wenn AΣ idempotent.

Bemerkung: F¨ur eine χ²_n-Verteilung (µ = 0, Σ = I, A = I) ist Ω = 0 und AΣ = I idempotent.

(11)

Mit dem Einsvektor 1 l¨asst sich schreiben:

SST =

Xn

i=1

(y_i − y)¯ ² = (y − y¯1)^t(y − y1)¯

= (y − 1

n1^ty1)^t(y − 1

n1^ty1)

= (y^t − 1

ny^t11^t)(y − 1

n11^ty)

= y^t(I − 1

n11^t)(I − 1

n11^t)y.

Da I − _n¹11^t symmetrisch und wegen

11^t11^t =





1 . . . 1 ... ... ...

1 . . . 1









1 . . . 1 ... ... ...

1 . . . 1



 = n11^t

folgt (I−1

n11^t)(I−1

n11^t) = I−2

n11^t+ 1

n²n11^t = I−1

n11^t, die Idempotenz der Zentriermatrix. Somit ist

(12)

Weiters ist

SSE( ˆβ) = y^t(I − H)y.

Außerdem resultiert SSR( ˆβ) =

Xn

i=1

(ˆµ_i − y¯)² = (ˆµ − y1)¯ ^t(ˆµ − y1)¯

= (y^tH − 1

ny^t11^t)(Hy − 1

n11^ty)

= y^t(H − 1

n11^t)(H − 1

n11^t)y.

Da H eine Projektionsmatrix auf den von den Spalten von X aufgespannten Raum ist, also 1^tH = 1 gilt, folgt die Idempotenz

(H − 1

n11^t)(H − 1

n11^t) = H − 2

n11^t + 1

n²11^t11^t

= H − 1 n11^t und damit

SSR( ˆβ) = y^t(H − 1

n11^t)y.

(13)

R¨ange der ANOVA-Zerlegung

SST = y^t(I − 1

n11^t)y = y^tBy rg(B) = tr(I) − 1

ntr(11^t) = n − 1.

SSE( ˆβ) = y^t(I − H)y = y^tA1y rg(A1) = tr(I) − tr(H) = n − p.

SSR( ˆβ) = y^t(H − 1

n11^t)y = y^tA2y rg(A2) = tr(H) − 1

ntr(11^t) = p − 1

nn = p − 1.

Also gilt:

rg(B) = rg(A1) + rg(A2),

(14)

Wie bereits gezeigt, ist f¨ur E(y) = µ, var(y) = Σ und A idempotent

E(y^tAy) = tr(AΣ) + µ^tAµ.

Somit ist f¨ur E(y) = Xβ, var(y) = σ²I E(SSR( ˆβ)) = tr(σ²A2) + β^tX^tA2Xβ

= σ²(p − 1) + β^tX^t(H − 1

n11^t)Xβ.

F¨ur den zweiten Term (2Ω) folgt β^tX^t(H − 1

n11^t)Xβ = β^tX^t(I − 1

n11^t)Xβ.

Nun gilt f¨ur Interceptmodelle

X^t







1 − _n¹ −_n¹ . . . −_n¹

−_n¹ 1 − _n¹ . . . −_n¹ . ..

−_n¹ 1 − _n¹





X =







0 . . . 0 x xx x ... ... ...

x xx x





,

wobei der mit x markierte Block Dimension (p−1)×p hat. Daher ist Ω = 0 nur f¨ur β = (β1,0, . . . ,0)^t. In diesem Fall ist SSR( ˆβ)/σ² ∼ χ²_p₋₁.

(15)

Interessanterweise gilt jedoch f¨ur beliebiges β E(SSE( ˆβ)) = tr(σ²A1) + β^tX^tA1Xβ

= σ²(n − p) + 0 und SSE( ˆβ)/σ² ∼ χ²_n−p.

Unter H0 : β2 = . . . = β_p = 0 ist deshalb SSR( ˆβ)/(p − 1)

SSE( ˆβ)/(n − p) ∼ Fp−1,n−p.

Anmerkung: Die Größe SSE( ˆβ)/(n − p) ist er- wartungstreuer Schätzer für σ² unter E(y_i) = x^t_iβ.

SSR( ˆβ)/(p−1) ist nur erwartungstreu, falls E(y_i) = β1 f¨ur alle i = 1, . . . , n.

(16)

Likelihood-Ratio Test

Sei β = (β¹, β²)^t ∈ Θ ⊆ R^p mit β¹ = (β1, . . . , βq)^t und β² = (β_q+1, . . . , β_p)^t, q < p.

Betrachtet wird die p − q dimensionale Hypothese H0 : β² = β²⁰

oder allgemeiner: H0 bildet R^p auf R^q ab.

L(β;y) sei die Likelihood Funktion der Stichprobe Λ = sup_β∈H₀ L(β;y)

sup_β∈Θ L(β;y) Nun gilt

λ = −2 log Λ ∼ χ²_p₋_q.

Freiheitsgrade entsprechen der Anzahl der Parameter, die in H0 fixiert sind.

F¨ur y ∼ N(Xβ, σ²I) (σ² fest) gilt

logL(β;y) = −n

2 log(2πσ²) − 1 2σ²

Xn

i=1

(yi − µˆi)²

(17)

Sei H0 : β² = 0, X = (X¹|X²), βˆ MLE f¨ur das Modell E(y) = Xβ und βˆ¹ MLE f¨ur das reduzierte Modell E(y) = X¹β¹. Dann ist

maxβ∈Θ L(β;y) = L( ˆβ;y)

βmax∈H₀ L(β;y) = L( ˆβ¹;y)

Somit resultiert als Likelihood-Ratio Statistik λ = −2

log L( ˆβ¹;y) − logL( ˆβ;y)

= 1

σ²

Xⁿ

i=1

(yi − x^t_iβˆ¹)² −

Xn

i=1

(yi − x^t_iβ)ˆ

= 1

σ²(SSE( ˆβ¹) − SSE( ˆβ))

= 1

σ²(SSR( ˆβ) − SSR( ˆβ¹)) ^H∼⁰ χ²_p−q.

Merke: Die doppelte Log-Likelihood Differenz zweier nested models (Deviance-Reduktion)ist χ²-verteilt.

(18)

Falls σ² unbekannt, wird es basierend auf das sa- turierte Modell gesch¨atzt und oben verwendet,z.B.

durch SSE( ˆβ)/(n−p). F¨ur die LRT-Statistik ergibt sich

(SSR( ˆβ) − SSR( ˆβ¹))/(p − q)

SSE( ˆβ)/(n − p) ∼ F_p−q,n−p. Multiples Bestimmtheitsmaß

Die multiple Korrelation zwischen y und X = (X1|. . .|Xp) wird gesch¨atzt durch Ry,X mit

R_y,X² = R^t_y,XR⁻_X,X¹ Ry,X,

mit R_y,X = (R_y,X₁, . . . , R_y,X_p)^t und der p×p Matrix R_X,X = (R_X_i_,X_j). Es gilt |R_y,X| ≤ 1.

Das multiple Bestimmtheitsmaß B_y,X = SSR( ˆβ)

SST = R_y,X²

beschreibt den Anteil der Variabilit¨at in y, der durch das Modell erkl¨art ist. Es gilt 0 ≤ B_y,X ≤ 1.

(19)

Wald-Test

Test auf eine Komponente βj von β:

H0 : β_j = β_j⁰ (= 0)

Da βˆ ∼ N(β, σ²(X^tX)⁻¹), ist Z =

βˆ_j − β_j⁰ σ

q

x^t_ix_i ^H∼⁰ N(0,1)

Weiters sind S² = _n₋¹_p P

(y_i−µˆ_i)² und βˆ unabh¨angig und

V = n − p

σ² S² = 1

σ²SSE( ˆβ) ∼ χ²_n−p. Daher gilt

T = Z

pV /(n − p) = βˆj

S q

x^t_ixi H0

∼ tn−p. Daher