• Keine Ergebnisse gefunden

(1)LS-Sch¨atzer Sei µ = Xβ mit rg(X

N/A
N/A
Protected

Academic year: 2021

Aktie "(1)LS-Sch¨atzer Sei µ = Xβ mit rg(X"

Copied!
19
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

LS-Sch¨atzer

Sei µ = Xβ mit rg(X) = p und β = (β1, . . . , βp)t SSE(β) = (y − µ)t(y − µ)

= yty − 2βtXty + βtXtXβ Minimiere SSE(β) bzgl. β:

∂βSSE(β) = −2Xty + 2XtXβ.

Minimum definiert durch

XtXβˆ = Xty.

Falls XtX regul¨ar (voller Rang p) βˆ = (XtX)−1Xty.

Minimum (pos. semidefinit)?

(2)

Prognosevektor ˆ

µ = Xβˆ = X(XtX)−1Xty = Hy mit der Hat Matrix

H = X(XtX)−1Xt. H ist symmetrisch und idempotent, da

HHt = X(XtX)−1Xt(X(XtX)−1Xt)t

= X(XtX)−1Xt = H.

Residuen

r = y − µˆ = y − Hy = (I − H)y.

I − H symmetrisch und idempotent, da

(I − H)(I − H)t = I − 2H + H = I − H.

(3)

Da H (bzw. I −H) symmetrisch und idempotent ist rg(H) = tr(H) (bzw. rg(I − H) = tr(I − H))

tr(H) = tr(X(XtX)−1Xt) = tr(Ip) = p, tr(I − H) = tr(In) − tr(H) = n − p.

Weiters ist

SSE( ˆβ) = rtr = yt(I −H)t(I −H)y = yt(I −H)y.

Sei A := I − H und E(y) = µ, var(y) = σ2I E(SSE( ˆβ)) = E(ytAy)

= E

(y − µ)tA(y − µ)

tAy + ytAµ − µt

mit den Skalaren ytAµ = µtAy (A symmetrisch), E(ytAµ) = µtAµ. Somit Summe 2-er Skalare

(4)

Nun ist

E((y − µ)tA(y − µ)) = tr

E((y − µ)tA(y − µ))

= tr

E(A(y − µ)(y − µ)t)

= tr(Aσ2I) = σ2tr(I − H)

= σ2(n − p) und

µtAµ = (Xβ)t(I − H)(Xβ)

= βtXtXβ − βtXtX(XtX)−1XtXβ = 0.

Daher

E(SSE( ˆβ)) = σ2(n − p).

Somit ist 1

n − pSSE( ˆβ) = 1 n − p

Xn

i=1

(yi − µˆi)2

ein unverzerrter Sch¨atzer f¨ur σ2.

(5)

Momente

βˆ = (XtX)−1Xty, µˆ = Hy, r = (I − H)y.

Falls E(y) = Xβ gilt:

• E( ˆβ) = (XtX)1XtE(y) = β,

• E(ˆµ) = HE(y) = Xβ = µ,

• E(r) = (I − H)E(y) = Xβ − HXβ = 0.

Falls var(y) = σ2I gilt:

• var( ˆβ) = σ2(XtX)−1,

• var(ˆµ) = Hvar(y)Ht = σ2H,

• var(r) = (I − H)var(y)(I − H)t = σ2(I − H).

(6)

ANOVA-Zerlegung

X(yi − y)¯ 2

| {z }

SST

= X

{(yi − µˆi) − (¯y − µˆi)}2

= X

(yi − µˆi)2

| {z }

SSE

+ X

(¯y − µˆi)2

| {z }

SSR

−2X

(yi − µˆi)(¯y − µˆi).

Nun ist bei Intercept-Modellen X(yi − µˆi

| {z }

ri

)(¯y − µˆi) = y¯X

ri − X ˆ µiri

= 0 − (Hy)t(I − H)y

= −ytHy + ytHy = 0.

Daher gilt

SST = SSE + SSR.

Totale Variabilit¨at (SST)

= durch Modell nicht erkl¨arte Variabilit¨at (SSE) + durch Modell erkl¨arte Variabilit¨at (SSR).

(7)

Unabh¨angigkeit linearer Formen

Sei y ein ZV mit E(y) = µ und Kovarianzmatrix Σ.

Die Kovarianz 2-er linearer Formen u = aty, v = bty ist

cov(u, v) = cov(aty, bty) = atcov(y, y)b

= atvar(y)b = atΣb.

Falls y ∼ N(µ, σ2I), ist

cov( ˆβ, r) = σ2(XtX)−1Xt(I − X(XtX)−1Xt)

= 0,

womit die Unabh¨angigkeit von βˆ mit r folgt.

(8)

Unabh¨angigkeit lin.-quadrat. Formen

Sei y ∼ N(0, I). B sei eine feste q × n Matrix und A eine feste symmetrische n × n Matrix. By ist unabh¨angig von ytAy, falls

BA = 0.

Mit SSE( ˆβ) = yt(I − H)y und βˆ = (XtX)−1Xty folgt wegen

(XtX)1Xt(I − H) = 0 die Unabh¨angigkeit von βˆ und SSE( ˆβ).

• Wie ist SSE( ˆβ) verteilt?

(9)

Unabh¨angigkeit quadratischer Formen

Satz von Cochran: Sei y ∼ N(0, I). L¨asst sich die quadratische Form yty als Summe von k quadrati- schen Formen ytAiy schreiben, wobei Ai symmetri- sche Matrizen mit rg(Ai) = ri sind, also

yty = ytIny =

Xk

i=1

ytAiy,

dann ist

Xk

i=1

ri = rg(In) = n

eine notwendige und hinreichende Bedingung f¨ur 1. ytAiy ∼ χ2ri

2. ytAiy sind unabh¨angig.

Bemerkung: Falls y ∼ N(0, σ2I), dann betrachte y/σ und man erh¨alt ytAiy/σ2 ∼ χ2ri.

(10)

Verallgemeinerung: auf die Zerlegung von ytBy m¨oglich, d.h. l¨aßt sich ytBy mit rg(B) = rB und B idempotent schreiben als

ytBy =

Xk

i=1

ytAiy, dann ist

Xk

i=1

ri = rg(B)

eine notwendige und hinreichende Bedingung f¨ur die Aussagen des Satzes von Cochran.

Satz: Falls y ∼ N(µ,Σ), so ist 1. ytAy nicht-zentral χ2-verteilt

2. mit Nichtzentralit¨atsparameter Ω = 12µtAµ 3. und Freiheitsgrad rg(A)

dann und nur dann wenn AΣ idempotent.

Bemerkung: F¨ur eine χ2n-Verteilung (µ = 0, Σ = I, A = I) ist Ω = 0 und AΣ = I idempotent.

(11)

Mit dem Einsvektor 1 l¨asst sich schreiben:

SST =

Xn

i=1

(yi − y)¯ 2 = (y − y¯1)t(y − y1)¯

= (y − 1

n1ty1)t(y − 1

n1ty1)

= (yt − 1

nyt11t)(y − 1

n11ty)

= yt(I − 1

n11t)(I − 1

n11t)y.

Da I − n111t symmetrisch und wegen

11t11t =

1 . . . 1 ... ... ...

1 . . . 1

1 . . . 1 ... ... ...

1 . . . 1

 = n11t

folgt (I−1

n11t)(I−1

n11t) = I−2

n11t+ 1

n2n11t = I−1

n11t, die Idempotenz der Zentriermatrix. Somit ist

(12)

Weiters ist

SSE( ˆβ) = yt(I − H)y.

Außerdem resultiert SSR( ˆβ) =

Xn

i=1

(ˆµi − y¯)2 = (ˆµ − y1)¯ t(ˆµ − y1)¯

= (ytH − 1

nyt11t)(Hy − 1

n11ty)

= yt(H − 1

n11t)(H − 1

n11t)y.

Da H eine Projektionsmatrix auf den von den Spalten von X aufgespannten Raum ist, also 1tH = 1 gilt, folgt die Idempotenz

(H − 1

n11t)(H − 1

n11t) = H − 2

n11t + 1

n211t11t

= H − 1 n11t und damit

SSR( ˆβ) = yt(H − 1

n11t)y.

(13)

R¨ange der ANOVA-Zerlegung

SST = yt(I − 1

n11t)y = ytBy rg(B) = tr(I) − 1

ntr(11t) = n − 1.

SSE( ˆβ) = yt(I − H)y = ytA1y rg(A1) = tr(I) − tr(H) = n − p.

SSR( ˆβ) = yt(H − 1

n11t)y = ytA2y rg(A2) = tr(H) − 1

ntr(11t) = p − 1

nn = p − 1.

Also gilt:

rg(B) = rg(A1) + rg(A2),

(14)

Wie bereits gezeigt, ist f¨ur E(y) = µ, var(y) = Σ und A idempotent

E(ytAy) = tr(AΣ) + µtAµ.

Somit ist f¨ur E(y) = Xβ, var(y) = σ2I E(SSR( ˆβ)) = tr(σ2A2) + βtXtA2

= σ2(p − 1) + βtXt(H − 1

n11t)Xβ.

F¨ur den zweiten Term (2Ω) folgt βtXt(H − 1

n11t)Xβ = βtXt(I − 1

n11t)Xβ.

Nun gilt f¨ur Interceptmodelle

Xt



1 − n1n1 . . . −n1

n1 1 − n1 . . . −n1 . ..

n1 1 − n1



X =



0 . . . 0 x xx x ... ... ...

x xx x



,

wobei der mit x markierte Block Dimension (p−1)×p hat. Daher ist Ω = 0 nur f¨ur β = (β1,0, . . . ,0)t. In diesem Fall ist SSR( ˆβ)/σ2 ∼ χ2p−1.

(15)

Interessanterweise gilt jedoch f¨ur beliebiges β E(SSE( ˆβ)) = tr(σ2A1) + βtXtA1

= σ2(n − p) + 0 und SSE( ˆβ)/σ2 ∼ χ2np.

Unter H0 : β2 = . . . = βp = 0 ist deshalb SSR( ˆβ)/(p − 1)

SSE( ˆβ)/(n − p) ∼ Fp−1,np.

Anmerkung: Die Gr¨oße SSE( ˆβ)/(n − p) ist er- wartungstreuer Sch¨atzer f¨ur σ2 unter E(yi) = xtiβ.

SSR( ˆβ)/(p−1) ist nur erwartungstreu, falls E(yi) = β1 f¨ur alle i = 1, . . . , n.

(16)

Likelihood-Ratio Test

Sei β = (β1, β2)t ∈ Θ ⊆ Rp mit β1 = (β1, . . . , βq)t und β2 = (βq+1, . . . , βp)t, q < p.

Betrachtet wird die p − q dimensionale Hypothese H0 : β2 = β20

oder allgemeiner: H0 bildet Rp auf Rq ab.

L(β;y) sei die Likelihood Funktion der Stichprobe Λ = supβH0 L(β;y)

supβΘ L(β;y) Nun gilt

λ = −2 log Λ ∼ χ2pq.

Freiheitsgrade entsprechen der Anzahl der Parameter, die in H0 fixiert sind.

F¨ur y ∼ N(Xβ, σ2I) (σ2 fest) gilt

logL(β;y) = −n

2 log(2πσ2) − 1 2σ2

Xn

i=1

(yi − µˆi)2

(17)

Sei H0 : β2 = 0, X = (X1|X2), βˆ MLE f¨ur das Modell E(y) = Xβ und βˆ1 MLE f¨ur das reduzierte Modell E(y) = X1β1. Dann ist

maxβ∈Θ L(β;y) = L( ˆβ;y)

βmaxH0 L(β;y) = L( ˆβ1;y)

Somit resultiert als Likelihood-Ratio Statistik λ = −2

log L( ˆβ1;y) − logL( ˆβ;y)

= 1

σ2

Xn

i=1

(yi − xtiβˆ1)2

Xn

i=1

(yi − xtiβ)ˆ

= 1

σ2(SSE( ˆβ1) − SSE( ˆβ))

= 1

σ2(SSR( ˆβ) − SSR( ˆβ1)) H0 χ2pq.

Merke: Die doppelte Log-Likelihood Differenz zweier nested models (Deviance-Reduktion)ist χ2-verteilt.

(18)

Falls σ2 unbekannt, wird es basierend auf das sa- turierte Modell gesch¨atzt und oben verwendet,z.B.

durch SSE( ˆβ)/(n−p). F¨ur die LRT-Statistik ergibt sich

(SSR( ˆβ) − SSR( ˆβ1))/(p − q)

SSE( ˆβ)/(n − p) ∼ Fpq,np. Multiples Bestimmtheitsmaß

Die multiple Korrelation zwischen y und X = (X1|. . .|Xp) wird gesch¨atzt durch Ry,X mit

Ry,X2 = Rty,XRX,X1 Ry,X,

mit Ry,X = (Ry,X1, . . . , Ry,Xp)t und der p×p Matrix RX,X = (RXi,Xj). Es gilt |Ry,X| ≤ 1.

Das multiple Bestimmtheitsmaß By,X = SSR( ˆβ)

SST = Ry,X2

beschreibt den Anteil der Variabilit¨at in y, der durch das Modell erkl¨art ist. Es gilt 0 ≤ By,X ≤ 1.

(19)

Wald-Test

Test auf eine Komponente βj von β:

H0 : βj = βj0 (= 0)

Da βˆ ∼ N(β, σ2(XtX)−1), ist Z =

βˆj − βj0 σ

q

xtixi H0 N(0,1)

Weiters sind S2 = n1p P

(yi−µˆi)2 und βˆ unabh¨angig und

V = n − p

σ2 S2 = 1

σ2SSE( ˆβ) ∼ χ2np. Daher gilt

T = Z

pV /(n − p) = βˆj

S q

xtixi H0

∼ tnp. Daher

Referenzen

ÄHNLICHE DOKUMENTE

[r]

Zeige, dass (i) Die Smith-Volterra-Cantor-Menge ist abgeschlossen. (ii) Die Smith-Volterra-Cantor-Menge hat

Fachbereich Mathematik und Statistik Prof.

[r]

Fachbereich Mathematik und Statistik Prof.

[r]

[r]

Die zuf¨ allige Reparaturzeit f¨ ur die Behebung eines bestimmten Schadentyps kann als eine mit dem unbekannten Parameter λ &gt; 0 exponentialverteilte Zufallsgr¨ oße