Statistische Signifikanz in hochdimensionalen linearen Modellen

(1)

Grundlegendes Ein angemessener Sch¨atzer...

p-Werte Numerische Ergebnisse...

Statistische Signifikanz in hochdimensionalen linearen Modellen

Hauptseminar Erweiterungen des linearen Regressionsmodells und genomische Anwendungen in der Biomedizin WS 2014/2015

Stella Preußler

12. Januar 2015

(2)

Inhaltsverzeichnis

1 Grundlegendes

2 Ein angemessener Sch¨atzer...

3 p-Werte

4 Numerische Ergebnisse...

(3)

Modell Ziel

Hochdimensionales lineares Modell

Wir betrachten ein hochdimensionales lineares Modell von der Form

Y=Xβ⁰+, (1) mit ErgebnisvektorY ∈R^n×1,

fest vorgegebener DesignmatrixX∈R^n×p, wahrem Paramtervektorβ⁰ ∈R^p×1 und

stochastischem Fehlervektor∈R^n×1 mit ∼ N(0, σ²I) im Fallp n.

(4)

Modell Ziel

Hypothesen

Das Paper besch¨aftigt sich mit einer oder vielen Nullhypothesen der Form

H_0,G :β_j⁰ = 0 ∀j ∈G,

woG ⊂ {1, ...,p} eine Teilmenge aller Indizes der Kovariablen ist.

Wir interessieren uns heute allerdings nur f¨ur dieIndividuellen Nullhypothesender Form

G ={j}: f¨ur den j-ten Regressionsparameter f¨ur j = 1, ...,p,d.h.:

H_0,j :β_j⁰= 0 j = 1, ...,p. (2)

(5)

Modell Ziel

Hypothesen

Das Paper besch¨aftigt sich mit einer oder vielen Nullhypothesen der Form

H_0,G :β_j⁰ = 0 ∀j ∈G,

woG ⊂ {1, ...,p} eine Teilmenge aller Indizes der Kovariablen ist.

Wir interessieren uns heute allerdings nur f¨ur dieIndividuellen Nullhypothesender Form

G ={j}: f¨ur den j-ten Regressionsparameter f¨ur j = 1, ...,p,d.h.:

(6)

Modell Ziel

” Statistische Signifikanz in hochdimensionalen linearen Modellen“...

... durch p-Werte, also besch¨aftigen wir uns heute mit der Konstruktion von p-Werten f¨ur Hypothesen in hochdimensionalen linearen Modellen.

Vorgehensweise:

einen angemessenen Sch¨atzer f¨urβ⁰ finden

⇒asymptotische Verteilung f¨ur diesen Sch¨atzer

⇒p-Wert =P[|T| ≥t] unterH₀, T Teststatistik, t Experimentausgang.

⇒Aussagen wie

”H0,3 :β₃⁰= 0 kann zum Signifikanzniveauα abgelehnt werden⇒ der Effekt der 3. Kovariate von Xist statistisch signifikant“ m¨oglich.

(7)

Modell Ziel

” Statistische Signifikanz in hochdimensionalen linearen Modellen“...

Vorgehensweise:

⇒Aussagen wie

(8)

Modell Ziel

” Statistische Signifikanz in hochdimensionalen linearen Modellen“...

Vorgehensweise:

⇒Aussagen wie

(9)

Modell Ziel

” Statistische Signifikanz in hochdimensionalen linearen Modellen“...

Vorgehensweise:

⇒Aussagen wie

(10)

Modell Ziel

” Statistische Signifikanz in hochdimensionalen linearen Modellen“...

Vorgehensweise:

⇒p-Wert

=P[|T| ≥t] unterH₀, T Teststatistik, t Experimentausgang.

⇒Aussagen wie

(11)

Modell Ziel

” Statistische Signifikanz in hochdimensionalen linearen Modellen“...

Vorgehensweise:

⇒Aussagen wie

(12)

Modell Ziel

” Statistische Signifikanz in hochdimensionalen linearen Modellen“...

Vorgehensweise:

⇒Aussagen wie

(13)

... f¨urβ⁰...

..., aber eigentlich f¨urθ⁰...

... korrigiert f¨urβ₀ ... stochastisch modelliert

Ridge Regression

Sei

βˆ=argminβ

kY−Xβk²₂/n+λkβk²₂ (3) dieRidge Regression, wobei

λ=λ_n der Regularisierungsparameter, Ω die Kovarianzenmatrix und wir annehmen, dass

j∈{1,...,p}min Ω_jj(λ) = min

j∈{1,...,p}Varh βˆ_ji

(λ)>0 (4).

(14)

... f¨urβ⁰...

Ridge Regression

Sei

βˆ=argmin_βkY−Xβk²₂/n+λkβk²₂ (3) dieRidge Regression, wobei

λ=λ_n der Regularisierungsparameter, Ω die Kovarianzenmatrix und wir annehmen, dass

min

j∈{1,...,p}Ω_jj(λ) = min

j∈{1,...,p}Varh βˆ_ji

(λ)>0 (4).

Eigentlich sch¨atzt die Ridge Regression jedochθ⁰ =P_Xβ⁰ ∈ R(X), wobeiR(X)⊂R^p der lineare Raum, der durch die n Zeilen von X aufgespannt wird undP_X dieProjektion von R^p auf R(X) ist.

(15)

... f¨urβ⁰...

Angemessenheit

Es gilt

0<L_C ≤ lim inf

λ∈(0,C] min

j∈{1,...,p}Var[ ˆβ_j]≤M_C (5) f¨ur ein 0<C <∞ und Konstanten mit 0<L_C <M_C <∞ abh¨angig von C und der Designmatrix X,

und max

j∈{1,...,p}

IE[ ˆβ_j]−θ⁰_j2

≤ min

j∈{1,...,p}Var[ ˆβ_j] (6), f¨ur einen Regularisierungsparameterλ >0 der folgende Eigenschaft* hat:

λ

j∈{1,...,p}min Var[ ˆβ_j] −1/2

≤n^−1/2σ θ⁰

−1

2 λmin6=0( ˆΣ) (7) woλmin6=0( ˆΣ) kleinster Eigenwert6= 0 der Kovarianzmatrix Σ =ˆ n⁻¹X^TX.

(16)

... f¨urβ⁰...

Angemessenheit

Es gilt

0<L_C ≤ lim inf

λ∈(0,C] min

j∈{1,...,p}Var[ ˆβ_j]≤M_C (5) f¨ur ein 0<C <∞ und Konstanten mit 0<L_C <M_C <∞ abh¨angig von C und der Designmatrix X, und

max

j∈{1,...,p}

IE[ ˆβ_j]−θ⁰_j2

≤ min

j∈{1,...,p}Var[ ˆβ_j] (6), f¨ur einen Regularisierungsparameterλ >0 der folgende Eigenschaft* hat:

λ

j∈{1,...,p}min Var[ ˆβ_j] −1/2

≤n^−1/2σ θ⁰

−1

2 λmin6=0( ˆΣ) (7) woλmin6=0( ˆΣ) kleinster Eigenwert6= 0 der Kovarianzmatrix

ˆ ⁻¹ ^T

(17)

... f¨urβ⁰...

Projektionsverzerrung

Ridge Regression schätzt den Parameterθ⁰ =P_Xβ⁰, d. h. es tritt neben der Schätzungsverzerrung noch eine zusätzliche

ProjektionsverzerrungBj (j=1, ..., p) auf

: B_j =θ⁰_j −β⁰_j = P_Xβ⁰

j−β_j⁰ = (P_X)_jjβ_j⁰−β_j⁰+X

k6=j

(P_X)_jkβ_k⁰.

Da wir p-Werte konstruieren wollen, m¨ussen wir die Verzerrung nur unterH₀ ber¨ucksichtigen:

B_H_0;j =X

k6=j

(P_X)_jkβ⁰_k...

(18)

... f¨urβ⁰...

Projektionsverzerrung

ProjektionsverzerrungBj (j=1, ..., p) auf : Bj =θ⁰_j −β⁰_j

= P_Xβ⁰

j−β_j⁰ = (P_X)_jjβ_j⁰−β_j⁰+X

k6=j

(P_X)_jkβ_k⁰.

B_H_0;j =X

k6=j

(P_X)_jkβ⁰_k...

(19)

... f¨urβ⁰...

Projektionsverzerrung

ProjektionsverzerrungBj (j=1, ..., p) auf : Bj =θ⁰_j −β⁰_j = PXβ⁰

j−β_j⁰ = (PX)_jjβ_j⁰−β_j⁰+X

k6=j

(PX)_jkβ⁰_k.

B_H_0;j =X

k6=j

(P_X)_jkβ⁰_k...

(20)

... f¨urβ⁰...

Projektionsverzerrung

ProjektionsverzerrungBj (j=1, ..., p) auf : Bj =θ⁰_j −β⁰_j = PXβ⁰

j−β_j⁰ = (PX)_jjβ_j⁰−β_j⁰+X

k6=j

(PX)_jkβ⁰_k.

B_H_0;j =X

k6=j

(P_X)_jkβ_k⁰...

(21)

... f¨urβ⁰...

Korrektur der Projektionsverzerrung

... und können sie mit Hilfe eines Initialschätzers ˆβinit (z. B. Lasso) schätzen:

Bˆ_H_0;j =X

k6=j

(P_X)_jkβˆ_init;k

um schließlich diekorrigierte Ridge Regression βˆ_corr_;j zum Testen vonH_0,j zu erhalten:

βˆ_corr_;j = ˆβ_j−Bˆ_H_0;j = ˆβ_j −X

k6=j

(P_X)_jkβˆ_init;k (8).

(22)

... f¨urβ⁰...

Proposition 1

Die korrigierte Ridge Regression ˆβ_corr_;j mit

Regularisierungsparameterλ >0 k¨onnen wir darstellen als:

βˆ_corr_;j =Z_j +γ_j (j = 1, ...,p) (9) wobei

a_n,p;j(σ)Z₁, ...,Z_p ∼ N(0,1), γ_j = (P_X)_jjβ_j⁰−P

k6=j(P_X)_jk

βˆ_init;k −β_k⁰

+b_j(λ), b_j(λ) = IE[ ˆβ_j(λ)]−θ⁰_j

”Sch¨atzungsverzerrung“.

(23)

... f¨urβ⁰...

Scharenmodell und Annahme

F¨ur diese Verteilung soll nun eine asymptotisch stochastische Schranke unter der Nullhypothese gefunden werden.

Dazu betrachten wir eine Schar von linearen Modellen Yn=Xnβ_n⁰+n,n= 1,2, ..., (11)

wobei sich alle Größen und auch die Dimension p=p_n mitn verändern dürfen und machen folgende Annahme A (13): Es gibt Konstanten ∆_j = ∆_j,n>0 so dass

P





pn

\

j=1







an,p;j(σ)X

k6=j

(P_X)_jk( ˆβ_init;k−β_k⁰)

≤∆j,n









→1 (n→ ∞).

(24)

... f¨urβ⁰...

Scharenmodell und Annahme

wobei sich alle Größen und auch die Dimension p=p_n mitn verändern dürfen

und machen folgende Annahme A (13): Es gibt Konstanten ∆_j = ∆_j,n>0 so dass

P





pn

\

j=1







an,p;j(σ)X

k6=j

≤∆j,n









→1 (n→ ∞).

(25)

... f¨urβ⁰...

Scharenmodell und Annahme

wobei sich alle Größen und auch die Dimension p=p_n mitn verändern dürfen und machen folgende Annahme A (13):

Es gibt Konstanten ∆_j = ∆_j,n>0 so dass

pn





(26)

... f¨urβ⁰...

Asymptotische stochastische Schranke

P





pn

\

j=1







an,pn;j(σ)X

k6=j

(PX)jk( ˆβinit;k −β_k⁰)

≤∆j,n









→1(n→ ∞) Mit dieser Annahme und einem geeignet** gew¨ahlten

Regularisierungsparameterλ_n>0 kann man nun zeigen, dass unter der NullhypotheseH0,j f¨ur j ∈ {1, ...,pn}:

a_n.p;j(σ)

βˆ_corr_;j

≺_st |W|+ ∆_j, W ∼ N(0,1).

Definition: Seien X und Y reelle Zufallsvariablen. X ist kleiner-gleich Y bezüglich der gewöhnlichen stochastischen Ordnung, wenn für alleb ∈R giltP(X ≥b)≤P(Y ≥b).

(27)

... f¨urβ⁰...

Asymptotische stochastische Schranke

P





pn

\

j=1







an,pn;j(σ)X

k6=j

(PX)jk( ˆβinit;k −β_k⁰)

≤∆j,n









Regularisierungsparameterλ_n>0 kann man nun zeigen, dass unter der NullhypotheseH0,j f¨ur j ∈ {1, ...,pn}:

a_n.p;j(σ)

βˆ_corr_;j

≺_st |W|+ ∆_j, W ∼ N(0,1).

(28)

... f¨urβ⁰...

Asymptotische stochastische Schranke: Satz 1

P





pn

\

j=1







a_n,p;j(σ)X

k6=j

≤∆_j_,n









Regularisierungsparameterλn>0 kann man nun zeigen, dass unter der NullhypotheseH_0,j f¨ur j ∈ {1, ...,pn}:

an.p;j(σ) βˆcorr;j

≺_st |W|+ ∆j, W ∼ N(0,1).

βˆ_corr;j =Z_j +γ_j ; a_n,p;j(σ)Z_j ∼ N(0,1) γ_j = (P_X)_jjβ_j⁰−P

k6=j(P_X)_jk

βˆ_init;k −β_k⁰

+b_j(λ) b(λ) = IE[ ˆβ(λ)]−θ⁰ (j = 1, ...,p)

(29)

... f¨urβ⁰...

**

”Geeignet** gew¨ahlter Regularisierungsparameter“ λn soll f¨ur uns (wieder; vgl. mit * aus (7)) heißen:

λnΩmin(λn)^−1/2 =o(min(n^−1/2σ θ⁰

−1

2 λmin6=0( ˆΣ))),(n→ ∞) (12) ist erf¨ullt, denn dann gilt:

ka_n,pb(λ_n)k_∞→0 f¨ur n→ ∞,

denn

ka_n,pb(λ_n)k_∞≤ λ_nΩ_min(λ_n)^−1/2

min(n^−1/2σkθ⁰k⁻¹₂ λmin6=0( ˆΣ)) →0 f¨ur n→ ∞.

(30)

... f¨urβ⁰...

**

”Geeignet** gew¨ahlter Regularisierungsparameter“ λn soll f¨ur uns (wieder; vgl. mit * aus (7)) heißen:

λnΩmin(λn)^−1/2 =o(min(n^−1/2σ θ⁰

−1

2 λmin6=0( ˆΣ))),(n→ ∞) (12) ist erf¨ullt, denn dann gilt:

ka_n,pb(λ_n)k_∞→0 f¨ur n→ ∞, denn

ka_n,pb(λ_n)k_∞≤ λ_nΩ_min(λ_n)^−1/2

min(n^−1/2σkθ⁰k⁻¹₂ λmin6=0( ˆΣ)) →0 f¨ur n→ ∞.

(31)

Herleitung der p-Werte Konstruktion der∆_j: Satz 2

Herleitung der p-Werte mit Hilfe der asymptotischen Verteilung

p-Wert =P

h||W|+ ∆_j| ≥a_n,p;j(σ)|βˆ_corr_;j|i

unterH₀ (14) F¨ur die individuelle HypotheseH_0,j definieren wir daher den p-Wert f¨ur die zweiseitige Alternative als:

P_j = 2(1−Φ((a_n,p;j(σ)|βˆ_corr;j| −∆_j)₊)) (15).

Um die p-Werte berechnen zu k¨onnen, m¨ussen wir die ∆_j kennen, wie sehen diese also aus?

(32)

Herleitung der p-Werte mit Hilfe der asymptotischen Verteilung

p-Wert =P

h||W|+ ∆_j| ≥a_n,p;j(σ)|βˆ_corr_;j|i

unterH₀ (14) F¨ur die individuelle HypotheseH_0,j definieren wir daher den p-Wert f¨ur die zweiseitige Alternative als:

P_j = 2(1−Φ((a_n,p;j(σ)|βˆ_corr;j| −∆_j)₊)) (15).

Um die p-Werte berechnen zu k¨onnen, m¨ussen wir die ∆_j kennen, wie sehen diese also aus?

(33)

Satz 2

Betrachte (11) mit normalisierten Spalten ˆΣ_jj ≡1, welche die Kompatibilit¨atsbedingung mit Konstante Φ²₀ = Φ²_0,n erf¨ullen.

Nehme den Lasso als Initialsch¨atzer ˆβ_init mit RegularisierungsparameterλLasso = 4σp

Clog(pn)/n für ein 2<C <∞. Nehme an, dass die Menge der aktiven Koeffizienten s₀=s_0,n=o((n/log(p_n))^ξ) (n→ ∞) für ein 0< ξ <1/2, und dass lim infn→∞Φ²_0,n>0. Dann erfüllt

∆_j :≡max

k6=j |a_n,p;j(σ)(P_X)_jk|(log(p)/n)^1/2−ξ (16)

(34)

... mit Hilfe von Korollar

Korollar

Nehme die Annahmen von Satz 1, ohne die Bedingung A und mit den Bedingungen von Satz 2, an. Dann gilt, mit dem Lasso als Inititalsch¨atzer, die Aussage von Satz 1.