!"#$%!&%$'(# )*+ ,-#%. /0
!"#$%# &"'(# )*+#
,-.//.0,/,
!" #$% &'%$(!$)*+"*+",-$). /!0*+10$) 2$"**-$3%+$ +"* #+$ !"#$% &#'( )**+*
,!-( &4567. 80" $+)$ 9:;0+,-<$+*= #$) 4$-0$% >? %* @! <3)*%300+$%$)= A3-0B C$<8))* &"+$-$ D$/+)8%.? E+$ F3)*%300$ #$" /!0*+10$) G+H$8!" +"* ;$%8#$ +) ;$B )$*+",-$) 4%8;$"*$00!);$)= A3 #+$ )@8-0 n #$% @! *$"*$)#$) IJ13*-$"$) "$-%
;%3K A$%#$) <8))= -L!M; @! <3)"$%H8*+H? 6+)$ 0*$%)8*+H$ @!% 4567 +"* #+$
!$'( .#'/+0(*% ,!-(= #+$ )+,-* #+$ 58-%",-$+)0+,-<$+* 'N% $+)$) 4$-0$% >? %*
<3)*%300+$%*= "3)#$%) #$) &$%A8%*$*$). )*$+0 H3) 480",-BO$%A$%'!);$) 8) #$) O$%A$%'!);$) +)";$"8/*?
E3,- )+,-* )!% +) #$% '%$(!$)*+"*+",-$) 2$"**-$3%+$ M)#$* #+$ 4E7 +-%$ )B A$)#!);? P$/LK $+)$" 7$"!0*8*" H3) D*3%$J 0L""* #+$ 4E7 +/ D$**+); #$" "3;?
QA$+<08""$)B9+",-/3#$00" $+)$ C8J$"+8)+",-$ R)*$%1%$*8*+3) @!? S8"+$%$)# 8!'
#+$"$% !""8;$ "300$) -+$% @A$+ C8J$"",-$ 2$"*/$*-3#$) H3%;$"*$00* A$%#$)= #+$
C$+#$ 8!' $+)$% 43%/ #$% 4E7 C8"+$%$)?
!"#$%&'($)*$+ ,-* .$/0123$ 405(3$1
R/ 430;$)#$) A$%#$) -L!M; C$#+);*$ E+,-*$) 8!'*%$*$)? E8-$% "300 @! S$;+))
#+$"$% !"8%C$+*!); 8) #8" S8J$"B2-$3%$/ 'N% C$#+);*$ E+,-*$) $%+))$%* A$%B
#$)? Q!)L,-"* T$#3,- $+)$ 5+$#$%-30!); @! C$#+);*$) E+,-*$) 800;$/$+)U !"#$ )' '(#(1 234!$$'0!*#!5$(1 Z : (Ω,A,P) → (R,B) 316 θ : (Ω,A,P) → (S,S) 7(7(5(18 9+5(# (S,S) (#1(1 :+*($*!3" 316 µ (#1 σ;(16$#/<(' =!> !34 (S,S)5(?(#/<1(1@ (*1(* '(# f(Z,θ):R×S→R+ 6#( λ⊗µ;.#/<-( 0+1P(Z,θ)@ .!11
fθ(ϑ) = Z
R
f(Z,θ)(z, ϑ)dz #'-µ;.#/<-( 0+1Pθ fZ(z) =
Z
R
f(Z,θ)(z, ϑ)dϑ #'-λ;.#/<-( 0+1PZ fZ|θ=ϑ(z) = f(Z,θ)(z, ϑ)
fθ(ϑ) #'-λ;.#/<-( 0+1PZ|θ=ϑ fθ|Z=z(ϑ) = f(Z,θ)(z, ϑ)
fZ(z) #'-µ;.#/<-( 0+1Pθ|Z=z
!"# &S8J$"B2-$3%$/ 'N% E+,-*$).$ A1 6(* B#-3!-#+1 6(' +5#7(1 B!-?(' 7#$- (i) fθ|Z=z(θ) = fZ|θ=ϑ(z)fθ(ϑ)
fZ(z)
(ii) fZ|θ=ϑ(z) =fθ|Z=z(ϑ)fZ(z) fθ(ϑ)
4N% #+$ )L,-"*$) C",-)+**$ +"* #8" !)*$) "*$-$)#$ )A$)#!);"C$+"1+$0 "$-%
A+,-*+;?
>
!"#$"!%& ! !"#"$ Z : (Ω,A) → (R,B)% θ : (Ω,A) → (N,P(N)) &$' µ '(!
)*+,-(. (&/ (N,P(N))0 ! 1",2"3
θ∼Ber(p1), p0:= 1−p1 ∈(0,1) Z ∼ N(0,1)(1−θ) +N(100,1)θ )#", #!2 '#" 4"!2#--&$1 56$ fθ|Z=z0
7#2 68#1"- 4(9"!:;+"6<"- "<+*,2 -($3
fθ|Z=z(ϑ) = fZ|θ=ϑ(z)fθ(ϑ) fZ(z) =
( p0ϕ0,1(z)
p0ϕ0,1(z)+p1ϕ100,1(z), /=<ϑ= 0,
p1ϕ100,1(z)
p0ϕ0,1(z)+p1ϕ100,1(z), /=<ϑ= 1
!"#$% &'$()*%+, +"-%
'!()"*"+)& ! !"# "#$ -&,2#>,"! ;"!2><68,"- -#2 m?& 2"!2"$'"$ @9>62+"!"$
1"1"8"$ &$' ϕ= (ϕi, i= 1, . . . , m)"#$" -&,2#>," ;"!2><6?"'&<0 V : A?&/*,,#1"B C$?(+, '"< ;9>:D:E"+,"<
R: A?&/*,,#1"B C$?(+, 56$ 5"<F6</"$"$ @9>62+"!"$ #$!1"!(-2. D0 G#" !"#$ %&#'()$*+ ,!-$ . %,/ 56$ϕ#!2 '"H$#"<2 (,!
F DR(ϕ) = E! V R∨1
I0 G#" 0(#&-&)$ !"#$ %&#'()$*+ ,!-$ .0 %,/ 56$ ϕ#!2 1"1"8"$ '&<J+
pF DR(ϕ) =EV
R |R >0 .
K!2 $&$ "#$ ;"!2ϕ'&<J+ "#$"$ L"<F"</&$1!8"<"#J+{Z∈Γα}J+(<(M2"<#!#"<2 A#$ '"- N#$$"% '(!! ϕ= 1 ⇔ Z ∈ ΓαB% !6 #!2 pF DR(ϕ) = EV
R | Z ∈ Γα
0 4"#!>#",!F"#!" MO$$2" Γα = (zα,∞) !"#$0 K$ '#"!"- E(,, F#<' '#" P62(2#6$
pF DR(zα) :=pF DR(ϕ)5"<F"$'"20
G#" >EGQ +(2 #$ "#$"- 1"F#!!"$ N"22#$1% '"- )F"#M,(!!"$:7#!J+-6'",,% "#:
$" 4(9"!#($#!J+" K$2"<><"2(2#6$0 G#"! F#<' '&<J+ "#$"$ N(2? 56$ N26<"9 AIRRDB '"&2,#J+0
'!()"*"+) A)F"#M,(!!"$:7#!J+-6'",,B& ! !"#"$(Z1, H1), . . . ,(Zn, Hn)##'0 )&:
/(,,!5(<#(8,"$0 ! 1",2" /=<i= 1, . . . , n
Zi|Hi∼(1−Hi)f0+Hif1
Hi∼ Ber(p1)
K$ '#"!"< C&!(<8"#2&$1 M($$ -($Hi(,! K$'#M(26<5(<#(8," -#2 '"< K$2"<><":
2(2#6$ [Hi= 1⇔i:2" C,2"<$(2#5+9>62+"!" #!2 F(+<] 5"<!2"+"$0
,-*. AN26<"9 AIRRDBB& 1$2$3$4 #$& $&4 56$&7"!##$489&#':;(<$""=ϕ#$& $&4$ ;>"8 -&0"$ ?$#-0*(@$<>* ;&- (3&2$* A:!*!7-$*&#&$*>42 <>*': <$4 B3"$:43$*$&':= %!44 2&"-
pF DR(ϕ) =pF DR(zα) =P
H = 0|Z > zα
G(! +"#.2% '#" >EGQ M($$ (,! "#$ 4(9"!!J+"< ( >6!2"<#6<# ;9>:D:E"+,"< ($:
1"!"+"$ F"<'"$0
#$" S,6M(,"T L"<!#6$ 56$ pF DR(zα) = P
H = 0 | Z > zα
F*<" '($$
P
H = 0|Z=z/=<z∈R3
'!()"*"+)& K- N"22#$1 '"! 68"<"$ N(2?"! #!2 /=< z∈R'#" "(7!"$ C<* '"H$#"<2 (,!
f dr(z) :=P
H = 0|Z =z
I
!" #$% &'($)*+,%-$. /0% 1!23"$4 $%35." -'46 f dr(z) =fH|Z=z(0) = p0f0(z)
f(z) 7) 8!."6 pF DR(z) =Ef(f dr(Z)|Z > z)9
!"# f dr "$ #%&"'"()*#$ +$, $")*-&.'.%#-'"()*#$
/.0#(12#-*3,#$
:!% ;$"%'23"$4 $!4$ <4=$4#>48 #$) ?*@.'))$4* !)23-,#$..) '>/ #') &$!A!$. #$%
B$4$CA%$))!,49 D!$% )$!n#!$ E-$!)" )$3% 8%,F$G <4H'3. H> >4"$%)>23$4#$% B$4$9 I$#$) B$4 3';$ $4"=$#$% #!$ <>)A%58>48 JK>-,%L ,#$% J4,%-'.L >4# M!$. !)"
$)N #!$nB$4$ !4 #!$ @.'))$4 JK>-,%OP J4,%-'.L $!4H>"$!.$49 I$#$- B$4 )$! $!4 ),8$4'44"$% !"#$%& H>8$,%#4$"N '43'4# #$))$4 #!$ @.'))!QR'"!,4 S,%8$4,--$4
=$%#$4 ),..9 7) )"$3$4 '.),nK$)")"'"!)"!R$4 Z1, . . . , Zn H>% T$%/08>489
p0 )$! #$% <4"$!. #$% B$4$N #!$ #$% @'"$8,%!$ J4,%-'.L '48$3U%$4 >4# $) )$!
p1= 1−p09
M>% 1>%23/03%>48 #$% @.'))!QR'"!,4 )$!$4 3!$% 4>4 H=$! $"3,#$4 S,%8$)"$.."6
#$% $-A!%!)23$ >4# #$% 4!23"A'%'-$"%!)23$ &'($)*<4)'"H9 <4)23.!$F$4# ),..$4 V23=523$4 #$) 7%)"8$4'44"$4 !- T$%8.$!23 H>% 4!23"A'%'-$"%!)23$4 D$%'48$*
3$4)=$!)$ '>/8$H$!8" =$%#$49 W4 ;$!#$4 <4)5"H$4 )A!$." #!$ f dr '.) 74")23$!*
#>48)R%!"$%!>- $!4$ "%'8$4#$ X,..$ E7%!44$%>486 f dr(zi) =:'3%)23$!4.!23R$!"N
#')) B$4i#$% @'"$8,%!$ J4,%-'.L '48$3U%"N 8$8$;$4N #')) #!$ H>8$3U%!8$ K$)"*
)"'"!)"!RZi #$4 :$%" zi '44!--"G9
!" !#$%"%&'(! )*+!&,-.&*/0 M>4523)" =$%#$4 ' A%!,%! $!4 :$%" /0% p0
),=!$ $!4$ 1!23"$f08$=53."9 1!$)$ :'3.$4 ;$%>3$4 ;$)"$4/'..) '>/ 7%/'3%>48$4 ,#$% T,%$CA$%!-$4"$49 <4)23.!$F$4# =!%# #!$ 1!23"$ f '>) #$4 1'"$4 #>%23fˆ9 8$)235"H"9 1>%23 '()*!+, $%35." -'4 ),
f dr(zd i) = p0f0(zi)
fˆ(zi) =:P !"(zi)
<43'4# #!$)$% B%UF$ =!%# 4>4 #!$ 7!4"$!.>48 $!4$) Y$#$4 B$4) !4 JK>-,%L ,#$%
J4,%-'.L S,%8$4,--$4 EH9&96 Z%#4$ B$4 i #$% @'"$8,%!$ JK>-,%L H>N 8$4'>
#'44N =$44Zi> γα-!" $!4$- V23=$..$4=$%" γαG9
[%,;.$-'"!)23 !)" 3!$% #!$ E#>%23 :'3. S,4f0, p0$!4\!$F$4#$G V>;Y$R"!S!"5" #$%
74")23$!#>489
!" .%'(/$*"*#!/"%&'(! -.&*/0 W4 #!$)$- <4)'"H =!%# H>4523)" $!4 :'3%*
)23$!4.!23R$!")-,#$.. /0% #!$ >4;$R'44"$4 B%UF$4 p0, f0, f1 /$)"8$.$8"N #939 /0%
Y$#$ #$% B%UF$4 =!%# $!4$ ' A%!,%! :'3%)23$!4.!23R$!")S$%"$!.>48 '>/ #$- X'>- [0,1]E/0%p0G ;H=9 $!4$- A'))$4#$4 +>4R"!,4$4%'>- E/0%f0, f1G 8$=53."9 7!4 &$!)A!$. /0% ' A%!,%! T$%"$!.>48$4 RU44"$ )$!46 p0 ∼ >4!/(0.05,1) >4# /0%
f0, f1 E>4$4#.!23$G !)23>48$4 S,4 ],%-'.S$%"$!.>48$49
B$8$;$4 '..$ 1'"$4Y := (Zi)=$%#$4 #'44 #!$ ' A,)"$%!,%! T$%"$!.>48$4Pf0|Y,Pf1|Y,Pp0|Y
;$)"!--" EH9&9 0;$% ^ ^G9 <.) 74")23$!#>48)R%!"$%!>- ;$"%'23"$" -'4 4>4
#!$ B%UF$E
f dr(z)|Y>4# S$%=$4#$"
Ep1f1(zi) f(zi) |Y
≈ E
p1|YE
f1(zi)|Y E
p0|Y E
f0(zi)|Y +E
p1|Y E
f1(zi)|Y =:P(zi) 74")23$!#>48)R%!"$%!>-6 _ B$4 i3';$ 7CA%$))!,4 JK>-,%L⇔ P(zi)> γ`N
=,;$!γ $!4 H> =53.$4#$% V23=$..$4=$%" !)"9 1'44 !)"P(zi) = 1−E
f dr(zi)|Y9 W- T$%8.$!236P !"(zi) = 1−f dr(z)9d
a
f0, f1, p0, n
f0=N(0,1), f1= 0.5N(−2,1) + 0.5N(2,1), p0= 0.8;n= 10 000 P(z)
P(z)
P(z) f
p0
z ⇔P(z)>0.4
p0
p0 0.93
p0 fp0|Y
!"#$!"!#%# &'()!* '+) )!, -./0#%!(fp0|Y )!( 1 23"#!(43(4 54./#! 63+p07 8" 4"# "./9+ %'
"!/!+* &4! :!#%#!(!( )4! $1+%! ;+"4./!(/!4#* )4! <=!( )1" &1/(!p0/!(("./#* =!"./(!4=#7
!"##"$%$&%'"$
>7?@7 53* A7 B<CC!(* D7 E1+$F @ G1H!"41+ ,4I#'(! ,3)!C 3( )4J!(!+#41C $!+! !I2(!""43+7 @227 -#1#4"#7 KLMMNO NP* A1(# Q* 227 RLS?RPP
G7 8 (3+F B4.(31((1H"* 8,24(4.1C G1H!" 1+) #/! E&3 T(3'2" B3)!C7 -#1#4"#4.1C -.4!+.! KLMMUO LQ* V37W* 227 W?LL
X757 -#3(!HF E/! 23"4#46! D1C"! 54".36!(H Y1#!F @ G1H!"41+ 4+#!(2(!#1#43+ 1+) #/! Z?61C'!7 E/! @++1C" 3 -#1#4"#4." KLMMQO* [3C7 QW* V37 R* 227 LMWQ?LMQN
Bootstrap-Methoden zur Ermittlung kritischer Werte f¨ ur asymptotische FWER-Kontrolle
Mathias Trabs 14.11.2010
1 Wiederholung
Sei (Ω,A,M,H) einmultiples TestproblemmitP ∈ M,Meine Familie von Wahrscheinlichkeitsmaßen auf (Ω,A), und einer HypothesenmengeH ={Hi : i∈I={1, ..., m}}. Sei weiterϕ= (ϕi:i∈I) einmultipler Test.
Die (zuf¨alligen) Anzahlen von wahren / falschen Testentscheidungen k¨onnen wir darstellen als:
Testentscheidung
Hypothesen 0 1
wahr m0−V(P) V(P) m0
falsch m1−S(P) S(P) m1
m−R(P) R(P) m Def.:F W ER(P) =P(V(P)>0) =P(S
i∈I0{ϕi= 1})
2 Problemstellung
2.1 Model
Seien X1, ...Xn iid. Zufallsgr¨oßen im RJ, Xi = (Xij : j = 1, ..., J) ∼ P mit P ∈ M unbekannt. Dabei sind (Xij)j=1,...,J, i ∈ {1, ..., n}, unspezi- fiziert korreliert. Wir m¨ochten beispielsweiseLokationsparameterder Form ψ(P) = (ψi:i= 1, ...m) untersuchen.
Bsp.:Sei X ∼P mit Werten inRJ undY :=g(X) :RJ →Rm. Dann w¨ahlen wirψ(P) =E[Y], d.h. ψi=E[Yi].
Wir habenTeststatistiken Tn = (Tni:i = 1, ..., m)∈Rm als Funktionen vonX1, ..., Xn und bezeichnen deren wahre Verteilung mitQn=Qn(P).
UnsereTestentscheidungist gegeben durch:
• Hi annehmen, fallsTni≤ci,
• Hi ablehnen, fallsTni> ci,
1
mit den kritischen Wertenc∈Rm. Einemultiple Testprozedur (MTP)ist dann die (zuf¨allige) Teilmenge Rn ⊆I der abgelehnten Hypothesen.
Giltci=c f¨uri= 1, ..., m, heißtRn Simultantest.
Bsp.: Y und ψ(P) wie oben. Hypothesen: Hi = {ψi(P) = E[Yi] ≤ ψoi}, i = 1, ..., mmit einem Nullwertψ0∈Rm. Dann w¨ahlen wir die t-Statistiken:
Tni= Sch¨atzer - Nullwert Standardfehler =√
nψni−ψ0i
σni
.
2.2 Typ-I-Fehlermaße
Die Theorie baut aufFehlermaßenΘ(FVn)∈[0,1] auf, die als Funktionen von der Verteilung der Anzahl der Typ-I-FehlerVn definiert sind. Dabei istFVn die Verteilungsfunktion vonVn auf{0, ..., m}.
Insbesondere betrachten wir dieFWER:
Θ(FVn) =F W ER(P) =P(Vn>0) = 1−FVn(0).
SeienF1, F2 zwei Verteilungsfunktionen auf{0, ..., m} und d(F1, F2) := max
x∈I |F1(x)−F2(x)| deren Abstand.
Wir machen folgendeAnnahmenan Θ:
• (AMI) Monotonie:
F1≥F2⇒Θ(F1)≤Θ(F2)
• (ACI)Stetigkeit bei (Fn): Sei (Fn) eine Folge von Verteilungsfunktionen auf{0, ..., m}gegeben, dann soll f¨ur beliebige Verteilungsfunktionen (Gn) auf {0, ..., m}gelten:
n→∞lim d(Fn, Gn) = 0⇒ lim
n→∞(Θ(Gn)−Θ(Fn)) = 0
In den meisten F¨allen gen¨ugt in der (ACI)-Annahme (Fn) =F, f¨ur eine Verteilungs- funktionF.
3 Fehlerkontrolle und Wahl der Nullverteilung
Definition: Eine MTPRn=R(Tn, Q0, α)kontrolliert das Niveauα∈(0,1) (strikt), falls
Θ(FVn)≤α, (F W ER(P)≤α).
Rn kontrolliert das Niveau α∈(0,1) asymptotisch, falls lim sup
n→∞
Θ(FVn)≤α.
Vn h¨angt von der wahren VerteilungQn =Qn(P) der TeststatistikenTnab, aberQn ist i.A. unbekannt und muss durch ein NullverteilungQ0 gesch¨atzt werden (um kritische Werte zu ermitteln).
Seien TeststatistikenTn mit wahrer VerteilungQn, einerm-dimensionalen Nul- lverteilungQ0zur Berechnung kritischer Werte, sowie eine Niveau αgegeben.
2
F¨ur die gesamte Anzahl der abgelehnten Hypothesen R und die Anzahl der abgelehnten wahren HypothesenV schreiben wir:
Rn =R(Q0|Qn) =|R(Tn, Q0, α)|, Tn ∼Qn, R0=R(Q0|Q0) =|R(Tn, Q0, α)|, Tn∼Q0, Vn =V(Q0|Qn) =|R(Tn, Q0, α)∩I0|, Tn ∼Qn, V0=V(Q0|Q0) =|R(Tn, Q0, α)∩I0|, Tn∼Q0.
Mit diesen Vorbereitungen k¨onnen wir nun eine allgemeine Vorgehensweise angeben.
3.1 Road map
1. Null-Dominiertheit f¨ur das Typ-I-Fehlermaß Θ(FVn):
W¨ahle eine Null-VerteilungQ0 so, dass.
Θ(FVn) ≤Θ(FV0) [strikte Kontrolle]
lim sup
n→∞ Θ(FVn) ≤Θ(FV0) [asymptotische Kontrolle]. (1) 2. Die Anzahl der Typ-I-Fehler ist nie gr¨oßer als die gesamte Anzahl abgelehn-
ter Hypothesen, damit
V0≤R0⇒FV0 ≥FR0
(AMI)
⇒ Θ(FV0)≤Θ(FR0)
3. Kontrolle des Parameters Θ(FR0), bzgl. der beobachtbaren Anzahl von abgelehnten Hypothesen, unter der Null-Verteilung:
Θ(FR0)≤α.
Hierbei ist (1) abh¨angig von Θ und gilt unter folgenden allgemeinen Null- Dominiertheits-Bedingungen:
• Q0 dominiert die VerteilungFVn:x∈ {0, ..., m}: FVn(x)≥FV0(x), lim inf
n→∞ FVn(x)≥FV0(x), Insbesondere gilt dies, falls
• Q0 dominiert die gemeinsame VerteilungQn,I0 desI0-Vektors (Tni : i∈ I0):
Qn,I0 ≥Q0,I0, lim inf
n→∞ Qn,I0 ≥Q0,I0.
Die erste Ungleichung in (1) folgt aus (AMI), f¨ur die zweite ben¨otigen wir eben- falls (ACI).
3
4 Umsetzung
4.1 Konstruktion einer MTP
Schreibe f¨ur einen kritischen Wertc∈Rmund eine VerteilungQ∈ {Q0, Qn} R(c|Q) =X
i∈I
1{Tni>ci}, Tn∼Q, V(c|Q) =X
i∈I0
1{Tni>ci}, Tn∼Q.
F¨ur die Null-VerteilungQ0 auf demRmmit Randverteilungen Q0i und f¨ur ein δ∈[0,1] definieren wir außerdem den Vektord(Q0, δ) derδ-Quantile:
d(Q0, δ)i=Q−10i (δ) = inf{z:Q0i(z)≥δ}, i= 1, ...m.
Methode 1: common-quantil
Gegeben eine Null-VerteilungQ0und ein Niveauα∈(0,1), w¨ahle δ0(α) = inf{δ: Θ(FR(d(Q0,δ)|Q0))≤α}.
Dann definieren wir dieEin-Schritt common-quantil multiple Testprozedurmittels der kritischen Werte
c(Q0, α) =d(Q0, δ0(α)) = (Q−10i (δ0(α)) :i= 1, ..., m), welche das Typ-I-Fehlermaß Θ(FV(c(Q0,α)|Qn)) zum Niveauαkon- trolliert:
R(T0, Q0, α) ={i:Tni> c(Q0, α)i}.
Theorem 1 (Asymptotische Kontrolle f¨ur die common-quantil Meth- ode)
Es existiere eine Rm-wertige Zufallsvariable Z ∼ Q0, so dass f¨ur alle c ∈ Rm undx∈ {0, ..., m}gilt:
lim inf
n→∞ PQn X
i∈I0
1{Tni>ci}≤x
!
≥PQ0 X
i∈I0
1{Zi>ci}≤x
!
(AQ0)
Oder kurz: lim infnFV(c|Qn)(x)≥FV(c|Q0)(x),∀x. Weiterhin erf¨ulle die Abb. Θ die Bedinungen (AMI) und (ACI) beiFV(c|Q0).
Dannkontrolliert die common-quantil Methode mit kritschen Wertenc(Q0, α) = d(Q0, δ0(α)) asymptotisch das Typ-I-Fehlermaßes Θ(FV(c|Qn)) zum Niveau α, d.h.
lim sup
n→∞ Θ(FV(c|Qn))≤α.
4
Methode 2: common-cut-off
Gegeben eine Null-VerteilungQ0und ein Niveauα∈(0,1), w¨ahle e(Q0, α) = inf{c∈R: Θ(FR((c,..,c)|Q0))≤α}.
Dann definieren wir dieEin-Schritt common-cut-off multiple Testprozedurmittels des kritischen Wertese(Q0, α) durch
c(Q0, α) = (e(Q0, α), ..., e(Q0, α)),
welche das Typ-I-Fehlermaß Θ(FV(c(Q0,α)|Qn)) zum Niveauαkon- trolliert:
R(T0, Q0, α) ={i:Tni> c(Q0, α)i}.
Vergleichvon Common-qunatil- und common-cut-off-Methode:
• Beide Methoden sind ¨aquivalent, falls (Tni)i=1,...,m unter Q0 identisch verteilt sind.
• Unterschiede in: Balance, G¨ute und technischer Umsetzbarkeit.
• Wird Q0 durch Resampling gesch¨atzt (bootstrap) tendiert die common- quantil Methode zur gr¨oßerer Sensibilit¨at gegen¨uber der Anzahl der Resampling- Schritte und der Diskretheit der gesch¨atzten Null-Verteilung.
Theorem 2 (Allgemeine Konstuktion der Null-Verteilung)Es seienλ0∈ Rmundτ0∈Rm0 so gegeben, dass gilt
lim sup
n→∞ E[Tni]≤λ0 und lim sup
n→∞ V ar(Tni)≤τ0i, i∈I0. Definiere νi =
r min
1,V ar(Tτ0i
ni)
und einen Zufallsvektor verschobener und skalierter Teststatistiken
Zni=νi(Tni+λ0i−E[Tni]), i= 1, ..., m.
FallsZn
→w Z∼Q0=Q0(P), dann gilt f¨urc∈Rm, x∈ {0, ..., m}
lim inf
n→∞ PQn X
i∈I0
1{Tni>ci}≤x
!
≥PQ0 X
i∈I0
1{Zi>ci}≤x
!
Damit gilt (AQ0) f¨ur die NullverteilungQ0 und Theorem 1 ist anwendbar.
Diskusion von Theorem 2
• Bei einer zusammengesetzten Hypothese Hi wird λ0i am Schwellenwert bestimmt.
• λ0 ∈Rm zur Erzeugung von Statistiken (Zni)i∈I0 die stochastisch gr¨oßer sind als die (Tni)i∈I0 und daher gegen eine Verteilung konvergieren, die (AQ0) erf¨ullt.
5
• τ0∈Rm0 zur Vermeidung einer degenerierter asymptotischer Nullverteilung und unendlicher kritischer Werte.
• λ0, τ0 h¨angen nur von den Randverteilungen der wahren Verteilung von Tn ab.
• h¨angen λ0, τ0 vom unbekannten P ab, so k¨onnen sie durch konsistente Sch¨atzer ersetzt werden.
• τ0 ist f¨ur FWER-Kontrolle nicht zwingend n¨otig.
4.2 Bootstrap-Sch¨ atzung der Nullverteilung
Wir sch¨atzen die wahre VerteilungP aus den DatenX1, ..., Xn durchPn⋆. Hier- aus wird dasbootstrap-sample generiert: niid. Realisierungen X1♯, ..., Xn♯ ∼ Pn⋆.
Anschließend erzeugen wir aus dem bootstrap-sample die Teststatistik (Ti♯n)i=1,...,m
und berechnen entsprechend Theorem 2 Zi♯n=
s
min(1, τ0i
V arPn⋆(Ti♯n))(Ti♯n+λ0i−EPn⋆[Ti♯n]), i= 1, ..., m.
Die Sch¨atzung der Verteilung von (Zi♯n)i=1,...,m erfolgt dann mittels der em- pirischen Verteilungsfunktion ¨uber B bootstrap-samples. Damit haben wir eine Approximation vonQ0(P) (aus Theorem 2).
Dieses Vorgehen ist in folgenden drei Sch¨atzmethoden umgesetzt.
Methode 3: Bootstrap-Sch¨atzung der Nullverteilung
1. Erzeuge B bootstrap samples{X1,b♯ , ..., Xn,b♯ }f¨urb= 1, ..., B mitXi,b♯ ∼Pn⋆, i= 1, ..., n, b= 1, ..., B
2. Berechne f¨ur jedes bootstrap sample die Teststatistiken T·,b♯n = (Ti,b♯n : i = 1, ..., m), so dass wir eine m×B-Matrix T♯n= (Ti,b♯n) erhalten.
3. Berechne zeilenweise Erwartungswerte und Varianzen in der Matrix T♯n um E[Tni] und V ar(Tni), i = 1, ..., m, zu sch¨atzen.
4. Erzeugem×B-MatrixZ♯n= (Zi,b♯n) durch zeilenweises Ver- schieben und Skalieren vonT♯n
5. Die bootstrap Sch¨atzung Q0n der Nullverteilung Q0 aus Theorem 2 erhalten wir als empirische Verteilung der Spal- tenZ·,b♯n der MatrixZ♯n.
6
Methode 4: Bootstrap-Sch¨atzung der common-quantil kritischen Werte
1. Wende Methode 3 an um die MatrixZ♯n und die gesch¨atze NullverteilungQ0n zu ermitteln.
2. Die bootstrap common-quantil cut-offs sind die Zeilenquan- tile der MatrixZ♯n, also die δ-Quantile desB-VektorsZi,·♯n:
d(Q0n,i, δ) =Q−10n,i(δ) = inf (
z: 1 B
B
X
b=1
1{Z♯n
i,b≤z}≥δ )
,
i= 1, ..., m.
3. F¨ur einen Test zum Niveauα∈(0,1), wirdδ gew¨ahlt als δ0n(α) = inf{δ: Θ(FR(d(Qn0,δ)|Q0n))≤α}. 4. FWER: (min-P)
(a) p-Wert-Matrix P♯n bestimmen durch Ersetzten der Eintr¨age in Z♯n durch deren zeilenweise Ord- nungszahlen (groß zu klein).
(b) W¨ahle in jeder Spalte vonP♯n den kleinsten p-Wert.
(c) (1−δ0n(α)) ist dasα-Quantil dieses B-Vektors der kle- insten p-Werte.
Methode 5: Bootstrap-Sch¨atzung der common-cut-offs 1. Wende Methode 3 an um die MatrixZ♯n und die gesch¨atze
NullverteilungQ0n zu ermitteln.
2. Berechne den gemeinsamen kritischen Werte aus Q0n
entsprechend
c(Q0n, α) =e(Q0n, α) = inf{c∈R: Θ(FR((c,..,c)|Q0n))≤α} 3. FWER: (max-T)
(a) Bestimme in jeder Spalte von Z♯n den gr¨oßten Wert.
(b) e(Q0n, α) ist das (1−α)-Quantil des B-Vektors der gr¨oßten Werte.
5 Quelle
Dudoit, van der Laan, Pollard: Multiple Testing. Part I Single-Step Procedures for Control of General Type-I-Error Rates.
7
!"#$%"$&$#'#()*++,)#!+ -,$ ./+$/-",0(,",)#$*0
1,2$0/+3 !"#$%",( 4,(#,05 6*&,0#3 7+*89 6+9 49 6$:);/!(5<,8,+,0#3 /=$2$"$/0 >0:;5??9@@9?A@A
! "#$%&#'($)* +,-.%&/0'#1 2&, 30,#0.%&$4&%&1'#-$
*B,""3Y =g(X) +ε=Xβ+εC
Y ∈Rn...<,(%*0(,C D$,"E+>F,CX ∈Rn×m....,+(!:;(%"/0G6,($E02/#+$=
Xi= (Xij)j=1,...,m ∈Rm...7+'B$)#*+,0H,)#*+C β= (β1, . . . , βm)′999 <,E+,(($*0()*,I&$,0#,0 εi∼N(0, σ2)$$BCσ2!0-,)/00#9
J!8E/-,3 K';", /!({1, . . . , m} kD/;",0C -,"/((,Xij1, . . . Xijk $2 *B,""
J"( 2!"#$%",( 4,(#%+*-",2 /!8E,8/((#3 4,(#, Hi:βi= 0, i= 1, . . . , m9
5! 6(%'#7%#8#'9'41-,,&1'(,
!"#$%"$&$#'#(%+*-",23 2>E"$:;C L,00 2,;+,+, ($2!"#/0, 4,(#( /2 6/#,02/#,+$/" ,$0,+ 1#!B$, B!+:;E,8M;+# L,+B,0 ND9O9 -,$ )"$0$(:;,0 1#!B$,0P
O,$(%$,"3 ϕ= (ϕi:i= 1,2) ,$0 2!"#$%",+ 4,(#Cϕi, i= 1,2C(#*:;/(#$(:; !0/-;'0E$EC P(ϕj= 1) = 0.05, j= 1,2
⇒3 QKR<Nϕ)>0.05 =α
5! ! 0('-/0'#4:;& 6(%'#7%#8#'9'41-,,&1'(,
,2%$+$(:;,+ J0(/#&3
/ %+$*+$ K/;+(:;,$0"$:;),$# ,$0,( *B,""(3 P(Mγ|p) =pkγ(1−p)m−kγ S(:;'#&,pN&9O9 R SJ"E*+$#;2!(C ($,;, T,*+E, !0B Q*(#,+ N?AAAPP
SB/00 L';", *B,"" 2$# 2/=$2/",+ / %*(#,+$*+$ K/;+(:;,$0"$:;),$#3 P(Mγ|Y)∼pˆkγ(1−p)ˆm−kγ·f(Y|Mγ)
!"#9SU*++,)#!+3 J00/;2,3 ,=9k L/;+, 7/+/2,#,+βi3m→ ∞ ⇒pˆ→0C 2$#pˆ= arg max
p∈[0,1]
P
γ
P(Mγ|p)·f(Y|Mγ)⇒ *B,"", 2$# H$,",0 7/+/2,#,+0 !0L/;+(:;,$0"$:;
H*""(#'0B$E,+ O/V,( J0(/#&3
J00/;2,3p∼Beta(a, b)8M+ / %+$*+$ K/;+(:;,$0"$:;),$# 8M+ *B,""Mγ
⇒P(Mγ) =
1
R
0
f(Mγ|p)π(p)dp= β(a+kβ(a,b)γ,b+m−kγ)9
Q/""a=b= 13 / %*(#,+$*+$ K/;+(:;,$0"$:;),$#P(Mγ|Y)∼m+11
m kγ
−1
·f(Y|Mγ)
⇒:U*++,)#!+C B/ K/;+(:;,$0"$:;),$# p0$:;# $0 Q*+2,"
?9?9 7+*-",2/#$) -,$2 ,2%$+$(:;,0 O/V,(SJ0(/#&3 !""# $%
!"#$ %&'()"$ *"& +,&#,()"-.")"/0#'- 1#)0
2,0 *,. 34))$'*")) *#" "560 1&780" )#/")#6''*9 .' #.0 *"& :;<=>56?0@"& pˆA'-p1)"#560B
2,0 *,. A')).0?-*#1" :'*")) *#" "560 1&780" )#/")#6''*9 .' #.0 *"& :;<=>56?0@"& pˆA'-p1)"#561B O,L,$(3
SB$, K/;+(:;,$0"$:;),$#,0 P(Mγ)(!22$,+,0 ($:; M-,+ γ&!1 S"$),"$;**B H*0p,+8M""#f(Y) =P
γ
P(Mγ)f(Y|Mγ)≤max
γ∈Γ f(Y|Mγ)
SW0E",$:;!0E $(# ,:;#C L,00 B$, O,B$0E!0E,0 B,( X,22/( E,"#,0C L,00 P(Mγ)0$:;# (:;*0 1$(#
SP(Mγ|p) =pkγ(1−p)m−kγ = 1$(# 0!+ 8M+p= 1*B,+p= 02>E"$:;C /"(* B/00C L,00 B/( Y!""2*B,"" *B,+ B/( H*""(#9 *B,"" E,"#,0 SB/2$# E$"# T",$:;;,$# !0B <,(# 8*"E#
2
<!6&2#0$ 7,-.0.#%#'= /-2&%* > ?0;% 2&4 -7'#/0%&$ 3-,;&,40)&/-2&%%4 >
&!'()*)+( $%
<C#.0#"&0 *#" D".,$0=,=E'.0"&#'&#=F-/)4.#'-.G,6&.56"#-)#56/"#0 pi≡ X
γ:γi=1
P(Mγ|y)
@
!" #$"%$&'(i) *+ %*, -$* .(-%$/ 0"+&$&%'%,1 2+-(' Mγ∗ $'* -$* .+-('' -(3/%(",) 4('56(* $7* -(/8 9(/%:(/ #$"%$&'(/ &(*,(6,) -("(/ $80+*,("%+"%8;/<'7*%+/*8=$6"*56(%/'%56<(%, 2%/-(*,(/* 12 &(,">:,?
!"#$%&γi∗=
1 , pi≥1/2
0 , '!(')
*+,')-(. /-012"%-,')-)3 0-((&
45 $%%- #6/%,72-( 8!9-%%-Hi:-)"$72)-) 0-"9-(
;5 :-)"$72)-)- 8!9-%%- /-26"-( .<" =%$''- 9-" /"$>2,'72-( 8!9-%%- !"#$%$&# '( @
A(%I(i)-%( B7 (%/(" #$"%$&'(/xi:(6C"(/-(/ .(/:( D+/ E$"$2(,("8;/-%B(*? F%/( G(%'<'$**( '%/($8
"(" .+-(''( &(*%,B, :"$06%*56( .+-(''*,"7<,7") 4(// (* $7* $''(/ .+-(''(/ &(*,(6,) -%( -%( +':(/-(
H(-%/:7/: (" !''(/@
I =(// !" 9(-(* i -%( #$"%$&'( xi B7 -(2 .+-('' :(6C",) -$// :(6C"(/ -%( #$"%$&'(/ xj, j ∈I(i) (&(/ $''* -$B7?J
? 8-9,$( >"!:$:,%,)@ #!9-% -" A%%) 9,-'- B-9,(/<(/
!"#$%&'(%$)$*
?B$@-',$(,'72-( C('$).& 8!9-%% #,) 2672')-" $?>!')-",!",?D$2"'72-,(%,72E-,) -"#6/%,72) :-')- F$?
)-(>"19,E),!(
?9,-'- D$2"'72-,(%,72E-,)-( ',(9 ! ) E%-,( ⇒ 8-9,$( >"!:$:,%,)@ #!9-% -"#6/%,72) C%)-"($),G- HB$":,-", <(9 B-"/-" H;II;5 5
?9$.<& =!G$",$(.#$)",+ Q=E[(X′X)] :-)"$72)-(J F,$/!($%/-)$%)⇒ $ >!')-",!", 8,))-%0-")-β˜γ -" A%%-( β˜γ =Hγ′β3 0!:-,˜ (H)ij=
1 , γi= 1<(9j=Pi r=1γr
0 , '!(')
)*!&+!, -( @
A(% Q K%$:+/$'2$,"%L 2%, K%$:+/$'(%/,">:(/ qi > 0) (* :(',( β˜γ = Hγ′β˜ 7/- -%( &(,"$56,(,(/
.+-(''610+,6(*(/ &(*%,B(/ :"$06%*56( .+-(''*,"7<,7"?
K$// %*, -$* .(-%$/ 0"+&$&%'%,1 2+-(' -$* &(*,( #+"6("*$:(2+-(''?
B-0-,'&
?8,(,#,-"- 9$' K<$9"$),'72- L,',E! R(Mγ) =
k
P
i=1
β˜i
2qi(γi−pi)2A:-" $%%- #6/%,72-(γ
?9,-' ,') /-($< 9$(( 9-" M$%%3 0-(( γ∗i =
1 , pi≥1/2
0 , '!(') /,%)
?-' %,-/) /"$>2,'72- 8!9-%%')"<E)<" G!"3 $%'! /-26") 9$' 8-9,$( >"!:$:,%,)@ #!9-% .< 9-( :-)"$72?
)-)-(
2
?M$%% $%%-" #6/%,72-( 8!9-%%-& 8-9,$( >"!:$:,%,)@ #!9-% :-',).) N>),#$%,)1)'-,/-('72$ )&
.&+&//0+ -( @ MN7"B +"2O
A(%Q-%$:+/$' 2%, qi>0) (* :(',( β˜γ =Hγ′β˜ 7/- $''( .+-(''( Mγ 4("-(/ &(,"$56,(,?
K$// %*, -$* &(*,( #+"6("*$:(2+-('' -$* .(-%$/ 0"+&$&%'%,1 2+-('?
;*,σ2 &(<$//, 7/-
P(Mγ) =
k
Y
i=1
(p0i)γi(1−p0i)1−γi
) -$// %*, -$* .(-%$/ 0"+&$&%'%,1 2+-(' -$* .+-('' 2%, -(" :"CP,(/ $ 0+*,("%+"% =$6"*56(%/'%56<(%,?
O2-!",- A" CPNQC?8!9-%% ,# ;?M$E)!"?8!9-%%&
yijk =µ+ai+bj+abij+εijk, i= 1,2, j= 1,2, k= 1,2, . . . , K, ε∼N(0, σ2),,93σ2<(:-E$(()R=<".&
y=Xβ+ε
⇒Q= 4∗K∗I4<(9 =!"!%%$" %1'') ',72 $(0-(9-(
+%$,-'$.-
?S7!))3 T$#-' UR3 B-"/-"3 T$#-' NR H;I4I5R B$@-' $(9 -#>,",7$%?B$@-' #<%),>%,7,)@ $9V<')#-() ,( )2- G$",$:%-?'-%-7),!( >"!:%-#3 O2- C(($%' ! S)$),'),7'
?B$":,-",3 8$",$ 8R3 B-"/-"3 T$#-' NRH;IIW5R N>),#$% >"-9,7),G- #!9-% '-%-7),!(R O2- C(($%' ! S)$),'),7'3 Q!%R X;3 YZI?Y[Z
;
”Higher Criticism Thresholding” zur Merkmalsauswahl
(Donoho & Jin, PNAS Vol. 105, No. 39, 14790-14795)
Thorsten Dickhaus
29.11.2010
1. MOTIVATION UND MODELLBILDUNG
Wir betrachten zur Motivation des vorzustellenden Verfahrens Klassifikationsprobleme als Teildisziplin des statistischen Lernens. Gegeben ist ein Trainingsdatensatz der L¨ange n, mod- elliert als Realisierung von (Yi, Xi), i = 1, . . . , n mit Yi ∈ {+1,−1} (das Label) und Xi ∈ Rp (der Merkmalsvektor) f¨ur alle i. Die p-dimensionale Verteilung von einem jeden Xi sei gegeben durch Xi ∼ N(Yiµ,Σ), wobei µ∈ Rp Kontrastvektor und Σ Merkmals-Kovarianzmatrix heißt.
Aufgabe der Klassifikation ist nun, einen funktionalen Zusammenhang von Y und X anhand der bivariaten mathematischen Stichprobe (Yi, Xi)i=1,...,n zu ”erlernen”. Eine Klasse von Ver- fahren sind die linearen Klassifikatoren. Sie sind von der Form L(X) = Pp
j=1wjXj +b, wobei w= (w1, . . . , wp)t Gewichtsvektor heißt. F¨ur eine neue Realisierung xbestimmt das Vorzeichen vonL(x) dann, welches Label ihr angeheftet wird.
Ein sinnvolles Kriterium zur Bestimmung von w ist, dass die Klasse mit h¨oherer a posteriori- Wahrscheinlichkeit ausgew¨ahlt werden soll, d. h., ˆℓ = arg maxℓ=1,2{p(ℓ)f(x|ℓ)} mit p(ℓ) als einer geeignet gew¨ahlten a priori Wahrscheinlichkeit f¨ur Klasseℓ (z. B. k¨onnte p(ℓ) die relative H¨aufigkeit von Klasseℓim Trainingsdatensatz sein oder es k¨onnte quasi-objektivp(1) =p(2) = 1/2 gew¨ahlt werden). Da nach der Modellbildung von oben f(x|ℓ) = (2π)−p/2(det Σ)−1/2× exp{(−1/2(x−µℓ)tΣ−1(x−µℓ)}gilt (µ1=−µ2=µin unserem Beispiel), folgt sofort (wir lassen in ℓ invariante Terme weg und transformieren streng isoton), dass ˆℓ = arg maxℓ=1,2{ln(p(ℓ)− 1/2(x−µℓ)tΣ−1(x−µℓ)} die zu w¨ahlende Klasse ist. Wir erhalten also den linearen Klassifika- tor durch die Diskriminanzfunktiond(x). Dazu seidℓ(x) = ln(p(ℓ)−1/2(x−µℓ)tΣ−1(x−µℓ), ℓ= 1,2, und d(x) = d1(x)−d2(x) = [x−1/2(µ1+µ2)]tΣ−1(µ1−µ2)−ln(p(2)/p(1)). Damit ist der Bayes-optimale Gewichtsvektorw proportional zu Σ−1µ. Unsere Rechnung zeigt zudem, dass dies auch f¨ur den Maximum Likelihood-basierten linearen Klassifikator gilt. Das Problem ist nun, dass Σ singul¨ar (nicht-invertierbar) wird, falls p > n ist. In einem solchen Fall (viele Merkmale, kleiner Umfang des Trainingsdatensatzes) ist also eine Merkmalsauswahl vonn¨oten.
2. HIGHER CRITICISM THRESHOLDING
Das ”Higher Criticism” Thresholding ist ein Merkmalsauswahlverfahren. Es hat gute Eigen- schaften under dem sogenannten ”rare/weak feature model”, also in Situationen, in denen es nur wenige informative Merkmale gibt undµklein ist. Es gebe alsok << p Elemente vonµungleich Null, wobeiε = k/pein kleiner Anteil, z. B. 1%, ist. Zus¨atzlich sollen alle nicht-null Elemente vonµeinen konstanten Wertµ0 haben. Mitτ =√
nµ0 ist damit RW(ε, τ) ein zweiparametriges
1
Modell. Wir betrachten nun Zj = n−1/2Pn
i=1YiXi,j, j= 1, . . . , p, die Teststatistik f¨ur die Hy- potheseHj: Cov(Y, Xj) = 0. Drei intuitive Strategien zur Merkmalsauswahl sind dann gegeben durch
(i) Clipping: ηclip(z) = sgn(z),
(ii) Hard thresholding: ηhardt (z) =z1{|z|>t}, (iii) Soft thresholding: ηsoftt (z) = sgn(z)(|z| −t)+.
In allen drei F¨allen benutzen wir den linearen Klassifikator ˆL∗t(X) = Pp
j=1w∗t(j)Xj mit ∗ ∈ {clip,hard,soft}undwt∗(j) =ηt∗(Zj). Es werden also nur Merkmale in die Klassifikationsfunktion aufgenommen, denen eine hinreichend große Korrelation mit dem Label zugemessen wird, die also genug Label-relevante Information tragen.
Offensichtlich bleibt nun nur noch die Frage offen, wiet(der Schwellenwert, englisch: threshold) zu w¨ahlen ist. Wir m¨ochten dabei ein Verfahren benutzen, dass nicht nur jede Komponente Xj f¨ur sich genommen bewertet, sondern die Gesamtheit der Information in X w¨urdigt, also der Multiplizit¨at der Fragestellung ad¨aquat Rechnung tr¨agt. Eine L¨osung ist die Verwendung der ”Higher Criticism” Statistik (siehe unten). John W. Tukey hat das Schlagwort ”Higher Criticism” aus der Bibelexegese entlehnt, wo es im Englischen die historisch-kritische Methode, also die kontextbezogene Bibelauslegung, bezeichnet. Beschreiben wir die ”Higher Criticism”
Methode zun¨achst abstrakt.
Seien unter unserem generellen Rahmen des multiplen Testens m marginale p-Werte pi, i = 1, . . . , m, gegeben mit pi iid ∼ UNI[0,1] unter der Globalhypothese H0 = Tm
i=1Hi. Bezeichne p[1]≤p[2]≤. . .≤p[m] die geordnetenp-Werte. Die Theorie f¨ur Orderstatistiken gleichverteilter, unabh¨angiger Zufallsgr¨oßen (vgl. z. B. [Shorack and Wellner, 1986]) liefert, dass
∀i= 1, . . . , m:p[i] ∼
approx.N i
m, i m
1− i
m
.
Um nun einen ”Higher Criticism” Test f¨urH0zu konstruieren, versuchen wir, Abweichungen von dieser Grenzverteilung (msei groß) zu erkennen und definieren dazu
HC(i, p[i]) = √
m i/m−p[i]
pi/m(1−i/m),
HC∗ = max
1≤i≤α0mHC(i, p[i]),
wobeiα0 ein Tuningparameter aus (0,1] ist. HC∗ kann dann als Z-Score zum Pr¨ufen der Glob- alhypotheseH0 verwendet werden.
F¨ur das Merkmalsauswahlproblem adaptieren wir diese Methodik wie folgt (HC Tresholding).
Dazu seienZj, j= 1, . . . , p wie zuvor.
(a) Transformiere die realisierten Werte zj zu p-Werten, also bilde pj = P(|N(0,1)| > |zj|), j= 1, . . . , p.
(b) Maximiere die HC-Funktion ¨uber den Indexj. Sei ˆj der Index mit maximalem HC-Wert.
Dann definiere den Schwellenwert f¨ur HC Tresholding alsHCT := ˆtHC =|z|ˆj.
2
Ohne Beweis pr¨asentieren wir den folgenden Satz, der zeigt, dass HCT eine vern¨unftige Wahl ist.
Theorem 2.1. SeiFp(t) =p−1Pp
j=11{Zj≤t}. Dann strebt f¨ur alletdie ZufallsvariableFp(t) f¨urp→ ∞gegenFε,τ(t) = (1−ε)Φ(t) +εΦ(t−τ), den Wert der wahren Verteilungsfunktion des Zweiklassen-Mischmodells. Definiere
T P R(t)≡T P R(t;ε, τ) = Φ(t−τ) + Φ(−t−τ), F P R(t)≡F P R(t;ε, τ) = 2Φ(−t),
P R(t)≡P R(t;ε, τ) = (1−ε)F P R(t) +εT P R(t) und betrachte
HC(t;g ε, τ) := ε(T P R(t)−F P R(t))
pP R(t)(1−P R(t)) = P R(t)−F P R(t) pP R(t)(1−P R(t)).
Seit0 so, dass P R(t0) =α0 gilt und seiTHC(Fε,τ) = arg maxt≥t0HC(t;g ε, τ). Dann gilt ˆtHC→w THC(Fε,τ), p→ ∞.
In Worten maximiert ˆtHC also im RW(ε, τ)-Modell f¨ur gegen unendlich strebende Dimension- alit¨at des Merkmalsraums die gewichtete Anzahl informativer Merkmale, die ausgew¨ahlt werden.
References
[Shorack and Wellner, 1986] Shorack, G. P. and Wellner, J. A. (1986). Empirical Processes with Applications to Statistics. Wiley, New York.
3
N):(5
%HWUDFKWHHLQ7HVWSUREOHPHQGOLFKHU$Q]DKOGHU1XOOK\SRWKHVHQPLW
+
LL V
:LUQHKPHQDQGDVVGLH7HVWVIUHLQ]HOQH+\SRWKHVHYHUIJEDUVLQGXQGZLUPVVHQVLHLQHLQHP 9HUIDKUHQNRPELQLHUHQ'HUHLQIDFKVWH$QVDW]IUGLHVHV3UREOHPLVWGDVVZLUMHGH+\SRWKHVHDXIHLQHP 1LYHDX
D
WHVWHQ$EHUEHLVROFKHP9HUIDKUHQVWHLJWGLH:DKUVFKHLQOLFKNHLWGDVVHLQRGHUPHKUHUHZDKUHQ +\SRWKHVHQYHUZRUIHQZHUGHQPLWV:HQQGLH$Q]DKOGHUZDKUHQ+\SRWKHVHQJURLVWVLQGZLUVLFKHU GDVVHLQLJHYRQGHQHQYHUZRUIHQZHUGHQ'HVZHJHQODXWHWGHUNODVVLVFKH$QVDW]GDVVZLUGLH:DKUVFKHLQOLFKNHLWYRQHLQHURGHUPHKUHUHQ9HUZHUIXQJHQNRQWUROOLHUHQPVVHQ'LHVH :DKUVFKHLQOLFKNHLWZLUGDOV):(5LQ(QJOLVFKIDPLO\ZLVHHUURUUDWHJHQDQQW'HU%HJULII
ÄIDPLO\³EH]LHKWVLFKDXIHLQH6DPPOXQJGHU+\SRWKHVHQ
+
+
VXQGVLHZHUGHQ]XVDPPHQJHWHVWHW )UGLH.RQWUROOHGHU):(5DXIHLQHP1LYHDXD
EUDXFKHQZLUGLH%HGLQJXQJD d
):(5
IU
D
XQGDOOHP|JOLFKH.RPELQDWLRQHQYRQIDOVFKHQXQGULFKWLJHQ+\SRWKHVHQ$EHUZHQQGLH$Q]DKOGHU7HVWVLQGLH=HKQWDXVHQGRGHU+XQGHUWWDXVHQGJHKWZLUGGLH.RQWUROOHGHU ):(5VWlUNHUVRGDVVGLHHLQ]HOQHQ$EZHLFKXQJHQGHU+\SRWKHVHPLWNOHLQHU&KDQFHHQWGHFNWZHUGHQ ZHQQVLHDXIWUHWHQ'HVZHJHQEHWUDFKWHQZLUHLQH$OWHUQDWLYHGDPLWGLH.RQWUROOHGHU9HUZHUIXQJHQ ZHQLJHUVWDUNZLUGXQGVRPLWEHVVHUH(UJHEQLVVHOLHIHUQ
:LUEHWUDFKWHQN):(5IUN!LVWGLHVH)HKOHUTXRWHVHKUJHHLJQHWZHQQPDQEHUHLWLVWHLQHRGHU PHKUHUHIDOVFKH9HUZHUIXQJHQ]XWROHULHUHQVRIHUQGLH$Q]DKOGHU9HUZHUIXQJHQNRQWUROOLHUWLVW
'HI'LH'DWHQ;VHLHQYHUIJEDU
Z :
EHWUDFKWH+
L3 Z
LL V
6HL, 3
GLH,QGH[PHQJH GHUZDKUHQ1XOOK\SRWKHVHQZHQQ3GLHZDKUH:DKUVFKHLQOLFKNHLWVYHUWHLOXQJLVWGKL , 3 3 Z
L 'DQQKHLWGLH:DKUVFKHLQOLFKNHLWYRQPLQGHVWHQVNIDOVFKH9HUZHUIXQJHQN):(5N):(5 3^9HUZHUIHQYRQPLQGHVWHQVN+\SRWKHVHQ
+
LPLWL , 3
` )UGLH.RQWUROOHGHUN):(5EUDXFKHQZLUGLH%HGLQJXQJN):(5d D
)UN NRPPHQZLUZLHGHU]XUFN]XGHU%HGLQJXQJGHU):(5
'HI%HWUDFKWHHLQH1XOOK\SRWKHVH
+ 3 Z
6HL6
DGHU$EOHKQEHUHLFKDXIGHP1LYHDXD
(VJHOWHQ L3 ^ ; 6
D` d D D 3 Z
LL
6
D 6
DcZHQQD D c
'DQQS S ; LQI^ D ; 6
D`
/HPPD6HLSZLHREHQGHILQLHUWL )DOOV
3 Z
GDQQ3 ^ S d X ` d X
LL3 ^ S d X ` t 3 ^ ; 6
X`
%HP:HQQ
6
DVRLVWGDVV3 ^ ; 6
D` D
GDQQLVWSJOHLFKYHUWHLOWLQZHQQ3 Z
%HZHLV/HPPD
6HL
3 Z ^ S d X `
LPSOL]LHUW^ ; 6
XH`
IUHLQNOHLQHVH !
$OVRH
d H
d
d X 3 ; 6
X S
3 ^ ` ^
X`
-HW]WODVVHQZLUH o
'DPLWIROJWL`
^ ; 6
X LPSOL]LHUW^ S d X `
XQGGDPLWIROJWLLNODVVLVFKH9HUIDKUHQGLH.:(5NRQWUROOLHUWVLQG%RQIHUURQLXQG+ROP9HUIDKUHQ%HLP%RQIHUURQL 9HUIDKUHQZLUGMHGH+\SRWKHVH
+
LYHUZRUIHQZHQQS
Ld D V
ZREHLS
LGLH%HGLQJXQJ3 ^ S
Ld X ` d X
IUHLQNOHLQHVEHOLHELJHVX
HUIOOW+ROP9HUIDKUHQ6HLHQ
S
d d S
V'DQQLVWGDV+ROP9HUIDKUHQZLHIROJWGHILQLHUW
6HW]HN
6FKULWW:HQQ
S
N! D V N
GDQQJHKW]XP6FKULWWDQGHUQIDOOVN NXQGZLHGHUKROHQ6FKULWW 6FKULWW9HUZHUIHQ+
MZHQQM d N
QLFKWYHUZHUIHQ+
MZHQQM ! N
'DV%RQIHUURQL9HUIDKUHQLVWHLQ%HLVSLHOIUVLQJOHVWHS3UR]HGXUGKMHGH1XOOK\SRWKHVHZLUGYHUZRUIHQ ZHQQGHUHQHQWVSUHFKHQGHQS:HUWHQNOHLQHUJOHLFKGHPJHPHLQVDPHQ:HUWEHL%RQIHUURQLLVW
D V
'DV+ROP9HUIDKUHQLVWHLQ6SH]LDOIDOOGHUVWHSGRZQ3UR]HGXUGLHZLHIROJWDXVVLHKW6HLHQ
D
d d D
V:HQQ
S
! D
GDQQZLUGNHLQH+\SRWKHVHYHUZRUIHQ$QGHUQIDOOVZHQQS
d D
S
Ud D
UGDQQ ZHUGHQGLH+\SRWKHVHQ+
d d +
UYHUZRUIHQ
'DVEOLFKH%RQIHUURQL9HUIDKUHQYHUJOHLFKWMHGHQS:HUW
S
LPLWD V
'LH.RQWUROOHGHUN):(5 HUODXEWXQVHLQH(UK|KXQJYRQD V
]XN D V
XQGGDPLWVWHLJWGLH:DKUVFKHLQOLFKNHLWIDOVFKH+\SRWKHVH ]XHUNHQQHQ7KHRUHP
+
L3 Z
LL V
XQGS
LHUIOOWGLH%HGLQJXQJ3 ^ S
Ld X ` d X
%HWUDFKWHGDVVLQJOHVWHS 9HUIDKUHQEHLGHPMHGH+
LYHUZRUIHQZLUGZHQQS
Ld N D V
L 'DV9HUIDKUHQNRQWUROOLHUWN):(5VRGDVVN):(5
d D
bTXLYDOHQ]:HQQMHGH +\SRWKHVHDXIGHP1LYHDXN D V
JHWHVWHWZLUGGDQQLVWN):(5NRQWUROOLHUWLL N):(5
d D
LVWVFKDUILQGHP6LQQHGDVVHVHLQHJHPHLQVDPH9HUWHLOXQJIUS
S
VVR GDVVN):(5D
%HZHLV6HLHQGLH1XOOK\SRWKHVHQ
+
LPLWL , , 3
ZDKUXQGGHU5HVWIDOVFK_,_LVWGLH.DUGLQDOLWlW YRQ,6HL1GLH$Q]DKOGHUIDOVFKHQ9HUZHUIXQJHQ'DQQD D D D
d d
d d
t ¦ ¦
3 V N ,
V N N
V N S , ( N
1 N (
1 3
3 , L 3
, L
L
^ ` @ _ _
>
`
^
!L8PLL]XEHZHLVHQEHWUDFKWHQZLUGLHIROJHQGH.RQVWUXNWLRQ
:LUQHQQHQ-GLH,QGH[PHQJHGHUN]XIlOOLJJHQRPPHQHQRKQH=XUFNOHJHQ,QGL]HVDXVGHU,QGH[PHQJH
^«V`
:HQQ
L -
GDQQS
L8
ZREHL8
DXIGHPNVJOHLFKYHUWHLOWLVWGK8
a 8 N V
:HQQL -
GDQQS
L8
ZREHL8
XQDEKlQJLJYRQ8
XQG8
a 8 N V
'DQQ
a
a 8 N V 8 V
V N N V 8
S
LN
:HQQ
X d N V
GDQQX
V N
X V X N 8 3 - L 3 X S
3
Ld d
`
^
`
^
`
^
:HQQ
X ! N V
GDQQX
V N
V N X V N V
X N 8 3 - L 3 -
L 3 X S 3
Ld
d
`
^
`
^
`
^
`
^
$OVRZHQQHVH[DNWNPDO
S
Ld N D V
JLEWGDQQD D D
d N V
V V N
N 8
3
`
^
!LL'LHREHQEHVFKULHEHQHVLQJOHVWHS3UR]HGXUNDQQYHUEHVVHUWZHUGHQLQGHPZLUVWHSGRZQ3UR]HGXU EHQXW]HQ
7KHRUHP
+
L3 Z
LL V
XQGS
LHUIOOWGLH%HGLQJXQJ3 ^ S
Ld X ` d X
'LHVWHSGRZQ3UR]HGXU PLWD
LN D V
ZHQQL d N
XQGD
LN D V N L
ZHQQL ! N
NRQWUROOLHUWN):(5GKN):(5
d D
JLOW%HZHLV6HL,3GLH,QGH[PHQJHGHUZDKUHQ1XOOK\SRWKHVHQ_,3_
t N
1HQQHQZLUGLHHQWVSUHFKHQGHQS:HUWHQ]X_,3_ZDKUHQ+\SRWKHVHQ
T
d d T
_,3_ 6HLMGHUNOHLQVWH,QGH[GHUS
MT
NHUIOOWDOVRN d M d V _ , 3 _ N
'DQQKDWGLHVWHSGRZQ3UR]HGXUPLQGHVWHQVNIDOVFKH9HUZHUIXQJHQJHQDXGDQQZHQQ
M
S
MS
d D
d D
!T
NS
Md D
MN D V N M
$EHU
_ , 3 _ N M N V
N D D
d
$OVRLVWGLH:DKUVFKHLQOLFKNHLWYRQPLQGHVWHQVNIDOVFKHQ9HUZHUIXQJHQQDFKREHQEHVFKUlQNW
GXUFK
`
_
^ _
3 , T N
3
ND
d
1DFK7KHRUHPLD D
d
d `
_
^ _
3 , T N
3
N6WHSXS3UR]HGXU6HLHQ
S
d d S
VD
d d D
V:HQQ
S
Vd D
VGDQQZHUGHQDOOH+\SRWKHVHQYHUZRUIHQDQGHUQIDOOVZHUGHQGLH+\SRWKHVHQ+
U+
YHUZRUIHQZHQQUGHUNOHLQVWH,QGH[LVWGHUS
V! D
VS
U! D
UHUIOOW:HQQIUDOOHUU
S
U! D
GDQQYHUZHUIHQNHLQH+\SRWKHVH:HQQZLUEHLGHVWHSXSXQGVWHSGRZQ3UR]HGXUHPLWGHQJOHLFKHQNULWLVFKHQ:HUWHQEHWUDFKWHQVWHOOHQZLU IHVWGDVVVWHSXS3UR]HGXUPLQGHVWHQVVRYLHO+\SRWKHVHQYHUZLUIWZLHVWHSGRZQ3UR]HGXU8QGZHQQZLU IUEHLGHVWHSXSXQGVWHSGRZQ3UR]HGXUHQGLHJOHLFKHQ0DVWlEHIUGLH.RQWUROOHGHUN):(5KDEHQLVW VWHSXS3UR]HGXUEHVVHULQGHP6LQQHGDVVGLHIDOVFKHQ9HUZHUIXQJHQEHVVHUHUNDQQWZHUGHQ
/HPPD6HL_,_,QGH[PHQJHGHUZDKUHQ+\SRWKHVHQ
D
d d D
VT
d d T
_,_GLHS:HUWHQGHU ZDKUHQ+\SRWKHVHQ'DQQJLOWIUHLQHVWHSXS3UR]HGXUGLH8QJOHLFKXQJN):(5
^ >^ ` `
_ _
_
_ , M NM , V
T
M3
d d
d
d D
:HQQ
D
d d D
VJHJHEHQLVWEHQXW]HQZLUGDV/HPPDXPHLQHVWHSXS3UR]HGXU]XNRQWUROOLHUHQ ZHOFKHZLHGHUXPN):(5NRQWUROOLHUWXQGDQVFKOLHHQGGHILQLHUHQZLU¦
d d
_ _
_ _ _
_
_ _ _ _
_ _ _ _
, M N
M , V M , V V
, M N
N , ,
, V N 6
6 D D D
XQG
_ _ PD[
_ _
' N V 6 N V ,
'
Nd,dV7KHRUHP6HLHQ
D
d d D
V+
L3 Z
LL V
XQGS
LHUIOOWGLH%HGLQJXQJ3 ^ S
Ld X ` d X S
VS
d d
6HLD
Lc DD
L'
N V
ZREHL'
ZLHREHQGHILQLHUW'DQQ L N):(5d D
IUHLQHVWHSXS3UR]HGXULL )UMHGHVWHSXS3UR]HGXUPLWNULWLVFKHQ:HUWHQ
D
LDD
L' c N V
ZREHL'c
.RQVWDQWH GLHN):(5d D
HUIOOWKDEHQZLUIUMHGHLD
Lc t D
L%HYRUZLUGDV7KHRUHPEHZHLVHQN|QQHQEUDXFKHQZLUQRFKHLQ/HPPD
/HPPD
S
LHUIOOWGLH%HGLQJXQJ3 ^ S
Ld X ` d X
XQGVHLHQS
d d S
V)UP d V
VHW]HE
d E
d d E
Pd
'DQQL
d d d d ¦
PL
L L P
P
V L
S S
S 3
` ^ ` ^ ``
^^ E E E E E
LL6RODQJHGLHUHFKWH6HLWHGHURELJHQ8QJOHLFKXQJ
d
GDQQLVWGLHVH*UHQ]HVFKDUILQGHP6LQQHGDVV HVHLQHJHPHLQVDPH9HUWHLOXQJIUS:HUWHQJLEWVRGDVVDXVGHU8QJOHLFKXQJHLQH*OHLFKXQJZLUG%HZHLV]XP7KHRUHPL1DFK/HPPDXQGJLOW