• Keine Ergebnisse gefunden

Bayesianische FDR (Teil 1)

N/A
N/A
Protected

Academic year: 2021

Aktie "Bayesianische FDR (Teil 1)"

Copied!
43
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

!"#$%!&%$'(# )*+ ,-#%. /0

!"#$%# &"'(# )*+#

,-.//.0,/,

!" #$% &'%$(!$)*+"*+",-$). /!0*+10$) 2$"**-$3%+$ +"* #+$ !"#$% &#'( )**+*

,!-( &4567. 80" $+)$ 9:;0+,-<$+*= #$) 4$-0$% >? %* @! <3)*%300+$%$)= A3-0B C$<8))* &"+$-$ D$/+)8%.? E+$ F3)*%300$ #$" /!0*+10$) G+H$8!" +"* ;$%8#$ +) ;$B )$*+",-$) 4%8;$"*$00!);$)= A3 #+$ )@8-0 n #$% @! *$"*$)#$) IJ13*-$"$) "$-%

;%3K A$%#$) <8))= -L!M; @! <3)"$%H8*+H? 6+)$ 0*$%)8*+H$ @!% 4567 +"* #+$

!$'( .#'/+0(*% ,!-(= #+$ )+,-* #+$ 58-%",-$+)0+,-<$+* 'N% $+)$) 4$-0$% >? %*

<3)*%300+$%*= "3)#$%) #$) &$%A8%*$*$). )*$+0 H3) 480",-BO$%A$%'!);$) 8) #$) O$%A$%'!);$) +)";$"8/*?

E3,- )+,-* )!% +) #$% '%$(!$)*+"*+",-$) 2$"**-$3%+$ M)#$* #+$ 4E7 +-%$ )B A$)#!);? P$/LK $+)$" 7$"!0*8*" H3) D*3%$J 0L""* #+$ 4E7 +/ D$**+); #$" "3;?

QA$+<08""$)B9+",-/3#$00" $+)$ C8J$"+8)+",-$ R)*$%1%$*8*+3) @!? S8"+$%$)# 8!'

#+$"$% !""8;$ "300$) -+$% @A$+ C8J$"",-$ 2$"*/$*-3#$) H3%;$"*$00* A$%#$)= #+$

C$+#$ 8!' $+)$% 43%/ #$% 4E7 C8"+$%$)?

!"#$%&'($)*$+ ,-* .$/0123$ 405(3$1

R/ 430;$)#$) A$%#$) -L!M; C$#+);*$ E+,-*$) 8!'*%$*$)? E8-$% "300 @! S$;+))

#+$"$% !"8%C$+*!); 8) #8" S8J$"B2-$3%$/ 'N% C$#+);*$ E+,-*$) $%+))$%* A$%B

#$)? Q!)L,-"* T$#3,- $+)$ 5+$#$%-30!); @! C$#+);*$) E+,-*$) 800;$/$+)U !"#$ )' '(#(1 234!$$'0!*#!5$(1 Z : (Ω,A,P) → (R,B) 316 θ : (Ω,A,P) → (S,S) 7(7(5(18 9+5(# (S,S) (#1(1 :+*($*!3" 316 µ (#1 σ;(16$#/<(' =!> !34 (S,S)5(?(#/<1(1@ (*1(* '(# f(Z,θ):R×S→R+ 6#( λ⊗µ;.#/<-( 0+1P(Z,θ)@ .!11

fθ(ϑ) = Z

R

f(Z,θ)(z, ϑ)dz #'-µ;.#/<-( 0+1Pθ fZ(z) =

Z

R

f(Z,θ)(z, ϑ)dϑ #'-λ;.#/<-( 0+1PZ fZ|θ=ϑ(z) = f(Z,θ)(z, ϑ)

fθ(ϑ) #'-λ;.#/<-( 0+1PZ|θ=ϑ fθ|Z=z(ϑ) = f(Z,θ)(z, ϑ)

fZ(z) #'-µ;.#/<-( 0+1Pθ|Z=z

!"# &S8J$"B2-$3%$/ 'N% E+,-*$).$ A1 6(* B#-3!-#+1 6(' +5#7(1 B!-?(' 7#$- (i) fθ|Z=z(θ) = fZ|θ=ϑ(z)fθ(ϑ)

fZ(z)

(ii) fZ|θ=ϑ(z) =fθ|Z=z(ϑ)fZ(z) fθ(ϑ)

4N% #+$ )L,-"*$) C",-)+**$ +"* #8" !)*$) "*$-$)#$ )A$)#!);"C$+"1+$0 "$-%

A+,-*+;?

>

(2)

!"#$"!%& ! !"#"$ Z : (Ω,A) → (R,B)% θ : (Ω,A) → (N,P(N)) &$' µ '(!

)*+,-(. (&/ (N,P(N))0 ! 1",2"3

θ∼Ber(p1), p0:= 1−p1 ∈(0,1) Z ∼ N(0,1)(1−θ) +N(100,1)θ )#", #!2 '#" 4"!2#--&$1 56$ fθ|Z=z0

7#2 68#1"- 4(9"!:;+"6<"- "<+*,2 -($3

fθ|Z=z(ϑ) = fZ|θ=ϑ(z)fθ(ϑ) fZ(z) =

( p0ϕ0,1(z)

p0ϕ0,1(z)+p1ϕ100,1(z), /=<ϑ= 0,

p1ϕ100,1(z)

p0ϕ0,1(z)+p1ϕ100,1(z), /=<ϑ= 1

!"#$% &'$()*%+, +"-%

'!()"*"+)& ! !"# "#$ -&,2#>,"! ;"!2><68,"- -#2 m?& 2"!2"$'"$ @9>62+"!"$

1"1"8"$ &$' ϕ= (ϕi, i= 1, . . . , m)"#$" -&,2#>," ;"!2><6?"'&<0 V : A?&/*,,#1"B C$?(+, '"< ;9>:D:E"+,"<

R: A?&/*,,#1"B C$?(+, 56$ 5"<F6</"$"$ @9>62+"!"$ #$!1"!(-2. D0 G#" !"#$ %&#'()$*+ ,!-$ . %,/ 56$ϕ#!2 '"H$#"<2 (,!

F DR(ϕ) = E! V R∨1

I0 G#" 0(#&-&)$ !"#$ %&#'()$*+ ,!-$ .0 %,/ 56$ ϕ#!2 1"1"8"$ '&<J+

pF DR(ϕ) =EV

R |R >0 .

K!2 $&$ "#$ ;"!2ϕ'&<J+ "#$"$ L"<F"</&$1!8"<"#J+{Z∈Γα}J+(<(M2"<#!#"<2 A#$ '"- N#$$"% '(!! ϕ= 1 ⇔ Z ∈ ΓαB% !6 #!2 pF DR(ϕ) = EV

R | Z ∈ Γα

0 4"#!>#",!F"#!" MO$$2" Γα = (zα,∞) !"#$0 K$ '#"!"- E(,, F#<' '#" P62(2#6$

pF DR(zα) :=pF DR(ϕ)5"<F"$'"20

G#" >EGQ +(2 #$ "#$"- 1"F#!!"$ N"22#$1% '"- )F"#M,(!!"$:7#!J+-6'",,% "#:

$" 4(9"!#($#!J+" K$2"<><"2(2#6$0 G#"! F#<' '&<J+ "#$"$ N(2? 56$ N26<"9 AIRRDB '"&2,#J+0

'!()"*"+) A)F"#M,(!!"$:7#!J+-6'",,B& ! !"#"$(Z1, H1), . . . ,(Zn, Hn)##'0 )&:

/(,,!5(<#(8,"$0 ! 1",2" /=<i= 1, . . . , n

Zi|Hi∼(1−Hi)f0+Hif1

Hi∼ Ber(p1)

K$ '#"!"< C&!(<8"#2&$1 M($$ -($Hi(,! K$'#M(26<5(<#(8," -#2 '"< K$2"<><":

2(2#6$ [Hi= 1⇔i:2" C,2"<$(2#5+9>62+"!" #!2 F(+<] 5"<!2"+"$0

,-*. AN26<"9 AIRRDBB& 1$2$3$4 #$& $&4 56$&7"!##$489&#':;(<$""=ϕ#$& $&4$ ;>"8 -&0"$ ?$#-0*(@$<>* ;&- (3&2$* A:!*!7-$*&#&$*>42 <>*': <$4 B3"$:43$*$&':= %!44 2&"-

pF DR(ϕ) =pF DR(zα) =P

H = 0|Z > zα

G(! +"#.2% '#" >EGQ M($$ (,! "#$ 4(9"!!J+"< ( >6!2"<#6<# ;9>:D:E"+,"< ($:

1"!"+"$ F"<'"$0

#$" S,6M(,"T L"<!#6$ 56$ pF DR(zα) = P

H = 0 | Z > zα

F*<" '($$

P

H = 0|Z=z/=<z∈R3

'!()"*"+)& K- N"22#$1 '"! 68"<"$ N(2?"! #!2 /=< z∈R'#" "(7!"$ C<* '"H$#"<2 (,!

f dr(z) :=P

H = 0|Z =z

I

(3)

!" #$% &'($)*+,%-$. /0% 1!23"$4 $%35." -'46 f dr(z) =fH|Z=z(0) = p0f0(z)

f(z) 7) 8!."6 pF DR(z) =Ef(f dr(Z)|Z > z)9

!"# f dr "$ #%&"'"()*#$ +$, $")*-&.'.%#-'"()*#$

/.0#(12#-*3,#$

:!% ;$"%'23"$4 $!4$ <4=$4#>48 #$) ?*@.'))$4* !)23-,#$..) '>/ #') &$!A!$. #$%

B$4$CA%$))!,49 D!$% )$!n#!$ E-$!)" )$3% 8%,F$G <4H'3. H> >4"$%)>23$4#$% B$4$9 I$#$) B$4 3';$ $4"=$#$% #!$ <>)A%58>48 JK>-,%L ,#$% J4,%-'.L >4# M!$. !)"

$)N #!$nB$4$ !4 #!$ @.'))$4 JK>-,%OP J4,%-'.L $!4H>"$!.$49 I$#$- B$4 )$! $!4 ),8$4'44"$% !"#$%& H>8$,%#4$"N '43'4# #$))$4 #!$ @.'))!QR'"!,4 S,%8$4,--$4

=$%#$4 ),..9 7) )"$3$4 '.),nK$)")"'"!)"!R$4 Z1, . . . , Zn H>% T$%/08>489

p0 )$! #$% <4"$!. #$% B$4$N #!$ #$% @'"$8,%!$ J4,%-'.L '48$3U%$4 >4# $) )$!

p1= 1−p09

M>% 1>%23/03%>48 #$% @.'))!QR'"!,4 )$!$4 3!$% 4>4 H=$! $"3,#$4 S,%8$)"$.."6

#$% $-A!%!)23$ >4# #$% 4!23"A'%'-$"%!)23$ &'($)*<4)'"H9 <4)23.!$F$4# ),..$4 V23=523$4 #$) 7%)"8$4'44"$4 !- T$%8.$!23 H>% 4!23"A'%'-$"%!)23$4 D$%'48$*

3$4)=$!)$ '>/8$H$!8" =$%#$49 W4 ;$!#$4 <4)5"H$4 )A!$." #!$ f dr '.) 74")23$!*

#>48)R%!"$%!>- $!4$ "%'8$4#$ X,..$ E7%!44$%>486 f dr(zi) =:'3%)23$!4.!23R$!"N

#')) B$4i#$% @'"$8,%!$ J4,%-'.L '48$3U%"N 8$8$;$4N #')) #!$ H>8$3U%!8$ K$)"*

)"'"!)"!RZi #$4 :$%" zi '44!--"G9

!" !#$%"%&'(! )*+!&,-.&*/0 M>4523)" =$%#$4 ' A%!,%! $!4 :$%" /0% p0

),=!$ $!4$ 1!23"$f08$=53."9 1!$)$ :'3.$4 ;$%>3$4 ;$)"$4/'..) '>/ 7%/'3%>48$4 ,#$% T,%$CA$%!-$4"$49 <4)23.!$F$4# =!%# #!$ 1!23"$ f '>) #$4 1'"$4 #>%23fˆ9 8$)235"H"9 1>%23 '()*!+, $%35." -'4 ),

f dr(zd i) = p0f0(zi)

fˆ(zi) =:P !"(zi)

<43'4# #!$)$% B%UF$ =!%# 4>4 #!$ 7!4"$!.>48 $!4$) Y$#$4 B$4) !4 JK>-,%L ,#$%

J4,%-'.L S,%8$4,--$4 EH9&96 Z%#4$ B$4 i #$% @'"$8,%!$ JK>-,%L H>N 8$4'>

#'44N =$44Zi> γα-!" $!4$- V23=$..$4=$%" γαG9

[%,;.$-'"!)23 !)" 3!$% #!$ E#>%23 :'3. S,4f0, p0$!4\!$F$4#$G V>;Y$R"!S!"5" #$%

74")23$!#>489

!" .%'(/$*"*#!/"%&'(! -.&*/0 W4 #!$)$- <4)'"H =!%# H>4523)" $!4 :'3%*

)23$!4.!23R$!")-,#$.. /0% #!$ >4;$R'44"$4 B%UF$4 p0, f0, f1 /$)"8$.$8"N #939 /0%

Y$#$ #$% B%UF$4 =!%# $!4$ ' A%!,%! :'3%)23$!4.!23R$!")S$%"$!.>48 '>/ #$- X'>- [0,1]E/0%p0G ;H=9 $!4$- A'))$4#$4 +>4R"!,4$4%'>- E/0%f0, f1G 8$=53."9 7!4 &$!)A!$. /0% ' A%!,%! T$%"$!.>48$4 RU44"$ )$!46 p0 ∼ >4!/(0.05,1) >4# /0%

f0, f1 E>4$4#.!23$G !)23>48$4 S,4 ],%-'.S$%"$!.>48$49

B$8$;$4 '..$ 1'"$4Y := (Zi)=$%#$4 #'44 #!$ ' A,)"$%!,%! T$%"$!.>48$4Pf0|Y,Pf1|Y,Pp0|Y

;$)"!--" EH9&9 0;$% ^ ^G9 <.) 74")23$!#>48)R%!"$%!>- ;$"%'23"$" -'4 4>4

#!$ B%UF$E

f dr(z)|Y>4# S$%=$4#$"

Ep1f1(zi) f(zi) |Y

≈ E

p1|YE

f1(zi)|Y E

p0|Y E

f0(zi)|Y +E

p1|Y E

f1(zi)|Y =:P(zi) 74")23$!#>48)R%!"$%!>-6 _ B$4 i3';$ 7CA%$))!,4 JK>-,%L⇔ P(zi)> γ`N

=,;$!γ $!4 H> =53.$4#$% V23=$..$4=$%" !)"9 1'44 !)"P(zi) = 1−E

f dr(zi)|Y9 W- T$%8.$!236P !"(zi) = 1−f dr(z)9d

a

(4)

f0, f1, p0, n

f0=N(0,1), f1= 0.5N(−2,1) + 0.5N(2,1), p0= 0.8;n= 10 000 P(z)

P(z)

P(z) f

p0

z ⇔P(z)>0.4

p0

p0 0.93

p0 fp0|Y

(5)

!"#$!"!#%# &'()!* '+) )!, -./0#%!(fp0|Y )!( 1 23"#!(43(4 54./#! 63+p07 8" 4"# "./9+ %'

"!/!+* &4! :!#%#!(!( )4! $1+%! ;+"4./!(/!4#* )4! <=!( )1" &1/(!p0/!(("./#* =!"./(!4=#7

!"##"$%$&%'"$

>7?@7 53* A7 B<CC!(* D7 E1+$F @ G1H!"41+ ,4I#'(! ,3)!C 3( )4J!(!+#41C $!+! !I2(!""43+7 @227 -#1#4"#7 KLMMNO NP* A1(# Q* 227 RLS?RPP

G7 8 (3+F B4.(31((1H"* 8,24(4.1C G1H!" 1+) #/! E&3 T(3'2" B3)!C7 -#1#4"#4.1C -.4!+.! KLMMUO LQ* V37W* 227 W?LL

X757 -#3(!HF E/! 23"4#46! D1C"! 54".36!(H Y1#!F @ G1H!"41+ 4+#!(2(!#1#43+ 1+) #/! Z?61C'!7 E/! @++1C" 3 -#1#4"#4." KLMMQO* [3C7 QW* V37 R* 227 LMWQ?LMQN

(6)

Bootstrap-Methoden zur Ermittlung kritischer Werte f¨ ur asymptotische FWER-Kontrolle

Mathias Trabs 14.11.2010

1 Wiederholung

Sei (Ω,A,M,H) einmultiples TestproblemmitP ∈ M,Meine Familie von Wahrscheinlichkeitsmaßen auf (Ω,A), und einer HypothesenmengeH ={Hi : i∈I={1, ..., m}}. Sei weiterϕ= (ϕi:i∈I) einmultipler Test.

Die (zuf¨alligen) Anzahlen von wahren / falschen Testentscheidungen k¨onnen wir darstellen als:

Testentscheidung

Hypothesen 0 1

wahr m0−V(P) V(P) m0

falsch m1−S(P) S(P) m1

m−R(P) R(P) m Def.:F W ER(P) =P(V(P)>0) =P(S

i∈I0i= 1})

2 Problemstellung

2.1 Model

Seien X1, ...Xn iid. Zufallsgr¨oßen im RJ, Xi = (Xij : j = 1, ..., J) ∼ P mit P ∈ M unbekannt. Dabei sind (Xij)j=1,...,J, i ∈ {1, ..., n}, unspezi- fiziert korreliert. Wir m¨ochten beispielsweiseLokationsparameterder Form ψ(P) = (ψi:i= 1, ...m) untersuchen.

Bsp.:Sei X ∼P mit Werten inRJ undY :=g(X) :RJ →Rm. Dann w¨ahlen wirψ(P) =E[Y], d.h. ψi=E[Yi].

Wir habenTeststatistiken Tn = (Tni:i = 1, ..., m)∈Rm als Funktionen vonX1, ..., Xn und bezeichnen deren wahre Verteilung mitQn=Qn(P).

UnsereTestentscheidungist gegeben durch:

• Hi annehmen, fallsTni≤ci,

• Hi ablehnen, fallsTni> ci,

1

(7)

mit den kritischen Wertenc∈Rm. Einemultiple Testprozedur (MTP)ist dann die (zuf¨allige) Teilmenge Rn ⊆I der abgelehnten Hypothesen.

Giltci=c f¨uri= 1, ..., m, heißtRn Simultantest.

Bsp.: Y und ψ(P) wie oben. Hypothesen: Hi = {ψi(P) = E[Yi] ≤ ψoi}, i = 1, ..., mmit einem Nullwertψ0∈Rm. Dann w¨ahlen wir die t-Statistiken:

Tni= Sch¨atzer - Nullwert Standardfehler =√

ni−ψ0i

σni

.

2.2 Typ-I-Fehlermaße

Die Theorie baut aufFehlermaßenΘ(FVn)∈[0,1] auf, die als Funktionen von der Verteilung der Anzahl der Typ-I-FehlerVn definiert sind. Dabei istFVn die Verteilungsfunktion vonVn auf{0, ..., m}.

Insbesondere betrachten wir dieFWER:

Θ(FVn) =F W ER(P) =P(Vn>0) = 1−FVn(0).

SeienF1, F2 zwei Verteilungsfunktionen auf{0, ..., m} und d(F1, F2) := max

x∈I |F1(x)−F2(x)| deren Abstand.

Wir machen folgendeAnnahmenan Θ:

• (AMI) Monotonie:

F1≥F2⇒Θ(F1)≤Θ(F2)

• (ACI)Stetigkeit bei (Fn): Sei (Fn) eine Folge von Verteilungsfunktionen auf{0, ..., m}gegeben, dann soll f¨ur beliebige Verteilungsfunktionen (Gn) auf {0, ..., m}gelten:

n→∞lim d(Fn, Gn) = 0⇒ lim

n→∞(Θ(Gn)−Θ(Fn)) = 0

In den meisten F¨allen gen¨ugt in der (ACI)-Annahme (Fn) =F, f¨ur eine Verteilungs- funktionF.

3 Fehlerkontrolle und Wahl der Nullverteilung

Definition: Eine MTPRn=R(Tn, Q0, α)kontrolliert das Niveauα∈(0,1) (strikt), falls

Θ(FVn)≤α, (F W ER(P)≤α).

Rn kontrolliert das Niveau α∈(0,1) asymptotisch, falls lim sup

n→∞

Θ(FVn)≤α.

Vn h¨angt von der wahren VerteilungQn =Qn(P) der TeststatistikenTnab, aberQn ist i.A. unbekannt und muss durch ein NullverteilungQ0 gesch¨atzt werden (um kritische Werte zu ermitteln).

Seien TeststatistikenTn mit wahrer VerteilungQn, einerm-dimensionalen Nul- lverteilungQ0zur Berechnung kritischer Werte, sowie eine Niveau αgegeben.

2

(8)

F¨ur die gesamte Anzahl der abgelehnten Hypothesen R und die Anzahl der abgelehnten wahren HypothesenV schreiben wir:

Rn =R(Q0|Qn) =|R(Tn, Q0, α)|, Tn ∼Qn, R0=R(Q0|Q0) =|R(Tn, Q0, α)|, Tn∼Q0, Vn =V(Q0|Qn) =|R(Tn, Q0, α)∩I0|, Tn ∼Qn, V0=V(Q0|Q0) =|R(Tn, Q0, α)∩I0|, Tn∼Q0.

Mit diesen Vorbereitungen k¨onnen wir nun eine allgemeine Vorgehensweise angeben.

3.1 Road map

1. Null-Dominiertheit f¨ur das Typ-I-Fehlermaß Θ(FVn):

W¨ahle eine Null-VerteilungQ0 so, dass.

Θ(FVn) ≤Θ(FV0) [strikte Kontrolle]

lim sup

n→∞ Θ(FVn) ≤Θ(FV0) [asymptotische Kontrolle]. (1) 2. Die Anzahl der Typ-I-Fehler ist nie gr¨oßer als die gesamte Anzahl abgelehn-

ter Hypothesen, damit

V0≤R0⇒FV0 ≥FR0

(AMI)

⇒ Θ(FV0)≤Θ(FR0)

3. Kontrolle des Parameters Θ(FR0), bzgl. der beobachtbaren Anzahl von abgelehnten Hypothesen, unter der Null-Verteilung:

Θ(FR0)≤α.

Hierbei ist (1) abh¨angig von Θ und gilt unter folgenden allgemeinen Null- Dominiertheits-Bedingungen:

• Q0 dominiert die VerteilungFVn:x∈ {0, ..., m}: FVn(x)≥FV0(x), lim inf

n→∞ FVn(x)≥FV0(x), Insbesondere gilt dies, falls

• Q0 dominiert die gemeinsame VerteilungQn,I0 desI0-Vektors (Tni : i∈ I0):

Qn,I0 ≥Q0,I0, lim inf

n→∞ Qn,I0 ≥Q0,I0.

Die erste Ungleichung in (1) folgt aus (AMI), f¨ur die zweite ben¨otigen wir eben- falls (ACI).

3

(9)

4 Umsetzung

4.1 Konstruktion einer MTP

Schreibe f¨ur einen kritischen Wertc∈Rmund eine VerteilungQ∈ {Q0, Qn} R(c|Q) =X

i∈I

1{Tni>ci}, Tn∼Q, V(c|Q) =X

i∈I0

1{Tni>ci}, Tn∼Q.

F¨ur die Null-VerteilungQ0 auf demRmmit Randverteilungen Q0i und f¨ur ein δ∈[0,1] definieren wir außerdem den Vektord(Q0, δ) derδ-Quantile:

d(Q0, δ)i=Q−10i (δ) = inf{z:Q0i(z)≥δ}, i= 1, ...m.

Methode 1: common-quantil

Gegeben eine Null-VerteilungQ0und ein Niveauα∈(0,1), w¨ahle δ0(α) = inf{δ: Θ(FR(d(Q0,δ)|Q0))≤α}.

Dann definieren wir dieEin-Schritt common-quantil multiple Testprozedurmittels der kritischen Werte

c(Q0, α) =d(Q0, δ0(α)) = (Q−10i0(α)) :i= 1, ..., m), welche das Typ-I-Fehlermaß Θ(FV(c(Q0,α)|Qn)) zum Niveauαkon- trolliert:

R(T0, Q0, α) ={i:Tni> c(Q0, α)i}.

Theorem 1 (Asymptotische Kontrolle f¨ur die common-quantil Meth- ode)

Es existiere eine Rm-wertige Zufallsvariable Z ∼ Q0, so dass f¨ur alle c ∈ Rm undx∈ {0, ..., m}gilt:

lim inf

n→∞ PQn X

i∈I0

1{Tni>ci}≤x

!

≥PQ0 X

i∈I0

1{Zi>ci}≤x

!

(AQ0)

Oder kurz: lim infnFV(c|Qn)(x)≥FV(c|Q0)(x),∀x. Weiterhin erf¨ulle die Abb. Θ die Bedinungen (AMI) und (ACI) beiFV(c|Q0).

Dannkontrolliert die common-quantil Methode mit kritschen Wertenc(Q0, α) = d(Q0, δ0(α)) asymptotisch das Typ-I-Fehlermaßes Θ(FV(c|Qn)) zum Niveau α, d.h.

lim sup

n→∞ Θ(FV(c|Qn))≤α.

4

(10)

Methode 2: common-cut-off

Gegeben eine Null-VerteilungQ0und ein Niveauα∈(0,1), w¨ahle e(Q0, α) = inf{c∈R: Θ(FR((c,..,c)|Q0))≤α}.

Dann definieren wir dieEin-Schritt common-cut-off multiple Testprozedurmittels des kritischen Wertese(Q0, α) durch

c(Q0, α) = (e(Q0, α), ..., e(Q0, α)),

welche das Typ-I-Fehlermaß Θ(FV(c(Q0,α)|Qn)) zum Niveauαkon- trolliert:

R(T0, Q0, α) ={i:Tni> c(Q0, α)i}.

Vergleichvon Common-qunatil- und common-cut-off-Methode:

• Beide Methoden sind ¨aquivalent, falls (Tni)i=1,...,m unter Q0 identisch verteilt sind.

• Unterschiede in: Balance, G¨ute und technischer Umsetzbarkeit.

• Wird Q0 durch Resampling gesch¨atzt (bootstrap) tendiert die common- quantil Methode zur gr¨oßerer Sensibilit¨at gegen¨uber der Anzahl der Resampling- Schritte und der Diskretheit der gesch¨atzten Null-Verteilung.

Theorem 2 (Allgemeine Konstuktion der Null-Verteilung)Es seienλ0∈ Rmundτ0∈Rm0 so gegeben, dass gilt

lim sup

n→∞ E[Tni]≤λ0 und lim sup

n→∞ V ar(Tni)≤τ0i, i∈I0. Definiere νi =

r min

1,V ar(Tτ0i

ni)

und einen Zufallsvektor verschobener und skalierter Teststatistiken

Znii(Tni0i−E[Tni]), i= 1, ..., m.

FallsZn

w Z∼Q0=Q0(P), dann gilt f¨urc∈Rm, x∈ {0, ..., m}

lim inf

n→∞ PQn X

i∈I0

1{Tni>ci}≤x

!

≥PQ0 X

i∈I0

1{Zi>ci}≤x

!

Damit gilt (AQ0) f¨ur die NullverteilungQ0 und Theorem 1 ist anwendbar.

Diskusion von Theorem 2

• Bei einer zusammengesetzten Hypothese Hi wird λ0i am Schwellenwert bestimmt.

• λ0 ∈Rm zur Erzeugung von Statistiken (Zni)i∈I0 die stochastisch gr¨oßer sind als die (Tni)i∈I0 und daher gegen eine Verteilung konvergieren, die (AQ0) erf¨ullt.

5

(11)

• τ0∈Rm0 zur Vermeidung einer degenerierter asymptotischer Nullverteilung und unendlicher kritischer Werte.

• λ0, τ0 h¨angen nur von den Randverteilungen der wahren Verteilung von Tn ab.

• h¨angen λ0, τ0 vom unbekannten P ab, so k¨onnen sie durch konsistente Sch¨atzer ersetzt werden.

• τ0 ist f¨ur FWER-Kontrolle nicht zwingend n¨otig.

4.2 Bootstrap-Sch¨ atzung der Nullverteilung

Wir sch¨atzen die wahre VerteilungP aus den DatenX1, ..., Xn durchPn. Hier- aus wird dasbootstrap-sample generiert: niid. Realisierungen X1, ..., Xn ∼ Pn.

Anschließend erzeugen wir aus dem bootstrap-sample die Teststatistik (Ti♯n)i=1,...,m

und berechnen entsprechend Theorem 2 Zi♯n=

s

min(1, τ0i

V arPn(Ti♯n))(Ti♯n0i−EPn[Ti♯n]), i= 1, ..., m.

Die Sch¨atzung der Verteilung von (Zi♯n)i=1,...,m erfolgt dann mittels der em- pirischen Verteilungsfunktion ¨uber B bootstrap-samples. Damit haben wir eine Approximation vonQ0(P) (aus Theorem 2).

Dieses Vorgehen ist in folgenden drei Sch¨atzmethoden umgesetzt.

Methode 3: Bootstrap-Sch¨atzung der Nullverteilung

1. Erzeuge B bootstrap samples{X1,b , ..., Xn,b }f¨urb= 1, ..., B mitXi,b ∼Pn, i= 1, ..., n, b= 1, ..., B

2. Berechne f¨ur jedes bootstrap sample die Teststatistiken T·,b♯n = (Ti,b♯n : i = 1, ..., m), so dass wir eine m×B-Matrix T♯n= (Ti,b♯n) erhalten.

3. Berechne zeilenweise Erwartungswerte und Varianzen in der Matrix T♯n um E[Tni] und V ar(Tni), i = 1, ..., m, zu sch¨atzen.

4. Erzeugem×B-MatrixZ♯n= (Zi,b♯n) durch zeilenweises Ver- schieben und Skalieren vonT♯n

5. Die bootstrap Sch¨atzung Q0n der Nullverteilung Q0 aus Theorem 2 erhalten wir als empirische Verteilung der Spal- tenZ·,b♯n der MatrixZ♯n.

6

(12)

Methode 4: Bootstrap-Sch¨atzung der common-quantil kritischen Werte

1. Wende Methode 3 an um die MatrixZ♯n und die gesch¨atze NullverteilungQ0n zu ermitteln.

2. Die bootstrap common-quantil cut-offs sind die Zeilenquan- tile der MatrixZ♯n, also die δ-Quantile desB-VektorsZi,·♯n:

d(Q0n,i, δ) =Q−10n,i(δ) = inf (

z: 1 B

B

X

b=1

1{Z♯n

i,b≤z}≥δ )

,

i= 1, ..., m.

3. F¨ur einen Test zum Niveauα∈(0,1), wirdδ gew¨ahlt als δ0n(α) = inf{δ: Θ(FR(d(Qn0,δ)|Q0n))≤α}. 4. FWER: (min-P)

(a) p-Wert-Matrix P♯n bestimmen durch Ersetzten der Eintr¨age in Z♯n durch deren zeilenweise Ord- nungszahlen (groß zu klein).

(b) W¨ahle in jeder Spalte vonP♯n den kleinsten p-Wert.

(c) (1−δ0n(α)) ist dasα-Quantil dieses B-Vektors der kle- insten p-Werte.

Methode 5: Bootstrap-Sch¨atzung der common-cut-offs 1. Wende Methode 3 an um die MatrixZ♯n und die gesch¨atze

NullverteilungQ0n zu ermitteln.

2. Berechne den gemeinsamen kritischen Werte aus Q0n

entsprechend

c(Q0n, α) =e(Q0n, α) = inf{c∈R: Θ(FR((c,..,c)|Q0n))≤α} 3. FWER: (max-T)

(a) Bestimme in jeder Spalte von Z♯n den gr¨oßten Wert.

(b) e(Q0n, α) ist das (1−α)-Quantil des B-Vektors der gr¨oßten Werte.

5 Quelle

Dudoit, van der Laan, Pollard: Multiple Testing. Part I Single-Step Procedures for Control of General Type-I-Error Rates.

7

(13)

!"#$%"$&$#'#()*++,)#!+ -,$ ./+$/-",0(,",)#$*0

1,2$0/+3 !"#$%",( 4,(#,05 6*&,0#3 7+*89 6+9 49 6$:);/!(5<,8,+,0#3 /=$2$"$/0 >0:;5??9@@9?A@A

! "#$%&#'($)* +,-.%&/0'#1 2&, 30,#0.%&$4&%&1'#-$

*B,""3Y =g(X) +ε=Xβ+εC

Y ∈Rn...<,(%*0(,C D$,"E+>F,CX ∈Rn×m....,+(!:;(%"/0G6,($E02/#+$=

Xi= (Xij)j=1,...,m ∈Rm...7+'B$)#*+,0H,)#*+C β= (β1, . . . , βm)999 <,E+,(($*0()*,I&$,0#,0 εi∼N(0, σ2)$$BCσ2!0-,)/00#9

J!8E/-,3 K';", /!({1, . . . , m} kD/;",0C -,"/((,Xij1, . . . Xijk $2 *B,""

J"( 2!"#$%",( 4,(#%+*-",2 /!8E,8/((#3 4,(#, Hii= 0, i= 1, . . . , m9

5! 6(%'#7%#8#'9'41-,,&1'(,

!"#$%"$&$#'#(%+*-",23 2>E"$:;C L,00 2,;+,+, ($2!"#/0, 4,(#( /2 6/#,02/#,+$/" ,$0,+ 1#!B$, B!+:;E,8M;+# L,+B,0 ND9O9 -,$ )"$0$(:;,0 1#!B$,0P

O,$(%$,"3 ϕ= (ϕi:i= 1,2) ,$0 2!"#$%",+ 4,(#Cϕi, i= 1,2C(#*:;/(#$(:; !0/-;'0E$EC P(ϕj= 1) = 0.05, j= 1,2

⇒3 QKR<Nϕ)>0.05 =α

5! ! 0('-/0'#4:;& 6(%'#7%#8#'9'41-,,&1'(,

,2%$+$(:;,+ J0(/#&3

/ %+$*+$ K/;+(:;,$0"$:;),$# ,$0,( *B,""(3 P(Mγ|p) =pkγ(1−p)m−kγ S(:;'#&,pN&9O9 R SJ"E*+$#;2!(C ($,;, T,*+E, !0B Q*(#,+ N?AAAPP

SB/00 L';", *B,"" 2$# 2/=$2/",+ / %*(#,+$*+$ K/;+(:;,$0"$:;),$#3 P(Mγ|Y)∼pˆkγ(1−p)ˆmkγ·f(Y|Mγ)

!"#9SU*++,)#!+3 J00/;2,3 ,=9k L/;+, 7/+/2,#,+βi3m→ ∞ ⇒pˆ→0C 2$#pˆ= arg max

p∈[0,1]

P

γ

P(Mγ|p)·f(Y|Mγ)⇒ *B,"", 2$# H$,",0 7/+/2,#,+0 !0L/;+(:;,$0"$:;

H*""(#'0B$E,+ O/V,( J0(/#&3

J00/;2,3p∼Beta(a, b)8M+ / %+$*+$ K/;+(:;,$0"$:;),$# 8M+ *B,""Mγ

⇒P(Mγ) =

1

R

0

f(Mγ|p)π(p)dp= β(a+kβ(a,b)γ,b+mkγ)9

Q/""a=b= 13 / %*(#,+$*+$ K/;+(:;,$0"$:;),$#P(Mγ|Y)∼m+11

m kγ

−1

·f(Y|Mγ)

⇒:U*++,)#!+C B/ K/;+(:;,$0"$:;),$# p0$:;# $0 Q*+2,"

?9?9 7+*-",2/#$) -,$2 ,2%$+$(:;,0 O/V,(SJ0(/#&3 !""# $%

!"#$ %&'()"$ *"& +,&#,()"-.")"/0#'- 1#)0

2,0 *,. 34))$'*")) *#" "560 1&780" )#/")#6''*9 .' #.0 *"& :;<=>56?0@"& pˆA'-p1)"#560B

2,0 *,. A')).0?-*#1" :'*")) *#" "560 1&780" )#/")#6''*9 .' #.0 *"& :;<=>56?0@"& pˆA'-p1)"#561B O,L,$(3

SB$, K/;+(:;,$0"$:;),$#,0 P(Mγ)(!22$,+,0 ($:; M-,+ γ&!1 S"$),"$;**B H*0p,+8M""#f(Y) =P

γ

P(Mγ)f(Y|Mγ)≤max

γ∈Γ f(Y|Mγ)

SW0E",$:;!0E $(# ,:;#C L,00 B$, O,B$0E!0E,0 B,( X,22/( E,"#,0C L,00 P(Mγ)0$:;# (:;*0 1$(#

SP(Mγ|p) =pkγ(1−p)m−kγ = 1$(# 0!+ 8M+p= 1*B,+p= 02>E"$:;C /"(* B/00C L,00 B/( Y!""2*B,"" *B,+ B/( H*""(#9 *B,"" E,"#,0 SB/2$# E$"# T",$:;;,$# !0B <,(# 8*"E#

2

<!6&2#0$ 7,-.0.#%#'= /-2&%* > ?0;% 2&4 -7'#/0%&$ 3-,;&,40)&/-2&%%4 >

&!'()*)+( $%

<C#.0#"&0 *#" D".,$0=,=E'.0"&#'&#=F-/)4.#'-.G,6&.56"#-)#56/"#0 pi≡ X

γ:γi=1

P(Mγ|y)

@

(14)

!" #$"%$&'(i) *+ %*, -$* .(-%$/ 0"+&$&%'%,1 2+-(' Mγ $'* -$* .+-('' -(3/%(",) 4('56(* $7* -(/8 9(/%:(/ #$"%$&'(/ &(*,(6,) -("(/ $80+*,("%+"%8;/<'7*%+/*8=$6"*56(%/'%56<(%, 2%/-(*,(/* 12 &(,">:,?

!"#$%&γi=

1 , pi≥1/2

0 , '!(')

*+,')-(. /-012"%-,')-)3 0-((&

45 $%%- #6/%,72-( 8!9-%%-Hi:-)"$72)-) 0-"9-(

;5 :-)"$72)-)- 8!9-%%- /-26"-( .<" =%$''- 9-" /"$>2,'72-( 8!9-%%- !"#$%$&# '( @

A(%I(i)-%( B7 (%/(" #$"%$&'(/xi:(6C"(/-(/ .(/:( D+/ E$"$2(,("8;/-%B(*? F%/( G(%'<'$**( '%/($8

"(" .+-(''( &(*%,B, :"$06%*56( .+-(''*,"7<,7") 4(// (* $7* $''(/ .+-(''(/ &(*,(6,) -%( -%( +':(/-(

H(-%/:7/: (" !''(/@

I =(// !" 9(-(* i -%( #$"%$&'( xi B7 -(2 .+-('' :(6C",) -$// :(6C"(/ -%( #$"%$&'(/ xj, j ∈I(i) (&(/ $''* -$B7?J

? 8-9,$( >"!:$:,%,)@ #!9-% -" A%%) 9,-'- B-9,(/<(/

!"#$%&'(%$)$*

?B$@-',$(,'72-( C('$).& 8!9-%% #,) 2672')-" $?>!')-",!",?D$2"'72-,(%,72E-,) -"#6/%,72) :-')- F$?

)-(>"19,E),!(

?9,-'- D$2"'72-,(%,72E-,)-( ',(9 ! ) E%-,( ⇒ 8-9,$( >"!:$:,%,)@ #!9-% -"#6/%,72) C%)-"($),G- HB$":,-", <(9 B-"/-" H;II;5 5

?9$.<& =!G$",$(.#$)",+ Q=E[(XX)] :-)"$72)-(J F,$/!($%/-)$%)⇒ $ >!')-",!", 8,))-%0-")-β˜γ -" A%%-( β˜γ =Hγβ3 0!:-,˜ (H)ij=

1 , γi= 1<(9j=Pi r=1γr

0 , '!(')

)*!&+!, -( @

A(% Q K%$:+/$'2$,"%L 2%, K%$:+/$'(%/,">:(/ qi > 0) (* :(',( β˜γ = Hγβ˜ 7/- -%( &(,"$56,(,(/

.+-(''610+,6(*(/ &(*%,B(/ :"$06%*56( .+-(''*,"7<,7"?

K$// %*, -$* .(-%$/ 0"+&$&%'%,1 2+-(' -$* &(*,( #+"6("*$:(2+-(''?

B-0-,'&

?8,(,#,-"- 9$' K<$9"$),'72- L,',E! R(Mγ) =

k

P

i=1

β˜i

2qii−pi)2A:-" $%%- #6/%,72-(γ

?9,-' ,') /-($< 9$(( 9-" M$%%3 0-(( γi =

1 , pi≥1/2

0 , '!(') /,%)

?-' %,-/) /"$>2,'72- 8!9-%%')"<E)<" G!"3 $%'! /-26") 9$' 8-9,$( >"!:$:,%,)@ #!9-% .< 9-( :-)"$72?

)-)-(

2

?M$%% $%%-" #6/%,72-( 8!9-%%-& 8-9,$( >"!:$:,%,)@ #!9-% :-',).) N>),#$%,)1)'-,/-('72$ )&

.&+&//0+ -( @ MN7"B +"2O

A(%Q-%$:+/$' 2%, qi>0) (* :(',( β˜γ =Hγβ˜ 7/- $''( .+-(''( Mγ 4("-(/ &(,"$56,(,?

K$// %*, -$* &(*,( #+"6("*$:(2+-('' -$* .(-%$/ 0"+&$&%'%,1 2+-('?

;*,σ2 &(<$//, 7/-

P(Mγ) =

k

Y

i=1

(p0i)γi(1−p0i)1−γi

) -$// %*, -$* .(-%$/ 0"+&$&%'%,1 2+-(' -$* .+-('' 2%, -(" :"CP,(/ $ 0+*,("%+"% =$6"*56(%/'%56<(%,?

O2-!",- A" CPNQC?8!9-%% ,# ;?M$E)!"?8!9-%%&

yijk =µ+ai+bj+abijijk, i= 1,2, j= 1,2, k= 1,2, . . . , K, ε∼N(0, σ2),,93σ2<(:-E$(()R=<".&

y=Xβ+ε

⇒Q= 4∗K∗I4<(9 =!"!%%$" %1'') ',72 $(0-(9-(

+%$,-'$.-

?S7!))3 T$#-' UR3 B-"/-"3 T$#-' NR H;I4I5R B$@-' $(9 -#>,",7$%?B$@-' #<%),>%,7,)@ $9V<')#-() ,( )2- G$",$:%-?'-%-7),!( >"!:%-#3 O2- C(($%' ! S)$),'),7'

?B$":,-",3 8$",$ 8R3 B-"/-"3 T$#-' NRH;IIW5R N>),#$% >"-9,7),G- #!9-% '-%-7),!(R O2- C(($%' ! S)$),'),7'3 Q!%R X;3 YZI?Y[Z

;

(15)

”Higher Criticism Thresholding” zur Merkmalsauswahl

(Donoho & Jin, PNAS Vol. 105, No. 39, 14790-14795)

Thorsten Dickhaus

29.11.2010

1. MOTIVATION UND MODELLBILDUNG

Wir betrachten zur Motivation des vorzustellenden Verfahrens Klassifikationsprobleme als Teildisziplin des statistischen Lernens. Gegeben ist ein Trainingsdatensatz der L¨ange n, mod- elliert als Realisierung von (Yi, Xi), i = 1, . . . , n mit Yi ∈ {+1,−1} (das Label) und Xi ∈ Rp (der Merkmalsvektor) f¨ur alle i. Die p-dimensionale Verteilung von einem jeden Xi sei gegeben durch Xi ∼ N(Yiµ,Σ), wobei µ∈ Rp Kontrastvektor und Σ Merkmals-Kovarianzmatrix heißt.

Aufgabe der Klassifikation ist nun, einen funktionalen Zusammenhang von Y und X anhand der bivariaten mathematischen Stichprobe (Yi, Xi)i=1,...,n zu ”erlernen”. Eine Klasse von Ver- fahren sind die linearen Klassifikatoren. Sie sind von der Form L(X) = Pp

j=1wjXj +b, wobei w= (w1, . . . , wp)t Gewichtsvektor heißt. F¨ur eine neue Realisierung xbestimmt das Vorzeichen vonL(x) dann, welches Label ihr angeheftet wird.

Ein sinnvolles Kriterium zur Bestimmung von w ist, dass die Klasse mit h¨oherer a posteriori- Wahrscheinlichkeit ausgew¨ahlt werden soll, d. h., ˆℓ = arg maxℓ=1,2{p(ℓ)f(x|ℓ)} mit p(ℓ) als einer geeignet gew¨ahlten a priori Wahrscheinlichkeit f¨ur Klasseℓ (z. B. k¨onnte p(ℓ) die relative H¨aufigkeit von Klasseℓim Trainingsdatensatz sein oder es k¨onnte quasi-objektivp(1) =p(2) = 1/2 gew¨ahlt werden). Da nach der Modellbildung von oben f(x|ℓ) = (2π)−p/2(det Σ)−1/2× exp{(−1/2(x−µ)tΣ−1(x−µ)}gilt (µ1=−µ2=µin unserem Beispiel), folgt sofort (wir lassen in ℓ invariante Terme weg und transformieren streng isoton), dass ˆℓ = arg maxℓ=1,2{ln(p(ℓ)− 1/2(x−µ)tΣ−1(x−µ)} die zu w¨ahlende Klasse ist. Wir erhalten also den linearen Klassifika- tor durch die Diskriminanzfunktiond(x). Dazu seid(x) = ln(p(ℓ)−1/2(x−µ)tΣ−1(x−µ), ℓ= 1,2, und d(x) = d1(x)−d2(x) = [x−1/2(µ12)]tΣ−11−µ2)−ln(p(2)/p(1)). Damit ist der Bayes-optimale Gewichtsvektorw proportional zu Σ−1µ. Unsere Rechnung zeigt zudem, dass dies auch f¨ur den Maximum Likelihood-basierten linearen Klassifikator gilt. Das Problem ist nun, dass Σ singul¨ar (nicht-invertierbar) wird, falls p > n ist. In einem solchen Fall (viele Merkmale, kleiner Umfang des Trainingsdatensatzes) ist also eine Merkmalsauswahl vonn¨oten.

2. HIGHER CRITICISM THRESHOLDING

Das ”Higher Criticism” Thresholding ist ein Merkmalsauswahlverfahren. Es hat gute Eigen- schaften under dem sogenannten ”rare/weak feature model”, also in Situationen, in denen es nur wenige informative Merkmale gibt undµklein ist. Es gebe alsok << p Elemente vonµungleich Null, wobeiε = k/pein kleiner Anteil, z. B. 1%, ist. Zus¨atzlich sollen alle nicht-null Elemente vonµeinen konstanten Wertµ0 haben. Mitτ =√

0 ist damit RW(ε, τ) ein zweiparametriges

1

(16)

Modell. Wir betrachten nun Zj = n−1/2Pn

i=1YiXi,j, j= 1, . . . , p, die Teststatistik f¨ur die Hy- potheseHj: Cov(Y, Xj) = 0. Drei intuitive Strategien zur Merkmalsauswahl sind dann gegeben durch

(i) Clipping: ηclip(z) = sgn(z),

(ii) Hard thresholding: ηhardt (z) =z1{|z|>t}, (iii) Soft thresholding: ηsoftt (z) = sgn(z)(|z| −t)+.

In allen drei F¨allen benutzen wir den linearen Klassifikator ˆLt(X) = Pp

j=1wt(j)Xj mit ∗ ∈ {clip,hard,soft}undwt(j) =ηt(Zj). Es werden also nur Merkmale in die Klassifikationsfunktion aufgenommen, denen eine hinreichend große Korrelation mit dem Label zugemessen wird, die also genug Label-relevante Information tragen.

Offensichtlich bleibt nun nur noch die Frage offen, wiet(der Schwellenwert, englisch: threshold) zu w¨ahlen ist. Wir m¨ochten dabei ein Verfahren benutzen, dass nicht nur jede Komponente Xj f¨ur sich genommen bewertet, sondern die Gesamtheit der Information in X w¨urdigt, also der Multiplizit¨at der Fragestellung ad¨aquat Rechnung tr¨agt. Eine L¨osung ist die Verwendung der ”Higher Criticism” Statistik (siehe unten). John W. Tukey hat das Schlagwort ”Higher Criticism” aus der Bibelexegese entlehnt, wo es im Englischen die historisch-kritische Methode, also die kontextbezogene Bibelauslegung, bezeichnet. Beschreiben wir die ”Higher Criticism”

Methode zun¨achst abstrakt.

Seien unter unserem generellen Rahmen des multiplen Testens m marginale p-Werte pi, i = 1, . . . , m, gegeben mit pi iid ∼ UNI[0,1] unter der Globalhypothese H0 = Tm

i=1Hi. Bezeichne p[1]≤p[2]≤. . .≤p[m] die geordnetenp-Werte. Die Theorie f¨ur Orderstatistiken gleichverteilter, unabh¨angiger Zufallsgr¨oßen (vgl. z. B. [Shorack and Wellner, 1986]) liefert, dass

∀i= 1, . . . , m:p[i]

approx.N i

m, i m

1− i

m

.

Um nun einen ”Higher Criticism” Test f¨urH0zu konstruieren, versuchen wir, Abweichungen von dieser Grenzverteilung (msei groß) zu erkennen und definieren dazu

HC(i, p[i]) = √

m i/m−p[i]

pi/m(1−i/m),

HC = max

1≤i≤α0mHC(i, p[i]),

wobeiα0 ein Tuningparameter aus (0,1] ist. HC kann dann als Z-Score zum Pr¨ufen der Glob- alhypotheseH0 verwendet werden.

F¨ur das Merkmalsauswahlproblem adaptieren wir diese Methodik wie folgt (HC Tresholding).

Dazu seienZj, j= 1, . . . , p wie zuvor.

(a) Transformiere die realisierten Werte zj zu p-Werten, also bilde pj = P(|N(0,1)| > |zj|), j= 1, . . . , p.

(b) Maximiere die HC-Funktion ¨uber den Indexj. Sei ˆj der Index mit maximalem HC-Wert.

Dann definiere den Schwellenwert f¨ur HC Tresholding alsHCT := ˆtHC =|z|ˆj.

2

(17)

Ohne Beweis pr¨asentieren wir den folgenden Satz, der zeigt, dass HCT eine vern¨unftige Wahl ist.

Theorem 2.1. SeiFp(t) =p−1Pp

j=11{Zj≤t}. Dann strebt f¨ur alletdie ZufallsvariableFp(t) f¨urp→ ∞gegenFε,τ(t) = (1−ε)Φ(t) +εΦ(t−τ), den Wert der wahren Verteilungsfunktion des Zweiklassen-Mischmodells. Definiere

T P R(t)≡T P R(t;ε, τ) = Φ(t−τ) + Φ(−t−τ), F P R(t)≡F P R(t;ε, τ) = 2Φ(−t),

P R(t)≡P R(t;ε, τ) = (1−ε)F P R(t) +εT P R(t) und betrachte

HC(t;g ε, τ) := ε(T P R(t)−F P R(t))

pP R(t)(1−P R(t)) = P R(t)−F P R(t) pP R(t)(1−P R(t)).

Seit0 so, dass P R(t0) =α0 gilt und seiTHC(Fε,τ) = arg maxt≥t0HC(t;g ε, τ). Dann gilt ˆtHCw THC(Fε,τ), p→ ∞.

In Worten maximiert ˆtHC also im RW(ε, τ)-Modell f¨ur gegen unendlich strebende Dimension- alit¨at des Merkmalsraums die gewichtete Anzahl informativer Merkmale, die ausgew¨ahlt werden.

References

[Shorack and Wellner, 1986] Shorack, G. P. and Wellner, J. A. (1986). Empirical Processes with Applications to Statistics. Wiley, New York.

3

(18)

N):(5

%HWUDFKWHHLQ7HVWSUREOHPHQGOLFKHU$Q]DKOGHU1XOOK\SRWKHVHQPLW

+

L

L V

:LUQHKPHQDQGDVVGLH7HVWVIUHLQ]HOQH+\SRWKHVHYHUIJEDUVLQGXQGZLUPVVHQVLHLQHLQHP 9HUIDKUHQNRPELQLHUHQ'HUHLQIDFKVWH$QVDW]IUGLHVHV3UREOHPLVWGDVVZLUMHGH+\SRWKHVHDXIHLQHP 1LYHDX

D

WHVWHQ$EHUEHLVROFKHP9HUIDKUHQVWHLJWGLH:DKUVFKHLQOLFKNHLWGDVVHLQRGHUPHKUHUHZDKUHQ +\SRWKHVHQYHUZRUIHQZHUGHQPLWV:HQQGLH$Q]DKOGHUZDKUHQ+\SRWKHVHQJUR‰LVWVLQGZLUVLFKHU GDVVHLQLJHYRQGHQHQYHUZRUIHQZHUGHQ'HVZHJHQODXWHWGHUNODVVLVFKH$QVDW]GDVVZLUGLH

:DKUVFKHLQOLFKNHLWYRQHLQHURGHUPHKUHUHQ9HUZHUIXQJHQNRQWUROOLHUHQPVVHQ'LHVH :DKUVFKHLQOLFKNHLWZLUGDOV):(5LQ(QJOLVFKIDPLO\ZLVHHUURUUDWHJHQDQQW'HU%HJULII

ÄIDPLO\³EH]LHKWVLFKDXIHLQH6DPPOXQJGHU+\SRWKHVHQ

+

+

VXQGVLHZHUGHQ]XVDPPHQJHWHVWHW )UGLH.RQWUROOHGHU):(5DXIHLQHP1LYHDX

D

EUDXFKHQZLUGLH%HGLQJXQJ

D d

):(5

IU

D 

XQGDOOHP|JOLFKH.RPELQDWLRQHQYRQIDOVFKHQXQGULFKWLJHQ+\SRWKHVHQ

$EHUZHQQGLH$Q]DKOGHU7HVWVLQGLH=HKQWDXVHQGRGHU+XQGHUWWDXVHQGJHKWZLUGGLH.RQWUROOHGHU ):(5VWlUNHUVRGDVVGLHHLQ]HOQHQ$EZHLFKXQJHQGHU+\SRWKHVHPLWNOHLQHU&KDQFHHQWGHFNWZHUGHQ ZHQQVLHDXIWUHWHQ'HVZHJHQEHWUDFKWHQZLUHLQH$OWHUQDWLYHGDPLWGLH.RQWUROOHGHU9HUZHUIXQJHQ ZHQLJHUVWDUNZLUGXQGVRPLWEHVVHUH(UJHEQLVVHOLHIHUQ

:LUEHWUDFKWHQN):(5IUN!LVWGLHVH)HKOHUTXRWHVHKUJHHLJQHWZHQQPDQEHUHLWLVWHLQHRGHU PHKUHUHIDOVFKH9HUZHUIXQJHQ]XWROHULHUHQVRIHUQGLH$Q]DKOGHU9HUZHUIXQJHQNRQWUROOLHUWLVW

'HI'LH'DWHQ;VHLHQYHUIJEDU

Z  :

EHWUDFKWH

+

L

3  Z

L

L V

6HL

, 3

GLH,QGH[PHQJH GHUZDKUHQ1XOOK\SRWKHVHQZHQQ3GLHZDKUH:DKUVFKHLQOLFKNHLWVYHUWHLOXQJLVWGK

L  , 3 œ 3  Z

L 'DQQKHL‰WGLH:DKUVFKHLQOLFKNHLWYRQPLQGHVWHQVNIDOVFKH9HUZHUIXQJHQN):(5

N):(5 3^9HUZHUIHQYRQPLQGHVWHQVN+\SRWKHVHQ

+

LPLW

L  , 3

` )UGLH.RQWUROOHGHUN):(5EUDXFKHQZLUGLH%HGLQJXQJN):(5

d D

)UN NRPPHQZLUZLHGHU]XUFN]XGHU%HGLQJXQJGHU):(5

'HI%HWUDFKWHHLQH1XOOK\SRWKHVH

+ 3  Z

6HL

6

DGHU$EOHKQEHUHLFKDXIGHP1LYHDX

D

(VJHOWHQ L

3 ^ ;  6

D

` d D D  3  Z

LL

6

D

 6

DcZHQQ

D D c

'DQQ

S S ; LQI^ D ;  6

D

`

/HPPD6HLSZLHREHQGHILQLHUW

L )DOOV

3  Z

GDQQ

3 ^ S d X ` d X

LL

3 ^ S d X ` t 3 ^ ;  6

X

`

%HP:HQQ

6

DVRLVWGDVV

3 ^ ;  6

D

` D

GDQQLVWSJOHLFKYHUWHLOWLQZHQQ

3  Z

%HZHLV/HPPD

6HL

3  Z ^ S d X `

LPSOL]LHUW

^ ;  6

XH

`

IUHLQNOHLQHV

H !

$OVR

H

d H

 d

d X 3 ; 6

X S

3 ^ ` ^

X

`

-HW]WODVVHQZLU

H o

'DPLWIROJWL

`

^ ;  6

X LPSOL]LHUW

^ S d X `

XQGGDPLWIROJWLL

NODVVLVFKH9HUIDKUHQGLH.:(5NRQWUROOLHUWVLQG%RQIHUURQLXQG+ROP9HUIDKUHQ%HLP%RQIHUURQL 9HUIDKUHQZLUGMHGH+\SRWKHVH

+

LYHUZRUIHQZHQQ

S

L

d D V

ZREHL

S

LGLH%HGLQJXQJ

3 ^ S

L

d X ` d X

IUHLQNOHLQHVEHOLHELJHV

X 

HUIOOW

+ROP9HUIDKUHQ6HLHQ

S

d d S

V'DQQLVWGDV+ROP9HUIDKUHQZLHIROJWGHILQLHUW

(19)

6HW]HN

6FKULWW:HQQ

S

N

! D V N

GDQQJHKW]XP6FKULWWDQGHUQIDOOVN NXQGZLHGHUKROHQ6FKULWW 6FKULWW9HUZHUIHQ

+

MZHQQ

M d N

QLFKWYHUZHUIHQ

+

MZHQQ

M ! N

'DV%RQIHUURQL9HUIDKUHQLVWHLQ%HLVSLHOIUVLQJOHVWHS3UR]HGXUGKMHGH1XOOK\SRWKHVHZLUGYHUZRUIHQ ZHQQGHUHQHQWVSUHFKHQGHQS:HUWHQNOHLQHUJOHLFKGHPJHPHLQVDPHQ:HUWEHL%RQIHUURQLLVW

D V

'DV+ROP9HUIDKUHQLVWHLQ6SH]LDOIDOOGHUVWHSGRZQ3UR]HGXUGLHZLHIROJWDXVVLHKW

6HLHQ

D

d d D

V

:HQQ

S

! D

GDQQZLUGNHLQH+\SRWKHVHYHUZRUIHQ$QGHUQIDOOVZHQQ

S

d D

S

U

d D

UGDQQ ZHUGHQGLH+\SRWKHVHQ

+

d d +

UYHUZRUIHQ

'DVEOLFKH%RQIHUURQL9HUIDKUHQYHUJOHLFKWMHGHQS:HUW

S

LPLW

D V

'LH.RQWUROOHGHUN):(5 HUODXEWXQVHLQH(UK|KXQJYRQ

D V

]X

N D V

XQGGDPLWVWHLJWGLH:DKUVFKHLQOLFKNHLWIDOVFKH+\SRWKHVH ]XHUNHQQHQ

7KHRUHP

+

L

3  Z

L

L V

XQG

S

LHUIOOWGLH%HGLQJXQJ

3 ^ S

L

d X ` d X

%HWUDFKWHGDVVLQJOHVWHS 9HUIDKUHQEHLGHPMHGH

+

LYHUZRUIHQZLUGZHQQ

S

L

d N D V

L 'DV9HUIDKUHQNRQWUROOLHUWN):(5VRGDVVN):(5

d D

bTXLYDOHQ]:HQQMHGH +\SRWKHVHDXIGHP1LYHDX

N D V

JHWHVWHWZLUGGDQQLVWN):(5NRQWUROOLHUW

LL N):(5

d D

LVWVFKDUILQGHP6LQQHGDVVHVHLQHJHPHLQVDPH9HUWHLOXQJIU

S

S

VVR GDVVN):(5

D

%HZHLV6HLHQGLH1XOOK\SRWKHVHQ

+

LPLW

L  , , 3

ZDKUXQGGHU5HVWIDOVFK_,_LVWGLH.DUGLQDOLWlW YRQ,6HL1GLH$Q]DKOGHUIDOVFKHQ9HUZHUIXQJHQ'DQQ

D D D D

d d

d d

t ¦ ¦





3 V N ,

V N N

V N S , ( N

1 N (

1 3

3 , L 3

, L

L

^ ` @ _ _

>

`

^

!L

8PLL]XEHZHLVHQEHWUDFKWHQZLUGLHIROJHQGH.RQVWUXNWLRQ

:LUQHQQHQ-GLH,QGH[PHQJHGHUN]XIlOOLJJHQRPPHQHQRKQH=XUFNOHJHQ,QGL]HVDXVGHU,QGH[PHQJH

^«V`

:HQQ

L  -

GDQQ

S

L

8

ZREHL

8

DXIGHPNVJOHLFKYHUWHLOWLVWGK

8

a 8 N V

:HQQ

L  -

GDQQ

S

L

8

ZREHL

8

XQDEKlQJLJYRQ

8

XQG

8

a 8 N V

'DQQ

a

a 8 N V 8 V

V N N V 8

S

L

N

:HQQ

X d N V

GDQQ

X

V N

X V X N 8 3 - L 3 X S

3

L

d  ˜ d

`

^

`

^

`

^

:HQQ

X ! N V

GDQQ

X

V N

V N X V N V

X N 8 3 - L 3 -

L 3 X S 3

L

d

˜



˜



d

`

^

`

^

`

^

`

^

$OVRZHQQHVH[DNWNPDO

S

L

d N D V

JLEWGDQQ

D D D

d N V

V V N

N 8

3

`

^

!LL

'LHREHQEHVFKULHEHQHVLQJOHVWHS3UR]HGXUNDQQYHUEHVVHUWZHUGHQLQGHPZLUVWHSGRZQ3UR]HGXU EHQXW]HQ

7KHRUHP

+

L

3  Z

L

L V

XQG

S

LHUIOOWGLH%HGLQJXQJ

3 ^ S

L

d X ` d X

'LHVWHSGRZQ3UR]HGXU PLW

D

L

N D V

ZHQQ

L d N

XQG

D

L

N D V N L

ZHQQ

L ! N

NRQWUROOLHUWN):(5GK

N):(5

d D

JLOW

%HZHLV6HL,3GLH,QGH[PHQJHGHUZDKUHQ1XOOK\SRWKHVHQ_,3_

t N

(20)

1HQQHQZLUGLHHQWVSUHFKHQGHQS:HUWHQ]X_,3_ZDKUHQ+\SRWKHVHQ

T

d d T

_,3_ 6HLMGHUNOHLQVWH,QGH[GHU

S

M

T

NHUIOOWDOVR

N d M d V _ , 3 _ N

'DQQKDWGLHVWHSGRZQ3UR]HGXUPLQGHVWHQVNIDOVFKH9HUZHUIXQJHQJHQDXGDQQZHQQ

M

S

M

S

d D

d D

!

T

N

S

M

d D

M

N D V N M

$EHU

_ , 3 _ N M N V

N D D

d

$OVRLVWGLH:DKUVFKHLQOLFKNHLWYRQPLQGHVWHQVNIDOVFKHQ9HUZHUIXQJHQQDFKREHQEHVFKUlQNW

GXUFK

`

_

^ _

3 , T N

3

N

D

d

1DFK7KHRUHPL

D D

d

d `

_

^ _

3 , T N

3

N

6WHSXS3UR]HGXU6HLHQ

S

d d S

V

D

d d D

V

:HQQ

S

V

d D

VGDQQZHUGHQDOOH+\SRWKHVHQYHUZRUIHQDQGHUQIDOOVZHUGHQGLH+\SRWKHVHQ

+

U

+

YHUZRUIHQZHQQUGHUNOHLQVWH,QGH[LVWGHU

S

V

! D

V

S

U

! D

UHUIOOW:HQQIUDOOHU

U

S

U

! D

GDQQYHUZHUIHQNHLQH+\SRWKHVH

:HQQZLUEHLGHVWHSXSXQGVWHSGRZQ3UR]HGXUHPLWGHQJOHLFKHQNULWLVFKHQ:HUWHQEHWUDFKWHQVWHOOHQZLU IHVWGDVVVWHSXS3UR]HGXUPLQGHVWHQVVRYLHO+\SRWKHVHQYHUZLUIWZLHVWHSGRZQ3UR]HGXU8QGZHQQZLU IUEHLGHVWHSXSXQGVWHSGRZQ3UR]HGXUHQGLHJOHLFKHQ0D‰VWlEHIUGLH.RQWUROOHGHUN):(5KDEHQLVW VWHSXS3UR]HGXUEHVVHULQGHP6LQQHGDVVGLHIDOVFKHQ9HUZHUIXQJHQEHVVHUHUNDQQWZHUGHQ

/HPPD6HL_,_,QGH[PHQJHGHUZDKUHQ+\SRWKHVHQ

D

d d D

V

T

d d T

_,_GLHS:HUWHQGHU ZDKUHQ+\SRWKHVHQ'DQQJLOWIUHLQHVWHSXS3UR]HGXUGLH8QJOHLFKXQJ

N):(5

^ >^ ` `

_ _

_

_ , M N

M , V

T

M

3

d d

d

d D

:HQQ

D

d d D

VJHJHEHQLVWEHQXW]HQZLUGDV/HPPDXPHLQHVWHSXS3UR]HGXU]XNRQWUROOLHUHQ ZHOFKHZLHGHUXPN):(5NRQWUROOLHUWXQGDQVFKOLH‰HQGGHILQLHUHQZLU

¦

d d

_ _

_ _ _

_

_ _ _ _

_ _ _ _

, M N

M , V M , V V

, M N

N , ,

, V N 6

6 D D D

XQG

_ _ PD[

_ _

' N V 6 N V ,

'

Nd,dV

7KHRUHP6HLHQ

D

d d D

V

+

L

3  Z

L

L V

XQG

S

LHUIOOWGLH%HGLQJXQJ

3 ^ S

L

d X ` d X S

V

S

d d

6HL

D

L

c DD

L

'

N V

ZREHL

'

ZLHREHQGHILQLHUW'DQQ L N):(5

d D

IUHLQHVWHSXS3UR]HGXU

LL )UMHGHVWHSXS3UR]HGXUPLWNULWLVFKHQ:HUWHQ

D

L

DD

L

' c N V

ZREHL

'c

.RQVWDQWH GLHN):(5

d D

HUIOOWKDEHQZLUIUMHGHL

D

L

c t D

L

%HYRUZLUGDV7KHRUHPEHZHLVHQN|QQHQEUDXFKHQZLUQRFKHLQ/HPPD

/HPPD

S

LHUIOOWGLH%HGLQJXQJ

3 ^ S

L

d X ` d X

XQGVHLHQ

S

d d S

V)U

P d V

VHW]H

E

d E

d d E

P

d

'DQQ

L

d ‰ d ‰ ‰ d d ¦

P

L

L L P

P

V L

S S

S 3

` ^ ` ^ ``

^^ E E E E E

LL6RODQJHGLHUHFKWH6HLWHGHURELJHQ8QJOHLFKXQJ

d

GDQQLVWGLHVH*UHQ]HVFKDUILQGHP6LQQHGDVV HVHLQHJHPHLQVDPH9HUWHLOXQJIUS:HUWHQJLEWVRGDVVDXVGHU8QJOHLFKXQJHLQH*OHLFKXQJZLUG

%HZHLV]XP7KHRUHPL1DFK/HPPDXQGJLOW

Referenzen

ÄHNLICHE DOKUMENTE

Wenn der folgende Bildschirm angezeigt wird, wählen Sie eine Datei und klicken Sie auf [Öffnen].. Die ausgewählte Datei erscheint im Layoutbearbeitungsfenster und steht nun zur

Quando compare la schermata per selezionare l’applicazione da installare, verificare che sia selezionato [Label Editor] e fare clic su [Avanti].. Quando compare la finestra

• При выполнении редактирования в «окне редактирования макета» справку приложения Label Editor можно вызвать с помощью клавиши [F1]. В меню

Haga clic en este elemento para crear una etiqueta nueva o para crear una etiqueta importando datos desde otro archivo.. Haga clic aquí al importar datos de otro archivo para crear

Натисніть цю кнопку, щоб відкрити вікно параметрів.sСтворення етикеток з штрих-кодом Стрічка з вибраними параметрами відображається у вікні редагування макета,

Klicken Sie hier, wenn zum Erstellen eines Etiketts Daten aus einer anderen Datei importiert werden..

Installing Label Editor and the printer driver 2 Uninstalling Label Editor and/or the printer driver ...5.. How to Create, Open and Save a

L'aide de Label Editor vous permet de vérifier les fonctions autres que celles décrites dans ce manuel ou lorsque vous ne savez pas comment utiliser Label Editor pour créer une