• Keine Ergebnisse gefunden

Multiple Testtheorie

N/A
N/A
Protected

Academic year: 2021

Aktie "Multiple Testtheorie"

Copied!
7
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Ubungsaufgaben zur Vorlesung¨

Multiple Testtheorie

Humboldt-Universit¨at zu Berlin Wintersemester 2013/2014

Dr. Thorsten Dickhaus Weierstraß-Institut f¨ur Angewandte Analysis und Stochastik (WIAS) Berlin www.math.hu-berlin.de/~dickhaus/

Thorsten.Dickhaus@wias-berlin.de Tel.: 030/20372-453

Aufgaben

1. Strukturierte Hypothesensysteme

Konstruieren Sie je ein Hypothesensystem, in welchem

(a) die Menge der Maximalhypothesen ungleich der Menge der Globalhypothesen ist.

(b) die Menge der Minimalhypothesen ungleich der Menge der Elementarhypothesen ist.

2. Koh¨arenz multipler Tests

(a) Beweisen Sie Lemma 1.17 aus der Vorlesung.

(b) Beweisen Sie Teil (a) von Lemma 1.18 aus der Vorlesung.

3. Erwartete Anzahl von Typ I Fehlern

F¨ur einen multiplen Testϕf¨ur das multiple Testproblem (Ω,A,P,H) mitH={Hi, i∈I= {1, . . . , m}}) bezeichne die Zufallsgr¨oße

Vϕ(ϑ) := X

i∈I0(ϑ)

ϕi

die Anzahl der f¨alschlicherweise verworfenen Nullhypothesen. Beweisen Sie die folgenden Ungleichungen:

∀ϑ∈Θ : Eϑ[Vϕ(ϑ)]

m0

≤Pϑ( [

i∈I0(ϑ)

i= 1})≤Eϑ[Vϕ(ϑ)].

Dabei sei wie ¨ublichm0=|I0(ϑ)|die Anzahl wahrer Nullhypothesen.

4. Durchf¨uhrung eines multiplen Tests in Handrechnung In einer Untersuchung zum Fettgehalt in sogenannten

”Light“-Butterprodukten wird f¨ur drei Buttersorten der FettgehaltY in g pro 100g festgestellt. Von jeder Sorte werden vier Proben betrachtet. Zus¨atzliche Effekte auf den Fettgehalt der Proben bleiben unber¨ucksichtigt. Zur Analyse wird das lineare Modellyijiij, i= 1,2,3,j = 1, . . . ,4 mit εij ∼ N(µ, σ2) iid.,σ2>0 unbekannt, unterstellt. Folgende Ergebnisse werden notiert:

Fettgehalt in g je 100g Butter Sorte 1 Sorte 2 Sorte 3

61 62 65

58 59 62

60 61 63

60 61 62

(a) Stellen Sie das durchschnittsabgeschlossene Hypothesensystem zu der Fragestellung auf, ob zwischen den Sorten bez¨uglich des Fettgehalts Unterschiede bestehen. Testen Sie jede der resultierenden Nullhypothesen zum lokalen Niveau α= 0.05.

(2)

(b) Treffen Sie eine Aussage zur Widerspruchsfreiheit der erzielten Testentscheidung.

(c) Was l¨asst sich ¨uber Koh¨arenz und Konsonanz dieser Entscheidung sagen?

5. Programmieraufgabe

In dem Artikel Notterman, D. A., Alon, U., Sierk, A. J. (2001). Transcriptional Gene Ex- pression Profiles of Colorectal Adenoma, Adenocarcinoma, and Normal Tissue Examined by Oligonucleotide Arrays. Cancer Research 61, 3124-3130, finden sich publizierte Daten aus einem Krebs-Forschungsprojekt. Das Ziel der Studie war, differentiell exprimierte Gene und R(D)NA-Profile in Tumorgewebe im Vergleich mit normalem (gesundem) Gewebe zu finden.

Dazu wurde eine klinische Studie mitn= 22 Krebspatienten durchgef¨uhrt. Wir betrachten hier nur den Teildatensatz der 18 Patienten mit Adenokarzinom. Von diesen 18 Individuen wurden Genexpressionsdaten (

”Intensit¨aten“) f¨ur 7457 verschiedene RNA-, DNA- und Gen- orte erhoben, und zwar jeweils einmal in einer Gewebeprobe mit Tumor und einmal in einer gesunden Gewebeprobe. Die zugeh¨origen (leicht aufbereiteten) Daten sind Bestandteil des mutoss- Zusatzpakets f¨urR.

In solchen QTL- (quantitative trait loci) Analysen wird typischerweise eine Log-Normalvertei- lung f¨ur die Intensit¨atsquotienten angenommen. Nach einigen Vorverarbeitungsschritten (sie- he ”Materials and Methods“ in dem o.a. Artikel) wurden daher zum Vergleich der beiden Gruppen gepaarte t-Tests f¨ur verbundene Stichproben auf den durch den nat¨urlichen Loga- rithmus transformierten Daten vorgeschlagen.

(a) Laden Sie die Nutzdaten inR. Vollziehen Sie die p-Werte f¨ur die zweiseitigen t-Tests nach.

(b) Welche RNA-, DNA- bzw. Genorte zeigen nach Bonferroni-Adjustierung eine zum mul- tiplen Niveauα= 0.05 signifikante differentielle Expression in Tumor- im Vergleich zu gesundem Gewebe? Geben Sie die entsprechenden Indizes an.

6. Abschlusstest

Vergegenw¨artigen Sie sich noch einmal die Problematik der Typ III Fehler aus Beispiel 1.31.

Nehmen Sie zu dem in Beispiel 1.31 aufgestellten Hypothesensystem noch die Hypothesen H< : {µ1 < µ2} sowie H> : {µ1 > µ2} hinzu. Das erweiterte Hypothesensystem ist dann also gegeben als H={H<, H, H=, H, H>}.

(a) Stellen Sie die Hypothesenstruktur vonHschematisch dar. Ermitteln Sie die bestehen- den Obermengenbeziehungen.

(b) Geben Sie geeignete Tests zum lokalen Niveauαf¨ur die beiden neu hinzu genommenen HypothesenH< undH> an und bilden Sie den Abschlusstest f¨urH.

(c) Was kann nunmehr aus einer Realisierung der Teststatistik inferiert werden? Stellen Sie die Entscheidungsbereiche auf der reellen Achse graphisch dar.

7. Simultane G¨ute

Betrachten Sie zur Bewertung eines multiplen Testsϕ= (ϕ1, . . . , ϕm) die Wahrscheinlichkeit, dassϕinsgesamt eine korrekte Entscheidung trifft. Diese ist f¨urϑ∈Θ gegeben als

P Cϕ(ϑ) =Pϑ(ϕ=ε(ϑ)) =P(\

i∈I

ii(ϑ)}) mit εi(ϑ) =

(0, ϑ∈Hi 1, ϑ∈Ki

, i= 1, . . . , m.

Zeigen Sie: Istϕein Test zum multiplen Niveauα, so gilt P Cϕ(ϑ)≤SGϕ(ϑ)≤P Cϕ(ϑ) +α, mit der simultanen G¨uteSGϕ(ϑ) wie in Definition 1.37.

(3)

8. p-Wert f¨ur den einseitigen Binomialtest

Man nehme an, es soll die Zuverl¨assigkeit von Transistoren gepr¨uft werden. Der Hersteller macht die Angabe, dass ein neuer Transistor mit einer Wahrscheinlichkeit von mindestens π0 = 99.9% ein Jahr lang unter standardisierten Bedingungen ausfallfrei betrieben werden kann. In einem großen Labor werden tausend solcher Transistoren unabh¨angig voneinander ein Jahr lang unter den vom Hersteller genannten standardisierten Bedingungen betrieben.

Drei der Transistoren fallen dabei aus. Spricht dies signifikant gegen die Herstellergarantie?

Zur Beantwortung dieser Frage bezeichne man die wahre Nichtausfallwahrscheinlichkeit eines Transistors des Herstellers in einem Jahr unter den standardisierten Bedingungen mitπund berechne denp-Wert f¨ur das Testproblem

H0:{π≥π0} versus H1:{π < π0}.

Hinweis: Die Anzahl ausfallender Transistoren in einem Jahr unter den standardisierten Be- dingungen in einer Stichprobe vom Umfangnist unter der Annahme, dass dienTransistoren unabh¨angig voneinander betrieben werden, binomialverteilt mit Parameternnund 1−π.

9. Bedingte Momente von bootstrap Gr¨oßen

Unter den Voraussetzungen von Beispiel 2.9 seiX~ = (X1, . . . , Xn) der Vektor der iid. Origi- naldaten der erhobenen Zufallsstichprobe.

Berechnen Sie die folgenden beiden bedingten Momente der zugeh¨origen iid. Variablen eines bootstrap Datensatzes.

(a) E(X1|X~), (b) Var(X1|X).~ 10. Programmieraufgabe

Wir betrachten das statistische Modell (R,B(R),(N(ϑ,1))ϑ∈R≥0), wobeiB(R) die Borel’sche σ-Algebra auf Rbezeichnet. Zu testen sei

H0:{ϑ= 0} versus H1:{ϑ >0}. (1) Dazu liege die folgende Stichprobe vom Umfangn= 15 vor: 1.311,1.136,1.81,0.827,−0.173, 0.351,−1.949,0.973,0.617,−0.091,−0.155,−0.581,0.452,0.879,0.17.

(a) Berechnen Sie probabilistisch den exaktenp-Wert f¨ur das Testproblem (1) basierend auf der obigen Stichprobe. Verwenden Sie dazu die inRverf¨ugbare Funktion zur Auswertung der Verteilungsfunktion der Standardnormalverteilung.

(b) Implementieren Sie den im Vorlesungsskript (Kapitel 2) vorgestellten Bootstrap. Er- mitteln Sie den bootstrap p-Wert f¨ur das Testproblem (1) basierend auf der obigen Stichprobe und w¨ahlen Sie dabei B = 9999. Vergleichen Sie das Ergebnis mit dem Ergebnis aus Aufgabenteil (a).

11. Monotonie von Likelihood Ratio-basierten Testfamilien

Sei X ein Zufallsvektor mit Werten in Ω ⊂ Rk und mit der Dichte fϑ bez¨uglich eines σ- finiten Maßes µ f¨ur ϑ∈ Θ⊂ R. Ferner sei eine Testfamilie (H,T) mit H ={Hi, i ∈I}, T ={Ti, i∈I} undI={0,1, . . . , m} gegeben.

Zeigen Sie: Falls alle Teststatistiken Ti, i∈I auf Likelihood Ratio-Statistiken beruhen, so ist (H,T) monoton im Sinne von Definition 3.2. Dabei ist eine Likelihood Ratio-Statistik f¨ur ein TestproblemHi versus Ki,i∈I mit Hi+Ki = Θ gegeben als eine monoton fallende Funktion des folgenden Quotienten:

sup

ϑ∈Hi

fϑ(x)/sup

ϑ∈Θ

fϑ(x).

(4)

12. Erweiterter Korrespondenzsatz

Beweisen Sie den erweiterten Korrespondenzsatz 3.9.

13. GT2-Test von Hochberg und Scheff´e-Test in Handrechnung

Von Interesse sei der Vergleich des durchschnittlichen Gewichts dreier Apfelsorten. Leider ist bei einem Sturm fast die komplette Ernte vernichtet worden und Sie finden von den Sorten

”Sonnenschein“ und

”Morgenr¨ote“ jeweils nur vier brauchbare ¨Apfel und von der Sorte

”Jonas“ f¨unf brauchbare Exemplare. Deren Gewichte sind in der folgenden Tabelle notiert:

Apfelgewicht in g

Sonnenschein Morgenr¨ote Jonas

97.1 99.3 102.5

99.5 100.3 100.9

98.8 101.3 101.6

98.3 99.0 101.8

101.4

M¨ogen die Zufallsvariablen Xij, i = 1,2,3, j = 1, . . . , ni mit ni = 4 +1{i = 3} die Ap- felgewichte beschreiben und es werde Modell 3.10 f¨ur X = (Xij, i = 1,2,3, j = 1, . . . , ni) angenommen.

F¨uhren Sie unter Zuhilfenahme von Tafeln f¨ur die

”maximum modulus“- und dieF-Verteilung alle drei paarweisen Sortenmittelwertsvergleiche in Handrechnung zum multiplen Niveau α= 0.05 durch

(a) mit der GT2-Methode von Hochberg.

(b) mit dem Scheff´e-Test.

(c) Vergleichen Sie die unter (a) und (b) gewonnenen Aussagen.

14. Dunnett- und Tukey-Test in Handrechnung

Im Rahmen einer landwirtschaftlichen Versuchsreihe sei man an Kohlkopfertr¨agen bei Ver- wendung verschiedener D¨ungemittel interessiert. Dazu seien Xij, i = 1, . . . ,4, j = 1, . . . ,5 Zufallsvariablen, die die Ernteertr¨age des j-ten Kohlkopfes in der zu D¨unger i geh¨origen Stichprobe beschreiben. F¨urX =Xij, i= 1, . . . ,4, j= 1, . . . ,5 werde Modell 3.10 angenom- men. Das erhobene Datenmaterial ist in der folgenden Tabelle zusammengefasst.

Kohlkopfgewicht in g

D¨unger 1 D¨unger 2 D¨unger 3 D¨unger 4

728 974 548 450

955 748 682 405

823 937 763 529

1161 904 617 759

972 869 632 397

(a) Nehmen Sie an, dass D¨ungemittel 1 ein Standardprodukt ist, w¨ahrend die anderen neu entwickelte Produkte darstellen. Testen Sie mit dem

”many-one t-Test“ von Dunnett zum multiplen Niveauα= 0.01 in Handrechnung, ob sich zwischen dem Standardpro- dukt und jedem einzelnen der drei neu entwickelten Produkte hinsichtlich des mittleren Kohlkopfertrags ein Unterschied feststellen l¨asst.

(b) F¨uhren Sie den Tukey-Test zum multiplen Niveauα= 0.01 zum paarweisen Vergleich aller vier Mittelwerte durch. Vergleichen Sie die damit gewonnenen Aussagen f¨ur die Fragestellung unter (a) mit denen, die der

”many-onet-Test“ von Dunnett zum multi- plen Niveauα= 0.01 geliefert hat.

(5)

15. Programmieraufgabe

Betrachten Sie das bereits in der Vorlesung andiskutierte Beispiel von Keuls (1952, Euphytica 1, 112-122). F¨uhren Sie unter Zuhilfenahme derR-Software alle 78 paarweisen Sortenmittel- wertsvergleiche zum multiplen Niveauα= 0.05 durch

(a) mit dem Bonferronit-Test.

(b) mit dem Scheff´e-Test.

(c) mit dem Tukey-Test.

(d) Machen Sie Aussagen zum G¨utevergleich der drei unter (a), (b) und (c) angewendeten Methoden anhand dieses Datensatzes.

16. Vergleich des Abschlusstests mit Bonferroni-Holm Nehmen Sie Modell 3.10 mit k= 3 an.

(a) Geben Sie die Testvorschrift des Bonferroni-Holm Tests f¨ur H= (Hij,1≤i < j ≤3) unter Verwendung der t-StatistikenTij,1≤i < j≤3, an.

(b) Bilden Sie den Abschlusstest f¨ur H, wobei der Test f¨ur die Schnitthypothese durch Bonferroni-Adjustierung gebildet werde.

(c) Welcher der unter (a) und (b) konstruierten multiplen Tests f¨ur H ist (hinsichtlich G¨ute) besser? Geben Sie ein Beispiel an, in dem sich einer der beiden Tests (bez¨uglich der Anzahl abgelehnter Hypothesen) als ¨uberlegen erweist.

(d) Betrachten Sie das Hypothesensystem ˜H= (Hi, i= 1,2,3) mitHi:{µi= 0}. Was l¨asst sich jetzt zum Vergleich von Bonferroni-Holm Test und Abschlusstest mit Bonferroni- Adjustierung aussagen?

17. Verbesserung von Bonferroni-Holm durch logische Restriktionen

Sei (Ω,A,P,H= (Hi, i∈I={1, . . . , m})) ein endliches multiples Testproblem mitm≤m Elementarhypothesen. Betrachten Sie den step-down Test, der analog zu Bonferroni-Holm arbeitet, aber die kritischen Werte

α`= α t`

, `= 1, . . . , m,

verwendet, wobei t` die maximal m¨ogliche Anzahl wahrer Hypothesen, gegeben, dass `−1 Hypothesen falsch sind, bezeichnet.

(a) Begr¨unden Sie, warum diese Prozedur ein multipler Test zum multiplen Niveauαist.

(b) Zeigen Sie, dass diese Prozedur (hinsichtlich G¨ute) besser als Bonferroni-Holm ist.

(c) Geben Sie unter Modell 3.10 mitk= 4 f¨ur H= (Hij,1≤i < j≤4) die Werte dert`

an.

18. LSD-Test von Fisher und Bonferroni-Holm Test in Handrechnung

Betrachten Sie noch einmal die Problemstellung aus Aufgabe 14 (D¨ungemittelvergleiche).

(a) F¨uhren Sie alle paarweisen Mittelwertvergleiche zwischen den D¨ungemittelgruppen mit dem LSD-Test von Fisher f¨urα= 0.01 durch.

(b) F¨uhren Sie alle paarweisen Mittelwertvergleiche zwischen den D¨ungemittelgruppen mit dem Bonferroni-Holm Test f¨urα= 0.01 durch.

(c) Vergleichen Sie die unter (a) und (b) gewonnenen Aussagen mit denen, die der Tukey- Test aus Aufgabe 14.(b) geliefert hat.

(6)

19. Multiple range-Test nach Newman und Keuls in Handrechnung

Unter Modell 3.10 mit balanciertem Design undk=n= 5 seien die Gruppenmittel

¯

x1.= 20.7, x¯2.= 17.0, x¯3.= 16.1, x¯4.= 21.1, x¯5.= 26.5

beobachtet worden. Der Sch¨atzwert f¨ur die gepoolte Stichproben-Standardabweichung seis= 2.683. F¨uhren Sie zum Vergleich der Gruppenmittel den multiple range-Test nach Newman und Keuls mitα= 0.05 durch.

20. Programmieraufgabe

Betrachten Sie noch einmal das Beispiel von Notterman et al. aus Aufgabe 5.

(a) F¨uhren Sie unter Zuhilfenahme der R-Software alle 7457 gepaarten t-Tests mit dem Bonferroni-Holm Test zum multiplen Niveauα= 0.05 durch.

(b) Verifizieren Sie mit Hilfe derR-Software, dass ein step-up Test mit kritischen Werten αi =α/(10i), i= 1, . . . ,7457, ein multipler Test zum multiplen Niveauα= 0.05 f¨ur die Fragestellung unter (a) ist.

(c) F¨uhren Sie den unter (b) vorgeschlagenen step-up Test am Computer durch und ver- gleichen Sie ihn mit dem Bonferroni-Holm Test hinsichtlich der Anzahl abgelehnter Hypothesen.

21. Sch¨atzung des Anteils wahrer Nullhypothesen

Als Verallgemeinerung des Storey-Sch¨atzers betrachten Sie den Sch¨atzer ˆm0(κ, λ) f¨ur die Anzahl wahrer Nullhypothesen in einem endlichen Hypothesensystem H = {Hi, i ∈ I = {1, . . . , m}}, der gegeben ist durch

ˆ

m0(κ, λ) =m1−Fˆm(λ) +κ/m

1−λ .

Dabei sind κ≥0 undλ∈(0,1) Tuningparameter und ˆFmbezeichnet wie in der Vorlesung die empirische Verteilungsfunktion der marginalenp-Werte (pi(X), i∈I).

(a) Berechnen Sie unter dem Dirac-uniform Modell DUm0,m mit m0 wahren und m−m0

falschen Nullhypothesen den Erwartungswert von ˆm0(κ, λ).

(b) Nehmen Sie an, Sie wollen den Bonferroni-Test (bzw. den ˇSid´ak-Test) verbessern, indem Sie deren kritischen Wert f¨ur die marginalenp-Werte vonα/mzuα/mˆ0(κ, λ) bzw. von 1−(1−α)1/mzu 1−(1−α)1/mˆ0(κ,λ)vergr¨oßern. Wie mussκjeweils gew¨ahlt werden, damit keine Hypothese abgelehnt werden kann, deren zugeh¨origer marginaler p-Wert den Wertλ¨ubersteigt?

22. Per Family Error Rate

Betrachten Sie die Per Family Error Rate (PFER) aus Definition 1.33, also die (unterϑ∈Θ) erwartete Anzahl an Typ I-Fehlern eines multiplen Tests ϕ= (ϕi, i∈I={1, . . . , m}).

(a) Berechnen Sie unter den generellen Voraussetzungen (D2) - (I2) aus Definition 5.6 PFERϑ(k)), wobeiϕ(k) ein Einschritttest mit dem kritischen Wertα/k f¨ur die mar- ginalen p-Werte (pi(X), i∈I) mit Parameterk≥1 ist. Dabei seiϑ∈Θ so beschaffen, dass genaum0 dermzu testenden Hypothesen wahr sind.

(b) Wie kannkunter den obigen Voraussetzungen gew¨ahlt werden, so dassϕ(k) die PFER zum Niveauα∈(0,1) kontrolliert?

(7)

23. Storey-Methode in Handrechnung

Gegeben sei ein multiples Testproblem (Ω,A,P,H={Hi, i= 1, . . . ,30}), f¨ur das die gene- rellen Voraussetzungen (D2) - (I2) erf¨ullt seien. Die folgenden 30 marginalenp-Werte seien beobachtet worden.

0.4598367567, 0.0219807061, 0.2828991192, 0.6783085944, 0.7365392294, 0.9014605558, 0.0539129250, 0.3089559420, 0.7103366164, 0.1864614866, 0.8255097728, 0.9522515490, 0.3928713611, 0.3850308341, 0.7490618181, 0.0660193717, 0.1813801406, 0.0676278590, 0.0304835552, 0.1323320201, 0.0411958267, 0.0079257922, 0.3540481755, 0.0419575551, 0.0056959610, 0.0049364264, 0.0031589772, 0.1442576172, 0.5328830657, 0.6059783014.

F¨uhren Sie mit Hilfe der Storey-Methode mitλ= 0.5 eine FDR-basierte Analyse des obigen Datensatzes zum FDR-Niveauα= 0.05 durch.

24. Step-up-down basierend auf der asymptotisch optimalen Ablehnkurve

Unter den Voraussetzungen von und unter Verwendung der Daten aus Aufgabe 23 f¨uhren Sie einen step-up-down Test basierend auf der asymptotisch optimalen Ablehnkurve f0.05

mit Tuningparameterλ=α= 0.05 in Handrechnung durch.

Vergleichen Sie Ihr Ergebnis mit dem aus Aufgabe 23.

25. Programmieraufgabe

Betrachten Sie noch einmal das Beispiel von Notterman et al. aus Aufgabe 5. F¨uhren Sie unter Zuhilfenahme der R-Software alle 7457 gepaarten t-Tests zum FDR-Niveauα= 0.05 durch

(a) mit dem linearen step-up Test von Benjamini und Hochberg.

(b) mit der Storey-Prozedur.

(c) mit einem auf der asymptotisch optimalen Ablehnkurvefα basierenden SUD-Test mit Parameterλ=α.

Referenzen

ÄHNLICHE DOKUMENTE

Zeigen Sie, dass sich auch die Bilder dieser Geraden im Punkt f(z 0 ) im rechten Winkel schneiden. Ubungsklausur ¨ Zur Teilnahme an der ¨ Ubungsklausur am Samstag, den 03.07.2010,

UBUNGSAUFGABEN ¨ Mathematik f¨ ur Wirtschaftsingenieure und -informatiker. SERIE 24

Vergleichen Sie diese mit der Anzahl der Schritte des in der Vorlesung beschriebenen Verfahrens (DiskreterLogarithmus)..

beschr¨ ankte Abnahme

Weisen Sie nach, dass ω = 4 eine primitive vierte Einheitswurzel in Z 17 ist (dabei ist Z 17 der K¨ orper mit 17 Elementen, der sich ergibt, wenn in Z Addition und Multiplikation

- ebenfalls Verminderung der Leistungsverluste durch mehrphasige Abwärtswandler - Möglichkeit Diode durch weiteren Transistor zu ersetzen --&gt; Synchronwandler, je nach Wahl

Präsenzaufgaben zu Mathematik für Biologen und Biotechnologen Blatt II vom 11.04.19.

Fachbereich Mathematik und Statistik Prof..