• Keine Ergebnisse gefunden

Simultane Konfidenzintervalle für nichtparametrische relative Kontrasteffekte

N/A
N/A
Protected

Academic year: 2022

Aktie "Simultane Konfidenzintervalle für nichtparametrische relative Kontrasteffekte"

Copied!
105
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Simultane Konfidenzintervalle für nichtparametrische relative

Kontrasteffekte

Dissertation

zur Erlangung des mathematisch- naturwissenschaftlichen Doktorgrades

“Doctor rerum naturalium”

der Georg-August-Universität Göttingen

vorgelegt von Frank Konietschke

aus Seesen

Göttingen, 2009

(2)

Korreferent 1: Prof. Dr. Martin Schlather Korreferent 2: Prof. Dr. Torsten Hothorn Tag der mündlichen Prüfung: 20.07.2009

(3)

Danksagung

Ich möchte mich als erstes bei Herrn Prof. Dr. Edgar Brunner bedanken, der mich bei der Erstellung dieser Arbeit mit wertvollen Hinweisen engagiert unterstützt hat. Sei- ne Ermutigung zu Konferenzbeiträgen und gemeinsamen Veröffentlichungen hat meine wissenschaftliche Entwicklung bedeutend vorangetrieben. Durch die Bereitstellung der Mittel und Möglichkeiten in der Abteilung für Medizinische Statistik wurde mir die Möglichkeit zu selbstständigen Forschungsarbeiten gegeben.

Außerdem danke ich Herrn Prof. Dr. Martin Schlather und Herrn Prof. Dr. Torsten Hothorn für die Übernahme der Korreferate.

Herr Prof. Dr. Ludwig A. Hothorn hat das Thema zu meiner Arbeit vorgeschlagen und mir im Rahmen eines Werkvertrages mit der Abteilung für Biostatistik der Univer- sität Hannover die Möglichkeit zu einer bereichernden Kooperation gegeben. Durch seine intensive Betreuung und Literaturversorgung konnte das theoretische Funda- ment zügig ausgearbeitet werden. Ohne die Hilfe von Herrn Dr. Frank Schaarschmidt, Herrn Dipl.- Ing. Daniel Gerhard und anderen Mitarbeitern seines Lehrstuhls würde das Softwarepaketnparcompnicht zur Verfügung stehen. In einem Folgeprojekt wurde nparcomp sogar in ein Java-Gui basiertes Statistik-Programmpaket übersetzt.

Von Januar 2009 bis April 2009 bekam ich als Stipendiat des Deutschen Akademischen Austauschdienstes (DAAD) die Möglichkeit zu Forschungsaufenthalten an der Univer- sity of Kentucky in Lexington /USA, University of Montana in Missoula / USA und an der University of Texas in Arlington / USA. Diese haben sowohl meine persönliche Entwicklung als auch diese Arbeit sehr beeinflusst. Die Zeit in den USA ist für mich eine unvergessliche Erfahrung.

Schließlich gilt mein Dank all denen, die mich auf der langen Reise bis hierher mo- ralisch unterstützt und begleitet haben, allen voran Achim Gries, Julia Grabenhorst, Jurek Wuttke, Lena Gerke und meinen Brüdern Andreas und Stefan. Meinen Kollegen und Freunden Antonia Zapf, Katharina Lange und Dr. Klaus Jung danke ich für die Hilfe auf den „letzten Metern”. Nicht zu vergessen sind dabei natürlich meine weiteren lieben Kollegen aus der Abteilung für Medizinische Statistik und der Abteilung für Genetische Epidemiologie sowie meine Kommilitonen des Promotionsstudienganges

„Applied Statistics and Empirical Methods” der Universität Göttingen. Meinen Eltern und meinem Onkel Herbert Konietschke danke ich für die stetige Unterstützung.

(4)
(5)

Inhaltsverzeichnis

1 Einleitung 1

1.1 Motivation . . . 1

1.2 Aufbau der Arbeit . . . 3

2 Motivierende Beispiele 5 2.1 Reizung der Nasenschleimhaut . . . 5

2.2 Anzahl der Copora Lutea. . . 5

3 Grundlagen 7 3.1 Notationen. . . 7

3.2 Multiples Testen . . . 7

3.2.1 Die Problematik des multiplen Testens . . . 7

3.2.2 Multiple Kontrasttests . . . 8

3.3 Relative Effekte . . . 10

3.4 Das nichtparametrische Behrens-Fisher Problem . . . 12

4 Relative Kontrasteffekte 15 4.1 Motivation . . . 15

4.2 Statistisches Modell . . . 16

4.3 Allgemeine Formulierung . . . 16

4.4 Ausgewählte Beispiele . . . 19

4.5 Eigenschaften und Interpretationen . . . 22

4.5.1 Das Problem der Nicht-Transitivität . . . 23

4.5.2 Relative Kontrasteffekte als statistische Funktionale . . . 25

4.5.3 Allgemeine Darstellung relativer Kontrasteffekte . . . 27

5 Punktschätzer 31 5.1 Konstruktion . . . 31

5.2 Eigenschaften . . . 32

6 Simultane Konfidenzintervalle 35 6.1 Asymptotische Verteilung von √ N(pb−p) . . . 35

6.2 Varianzschätzer . . . 38

6.3 Simultane Verfahren . . . 42

6.4 Normal-Approximation . . . 47

(6)

6.5 t-Approximation . . . 49

6.6 Bereichserhaltende Konfidenzintervalle . . . 51

6.7 Simulationen . . . 53

6.8 Auswertungen der Beispiele . . . 56

6.8.1 Reizung der Nasenschleimheit . . . 56

6.8.2 Anzahl der Corpora Lutea . . . 58

7 Zusammenfassung und Ausblick 61 A Beweise 65 A.1 Beweis von Proposition 4.5.3, S. 29 . . . 65

A.2 Beweis von Satz 5.2.1, S. 32 . . . 65

A.3 Beweis von Satz 6.1.1, S. 36 . . . 66

A.4 Beweis von Satz 6.2.1, S. 41 . . . 68

A.5 Beweis von Satz 6.3.1, S. 43 . . . 70

A.6 Beweis von Satz 6.6.1, S. 52 . . . 70

B Definitionen und Notationen 71 B.1 Matrizenrechnung . . . 71

B.2 Wahrscheinlichkeitstheorie . . . 72

B.2.1 Konvergenzen . . . 72

B.2.2 Relative Effekte . . . 73

C Weitere Simulationsergebnisse 75 D Software: Das R-Paket nparcomp 79 D.1 Die Funktion „npar.t.test” . . . 79

D.1.1 Beispiel: Anzahl der Implantationen . . . 80

D.1.2 Beispiel: Kronenvitalität von Fichten . . . 82

D.2 Die Funktion „nparcomp” . . . 83

D.2.1 Beispiel: Relative Lebergewichte . . . 84

D.2.2 Beispiel: Nierengewichte von männlichen Ratten . . . 87

Literaturverzeichnis 89

(7)

Abbildungsverzeichnis

3.1 Stochastische Tendenz. . . 11 6.1 Equikoordinates (1−α)-Quantil von (T1,T2)∼t(ν,0,R): zweiseitig. . . 44 6.2 Zweiseitige95%-equikoordinate Quantile verschiedenerN(0,I2+ρ(J2

I2)) Verteilungen (ρ = 0,0.5,0.9,0.99). Hierbei ist N(0,I2) oben links, N(0,I2 + 0.5(J2 −I2) oben rechts, N(0,I2 + 0.9(J2 −I2)) unten links und N(0,I2+ 0.99(J2−I2)unten rechts. . . 45 6.3 Equikoordinates (1−α)-Quantil von (T1,T2)∼t(ν,0,R): einseitig-oben. 46 6.4 Power-Simulationen zu den Alternativen (a) - (d) auf S. 54. Dabei ist

Alternative (a) oben links, (b) oben rechts, (c) unten links und (d) unten rechts unter Verwendung dertν-Approximation. . . 55 6.5 Power-Simulation mit (rechts) und ohne (links) Ausreißer in den Daten. 56 6.6 Anzahl der Corpora Lutea. . . 58 C.1 Power-Simulationen zu den Alternativen (a) - (d) auf S. 54. Dabei ist

Alternative (a) oben links, (b) oben rechts, (c) unten links und (d) unten rechts unter Verwendung der Probit-Approximation bei n=25. . . 76 C.2 Power-Simulationen zu den Alternativen (a) - (d) auf S. 54. Dabei ist

Alternative (a) oben links, (b) oben rechts, (c) unten links und (d) unten rechts unter Verwendung der Probit-Approximation bei n=50. . . 77 D.1 Konfidenzintervall und Boxplots der Implantationen. . . 81 D.2 Konfidenzintervall und Boxplots der Kronenvitalitäten von Fichten. . . 82 D.3 Konfidenzintervall und Boxplots der relativen Lebergewichte. . . 86 D.4 Konfidenzintervall und Boxplots der relativen Nierengewichte. . . 88

(8)
(9)

Tabellenverzeichnis

2.1 Reizungsscores. . . 5

2.2 Anzahl an Corpora Lutea. . . 6

4.1 Struktur der Gewichtsmatrix W. . . 29

6.1 Struktur der Kovarianzmatrix ΘN. . . 40

6.2 Empirische Überdeckungswahrscheinlichkeiten der vorgestellten 95%- Konfidenzintervalle für p = 0.5. Simuliert wurden drei diskretisierte heteroskedastische normalverteilte Stichproben (σi2 ∈ {1,3,6}). . . 53

6.3 95%-simultane Konfidenzintervalle für den relativen Dunnett-Effekt. . . 57

6.4 Analyse von Odds-Ratios. . . 58

6.5 95%-simultane Konfidenzintervalle für den relativen Dunnett-Effekt. . . 58

C.1 Empirische Überdeckungswahrscheinlichkeiten der vorgestellten 95%- Konfidenzintervalle fürp = 0.75unter Verwendung diskretisierter nor- malverteilter Stichproben. . . 75

D.1 Anzahl der Implantationen. . . 81

D.2 Beurteilung der Kronenvitalität von Fichten. . . 82

D.3 Relative Lebergewichte [%] von 38 männlichen Wistar-Ratten. . . 85

D.4 Relative Nierengewichte [%] von 41 männlichen Wistar-Ratten.. . . 87

(10)
(11)

1 Einleitung

1.1 Motivation

In einem Großteil der Experimente und Studien in den Biowissenschaften werden meh- rere Stichproben gleichzeitig erhoben, beispielsweise wenn Tiere mit unterschiedlichen Dosisstufen eines Medikaments behandelt werden. In der Medizin werden solche Stu- dien häufig zum Wirksamkeitsnachweis von Medikamenten benötigt. Im Allgemeinen sollen mit Hilfe dieser Experimente Fragen der Anwender beantwortet werden, die sich zumeist auf Unterschiede in den Behandlungseffekten oder auf steigende bzw. fallende Trends beziehen.

Die Datenauswertung derartiger Studien geschieht klassischerweise unter Annahme der Normalverteilung der Messwerte mithilfe einer Varianzanalyse (ANOVA1). Hierbei werden die eigentlichen Fragen des Anwenders in drei Schritten beantwortet:

1. Als erstes wird eine ANOVA durchgeführt, welche die Frage beantwortet, ob die im Versuch berücksichtigten Faktoren einen Einfluss auf die Messgröße haben oder nicht. Hat ein als signifikant identifizierter Faktor mehr als zwei Stufen (z.B.

mehr als zwei Behandlungen oder Zentren), dann reicht die einfache Antwort der ANOVA „signifikanter Faktoreinfluss” nicht aus, da der Anwender normalerweise wissen möchte, welche Faktorstufen (Behandlungen) für das signifikante Ergebnis verantwortlich sind. Um letzteres zu beantworten, müssen so genannte „multiple Vergleiche” für die einzelnen Faktorstufen durchgeführt werden.

2. Die sachgerechte Durchführung multipler Vergleiche erfordert die Kontrolle des gewählten multiplen Signifikanzniveaus (Hilgers et al., 2003, S. 142). Hierzu ste- hen viele Verfahren zur Verfügung (Hochberg und Tamhane, 1987, Kapitel 1, S.

2 ff). Ein gleichmäßig bestes Verfahren ist bisher allerdings noch nicht bekannt.

Der Nachteil dieser Verfahren ist, dass sie konservativen Charakter haben, das heißt, sie unterschreiten die gewählte multiple Irrtumswahrscheinlichkeit (Bretz et al., 2001). Für die Praxis bedeutet dieses, dass entweder relevante Unterschie- de mit zu geringer Wahrscheinlichkeit aufgedeckt werden oder dass der benötigte Stichprobenumfang zu hoch angesetzt werden muss.

1engl.: „analysis of variance”

(12)

3. In der Praxis reicht die einfache Antwort, dass zwischen zwei Faktorstufen (z.B.

Kontrolle gegen Behandlung 1) ein signifikanter Unterschied besteht, für den Anwender nicht aus. Über das Ausmaß des Unterschiedes und einer möglichen Variabilität gibt nur ein Konfidenzintervall für den untersuchten Effekt dem Anwender eine ausreichende Information. Ein solches Konfidenzintervall wird mithin ausdrücklich von den Regulierungsbehörden für die Zulassung eines Arz- neimittels gefordert (ICH E9 Guideline). Somit ist dieses keine Ergänzung zur statistischen Analyse, sondern ein zentraler Bestandteil. Die einfache Angabe eines p-Wertes für einen Vergleich genügt nicht. Die Schwierigkeit bei der Anga- be eines Konfidenzintervalls für einen Behandlungseffekt nach einer simultanen Testprozedur besteht nun darin, dass ein solches Konfidenzintervall ebenfalls das multiple Niveau einhalten und zusätzlich mit dem verwendeten multiplen Ver- gleichsverfahren kompatibel sein soll. Das bedeutet, dass es z.B. nicht passieren darf, dass die Hypothese in einem Paarvergleich zum multiplen Niveau α abge- lehnt wird, das nachfolgend berechnete Konfidenzintervall für den Effekt aber die Null enthält. Dieses ist in der klassischen Vorgehensweise bei der Analyse praktischer Daten bis heute ein weitgehend ungelöstes Problem - selbst bei nor- malverteilten Daten. Von den allgemein gültigen Verfahren erfüllen diese Anfor- derung nur die sehr konservativen Verfahren von Bonferroni und Scheffé (Bretz et al., 2001; Scheffé, 1953). Für andere Verfahren gibt es erste Ansätze, die aber technisch sehr aufwendig sind und zu schwer interpretierbaren Intervallen führen (siehe z.B. Guilbaud, 2008).

Bretz, Genz und Hothorn (2001) schlagen einen Ansatzpunkt zur Entwicklung statis- tischer Verfahren vor, welche diese Problematik einer ANOVA umgehen. Es werden parametrische multiple Kontrasttests und simultane Konfidenzintervalle für Linear- kombinationen von Erwartungswerten vorgestellt. Die Verfahren können auf die spe- ziellen Fragen der Anwender ausgerichtet werden. Dabei vereinigen sie die drei Stufen der „klassischen” Varianzanalyse (vgl. die Punkte 1, 2 und 3) in einem einzigen Schritt.

Die Kompatibilität zwischen den simultanen Konfidenzintervallen und den assoziierten Teilhypothesen ist theoretisch gesichert. In der Arbeit von Hasler und Hothorn (2008) werden die Ergebnisse von Bretz et al. (2001) auf normalverteilte heteroskedastische Stichproben verallgemeinert.

Gerade in den Biowissenschaften liegen jedoch sehr oft Daten vor, für die keine Normal- verteilung angenommen werden kann. Hier ist der Bedarf an Verfahren zur adäquaten Auswertung von Versuchen und Studien von besonderem Interesse. Beispielsweise fol- gen Scoredaten, ordinale Daten oder stetige schief verteilte Daten keiner Normalvertei- lung. Um auch diese in der Praxis häufig auftretenden Datentypen ohne die Annahme einer zugrunde liegenden speziellen Verteilung adäquat auswerten zu können, müs- sen nichtparametrische Verfahren entwickelt werden. Beispiele zu solchen Datensätzen sind z.B. in den Büchern von Brunner und Langer (1999), Brunner und Munzel (2002)

(13)

1.2 Aufbau der Arbeit

und Brunner, Domhof und Langer (2002) beschrieben. Hier werden alle Beispielstudi- en in der oben beschriebenen (klassischen) Form in drei Schritten ausgewertet. Dabei kann schon der zweite Schritt zu Problemen führen und der dritte wird meistens nicht ausgeführt, da keine adäquaten Verfahren zur Verfügung stehen. Ein Grund dafür ist, dass in all diesen Arbeiten die Verteilungsaussagen der Prüfgrößen unter Annah- me der Nullhypothese, dass (bestimmte) Linearkombinationen von Verteilungsfunk- tionen gleich sind, hergeleitet werden. Dadurch ergibt sich eine vereinfachte Struktur der Kovarianzmatrix (siehe Brunner und Munzel, 2002, S. 104). Der Nachteil dieses Vorgehens ist, dass keine Konfidenzintervalle für die verwendeten Effekte angegeben werden können. Brunner und Munzel (2000) stellen daher für den Zweistichprobenfall einen nichtparametrischen asymptotischen Test vor, der die Hypothese nicht in den Verteilungsfunktionen testet, sondern im verwendeten Behandlungseffekt. Die Vertei- lungsaussage der Prüfgröße wird ohne die Annahme der Nullhypothese hergeleitet.

Die Teststatistik ist somit in ein Konfidenzintervall invertierbar. Für den Mehrstich- probenfall stellen Kulle (1999) und Domhof (2001) Konfidenzintervalle für weitere nichtparametrische Effekte vor. Die Statistiken sind allerdings nicht simultan, sondern müssen mit einem Adjustierungsverfahren korrigiert werden.

Munzel und Hothorn (2001) stellen simultane Konfidenzintervalle für nichtparame- trische Effekte vor, indem sie die von Bretz et al. (2001) vorgestellten multiplen Kon- trasttests auf nichtparametrische Modelle übertragen. Auch die nichtparametrische Variante vereinigt die drei Schritte einer Varianzanalyse und liefert dadurch einen entscheidenden praktischen Vorteil. Allerdings beschränken sich Munzel und Hothorn (2001) auf „All-Pairs-Vergleiche” (vgl. Tukey, 1953). Der von Brunner und Munzel (2000) entwickelte „Brunner-Munzel-Test” bzw. dessen Herleitung bildet dabei das theoretische Fundament.

Um auch bei nichtnormalverteilten Daten die Fragen der Anwender in adäquate nicht- parametrische Modelle übersetzen zu können, sollen die Verfahren von Munzel und Hothorn (2001) in der vorliegenden Arbeit auf beliebige Kontraste („relative Kon- trasteffekte”) verallgemeinert werden.

1.2 Aufbau der Arbeit

In Kapitel2 werden zwei motivierende Beispiele präsentiert. Weiterhin werden in Ka- pitel 3 einige Grundlagen für die Konstruktion simultaner Konfidenzintervalle vor- gestellt. Es wird insbesondere auf Begriffe zu multiplen Vergleichen eingegangen so- wie die Lösung zum nichtparametrischen Behrens-Fisher Problem von Brunner und Munzel (2000) diskutiert. Die in der vorliegenden Arbeit entwickelten Verfahren ent- halten die Prozeduren von Munzel und Hothorn (2001) als Spezialfälle, sodass diese nicht vorgestellt werden. In Kapitel 4 werden die relativen Kontrasteffekte formuliert

(14)

und ausführlich diskutiert. In mehreren Abschnitten wird deren Einsetzbarkeit in der Praxis beleuchtet. Die Konstruktion von Punktschätzern wird in Kapitel5angegeben.

Simultane Konfidenzintervalle für die relativen Kontrasteffekte werden in Kapitel 6 hergeleitet. Hierbei wird auch auf die multivariate Verteilung der Punktschätzer und auf Varianzschätzer eingegangen. Das finite Verhalten der Statistiken wird mit Hilfe von Simulationsstudien untersucht. In Kapitel6werden außerdem die beiden Beispiele aus Kapitel 2 ausgewertet. Die Arbeit schließt mit einer Diskussion der hergeleiteten Verfahren und mit einem Ausblick auf weitere Forschungsprojekte.

Aus Gründen der Übersichtlichkeit, und um den Lesefluss nicht zu stören, sind tech- nische Beweise in den Anhang A verschoben. Im Anhang D wird außerdem ein Pro- grammpaket für die freie Software R (www.r-project.org) vorgestellt.

Bemerkung: Die vorliegende Dissertation beschäftigt sich mit komplexen Gebieten der angewandten Statistik und der mathematischen Statistik. Der Fokus liegt einerseits auf nichtparametrischen multiplen Kontrasttests und simultanen Konfidenzintervallen, andererseits verlangt eine Herleitung dieser eine geschlossene Lösung zum nichtpara- metrischen Behrens-Fisher Problem in faktoriellen Designs. Das nichtparametrische Behrens-Fisher Problem verlangt wiederum eine Verallgemeinerung multipler Kon- trasttests auf heterogen verteilte Daten. Bei der Erstellung der Arbeit wurde daher großen Wert darauf gelegt, diese weitläufigen Kapitel möglichst einfach zu kombi- nieren. Das Ziel der vorliegenden Arbeit soll dabei die Übertragung parametrischer Resultate in nichtparametrische Modelle sein. In der Dissertation von Hasler (2009) (Naturwissenschaftliche Fakultät, Universität Hannover) werden parametrische mul- tiple Kontrasttests ausführlich dargestellt.

(15)

2 Motivierende Beispiele

In diesem Abschnitt werden zwei motivierende Beispiele vorgestellt. Die Daten wurden Brunner und Munzel (2002, Anhang C, S. 283 ff) entnommen.

2.1 Reizung der Nasenschleimhaut

Tabelle 2.1: Reizungsscores.

Konzentration Anzahl der Tiere mit Reizungsscore

0 1 2 3

2 [ppm] 18 2 0 0 5 [ppm] 12 6 2 0

10 [ppm] 3 7 6 4

Eine inhalierbare Testsubstanz wurde in drei Konzentrationen (2 [ppm], 5 [ppm] und 10 [ppm]) an je 20 Ratten bezüglich ih- rer Reizaktivität auf die Nasen- schleimhaut nach subchronischer Inhalation untersucht.

Die Reizaktivität wurde histopathologisch durch Vergabe ordinalskalierter Scores 0 = „keine Reizung”, 1 = „leichte Reizung”, 2 = „starke Reizung” und 3 = „schwere Rei- zung” beurteilt. Die Versuchsergebnisse der 60 Ratten sind in Tabelle 2.1 dargestellt.

Da in diesem Beispiel ordinale Daten beobachtet wurden, können Behandlungseffekte nicht über Mittelwerte beschrieben werden, da für rein ordinale Daten keine Summen oder Differenzen definiert sind.

2.2 Anzahl der Copora Lutea

In einer Fertilitätsstudie an 92 weiblichen Wistar-Ratten sollten unerwünschte Wir- kungen einer Substanz (Verum) auf die Fertilität untersucht werden. Das Verum wurde in vier Dosisstufen gegeben und mit einem Placebo verglichen. Nach der Sektion der Tiere wurde die Anzahl der Corpora Lutea bestimmt. Die Ergebnisse für die n1 = 22 Tiere der Placebo-Gruppe und die n2 = 17, n3 = 20, n4 = 16 und n5 = 17 Tiere der vier Verum-Gruppen sind in Tabelle 2.2 dargestellt.

(16)

Tabelle 2.2: Anzahl an Corpora Lutea.

Substanz Anzahl der Corpora Lutea

Placebo 9, 11, 11, 11, 12, 12, 12, 12, 12, 12, 13 13, 13, 13, 13, 13, 14, 14, 14, 14, 15, 16 Dosis 1 9, 10, 11, 11, 11, 11, 11, 12, 12, 12, 13

13, 14, 14, 14, 15, 15

Dosis 2 9, 11, 12, 12, 13, 13, 13, 13, 13, 14, 14 14, 14, 14, 15, 15, 15, 15, 17, 17 Dosis 3 6, 10, 11, 12, 12, 12, 13, 13, 13, 13, 14

14, 14, 15, 15, 16

Dosis 4 9, 10, 11, 11, 11, 13, 13, 13, 13, 13, 14 14, 14, 14, 14, 15, 15

(17)

3 Grundlagen

In diesem Abschnitt werden einige Grundlagen für die Konstruktion simultaner Kon- fidenzintervalle für relative Effekte diskutiert. Zunächst werden häufig verwendete Be- griffe und deren Notation festgelegt. Anschließend wird auf multiple Vergleiche ein- gegangen. Die Herleitung der simultanen Konfidenzintervalle basiert auf der Lösung zum nichtparametrischen Behrens-Fisher Problem von Brunner und Munzel (2000), so dass auch diese kurz vorgestellt wird.

3.1 Notationen

Die Operatoren E(X) und Var(X)bezeichnen den Erwartungswert bzw. die Varianz einer Zufallsvariablen X und Cov(X,Y) die Kovarianz von X und Y. Matrizen und Vektoren werden stets fett geschrieben. Weitere Ausführungen zu Matrizentechniken sind in AnhangB.1 auf S. 71dargestellt.

3.2 Multiples Testen

3.2.1 Die Problematik des multiplen Testens

Im Rahmen des Experimentes „Reizung der Nasenschleimhaut” aus Abschnitt2.1 soll die Wirksamkeit einer inhalierbaren Testsubstanz an Hand von drei verabreichten Konzentrationsstufen untersucht werden. Im Folgenden wird angenommen, dass vor der Versuchsdurchführung keine Auswertungsstrategie festgelegt wurde. Die „erhöhte”

Wirksamkeit der Behandlung soll dadurch nachgewiesen werden, dass für alle Dosis- stufen entsprechende statistische Tests zum Signifikanzniveau α = 5% durchgeführt werden. Unter der Annahme, dass kein Unterschied zwischen den Behandlungsgrup- pen besteht, liefert ein statistischer Test für den Behandlungseffekt der Stufen 2 und 5 mit einer Wahrscheinlichkeit von 5% eine falsch-positive Testentscheidung. Dieses impliziert, dass der Test mit einer Wahrscheinlichkeit von 95 % eine richtig-negative Entscheidung liefert. Werden nun zwei statistische Tests durchgeführt und die beiden Tests als unabhängig angesehen, so beträgt die Wahrscheinlichkeit dafür, dass beide Tests eine richtig-negative Entscheidung liefern0.95·0.95 = 0.9025. Daraus folgt wie- derum, dass die Wahrscheinlichkeit für mindestens eine falsch-positive Entscheidung 1−0.9025 = 0.0975 beträgt.

(18)

Wird die Behandlung als wirksam angesehen, wenn (mindestens) einer der beiden Tests ein signifikantes Testergebnis auf dem 5%-Niveau liefert, obwohl kein Behandlungsef- fekt vorliegt, dann beträgt das wahre Signifikanzniveau nicht 5% sondern 9.75%. Dieser Effekt wird ausgesprägter, je mehr Merkmale simultan in den Vergleich mit einbezogen werden. Ähnliche Überlegungen gelten, wenn an demselben Datenmaterial Untergrup- pen verglichen oder Zwischenauswertungen durchgeführt werden. In solchen Fällen sind spezielle statistische Verfahren notwendig.

Multiple Testverfahren haben das Ziel, q verschiedene Vergleiche bei gleichzeitiger Kontrolle der familienbezogenen Fehlerrate1 (FWER) bzw. des multiplen Niveaus α (multipler Fehler 1. Art)

FWER=P(mindestens eine wahre Nullhypothese abzulehnen) (3.1) durchzuführen. In der Literatur wird zwischen der starken und der schwachen Kon- trolle der FWER unterschieden (siehe z.B. Hochberg und Tamhane, 1987, S. 2 ff).

Dabei setzt eine starke Kontrolle der FWER nicht die Gültigkeit der Globalhypothese voraus. Dieses bedeutet, dass sich multiple Vergleiche nicht statistisch beeinflussen. In der Praxis sind somit nur Verfahren, welche die FWER stark kontrollieren, sinnvoll einsetzbar.

3.2.2 Multiple Kontrasttests

Im Gegensatz zu multiplen Tests berücksichtigen multiple Kontrasttests Korrelatio- nen zwischen denq verschiedenen Prüfgrößen (Bretz, 1999). Beispielsweise bezieht die Bonferroni-Korrektur (Holm, 1979) keine Abhängigkeiten zwischen den Statistiken mit ein. Multiple Kontrasttests sind somit spezielle multiple Tests. In der vorliegenden Ar- beit werden ausschließlich multiple Kontrasttests betrachtet und hergeleitet. Wenn von multiplen Vergleichen oder verwandten Verfahren gesprochen wird, übertragen sich die verwendeten Begriffe im Kontext auf multiple Kontrasttests.

Der praktische Vorteil multipler Tests im Vergleich zu Varianzanalysen liegt insbeson- dere in der Möglichkeit sie auf spezielle Fragen der Anwender ausrichten zu können. In der vorliegenden Arbeit werden daher spezielle nichtparametrische Effekte definiert, die mit Hilfe einer gegebenen Kontrastmatrix

C=

 c(1)1×a

...

c(q)1×a

=



c11 c12 . . . c1a

... ... ... ...

cq1 cq2 . . . cqa

 (3.2)

1engl.: „familywise error rate”

(19)

3.2 Multiples Testen

formuliert werden. Jede Zeilensumme der Kontrastmatrix ist Null, das heißtC1=0.

Hier bezeichnen 1 den Einservektor und 0 den Nullvektor (siehe Definition B.1.1, S.

71). Des Weiteren werden Hypothesen mit Hilfe von Cformuliert (siehe z.B. Brunner und Munzel, 2002, S. 100 ff).

Die Art der verschiedenen Vergleiche wird durch das spezielle Muster positiver und negativer Einträge (das heißt der Kontrastkoeffizienten) von Cbzw. der Zeilenvekto- ren c(ℓ) beschrieben. Sie ergeben sich aus der speziellen Fragestellung des Anwenders.

Zur Verdeutlichung dessen sei µ = (µ1, . . . ,µa) der Vektor der Erwartungswerte der Zufallsvariablen X1, . . . ,Xa. Die Nullhypothese H0µ :Cµ=0kann gegen die Alterna- tive2

H1µ=









µ1 6=µ2 µ1 6=µ3

...

µ1 6=µa

getestet werden, wobei hierC=





−1 1 0 . . . 0 0

−1 0 1 0 . . . 0 ... ... ... ... ... ...

−1 0 0 . . . 1





ist. Die Globalhypothese H0µ : Cµ = 0 wird abgelehnt, wenn H0µ in (mindestens) einem der a−1-Vergleiche zum multiplen Niveau α verworfen wird. Ein anderes Al- ternativenmuster wird durch

H1µ=









µ1 6=µa

µ1 6=µa1a

...

µ1 6=µ2 =. . .=µa

beschrieben. Dabei bedeuten die Gleichheitszeichen, dass die zugehörigen Stichpro- ben durch den Kontrast zusammengefasst (das heißt „gepoolt”) werden. Die Einträge der Kontrastmatrix ergeben sich somit als relative Stichprobenumfänge der zusam- mengefassten Stichproben. Auch hier wird die Globalhypothese abgelehnt, wenn sie in (mindestens) einem dera−1-Vergleiche zum multiplen Niveau αverworfen wird. Die beliebige Gestaltbarkeit der Kontrastmatrix wirkt sich demnach stark auf die Power dieser Testverfahren aus.

Die beiden vorgestellten Kontraste (Dunnett und Williams) basieren allerdings auf dem Vektor µ der Erwartungswerte der Stichproben. Dessen Existenz setzt strenge Voraussetzungen an das statistische Modell, die in der Praxis häufig nicht erfüllt sind.

Für zwei unabhängige Zufallsvariablen wurde von Mann und Whitney (1947) ein Un- terschiedmaß eingeführt, das invariant unter ordnungserhaltenden Transformationen

2Ohne Einschränkung der Allgemeinheit sollen an dieser Stelle die Hypothesen und die Alternativen zweiseitig formuliert werden. In der Praxis werden z.B. Trend-Kontraste in der Regel einseitig getestet. Tukey-Vergleiche werden zweiseitig getestet (vgl. Bretz, 1999; Hasler, 2008).

(20)

ist und sich auch für ordinale Skalen definieren lässt. Dieses Maß, das alsrelativer Effekt bezeichnet wird, ist seither zur nichtparametrischen Beschreibung eines Unterschiedes zwischen zwei Verteilungen als Behandlungseffekt etabliert (siehe z.B. Brunner und Munzel, 2002, S. 16). In der vorliegenden Arbeit werden Linearkombinationen relati- ver Effekte („relative Kontrasteffekte”) beliebigen Alternativen angepasst. Im nächsten Abschnitt werden daher zunächst zwei unverbundene Stichproben betrachtet und der relative Effekt diskutiert.

3.3 Relative Effekte

Gegeben seien unabhängig identisch verteilte Zufallsvariablen mit

Xik ∼Fi(x), i= 1,2, k = 1, . . . ,ni. (3.3) Das Modell in (3.3) enthält keine offensichtlichen oder die Verteilung charakterisie- renden Parameter, die geeignet wären, Verteilungsunterschiede zu quantifizieren. In diesem Fall lassen sich Behandlungseffekte durch direkte Verwendung der Verteilungs- funktionen F1(x) und F2(x) definieren (Mann und Whitney, 1947):

p12 = Z

F1dF2 =P(X11< X21) + 1

2P(X11=X21). (3.4) Relative Effekte sind als Wahrscheinlichkeiten anschaulich interpretierbar: Der Wert 0 für p12 bedeutet, dass die Beobachtungen X21, . . . ,X2n2 fast sicher kleiner als die Beobachtungen X11, . . . ,X1n1 sind. Umgekehrt bedeutet p12 = 1, dass X21, . . . ,X2n2

fast sicher größer als X11, . . . ,X1n1 sind. Der Fall p12 = 1/2 bedeutet, dass weder die Beobachtungen der ersten noch die Beobachtungen der zweiten Gruppe zu größeren oder kleineren Werten tendieren. Aber auch für andere Werte als 0,12 oder 1 ist p12

eingängig interpretierbar:

Definition 3.3.1 [Stochastische Tendenz]

Die Zufallsvariablen X1k tendieren im Vergleich zu X2k (stochastisch)

• zu größeren Werten, falls p12 < 12 ist,

• zu kleineren Werten, falls p12 > 12 ist,

• weder zu größeren noch zu kleineren Werten, falls p12 = 12 ist. In diesem Fall heißen X1k und X2k (stochastisch) tendenziell gleich.

Zur Veranschaulichung der stochastischen Tendenz dient Abbildung 3.1, die Brunner und Munzel (2002, S. 19) entnommen wurde.

(21)

3.3 Relative Effekte

1

x F

1

(x) F

2

(x)

1

x F

1

(x)

F

2

(x) 1

x F

1

(x)

F

2

(x)

P(X1 ≤X2)< 12 P(X1 ≤X2) = 12 P(X1 ≤X2)> 12 Abbildung 3.1: Stochastische Tendenz.

Der Begriff der stochastischen Tendenz hilft nun den relativen Effekt als statistisches Funktional zu verstehen. Für unabhängige normalverteilte Zufallsvariablen Xik ∼N(µ,σ2i), i= 1,2,mit identischem Erwartungswertµund nicht notwendigerwei- se gleichen Varianzenσi2, giltp12= 12 (Brunner und Munzel, 2002, S. 22). Des Weiteren folgt aus der Definition3.3.1und auch aus der Darstellungp12 =R

F1dF2, dassp12= 12 für symmetrisch verteilte Zufallsvariablen ist (siehe Brunner und Munzel, 2002, S. 94).

Das TestproblemH0p :p12= 12 gegenH1p :p12 6= 12 wird deshalb alsnichtparametrisches Behrens-Fisher Problem bezeichnet (siehe z.B. Brunner und Munzel, 2002, S. 75 ff).

Im Gegensatz zu H0F : F1 = F2 impliziert H0p keine Varianzhomogenität. Die Hypo- theseH0F kann somitabgeschwächtwerden, wenn sie aufH0p :p12= 12 beschränkt wird.

Im Allgemeinen richtet sich das Interesse des Anwenders bei der Datenanalyse nicht darauf, die Alternative H1F : F1 6= F2 zu verwerfen, sondern eine zentrale Tendenz zu kleineren Werten aufzuzeigen. Diese Fragestellung entspricht dem Testproblem H0p : p12 = 12 gegen H1p : p12 6= 12. Allerdings ist die Varianz eines konsistenten Schätzers pb12 für p12 unter H0F leichter zu schätzen als unter H0p, weswegen die Ver- teilungsaussagen über Teststatistiken klassischerweise unterH0F gemacht werden (vgl.

z.B. Brunner und Munzel, 2002, S. 53). Der Nachteil dieses Vorgehens ist, dass keine Konfidenzintervalle für p12 hergeleitet werden können. Basiert eine Teststatistik wei- terhin auf H0F, so sind die ermittelten Testverfahren nicht gegen alle Alternativen der Form F1 6= F2 konsistent. Der Konsistenzbereich ist vielmehr auf alle Verteilungen mit p12 6= 12 einzugrenzen, was im Fokus des eigentlichen Interesses steht (Brunner und Munzel, 2002, Abschnitt 4.6.3, S. 230). Die Alternativen F1 6= F2 sind für den Anwender sehr abstrakt und schwer interpretierbar. Aus diesen Gründen werden in der vorliegenden Arbeit ausschließlich Verfahren für H0p diskutiert.

(22)

Im nächsten Abschnitt werden sowohl Punktschätzer für p12 als auch deren asympto- tische Verteilung (unter Alternative) hergeleitet (vgl. Brunner und Munzel, 2000).

3.4 Das nichtparametrische Behrens-Fisher Problem

Im Zwei-Stichprobenfall können erwartungstreue undL2-konsistente Punktschätzer für relative Effekte durch Verwendung der Einsetzungsmethode angegeben werden (siehe z.B. Brunner und Munzel, 2000). Hier werden die Verteilungsfunktionen F1(x) und F2(x)durch die empirischen Verteilungsfunktionen

Fbi(x) = 1 ni

ni

X

k=1

c(x−Xik), c(x) =



0, x <0

1

2, x= 0, 1, x >0

, i= 1,2, (3.5) ersetzt. Der Plug-In Punktschätzer

b p12=

Z

Fb1dFb2 = 1 n1

R(12)2· − n2+ 1 2

, R(12)2· = 1 n2

n2

X

k=1

R(12)2k , (3.6) kann schließlich mit Hilfe der paarweisen Ränge3 R(12)11 , . . . ,R(12)1n1,R(12)21 , . . . ,R(12)2n2 der N12 = n1+n2 Beobachtungen X11, . . . ,X1n1, X21, . . . ,X2n2 berechnet werden. Ränge von unabhängigen Zufallsvariablen sind keine unabhängigen Zufallsvariablen mehr.

Für die Rangstatistik √

N12(pb12−p12) kann zum Nachweis der asymptotischen Nor- malität kein zentraler Grenzwertsatz verwendet werden. Es lässt sich allerdings zeigen, dass die zentrierte Rangstatistik und die Summen unabhängiger Zufallsvariablen

pN12(pb12−p12) + p N12

Z

F1dFb2− Z

F2dFb1+ 1−2 Z

F1dF2

= p

N12

1 n2

n2

X

k=1

F1(X2k)− 1 n1

n1

X

k=1

F2(X1k) + 1−2 Z

F1dF2

!

= p

N12·Z12· .

∼. N 0, σN2

, σN2 =N12

σ212 n2212

n1

, (3.7)

asymptotisch die gleiche Verteilung (+) haben. Die asymptotische Normalität der Zufallsvariablen √

N12 ·Z12· ergibt sich schließlich unter den Regularitätsannahmen N12/ni ≤ N0 < ∞ und σij2 = Var(Fi(Xj1)) > 0, i,j = 1,2, i 6= j und durch Anwen- dung des Grenzwertsatzes von Lindeberg-Feller (siehe z.B. Feller, 1968, S. 229).

3MitRangsei ausschließlich der Mittelrang der Beobachtungen gemeint.

(23)

3.4 Das nichtparametrische Behrens-Fisher Problem

Für die Berechnung des konsistenten Varianzschätzers bσN2 werden zusätzlich zu den Rängen R(12)ik noch die Internränge Rik(i) von Xik innerhalb der Stichprobe i = 1,2 benötigt. Der Schätzer bσN2 = N12(bσ212/n2 +bσ212 /n1) setzt sich weiterhin additiv aus den beiden Schätzern

b

σ212 = 1 n21(n2−1)

n2

X

k=1

R(12)2k −R(2)2k −R(12)2· +n2+ 1 2

2

und

221 = 1 n22(n1−1)

n1

X

k=1

R(12)1k −R(1)1k −R(12)1· +n1+ 1 2

2

(3.8) zusammen (Brunner und Munzel, 2000). Mit Hilfe der Punktschätzer, deren asymp- totischer Verteilung und dem konsistenten Varianzschätzer lassen sich abschließend asymptotische (1−α)-Konfidenzintervalle für p12 durch

P

p12

pb12− z1α/2

√N12

q

2N,pb12+z1α/2

√N12

q σbN2

N12→∞

→ 1−α

angegeben, wobeiz1α/2 das(1−α/2)-Quantil der Standardnormalverteilung bezeich- ne. Weitere Lösungsansätze zum nichtparametrischen Behrens-Fisher Problem werden in Brunner und Munzel (2002, Kapitel 2.1.3, S. 73 ff) diskutiert. Fligner und Policello (1981) beschränken sich auf stetige Verteilungen. Ein studentisierter Permutationstest für H0p :p12 = 12 wird von Neubert und Brunner (2007) vorgestellt.

Für den Mehrstichprobenfall werden Lösungen zum nichtparametrischen Behrens- Fisher Problem von Kulle (1999) und Domhof (2001) erläutert. Hierbei beschränken sie sich auf bestimmte relative Effekte, die in der vorliegenden Arbeit als „relative Average-Effekte” bezeichnet werden. Solche Effekte eignen sich allerdings nicht im- mer dazu, die Fragestellungen der Anwender in ein statistisches Modell zu übersetzen.

Im nächsten Kapitel werden daher anschaulich interpretierbare Linearkombinationen relativer Effekte beliebigen Fragestellungen angepasst.

(24)
(25)

4 Relative Kontrasteffekte

In diesem Kapitel werden die relativen Kontrasteffekte formuliert und ausführlich dis- kutiert. Im anschließenden Kapitel werden simultane Konfidenzintervalle hergeleitet.

4.1 Motivation

Relative Effekte sind Anwendern verständlich als Wahrscheinlichkeiten zu erklären. Sie eignen sich insbesondere zur Übersetzung ihrer Fragen in ein statistisches Modell. Aus der Definition relativer Effekte in (3.4) folgt, dass sie sich außerdem zur Modellierung steigender bzw. fallender Trends eignen. Werden solche mit Hilfe von Verteilungsfunk- tionen formuliert, muss eine strenge Voraussetzung an die Verteilungsfunktionen als Annahme formuliert werden: Die Verteilungsfunktionen dürfen sich nicht kreuzen. Ei- ne derartige Annahme an ein statistisches Modell ist sehr praxisfern. Beispielsweise seien die Arbeiten von Terpstra (1952), Jonckheere (1954), Chacko (1963), Shorack (1967), Kendall (1970), Tryon und Hettmansperger (1973), Shirahata (1980), Rao und Gore (1984), Fairly und Fligner (1987), Hettmansperger und Norton (1987), Akritas und Brunner (1996) und Piske (2003) genannt, die auf dieser Annahme basieren. In der vorliegenden Arbeit wird sie nicht benötigt.

Im Allgemeinen sind relative Effekte die unterliegenden Effekte der Rangverfahren, die Hypothesen der Form H0F : CF = 0 direkt in den Verteilungsfunktionen testen (vgl. z.B. Akritas und Arnold, 1994; Akritas, Arnold und Brunner, 1997; Akritas und Brunner, 1997; Brunner, Munzel und Puri, 1999; Brunner und Puri, 2001 und 2002).

Obwohl Rangtests in der statistischen Datenanalyse fest etabliert sind, bringt das methodische Vorgehen bei der Herleitung derer zwei Nachteile für die Praxis mit sich:

(1) Die Teststatistiken basieren auf der asymptotischen Verteilung (unter H0F) von Punktschätzern relativer Effekte. Allerdings testen sie die Hypothese H0F : CF = 0 in Verteilungsfunktionen und damit nicht in relativen Effekten.

Für den statistischen Laien ist dieser Zusammenhang schwer nachzuvollziehen und erschwert die Verständlichkeit einer statistischen Auswertung. Die Formulie- rung der Hypothesen über die Verteilungsfunktionen ist sehr abstrakt und kann dem Anwender nur schwer vermittelt werden. Die Methodik begründet sich durch die einfache Struktur der Kovarianzmatrix der Ränge unter H0F : CF= 0 (vgl.

hierzu z.B. Akritas, Arnold und Brunner, 1997).

(26)

(2) Die verwendeten relativen Effekte sind allgemein und nicht auf die eigentlichen Fragen ausgerichtet.

Das Konzept der relativen Kontrasteffekte bzw. simultanen Konfidenzintervalle soll diese beiden Nachteile beheben und somit einen wichtigen Beitrag für die Praxis liefern.

Zuvor wird allerdings das statistische Modell spezifiziert, auf welches im Verlauf der vorliegenden Arbeit wiederholt Bezug genommen wird.

4.2 Statistisches Modell

Betrachtet werden unabhängig identisch verteilte Zufallsvariablen Xik ∼Fi(x) =P(Xik < x) + 1

2P(Xik =x), wobeii= 1, . . . ,a, k= 1, . . . ,ni, (4.1) in einem reinen nichtparametrischen festen Modell mit a Faktorstufen. Auf diese Art und Weise lassen sich Rangstatistiken sowohl für stetige als auch für diskrete Zufalls- variablen in einheitlicher Form herleiten. Die Verwendung der normalisierten Vertei- lungsfunktion in (4.1) geht auf die Arbeiten von Lévy (1925), Kruskal (1952), Ruym- gaart (1980), Brunner, Puri und Sun (1995) und Munzel (1999) zurück. Es werden insgesamt N =Pa

i=1ni Zufallsvariablen beobachtet. Liegt den Daten eine faktorielle Struktur, das heißt

Xijk ∼Fij(x), i= 1, . . . ,a;j = 1, . . . ,b;k = 1, . . . ,nij,

zugrunde, lassen sich die Resultate dieser Arbeit ebenfalls anwenden. In diesen Fällen muss lediglich eine Unterindizierung der Zufallsvariablen vorgenommen werden. Die theoretischen Resultate ändern sich nicht. Um asymptotische Resultate herleiten zu können, sind Bedingungen an die Stichprobenumfänge zu stellen:

(A1) en = min(n1, . . . ,na)→ ∞, derart, dass∀i= 1, . . . ,a: nN

i ≤N0 <∞ gilt.

(V1) σij2 =Var(Fi(Xj1))>0und σji2 =Var(Fj(Xi1))>0, ∀i6=j ∈ {1, . . . ,a}.

Mit anderen Worten bedeutet (A1), dass die Daten auch asymptotisch nicht zu unba- lanciert sind.

4.3 Allgemeine Formulierung

Das Modell (4.1) enthält, wie auch im Zwei-Stichprobenfall, keine offensichtlichen oder die Verteilung charakterisierenden Parameter, mit denen Verteilungsunterschiede be- schrieben werden können. In diesem Fall lassen sich Behandlungseffekte durch direkte

(27)

4.3 Allgemeine Formulierung

Verwendung der Verteilungsfunktionen Fi(x) definieren, indem die unterliegenden re- lativen Effekteeines nichtparametrischen multiplen Kontrasttests berechnet werden.

Gegeben sei hierzu eine Kontrastmatrix C (wie in 3.2, S. 8) sowie der Vektor F= (F1, . . . ,Fa) der Verteilungsfunktionen.

Unter H0F :CF=0 gilt für die ℓ-te Teilhypothese H0F :c(ℓ)F= 0⇔H0F :

Xa i=1

cℓiFi = 0⇔H0F : X

i:cℓi<0

|cℓi|Fi = X

j:cℓj0

cℓjFj. (4.2) Dieses bedeutet, dass sich durch die Multiplikation der beiden Vektorenc(ℓ) undFeine Linearkombination gewichteter Verteilungsfunktionen ergibt, welche sich unter Annah- me der Nullhypothese in eine Linearkombination positiv gewichteter Verteilungen und in eine Linearkombination negativ gewichteter Verteilungsfunktionen aufspaltet. Um die linear zusammengefassten Verteilungen

Fe0(ℓ)(x) = X

i:cℓi<0

|cℓi|Fi(x) und Fe1(ℓ)(x) = X

j:cℓj0

cℓjFj(x) (4.3) in (4.2) als Verteilungsfunktionen auffassen zu können, wird eine zusätzliche Bedingung an die Kontrastmatrix Cbenötigt:

(C1) X

i:cℓi<0

|cℓi|= X

j:cℓj0

cℓj = 1 für alle ℓ = 1, . . . ,q.

Eine Kontrastmatrix, welche die Bedingung (C1) erfüllt, wirdnormierte Kontrastma- trixgenannt. Im Folgenden sei Cnormiert.

Die Linearkombinationen gewichteter Verteilungsfunktionen Fe0(ℓ)(x) und Fe1(ℓ)(x) in (4.3) sind somit auch als Verteilungsfunktionen interpretierbar, was sich auf die Hy- pothesenäquivalenz in (4.2) entsprechend überträgt:

H0F :c(ℓ)F= 0⇔H0F : Xa

i=1

cℓiFi = 0⇔H0F :Fe0(ℓ) =Fe1(ℓ), ℓ= 1, . . . ,q. (4.4) Hieraus folgt, dass jeder multiple Kontrasttest eine multivariate Verallgemeinerung ei- nes Zwei-Stichprobentests darstellt, weil die Verteilungen durch den Kontrast auf eine bestimmte Art und Weise in zwei Verteilungen zusammengefasst werden.

An dieser Stelle bietet sich die Möglichkeit an, die relativen Effekte p =R eF0(ℓ)dFe1(ℓ) der (komponentenweise) unabhängigen Zufallsvariablen X0(ℓ) ∼ Fe0(ℓ) und X1(ℓ) ∼ Fe1(ℓ)

(28)

in (4.3) für ℓ = 1, . . . ,q zu verwenden, um die Hypothesen H0F in (4.4) durch die Hy- pothesen H0p : p = 1/2 zu ersetzen. Auf diese Art und Weise lassen sich einerseits die Hypothesen H0F abschwächen (vgl. Abschnitt 3.4), andererseits können simultane Konfidenzintervalle für die Effekte p hergeleitet werden.

Berechnet man im nächsten Schritt das Integral p = R eF0(ℓ)dFe1(ℓ) der beiden Vertei- lungen Fe0(ℓ)(x) und Fe1(ℓ)(x), dann lässt sich dieses durch die bekannte Linearität des Lebesgue-Stieltjes Integrals für alle ℓ = 1, . . . ,q vereinfachen:

p = Z

Fe0(ℓ)dFe1(ℓ) =Z X

i:cℓi<0

|cℓi|Fi

! d

 X

j:cℓj0

cℓjFj

 (4.5)

= X

i:cℓi<0

X

j:cℓj0

|cℓi|cℓj Z

FidFj.

Aufgrund der Unabhängigkeit der Zufallsvariablen ergeben sich schließlich unter Ver- wendung des Satzes von Fubini Linearkombinationen paarweise definierter relativer Effekte,

p = X

i:cℓi<0

X

j:cℓj0

|cℓi|cℓj

P(Xi1 < Xj1) + 1

2P (Xi1 =Xj1)

, ℓ= 1, . . . ,q,

welche als relative Kontrasteffekte bezeichnet werden. Eine Zusammenfassung dieser Ergebnisse liefert

Definition 4.3.1 [Relative Kontrasteffekte]

Es sei Cq×a = (cℓi) eine normierte Kontrastmatrix und pij = R

FidFj. Die Wahr- scheinlichkeiten

p = X

i:cℓi<0

X

j:cℓj0

|cℓi|cℓj

P(Xi1 < Xj1) + 1

2P (Xi1 =Xj1)

= X

i:cℓi<0

X

j:cℓj0

|cℓi|cℓjpij, für ℓ= 1, . . . ,q,

heißen relative Kontrasteffekte und der Vektor

p= (p1, . . . ,pq) (4.6)

heißt relativer Kontrasteffekt.

Bemerkung: Obwohl die relativen Kontrasteffekte erst durch eine bekannte normierte Kontrastmatrix berechenbar sind, sollen diese Effekte nicht zusätzlich mit einem Index

(29)

4.4 Ausgewählte Beispiele

(C) gekennzeichnet werden.

Um bei der weiteren Diskussion der relativen Kontrasteffekte über einen Eindruck der möglichen Gestaltbarkeit dieser Funktionale zu verfügen, werden zunächst Beispiele diskutiert.

4.4 Ausgewählte Beispiele

In diesem Abschnitt werden in der Praxis häufig verwendete Kontraste vorgestellt und der assoziierte relative Kontrasteffekt angegeben. Die Effekte ergeben sich durch Einsetzen der angegebenen Kontrastmatrix in die allgemeine Definition 4.3.1. Für eine anschauliche Interpretation sei im Folgenden (i,j, . . . ,s) die zusammengesetzte („gepoolte”) Stichprobe aus den Behandlungsgruppeni,j, . . . ,smit Stichprobenumfang N(i,j, . . . ,s) = ni+nj+. . .+ns.

Dunnett: Many - To - One

Mit Hilfe von „Many-To-One”-Vergleichen werden multiple Kontraste gegen eine Kon- trollgruppe beschrieben (Dunnett, 1955). In der Praxis werden solche beispielsweise in Dosis-Wirkungs-Experimenten durchgeführt. Die Kontrastmatrix C und der zuge- hörige relative Dunnett-Effekt sind durch

C=





−1 1 0 . . . 0 0

−1 0 1 0 . . . 0 ... ... ... ... ... ...

−1 0 0 . . . 1



⇒p=



 p12

p13 ...

p1a



 =b





1vs.2 1vs.3 ...

1vs.a





definiert (Dunnett, 1955). Munzel und Hothorn (2001), Munzel und Tamhane (2001) und Wolfsegger und Jaki (2006) formulierten den relativen Dunnett-Effekt bereits analog.

Sequenz: Sequentielle Kontraste

Sequentielle Kontraste sind sogenannte Stufenkontraste, bei denen Behandlungsgrup- pen mit Hilfe von Paarvergleichen miteinander verglichen werden können. In der Praxis werden sie häufig in Dosis-Wirkungs-Studien verwendet (siehe z.B. Bauer und Budde, 1994). Eine mögliche Sequenz-Kontrastmatrix und der zugehörige relative Sequenz-

(30)

Effekt sind durch

C=





−1 1 0 . . . 0 0 0 −1 1 0 . . . 0 ... ... ... ... ... ...

0 0 0 . . . −1 1



⇒p =



 p12 p23

...

p(a1)a



 =b





1vs.2 2vs.3 ...

(a−1)vs.a





definiert. Relative Sequenz-Effekte können allerdings zu paradoxen Aussagen führen (siehe z.B. Brown und Hettmansperger, 2002; Thangavelu und Brunner, 2006). Diese Problematik wird in Abschnitt 4.5.1 beschrieben.

Williams: Trend

Williams-Kontraste gehören zur Gruppe der Trend-Kontraste (Williams, 1972) und ha- ben, wie auch Dunnett-Kontraste, eine Kontrollgruppe. Allerdings wird hier in jedem Schritt eine Stichprobe mehr mit in die Analyse eingebunden. Auf diese Art und Weise lassen sich steigende bzw. fallende Trends beschreiben. Im Vergleich zum Dunnett- Kontrast kann, aufgrund des sich erhöhenden Stichprobenumfangs in jedem Vergleich, die Power des resultierenden Testverfahrens durch geeignete Wahl der Kontrastkoef- fizienten erhöht werden. Bretz (1999) geht ausführlich auf parametrische Williams- Kontraste (Williams, 1972) ein. Die Williams-Kontrastmatrix und der resultierende relative Williams-Effekt sind durch

C=





−1 0 . . . 0 1

−1 0 . . . N(ana−1,a)1 N(ana1,a)

... ... ... ... ...

−1 N(2,...,a)n2 N(2,...,a)n3 . . . N(2,...,a)na



⇒p=



 p1 p2

...

p(a1)





definiert, wobei die Effekte p gewichtete Mittel paarweise gebildeter relativer Effekte der Kontrollgruppe und der zusammengesetzten Vergleichsgruppen sind:

p1 = p1a =b (1) vs (a)

p2 = na1

N(a−1,a)p1(a1)+ na

N(a−1,a)p1a =b (1) vs (a-1,a) p3 = na2

N(a−2,a−1,a)p1(a2)+. . .+ na

N(a−2,a−1,a)p1a =b (1) vs (a-2,a-1,a)

... ...

pa1 = Xa

i=2

ni

N(2, . . . ,a)p1i =b (1) vs (2,. . .,a).

(31)

4.4 Ausgewählte Beispiele

Der relative Williams-Effekt ist schließlich durch p = (p1, . . . ,pq), p =

Xa i=aℓ+1

ni

N(i, . . . ,a)p1i, ℓ= 1, . . . ,q =a−1, (4.7) definiert.

Wenn in den Daten ein steigender Trend vorhanden ist, spiegelt er sich im relativen Williams-Effekt wieder. Die Effektep1, . . . ,pa1 werden in diesen Fällen kontinuierlich kleiner.

Changepoint: Umbrella

Changepoint-Effekte gehören zur Gruppe der Umbrella-Kontraste und beschreiben so genannte „Regenschirm”-Alternativen (Mack, 1977; Mack und Wolfe, 1981). Hier werden die Stichproben in mehreren Vergleichen in unterschiedliche Gruppen zu- sammengefasst und miteinander verglichen. Changepoint-Vergleiche werden ebenfalls in Dosis-Wirkungs-Studien und auch in Dosis-Findungs-Studien durchgeführt. Die Changepoint-Kontrastmatrix ist durch

C=





−1 +N(2,...,a)n2 . . . +Nn(2,...,a)a−1 +N(2,...,a)na

Nn(1,2)1N(1,2)n2 +N(3,...,a)n3 . . . +Nn(3,...,a)a−1 +N(3,...,a)na

... ... ... ... ... ...

N(1,...,an1 1)N(1,...,an2 1)N(1,...,an3 1) . . . −N(1,...,ana−11) +1





definiert, wobei hier +positive bzw. − negative Einträge kennzeichnen. Die relativen Changepoint-Effekte sind durch

p1 = Xa

i=2

ni

N(2, . . . ,a)p1i =b (1) vs (2,. . . ,a) p2 =

X2 i=1

Xa j=3

− ni

N(1,2)

nj

N(3, . . . ,a)pij =b (1,2) vs (3,. . . ,a) p3 =

X3 i=1

Xa j=4

− ni N(1,2,3)

nj

N(4, . . . ,a)pij =b (1,2,3) vs (4,. . . ,a)

... ...

pq =

a1

X

i=1

− ni

N(1, . . . ,a−1)

pia =b (1,. . . ,a-1) vs (a)

definiert und stellen gewichtete Mittel relativer Effekte dar. Weiterhin eignen sie sich zur Modellierung fluktuierender Verläufe.

(32)

Average

Spezielle Kontrasteffekte sind Average-Effekte, die die Grundlage der Varianzanalyse bilden. Behandlungsunterschiede werden hier durch Abweichungungen von Mittelwer- ten beschrieben, wobei sie sich entweder auf Erwartungswerte (in parametrischen Mo- dellen) oder auf Verteilungen beziehen können. Eine mögliche Average-Kontrastmatrix sowie die relativen Average-Effekte sind durch

C=





1 −a11a11 . . . −a11

a11 1 −a11 . . . −a11 ... ... ... ... ...

a11a11a11 . . . 1



⇒p=



 p1

p2

...

pq





definiert, wobei

p = 1 a−1

Xa i6=ℓ

Z

FidF, ℓ= 1, . . . ,q=a,

arithmetische Mittel relativer Effekte mit Bezug aufFsind. Average-Kontrastmatrizen sind auf beliebige Art und Weise gestaltbar. Die Wahl der Kontrastkoeffizienten kann sich positiv oder negativ auf die Power der Tests auswirken. Ausgewählt wurde diese Version, weil die relativen Average-Effekte äquivalent zu denen von Domhof (2001) vorgestellten relativen Effekten in faktoriellen Modellen sind.

In diesem Abschnitt wurde eine kleine Auswahl möglicher Kontrastmatrizen und zu- gehöriger relativer Kontrasteffekte vorgestellt. In den nächsten Abschnitten werden relative Kontrasteffekte allgemein untersucht und diskutiert. Es wird hier insbesonde- re auf Handlungsempfehlungen für die Praxis eingegangen. Für erste Interpretationen kann die allgemeine Formulierung dieser Effekte (vgl. Abschnitt 4.3) herangezogen werden.

4.5 Eigenschaften und Interpretationen

Relative Kontrasteffekte sind in der Darstellung (4.5) q verschiedene relative Effekte zweier unverbundener Stichproben. Die Interpretation derer überträgt sich damit vom Zwei-Stichprobenfall in den Mehrstichprobenfall. Im Gegensatz zum Erwartungswert oder Median sind relative Kontrasteffekte invariant unter ordnungserhaltenden Trans- formationen und eignen sich daher für die Analyse ordinaler Daten.

Sie sind ebenfalls als Wahrscheinlichkeiten interpretierbar: Der Wert0fürpbedeutet, dass die Beobachtungen mit der Verteilung Fe1(ℓ)(x) in (4.3) fast sicher kleiner als die

(33)

4.5 Eigenschaften und Interpretationen

Beobachtungen mit der VerteilungFe0(ℓ)(x)sind und vice versa, fallsp = 1gilt. Der Fall p = 1/2bedeutet, dass weder die Beobachtungen der zweiten noch die Beobachtungen der ersten Gruppe zu größeren oder kleineren Werten tendieren. Aber auch für andere Werte als 0,12,oder 1ist p anschaulich interpretierbar:

Definition 4.5.1 [Stochastische Tendenz II]

Die ZufallsvariablenX0(ℓ)∼Fe0(ℓ)(x)tendieren im Vergleich zuX1(ℓ)∼Fe1(ℓ)(x)(stochas- tisch)

• zu größeren Werten, falls p < 12 ist,

• zu kleineren Werten, falls p > 12 ist,

• weder zu größeren noch zu kleineren Werten, falls p = 12 ist. In diesem Fall heißen X0(ℓ) und X1(ℓ) (stochastisch) tendenziell gleich.

Im Allgemeinen ist der Begriff „stochastisch tendenziell gleich” im Sinne von Definition 4.5.1 nicht transitiv und definiert deshalb keine Äquivalenzrelation. Das heißt A≺B und B ≺ C impliziert nicht notwendigerweise A≺C (vgl. z.B. Brunner und Munzel, 2002, S. 27). Das Zeichen ≺ ist das in der Entscheidungstheorie übliche verwendete Symbol für favorisiert, vorgezogen oder besser. Hier soll A ≺ C „A ist besser als C” bedeuten. Die Konsequenz dieser Eigenschaft relativer Effekte wird im nächsten Abschnitt diskutiert.

4.5.1 Das Problem der Nicht-Transitivität

Die Verwendung relativer Kontrasteffekte und deren Interpretierbarkeit auf der Ska- la der Wahrscheinlichkeiten dienen insbesondere dazu, Handlungsempfehlungen aus- zusprechen. Eine Entscheidung beruht in der Regel auf einer eindeutigen Aussage.

Relative Effekte können allerdings zu paradoxen Aussagen führen, was in den Arbei- ten von Gardner (1970), Gardner (1974), Rump (2001), Brown und Hettmansperger (2002) und Thangavelu und Brunner (2006) mit Hilfe Efron’s paradoxer Würfel aus- führlich diskutiert wird.

In einem Glücksspiel seien beispielsweise vier Urnen mit jeweils sechs Kugeln gegeben.

Die Kugeln seien dabei mit folgenden Zahlen gekennzeichnet:

{0,0,4,4,4,4} ∈ Urne1, {3,3,3,3,3,3} ∈ Urne2, {2,2,2,2,6,6} ∈ Urne3, {1,1,1,5,5,5} ∈ Urne4.

Die Kugeln sollen mit Zurücklegen (verblindet) aus den Urnen gezogen werden. Es gewinnt der Spieler mit der höchsten Zahl. Vergleicht man die Urnen paarweise, gilt (Xi sei die Nummer der Kugel aus der Urne i):

Referenzen

ÄHNLICHE DOKUMENTE

Die obige Formel für e gilt für Dichtungsflanschen; für Anschluß- fianschen, welche nicht zu dichten haben, darf e bei entsprechend stärkerer Bemessung der Schrauben

Die Tiere haben keine Futtermittel mit Wirkstoffen erhalten, die im Fleisch Rückstände in unzulässigen Konzentrationen verursachen können. Gründe, falls diese Angaben nicht

Dieser Zusammenhang l¨asst sich zur Konstruktion von Zufallszahlen mit der gleichen Verteilung wie X ausnutzen: F¨ur eine auf [0, 1] gleichverteilte Zufallsvariable R gilt, dass

Allgemein lässt sich die Ausgangssituation so beschreiben: Man möchte wissen, mit wel- cher Wahrscheinlichkeit p ein bestimmtes Merkmal einer Zufallsgröße in einer Gesamt-

Kannst Du auch hier schon ganz schnell sagen, wie viele Dinge es sind?.

F¨ ur zwei Stichproben sind die relativen Effekte die Summe aus der Wahrschein- lichkeit, dass eine Beobachtung mit einer der beiden Verteilungsfunktionen kleiner ist als eine

Dagegen hat das hier vorgestellte Verfahren den Vorteil, dass mehrere Kovariablen und Fak- toren ber¨ ucksichtigt werden k¨ onnen. Außerdem zentrieren wir die relativen Effekte der

Source: Rafaj, Barreto, Kypreos, 2005: Combining Policy Instruments for Sustainable Energy Systems. -50 -40 -30 -20