• Keine Ergebnisse gefunden

Resamplingverfahren in der Statistik

N/A
N/A
Protected

Academic year: 2021

Aktie "Resamplingverfahren in der Statistik"

Copied!
59
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Resamplingverfahren in der Statistik

Vorlesungsskript

Thorsten Dickhaus Humboldt-Universität zu Berlin

Sommersemester 2011 Version: 21. Juli 2011

(2)

Vorbemerkungen

Das Material aus Kapitel 1 dieses Skripts ist im Wesentlichen aus den Vorlesungsskripten über Sta- tistik I und II von Prof. Arnold Janssen, den Artikeln von Janssen and Pauls (2003) und Janssen (2005) sowie den Dissertationen von Thorsten Pauls und Markus Pauly übernommen. Teile von Kapitel 2 stammen aus dem Skript von Prof. Gerhard Dikta über Bootstrapverfahren in der Statis- tik. Arnold Janssen und Gerhard Dikta gilt mein herzlicher Dank für die vielen guten Lehrveran- staltungen, die ich bei ihnen hören durfte. Sollten sich in den Kapiteln 1 und 2 Fehler finden, so bin dafür natürlich ich verantwortlich. Lob und positive Kritik gebührt indes den Original-Autoren.

Abschnitt 1.2 findet sich in leicht anderer Form in meiner Master-Arbeit.

Für die Manuskripterstellung danke ich Mareile Große Ruse.

Übungsaufgaben und R-Programme zu diesem Kurs stelle ich auf Anfrage gerne zur Verfügung.

Einige Referenzen dazu finden sich im Text an den zugehörigen Stellen.

(3)

Verzeichnis der Abkürzungen und Symbole

B(p, q) Betafunktion,B(p, q) = Γ(p)Γ(q)/Γ(p+q)

⌈x⌉ Kleinste ganze Zahl größer oder gleichx

χ2ν Chi-Quadrat Verteilung mitν Freiheitsgraden

∁M Komplement der MengeM

δa Dirac-Maß im Punktea

=D Gleichheit in Verteilung

FX Verteilungsfunktion einer reellwertigen ZufallsvariableX

FDR False Discovery Rate

FWER Family Wise Error Rate

⌊x⌋ Größte ganze Zahl kleiner oder gleichx

Γ(·) Gammafunktion,Γ(x) =R

0 tx1etdt, x >0

im(X) Bildbereich einer ZufallsgrößeX

iid. independent and identically distributed

1M Indikatorfunktion einer MengeM

L(X) Verteilungsgesetz einer ZufallsvariableX

LFC Least Favorable Configuration

N(µ, σ2) Normalverteilung mit Parameternµundσ2

Φ Verteilungsfunktion derN(0,1)-Verteilung

(4)

ϕ(·) Verteilungsdichte derN(0,1)-Verteilung

supp(F) Träger der VerteilungsfunktionF

UNI[a, b] Gleichverteilung auf dem Intervall[a, b]

(5)

Inhaltsverzeichnis

1 Einführung, Beispiele und allgemeine Theorie 1

1.1 Grundlagen aus der Statistik . . . 1

1.2 Motivation und Beispiele . . . 6

1.3 L1-Differenzierbarkeit und lokal beste Tests . . . 10

1.4 Einige Rangtests . . . 14

1.5 Allgemeine Theorie von Resamplingtests . . . 21

2 Spezielle Resamplingverfahren für unabhängige Daten 28 2.1 Mehrstichprobenprobleme, Permutationstests . . . 28

2.2 Einstichprobenprobleme, Bootstraptests . . . 32

2.3 Bootstrapverfahren für lineare Modelle . . . 36

3 Resamplingverfahren für multiple Testprobleme 46 3.1 Subset pivotality, Westfall und Young . . . 46

3.2 Dudoit, van der Laan, Pollard . . . 46 4 Resamplingverfahren für Zeitreihen und abhängige Daten 47

5 Statistisches Lernen, Klassifikationstheorie 48

Tabellenverzeichnis 49

Abbildungsverzeichnis 50

Literaturverzeichnis 51

(6)
(7)

Kapitel 1

Einführung, Beispiele und allgemeine Theorie

1.1 Grundlagen aus der Statistik

BezeichneXeine Zufallsgröße, die den möglichen Ausgang eines Experimentes beschreibt.1 SeiΩder zuX gehörige Stichprobenraum, d. h., die Menge aller möglichen Realisierungen von XundA ⊆2eineσ-Algebra überΩ. Die Elemente vonAheißen messbare Teilmengen vonΩ oder Ereignisse.

BezeichnePX die Verteilung vonX. Es geltePX ∈ P={Pϑ:ϑ∈Θ}. Definition 1.1 (Statistisches Experiment / Modell)

Ein Tripel(Ω,A,P)mitΩ6=∅eine nichtleere Menge,A ⊆2 eineσ-Algebra überΩundP = {Pϑ : ϑ ∈ Θ}eine Familie von Wahrscheinlichkeitsmaßen aufAheißt statistisches Experiment bzw. statistisches Modell.

FallsΘ⊆Rk, k ∈N, so heißt(Ω,A,P)parametrisches statistisches Modell,ϑ∈ ΘParameter undΘParameterraum.

Statistische Inferenz beschäftigt sich damit, Aussagen über die wahre Verteilung PX bzw. den wahren Parameterϑzu gewinnen. Speziell: Entscheidungsprobleme, insbesondere Testprobleme.

Testprobleme: Gegeben zwei disjunkte Teilmengen P0,P1 von P mit P0 ∪ P1 = P ist eine Entscheidung darüber gesucht, obPX zuP0 oderP1gehört. Falls P durchϑeineindeutig iden- tifiziert ist, kann die Entscheidungsfindung auch vermittelsϑund TeilmengenΘ0 undΘ1 vonΘ mitΘ0∩Θ1 =∅undΘ0∪Θ1= Θformalisiert werden.

1Witting (1985): „Wir denken uns das gesamte Datenmaterial zu einer „Beobachtung“xzusammengefasst.“

(8)

Formale Beschreibung des Testproblems:

H0 :ϑ∈Θ0 versus H1:ϑ∈Θ1 oder H0 :PX ∈ P0 versus H1:PX ∈ P1.

DieHi, i = 1,2 nennt man Hypothesen.H0 heißt Nullhypothese,H1 Alternativhypothese / Al- ternative. Oft interpretiert manH0undH1auch direkt selbst als Teilmengen des Parameterraums, d. h.,H0∪H1 = ΘundH0∩H1 = ∅. ZwischenH0 undH1 ist nun aufgrund vonx ∈ Ωeine Entscheidung zu treffen. Dazu benötigt man eine Entscheidungsregel. Diese liefert ein statistischer Test.

Definition 1.2 (Statistischer Test)

Ein (nicht-randomisierter) statistischer Test ist eine messbare Abbildung ϕ: (Ω,A)→({0,1},2{0,1}).

Konvention:

ϕ(x) = 1 ⇐⇒ Nullhypothese wird verworfen, Entscheidung fürH1, ϕ(x) = 0 ⇐⇒ Nullhypothese wird nicht verworfen.

{x ∈ Ω : ϕ(x) = 1}heißt Ablehnbereich (oder auch kritischer Bereich) vonϕ, kurz:{ϕ= 1}. {x∈Ω :ϕ(x) = 0}heißt Annahmebereich vonϕ, kurz:{ϕ= 0}=∁{ϕ= 1}.

Problem: Testen beinhaltet mögliche Fehlentscheidungen.

Fehler 1. Art (α-Fehler, type I error): Entscheidung fürH1, obwohlH0wahr ist.

Fehler 2. Art (β-Fehler, type II error): Nicht-Verwerfung vonH0, obwohlH1wahr ist.

In der Regel ist es nicht möglich, die Wahrscheinlichkeiten für die Fehler 1. und 2. Art gleichzeitig zu minimieren. Daher: Asymmetrische Betrachtungsweise von Testproblemen.

(i) Begrenzung der Fehlerwahrscheinlichkeit 1. Art durch eine vorgegebene obere Schrankeα (Signifikanzniveau, englisch: level),

(ii) Unter der Maßgabe (i) Minimierung der Wahrscheinlichkeit für Fehler 2. Art⇒„optimaler“

Test.

Eine (zum Niveauα) statistisch abgesicherte Entscheidung kann also immer nur zu Gunsten von H1getroffen werden⇒Merkregel: „Was nachzuweisen ist stets als AlternativeH1formulieren!“.

(9)

Bezeichnungen 1.3

(i) βϕ(ϑ) =Eϑ ϕ

=Pϑ(ϕ(X) = 1) =R

ϕdPϑbezeichnet die Ablehnwahrscheinlichkeit ei- nes vorgegebenen Testsϕin Abhängigkeit vonϑ∈Θ. Fürϑ∈Θ1heißtβϕ(ϑ)Gütefunktion vonϕan der Stelleϑ. Fürϑ ∈Θ0ergibt βϕ(ϑ)die Typ I-Fehlerwahrscheinlichkeit vonϕ unterϑ∈Θ0.

Fürα∈(0,1)vorgegeben heißt

(ii) ein Testϕmitβϕ(ϑ)≤αfür alleϑ∈H0 Test zum Niveauα,

(iii) ein Testϕzum Niveauαunverfälscht, fallsβϕ(ϑ)≥αfür alleϑ∈H1.

(iv) ein Testϕ1 zum Niveauαbesser als ein zweiter Niveau-αTestϕ2, fallsβϕ1(ϑ) ≥βϕ2(ϑ) für alleϑ∈H1und∃ϑ ∈H1mitβϕ1)> βϕ2).

Eine wichtige Teilklasse von Tests sind die Tests vom Neyman-Pearson Typ.

Definition 1.4

Sei(Ω,A,(Pϑ)ϑΘ)ein statistisches Modell und seiϕein Test für das Hypothesenpaar∅ 6=H ⊂ ΘversusK = Θ\H, der auf einer PrüfgrößeT : Ω→Rbasiert. Genauer seiϕcharakterisiert durch die Angabe von AblehnbereichenΓα ⊂ Rfür jedes Signifikanzniveau α ∈ (0,1), so dass ϕ(x) = 1 ⇐⇒ T(x) ∈ Γα für x ∈ Ω gilt. Sei nun die Teststatistik T(X) derart, dass die Monotoniebedingung

∀ϑ0 ∈H:∀ϑ1 ∈K :∀c∈R:Pϑ

0(T(X)> c)≤Pϑ

1(T(X)> c) (1.1) gilt. Dann heißtϕein Test vom (verallgemeinerten) Neyman-Pearson Typ, falls für alleα ∈(0,1) eine Konstantecαexistiert, so dass

ϕ(x) =

1, T(x)> cα, 0, T(x)≤cα. Bemerkung 1.5

(a) Die Monotoniebedingung (1.1) wird häufig so umschrieben, dass „die Teststatistik unter Alternativen zu größeren Werten neigt“.

(b) Die zu einem Test vom Neyman-Pearson (N-P) Typ gehörigen Ablehnbereiche sind gegeben alsΓα= (cα,∞).

(10)

(c) Die Konstantencαwerden in der Praxis bestimmt übercα= inf{c∈R:P(T(X)> c)≤ α}, wobei das WahrscheinlichkeitsmaßPso gewählt ist, dass

P(T(X)∈Γα) = sup

ϑH

Pϑ(T(X)∈Γα)

gilt, fallsHeine zusammengesetzte Nullhypothese ist („am Rande der Nullhypothese“). Ist H einelementig undPH stetig, so giltcα =FT1(1−α), wobeiFT die Verteilungsfunktion vonT(X)unterHbezeichnet.

(d) Fundamentallemma der Testtheorie von Neyman und Pearson: Unter (leicht verschärftem) (1.1) ist ein Test vom N-P Typ gleichmäßig (über alleϑ1 ∈K) bester Test fürHversusK.

Es gibt Dualitäten zwischen Testproblemen / Tests und (Bereichs-)Schätzproblemen / Konfidenz- intervallen.

Definition 1.6

Gegeben sei ein statistisches Modell(Ω,A,P ={Pϑ: ϑ∈Θ}). Dann heißtC= (C(x) : x∈Ω) mitC(x) ⊆ Θ∀x ∈ Ωeine Familie von Konfidenzbereichen zum Konfidenzniveau 1−α für ϑ∈Θ :⇐⇒ ∀ϑ∈Θ :Pϑ({x: C(x)∋ϑ})≥1−α.

Satz 1.7 (Korrespondenzsatz, siehe z.B. Lehmann and Romano (2005) oder Witting, 1985)

(a) Liegt für jedesϑ∈Θein Testϕϑzum Niveauαvor und wirdϕ= (ϕϑ, ϑ∈Θ)gesetzt, so ist C(ϕ), definiert über C(x) ={ϑ∈Θ : ϕϑ(x) = 0}, eine Familie von Konfidenzbereichen zum Konfidenzniveau1−α.

(b) IstC eine Familie von Konfidenzbereichen zum Konfidenzniveau1−α und definiert man ϕ = (ϕϑ, ϑ∈ Θ)überϕϑ(x) = 1−1C(x)(ϑ), so istϕein Test zum allgemeinen lokalen Niveauα, d. h., zum Niveauαfür jedesϑ∈Θ.

Beweis:

Sowohl in (a) als auch in (b) erhält man∀ϑ∈Θ ∀x∈Ω :ϕϑ(x) = 0⇐⇒ϑ∈C(x). Also ist ϕein Test zum allgemeinen lokalen Niveauαgenau dann, wenn

∀ϑ∈Θ : Pϑ({ϕϑ= 0})≥1−α

⇔ ∀ϑ∈Θ : Pϑ({x: C(x)∋ϑ})≥1−α

⇔ Cist Familie von Konfidenzbereichen zum Konfidenzniveau1−α.

Bemerkung 1.8

(a) Die Dualitätϕϑ(x) = 0 ⇔ ϑ∈C(x)lässt sich schön grafisch veranschaulichen, fallsundΘeindimensional sind.

(11)

-x

x | {z }

ϕϑ∗(x)=0

6 ϑ

ϑ

C(x) (

Abbildung 1.1: Dualitätϕϑ(x) = 0 ⇔ ϑ∈C(x)

(b) Ein einzelner Test ϕ zum Niveau α für eine Hypothese H kann interpretiert werden als (1−α)-Konfidenzbereich. Setze dazu

C(x) =

Θ, falls ϕ(x) = 0,

K = Θ\H , falls ϕ(x) = 1.

Umgekehrt liefert jeder KonfidenzbereichC(x)einen Test zum Niveauαfür eine Hypothese H ⊂Θ.

Setze hierzuϕ(x) =1K(C(x)), wobei

1B(A) :=

1, falls A⊆B, 0, sonst.

für beliebige MengenAundB.

Abschließend noch ein maßtheoretischer Satz, der sich einige Male für technische Beweise in den nachfolgenden Abschnitten in Kapitel 1 als nützlich erweisen wird.

Satz 1.9 (Satz von Vitali, siehe Witting (1985), Satz 1.181)

Sei(Ω,A, µ)einσ-endlicher Messraum. Fürn∈ N0 seienfn : Ω → Rmessbare Abbildungen.

(12)

Istfn→f0µ-fast überall konvergent und ist lim sup

n→∞

Z

|fn|pdµ≤ Z

|f0|pdµ <∞ für einp≥1, so folgtR

|fn−f0|pdµ→0fürn→ ∞. Istµein Wahrscheinlichkeitsmaß, so genügt die Voraus- setzungµ-stochastischer Konvergenz vonfngegenf0anstelle der Konvergenzµ-fast überall.

1.2 Motivation und Beispiele

Ein Hauptproblem der statistischen Testtheorie ist das Testen des Erwartungswertes von Zufalls- größen, die als Modell für eine erhobenen Stichprobe im experimentativen Umfeld vom Umfangn benutzt werden. Wir betrachten alsonZufallsvariablenX1, . . . , Xn, wobei dieXiim einfachsten Fall als i.i.d. angenommen werden. Das statistische Testproblem lautet nun häufig

H0 :E[X1] = 0 versus H1:E[X1]>0.

Dieses Testproblem ergibt sich zum Beispiel beim Testen der mittleren Wirksamkeit eines neuen Medikamentes im Vergleich mit einem bereits etablierten Produkt zum Zwecke der Zulassung des neuen Präparates.

Als Teststatistik für dieses Problem findet bei bekannter Varianzσ2=Var(X1)das arithmetische Mittel Tn = 1nPn

i=1Xi =: ¯Xn Verwendung; diese Teststatistik ist suffizient und vollständig für das zu Grunde liegende Testproblem. Ist (wie in den meisten Anwendungsfällen) σ2 indes unbekannt, so bildet sich die geeignete Teststatistik alsT˜n = √

n·X¯n/Vn12, wobei hier für die unbekannte Varianzσ2der erwartungstreue SchätzerVn= n11Pn

i=1(Xi−X¯n)2eingesetzt wird.

Will man nun einen Niveauα-Test

ϕn=









1 >

n cn(α)

0 ≤

konstruieren, stellt sich das Problem, den richtigen kritischen Wertcn(α)zu ermitteln. Lässt sich für die zur Modellierung herangezogenen Zufallsgrößen die Normalverteilungsannahme rechtfer- tigen, so ist dieses Problem bereits gelöst und das Ergebnis ist der sogenannte Gaußtest fürTnbzw.

der Studentische t-Test fürT˜n, bei welchem die kritischen Werte als die Quantile der Standard- normalverteilung bzw.t-Verteilung mit(n−1)Freiheitsgraden gewählt werden. Ist die Normal- verteilungsannahme jedoch nicht gerechtfertigt und ist insbesondere keine Information über die Verteilung vonX1, . . . , Xn verfügbar, so gibt es keine Theorie für die exakte Bestimmung von cn(α). Dert-Test ist in Fällen, in denen dieXinicht normalverteilt sind nicht zu empfehlen, da er das Niveauαschlecht einhält. Eine erste Möglichkeit, auch in diesem Fall einen Test anzugeben,

(13)

stammt aus dem Zentralen Grenzwertsatz. Dieser besagt, dass, mitµ=E[X1], L

n−µ σ/√

n

→ N(0,1), n→ ∞.

Zusammen mit dem Satz von Slutsky lässt sich hieraus ein asymptotischer Niveauα-Test für das obige Testproblem konstruieren, nämlich

ϕasn =









1 >

n Φ1(1−α)

0 ≤

.

Allerdings ist bei diesem Vorgehen die Approximationsgüte für kleine Stichprobenumfängenhäu- fig nicht hinreichend gut, siehe unten.

Eine Lösungsmöglichkeit der angedeuteten Problematik stellt der sogenannte bootstrap, eine Resamplingmethode, dar. Sei dazu im EinstichprobenproblemX = (X1, . . . , Xn) . Das statis- tische Modell sei gegeben durch(Ωn,An,(Pn

ϑ)ϑΘ). Hierbei ist also Pϑ = L(Xi),Ω ⊆ Rder Bildraum vonXiundXi„lebt“ auf(Ω1,F,P),i= 1, . . . , n. Es sei

T :{Q:QVerteilung aufΩ} → R Q 7→ T(Q)

ein interessierendes Funktional (häufig: Kennzahl einer Verteilung) vom BildraumΩ derXi in die reellen Zahlen. Ein Schätzer für das WahrscheinlichkeitsmaßPϑist dann das empirische Maß ˆPn = 1nPn

i=1εXi (Gleichverteilung auf den Daten). Daraus lässt sich ein (plug-in) Schätzer T(ˆPn)für das FunktionalT(Pϑ)gewinnen, der im Allgemeinen nicht erwartungstreu ist. Gesucht ist deshalb die Verteilung

P(T(ˆPn)−T(Pϑ)≤t), t∈R (1.2) des Fehlers, um beispielsweise Konfidenzintervalle zu konstruieren oder Tests durchzuführen.

Die bootstrap Idee besteht nun darin, den ursprünglichen Wahrscheinlichkeitsraum (Ωn,An,Pn

ϑ)durch eine empirische Version(Ωn,An,(ˆPn)n)zu ersetzen.

Dazu konstruiert man eine iid. bootstrap Stichprobe X1, . . . , Xn mit Xi : (Ω,A,P) → (Ω,A), für die gilt:

PX1|(X1,...,Xn)= ˆPn.

Auf Grund der Definition vonPˆn ist unmittelbar klar, dass das Ziehen der bootstrap Stichprobe dem Ziehen mit Zurücklegen vonnGrößen aus der Ausgangsstichprobe entspricht.

Man berechnet dann den Ausdruck (1.2) in dem bootstrap Modell, bestimmt also

P(T(ˆPn)−T(ˆPn)≤t), t∈R. (1.3)

(14)

Der Ausdruck (1.3) ist der bootstrap Schätzer für (1.2) und ist (im Prinzip) genau berechenbar, da er nur von den beobachteten Daten abhängt. Zum Beispiel lassen sich unmittelbar die (theoreti- schen!) bedingten Momente von Bootstrap-Zufallsvariablen ausrechnen.

Satz 1.10 (Bedingte Momente von bootstrap Größen)

Es seiX = (X1, . . . , Xn)ein Vektor von i.i.d. Original-Variablen. Dann gilt bedingt unterX:

E[X1|X] = 1 n

Xn

i=1

Xi =: ¯Xn (1.4)

E[ 1 m(n)

m(n)X

i=1

Xi|X] = 1 n

Xn

i=1

Xi = ¯Xn (1.5)

E[X12|X] = 1 n

Xn

i=1

Xi2 (1.6)

Var(X1|X) = 1 n

Xn

i=1

(Xi−X¯n)2 (1.7)

Var

 1 m(n)

m(n)X

i=1

Xi|X

 = 1 n·m(n)

Xn

i=1

(Xi−X¯n)2 (1.8)

E[X13|X] = 1 n

Xn

i=1

Xi3 (1.9)

Beweis: Zur Übung.

Betrachten wir zur Komplettierung der Motivation von Bootstrapverfahren nun die Konvergenzra- te im Zentralen Grenzwertsatz, um zu einer Aussage über die zu erreichende Approximationsge- nauigkeit des asymptotischen Testsϕasn zu gelangen.

Satz 1.11 (Satz von Berry-Esséen)

Seien(Xi)iNstochastisch unabhängige, reellwertige Zufallsvariablen mit0<Var(Xi)<∞für allei∈N. BezeichneFndie Verteilungsfunktion der standardisierten Summe

Pn

i=1(Xi−E[Xi]) pPn

i=1Var(Xi) . Dann gilt:

sup

xR|Fn(x)−Φ(x)| ≤ 6 s3n ·

Xn

i=1

E

|Xi|3 ,

wobeiΦdie Verteilungsfunktion derN(0,1)-Verteilung bezeichnet unds2n=Pn

i=1Var(Xi)gilt.

Liegen iid. VariablenXivor, so ergibt sich damit die folgende Abschätzung:

sup

xR|Fn(x)−Φ(x)| ≤ 6

√n·Var(X1)32 ·E

|X1|3

=O 1

√n

.

(15)

Beweis: Klassisches Resultat, siehe, z. B., Gaenssler and Stute (1977).

Bemerkung 1.12

Damit ein bootstrap Test dem asymptotischen Testϕasn in Sachen Niveaueinhaltung überlegen ist, muss die Konvergenzgeschwindigkeit der bootstrap Verteilung in gewisser Weise schneller sein als die „worst case“ Rate

nim zentralen Grenzwertsatz. Dies ist auch tatsächlich der Fall, wie das Buch von Hall (1992) mit Hilfe von asymptotischen (Edgeworth-)Entwicklungen nachweist. Hall argumentiert, dass durch den bootstrap eine automatische Bias-Korrektur vorgenommen wird.

Technisch bedeutet das, dass der Term, der durch die dritte Kumulante vonX1 bestimmt wird, in der Edgeworth-Entwicklung der bootstrap Verteilungsfunktion verschwindet.

Für Zweistichprobenprobleme kann man sich eine andere Überlegung zu Nutze machen, um zu einer Resamplingmethode zu gelangen. Dazu betrachten wir wieder stochastisch unabhängige Zu- fallsvariablen(X1, . . . , Xn). Wir nehmen an, dass (für eine festgelegte Zahl2 ≤ n1 ≤ n−2) die (Xi)i=1,...,n1 identisch nach der Verteilung mit Verteilungsfunktion F1 (Gruppe 1) und die (Xj)j=n1+1,...,nidentisch nach der Verteilung mit VerteilungsfunktionF2(Gruppe 1) verteilt sind.

Das interessierende (nichtparametrische) Testproblem ist dann gegeben alsH0 :F1 =F2 gegen H1 :F1 6=F2. Unter der NullhypotheseH0sollten sich nun wichtige gruppenspezifische Charak- teristika einer empirisch erhobenen Stichprobe, die sich als eine Realisierung unter dem vorste- henden Modell beschreiben lässt, nicht zu stark ändern, wenn die Gruppenzugehörigkeit zufällig

„ausgewürfelt“ wird, also jedem beobachteten Wert aus(x1, . . . , xn)ein zufälliger Gruppenindi- kator angeheftet wird. Halten wir wie zuvor angedeutet die Plätzei= 1, . . . , n1für die Gruppe 1 fest, so entspricht dieses „label shuffling“ offensichtlich einem zufälligen Ziehen ohne Zurückle- gen aus(x1, . . . , xn) und Verteilung der Werte auf die Plätze von1bisn. Mathematisch ist dies äquivalent zu einer Permutation der Werte(x1, . . . , xn). Genau diese Idee liegt den sogenann- ten Permutationstests zu Grunde. Betrachtet man zum Beispiel speziell Lageparametermodelle (Gruppe 1 ist unter der Alternative bezüglich eines gewissen Kriteriums besser als Gruppe 2), so kann ein Permutationstest z. B. die Differenz der arithmetischen Gruppenmittel der Original- Stichprobe als Teststatistik benutzen und sie mit einem emprischen Quantil der Differenzen von arithmetischen Resampling-Gruppenmittelwerten vergleichen, die durch das Ausführen von einer festgelegten AnzahlBvon Permuationenσ ∈ Snzu Stande kommen.

Das Ziel der folgenden Abschnitte dieses Kapitels ist es, die vorgenannten heuristischen Überle- gungen zu Bootstrap- und Permutationstests auf eine solide mathematische Grundlage zu stellen.

Kapitel 2 stellt dann die praktische Umsetzbarkeit der resultierenden Methoden in den Vorder- grund. Die Kapitel 3 bis 5 gehen auf spezielle nicht-Standard Probleme ein, die mit Resampling- verfahren bearbeitet werden können.

(16)

1.3 L

1

-Differenzierbarkeit und lokal beste Tests

Das Testen von zusammengesetzten Nullhypothesen bzw. Alternativen ist ein nicht-triviales Pro- blem in der Inferenzstatistik. Nur in Spezialfällen (z.B. monotoner Dichtequotient, verallgemei- nerte Neyman-Pearson-Theorie) ist eine zufriedenstellende generelle Methodik verfügbar, die zu gleichmäßig (überϑ∈H1) besten Niveau-α-Tests führt.

Ist die „Geometrie“ des Parameterraums indes komplizierter, so kann die Typ-II-Fehlerwahrscheinlichkeit (unter Maßgabe der Einhaltung des Signifikanzniveaus) typischerweise nicht gleichmäßig mi- nimiert werden und es ist eine Auswahl an konkurrierenden Testverfahren notwendig. Oftmals kommt es entscheidend darauf an, gegen welche Art von Alternativen man sich bestmöglich absi- chern möchte, d.h., gegen welche „Regionen“ vonH1 man größtmögliche Trennschärfe anstrebt.

Eine Klasse von Verfahren bilden die sogenannten lokal besten Tests. Hierbei wird Trennschär- femaximierung in Regionen „nahe beiH0“ angestrebt. Zu ihrer Anwendbarkeit benötigt man das Konzept derL1-Differenzierbarkeit von statistischen Modellen.

Definition 1.13 (L1-Differenzierbarkeit)

Sei(Ω,A,(Pϑ)ϑΘ)ein statistisches Modell mitΘ⊆R. Die Familie(Pϑ)ϑΘsei dominiert, d.h.

∀ϑ∈Θ : Pϑ ≪ µfür ein Maßµauf(Ω,A). Dann heißt(Ω,A,(Pϑ)ϑΘ)L1-differenzierbar in ϑ0 ∈Θ, falls∃g∈L1(µ)mit

t1(dPϑ

0+t

dµ −dPϑ

0

dµ )−g

L1(µ)

−→0 fürt→0.

Die FunktiongheißtL1(µ)-Ableitung vonϑ7→Pϑinϑ0.

Zur Vereinfachung der Notation sei von nun an oft ohne explizite Erwähnung und o.B.d.Aϑ0 ≡0.

Satz 1.14 (§18 in Hewitt and Stromberg (1975), Satz 1.183 in Witting (1985))

Unter den Voraussetzungen von Definition 1.13 seiϑ0 = 0und seienfϑ(x) := dPϑ(x)Versionen der Dichten mit folgenden Eigenschaften:

(a) Es gibt eine offene UmgebungU von 0, so dass fürµ-fast allexdie AbbildungU ∋ ϑ 7→

fϑ(x)absolut stetig ist, d.h., es existiert eine integrierbare Funktionτ 7→f(x, τ)˙ aufUmit Z ϑ2

ϑ1

f˙(x, τ)dτ =fϑ2(x)−fϑ1(x), ϑ1 < ϑ2

und es sei ∂ϑ fϑ(x)|ϑ=0 = ˙f(x,0)µ-fast überall.

(b) Fürϑ∈ U seix7→f˙(x, ϑ)µ-integrierbar mit Z

f˙(x, ϑ)

dµ(x)ϑ−→0 Z

f˙(x,0) dµ(x).

Dann istϑ7→Pϑin 0L1(µ)-differenzierbar mitg= ˙f(·,0).

(17)

Grob gesagt erhält man also im absolutstetigen Fall dieL1-Ableitung einfach durch analytisches Differenzieren der Dichte nach dem Parameter. Eine andere wichtige Anwendung von Satz 1.14 ist die Bearbeitung von Lageparametermodellen wie in Beispiel 1.16.

Satz 1.15 (Satz und Definition)

Unter den Voraussetzungen von Definition 1.13 seien die Dichtenϑ7→ fϑim Nullpunkt (ϑ0 = 0) L1(µ)-differenzierbar mit einer Ableitungg.

(a) Dann konvergiert fürϑ→0 ϑ1logffϑ

0(x) =ϑ1(logfϑ(x)−logf0(x)) P0-stochastisch gegen (sagen wir)L(x).˙

heißt Ableitung des (logarithmischen) Dichtequotienten bzw. Score-Funktion. Ferner gilt L(x) =˙ fg(x)

0(x).

(b) R Ld˙ P0= 0und{f0= 0} ⊆ {g= 0}P0-fast sicher.

Beweis:

(a) ϑ1(ffϑ

0 −1) −→ fg0 konvergiert in L1(P0) und daher P0-stochastisch. Die Kettenregel liefert das Resultat.

(b) Nach dem Satz von Vitali (Satz 1.9 hier im Skript) folgt (ϑ → 0entlang einer geeignet gewählten Teilfolge), dassR

(fϑ−f0)dµ= 0gilt. Damit folgtRLd˙ P0 =R

gdµ= 0.

Beispiel 1.16 (a) Lageparametermodell

Sei X = ϑ+Y, ϑ ≥ 0, und habeY die Dichte f, wobei f absolutstetig bezüglich des Lebesguemaßes λund ϑ-frei sei. Dann sind die Dichten ϑ 7→ f(x −ϑ) von X unter ϑ L1(λ)-differenzierbar in0mit ScorefunktionL(x) =˙ −ff(x)(x) (Differentiation nach x).

(b) Skalenparametermodell

SeiX = exp(ϑ)Y,Y habe absolutstetigeϑ-freie Dichtef und es gelteR

xf(x)

dx <∞. Dann sind die Dichtenϑ7→ exp(−ϑ)f(xexp(−ϑ))vonXunterϑ L1(λ)-differenzierbar in0mit Score-FunktionL(x) =˙ −(1 +xff(x)(x)).

Beides folgt sofort aus den Sätzen 1.14 und 1.15 zusammen mit der Translationsäquivarianz des Lebesguemaßes.

Beachte:ϑ1(f(x−ϑ)−f(x))ϑ−→ −0 f(x)λ-fast überall.

Lemma 1.17

Seien ϑ 7→ Pϑ eine L1(µ)-differenzierbare Familie mit Score-FunktionL˙ in ϑ0 = 0 und ci, 1≤i≤nreelle Konstanten. Dann ist auchϑ7→Nn

i=1Pc

iϑim NullpunktL1(µ)-differenzierbar mit Scorefunktion(x1, . . . , xn)7→Pn

i=1ciL(x˙ i).

(18)

Beweis: Zur Übung.

Anmerkung: Ist das ModellL2-differenzierbar, so liegtL˙ inL2(P0)und wird auch Tangentialvek- tor oder Einflusskurve genannt (vgl. auch Abschnitt 3.5 Mathematische Statistik, Markus Reiß).

Definition 1.18 (Score-Test)

Seiϑ7→PϑL1-differenzierbar inϑ0mit Score-FunktionL. Dann heißt jeder Test˙ ψvon der Form

ψ(x) =









1, fallsL(x)˙ >˜c γ, fallsL(x) = ˜˙ c 0, fallsL(x)˙ <˜c ein Score-Test. Dabei istγ ∈[0,1]eine Randomisationskonstante.

Definition 1.19 (Lokal bester Test)

Sei(Pϑ)ϑΘ mitΘ⊆ RL1-differenzierbar inϑ0 ∈Θ. Ein0}α-ähnlicher Testϕ heißt lokal bester0}α-ähnlicher Test fürH˜ ={ϑ0}gegenK= Θ∩ {ϑ > ϑ0}, falls gilt

d dϑEϑ

ϕ

|ϑ=ϑ0 ≥ d dϑEϑ

ϕ ϑ=ϑ0

für alle0}α-ähnlichen Testsϕ, d.h. für alle TestsϕmitEϑ0 ϕ

=α.

-ϑ ϑ0

6 1

α

Eϑ

ϕ Eϑ

ϕ

Abbildung 1.2: Lokal bester{ϑ0}α-ähnlicher Testϕ

(19)

Anmerkung: Lokal beste Tests können für ϑ-Werte, die weit entfernt von ϑ0 liegen, schlechte Eigenschaften haben.

Satz 1.20 (Satz 2.44 in Witting (1985))

Unter den Voraussetzungen von Definition 1.19 ist der Score-Test

ψ(x) =









1, fallsL(x)˙ > c(α)

γ, fallsL(x) =˙ c(α), γ∈[0,1]

0, fallsL(x)˙ < c(α) mitEϑ

0

ψ

ein0}α-ähnlicher, lokal bester Test fürH˜ ={ϑ0}gegenK={ϑ > ϑ0}. Zumindest lokal umϑ0 sind die Score-Tests also ein vernünftiger „Ersatz“ für Neyman-Pearson Tests, wenn kein monotoner Dichtequotient vorliegt. Für Einstichprobenprobleme ist die Anwen- dung sofort einsichtig.

Liege eine Stichprobe(x1, . . . , xn)vor, die als Realisierung von(X1, . . . , Xn)iid mitfϑals Dich- te vonX1 aufgefasst werde, alsofϑ(x) = dµ(x)dPϑ .

Das Produktexperiment mit ProduktmaßPn

ϑhat nach Lemma 1.17 die Score-Funktion(x1, . . . , xn)7→

Pn

i=1L(x˙ i).

Sind wir am einseitigen TestH˜ ={ϑ0}gegenK ={ϑ∈Θ : ϑ > ϑ0}interessiert, so lehnen wir H˜ ab, fallsPn

i=1L(x˙ i)> c(α)gilt.

Für Mehrstichprobenprobleme (k≥2Gruppen) betrachten wir die nichtparametrische Hypothese H0 :{PX1 =PX2 =. . .=PXn : PX1 stetig} (1.10) Die Idee ist nun, zunächst einparametrige Kurvenϑ 7→ Pn,ϑzu studieren, die nur für ϑ = 0 in H0 liegen (Pn,0 ∈H0). Fürϑ6= 0bestehtPn,ϑim Allgemeinen aus einem Produktmaß mit nicht identischen Faktoren.

Beispiel 1.21 (a) Regressionmodell für einen Lageparameter

Seien Xi = ciϑ+Yi,1 ≤ i ≤ n, ϑ ≥ 0. Die Yi seien iid mit einer Lebesgue-Dichte f (ϑ-frei!). Für das Zweistichprobenproblem z.B. setzen wir nunc1 = c2 = · · · = cn1 = 1 undci = 0∀n1+ 1≤i≤n. Damit unterscheidet sich die erste Gruppe (Plätze1, . . . , n1) von der zweiten Gruppe unter Alternativen (ϑ >0) durch einen positiven Shift.

(b) Regressionsmodell für einen Skalenparameter

Seienci reelle Regressionskoeffizienten,Xi = exp(ciϑ)Yi,1≤i≤n, ϑ∈R. DieYi seien iid mit derϑ-freien Lebesguedichtef. Dann ist

dPn,ϑn (x) =

Yn

i=1

exp(−ciϑ)f(xiexp(−ciϑ)).

Unterϑ0 = 0liegt obiges Produktmaß offenbar inH0, unter Alternativen nicht.

(20)

(c) Allgemeines Modell

Sei ϑ 7→ Pϑ eine einparametrige Kurve von Verteilungen mit reellem Parameter ϑ. Setze Pn,ϑ =Nn

i=1Pc

iϑ.

1.4 Einige Rangtests

Satz 1.22

Sei ϑ 7→ Pϑ L1(µ)-differenzierbar im Nullpunkt (ϑ0 = 0) mit Score-Funktion L. Ferner sei˙ S : Ω → Ω eine Statistik. Dann ist ϑ 7→ PS

ϑ (Bildmaß unter S) L1S)-differenzierbar mit Score-Funktiony7→EP

0

L˙ |S=y .

Beweis: O.B.d.A. seiµein Wahrscheinlichkeitsmaß und es gelte

ϑ1(fϑ−f0)−→g inL1(µ) fürϑ→0. (1.11) Allgemein gilt (Stochastik II):

Q≪P =⇒ dQT

dPT(t) =EPdQ

dP |T =t für WahrscheinlichkeitsmaßeP undQund eine StatistikT. Also haben wir

dPS

ϑ

S(y) =Eµ

fϑ|S =y .

Damit gilt Z

ϑ1(dPS

ϑ

S −dPS

0

S)−Eµ

g|S=y dµS(y)

= Z

Eµ

ϑ1(fϑ−f0)−g|S

dµ (Linearität vonEµ

· |S )

≤ Z

Eµ

ϑ1(fϑ−f0)−g |S

dµ (Dreiecksungleichung)

ϑ0

−→0 ((1.11), Satz von Vitali)

Also besitztPS

ϑdie Score-Funktiony7→ Eµ g|S=y

EµdP

0

|S=ynach der Kettenregel (dxd ln(f(x)) = ff(x)(x)).

Nach Satz 1.14 (a) gilt zudemg= ˙LdP0. Es bleibt zu zeigen:

EµL˙dP0 dµ |S

=EP0

L˙ |S

EµdP0 dµ |S

µ-fast sicher.

(21)

Dazu seiA⊂Ω eine beliebige messbare Menge. Wir rechnen nach (von rechts nach links):

Z

1A(S)EP

0

L˙ |S

EµdP0 dµ |S

dµ= Z

1A(S)EP

0

L˙ |SdP0

dµ dµ (tower equation)

= Z

1A(S)EP

0

L˙ |S dP0

= Z

1A(S) ˙LdP0 (tower equation)

= Z

1A(S) ˙LdP0 dµ dµ.

Wir werden Satz 1.22 benutzen, um von den parametrischen KurvenPn,ϑwie in Beispiel 1.21 auf Rangtests zu kommen. Es wird sich zeigen, dass die Vergröberung der Information (nur Ränge, nicht die Werte derXi fließen in die Datenanalyse ein) zu einer einfachen Struktur der Score- Teststatistiken führt (einfache lineare Rangstatistik). Ferner haben Ränge den Vorteil, robuster gegenüber Modell-Fehlspezifikationen zu sein. Oftmals sind auch nur Ränge beobachtbar oder vertrauenswürdig.

Es bleibt natürlich der Kritikpunkt, dass man bei tatsächlichem Vorliegen eines parametrischen Modells einen Verlust an Trennschärfe in Kauf nehmen muss, also höhere Stichprobenumfänge für gleiche Güte benötigt. Effizienzrechnungen können die zu erwartenden Stichprobenumfangs- erhöhungen quantifizieren.

Zur Vorbereitung sammeln wir Basiswissen zu Rang- und Orderstatistiken. Wir verzichten auf Beweise und verweisen auf §1 und §2 in Janssen (1998) oder andere einschlägige Literatur.

Definition 1.23

Seix = (x1, . . . , xn)ein Punkt imRn, diexi seien paarweise verschieden. Seienx1:n < x2:n <

. . . < xn:ndie geordneten Werte derxi.

(a) Für1 ≤i≤nheißtri ≡ri(x) := #{j ∈ {1, . . . , n}: xj ≤xi}der Rang vonxi (inx).

Der Vektorr(x) := (r1(x), . . . , rn(x))∈ Snheißt Rangvektor vonx.

(Sn:symmetrische Gruppe)

(b) Die inverse Permutationd(x) := [r(x)]1heißt der Antirangvektor vonx,d(x) =: (d1(x), . . . , dn(x)), die Zahldi(x)heißt der Antirang voni(Index, der zur i-ten kleinsten Beobachtung gehört)

Seien nunX1, . . . , XnmitXi : Ωi → Rstochastisch unabhängige, stetig verteilte Zufallsvaria- blen. BezeichnePdie gemeinsame Verteilung von(X1, . . . , Xn).

(c) DaP(S

i6=j{Xi =Xj}) = 0gilt, können wirP-fast sicher eindeutig die folgenden Größen definieren:

Xi:nheißti-te Orderstatistik vonX = (X1, . . . , Xn),

(22)

Ri(X) :=nFˆn(Xi) =ri(X1, . . . , Xn)heißt Rang vonXi, Di(X) :=di(X1, . . . , Xn)heißt Antirang vonibezüglichXund D(X) :=d(X)heißt Antirangvektor zuX.

Lemma 1.24

Voraussetzungen wir unter Definition 1.23.

(a) i=rdi =dri, xi=xri:n, xi:n=xdi

(b) SindX1, . . . , Xnaustauschbar (gilt natürlich speziell bei iid.), so ist R(X) :

×

i=1n i=: Ω→ Sn

gleichverteilt aufSn, alsoP(R(X) = (r1, . . . , rn)) = n!1 für alleσ = (r1, . . . , rn)∈ Sn. (c) SindU1, . . . , Un iid. mitU1UNI[0,1], und istXi =F1(Ui) ∀1 ≤ i≤ n, dann gilt

Xi:n=F1(Ui:n).

Ist die VerteilungsfunktionF vonX1stetig, so giltR(X) =R(U).

(d) Sind(X1, . . . , Xn)iid. mit VerteilungsfunktionF vonX1, so gilt:

(i) P(Xi:n≤x) =Pn

j=i n j

F(x)j(1−F(x))nj (ii) ddPPXi:nX1 (x) =n ni11

F(x)i1(1−F(x))ni.

BesitztPX1 Lebesgue-Dichtef, so besitztPXi:nLebesguedichtefi:n, gegeben durch fi:n(x) =n

n−1 i−1

F(x)i1(1−F(x))nif(x) (iii) Seiµ:=PX1. Dann besitzt(Xi:n)indie gemeinsameµn-Dichte

(x1, . . . , xn)7→n!1{x1<x2<...<xn}.

Besitztµdie Lebesguedichtef, so besitzt(Xi:n)1indieλn-Dichte (x1, . . . , xn)7→n!

Yn

i=1

f(xi)1{x1<x2<...<xn}.

Bemerkung 1.25

Lemma 1.24(c) (Quantilstransformation) zeigt die besondere Bedeutung der Verteilung der Or- derstatistiken von iid. UNI[0,1]-verteilten ZufallsvariablenU1, . . . , Un.

Ui:n besitzt nach Lemma 1.24(d) eine Beta(i, n−i+ 1)-Verteilung mit E[Ui:n] = n+1i und Var(Ui:n) = (n+1)i(n2i+1)(n+2).

Für die Berechnung der gemeinsamen Verteilungsfunktion von(U1:n, . . . , Un:n)existieren effizien-

te rekursive Algorithmen, inbesondere die Bolshev-Rekursion und die Steck-Rekursion (Shorack and Wellner (1986), S.362 ff.).

(23)

Satz 1.26

SeienX1, . . . , Xnreelle iid. Zufallsvariablen mit stetigemµ=PX1. SeiX= (X1, . . . , Xn).

(a) R(X)und(Xi:n)1insind stochastisch unabhängig.

(b) SeiT :Rn→ Reine Statistik. Die StatistikT(X)sei integrierbar. Fürσ = (r1, . . . , rn)∈ Sngilt

E

T(X)|R(X) =σ

=E

T((Xri:n)1in)

Beweis: zu (a): Seienσ = (r1, . . . , rn) ∈ Sn undAi ∈ B(R) für1 ≤ i ≤nbeliebig gewählt.

(d1, . . . , dn) :=σ1. Wir beachten

Xdi =Xi:n∈Ai⇐⇒Xi ∈Ari und R(X) =σ ⇐⇒Xd1 < Xd2 < . . . Xdn. Es seiB := {x ∈Rn : x1 < x2 < . . . < xn}. Dann ergibt sich für die gemeinsame Verteilung von Rängen und Orderstatistiken:

P R(X) =σ, Xi:n∈Ai∀1≤i≤n

=P ∀1≤i≤n: Xdi ∈Ai,(Xdi)1in∈B ,

= Z

×ni=1Ari

1B(xd1, . . . , xdn)dµn(x1, . . . , xn)

= Z

×ni=1Ari 1B(x1, . . . , xn)dµn(x1, . . . , xn), da wegen Austauschbarkeitµninvariant unter der Transformation(x1, . . . , xn)7→(xd1, . . . , xdn) ist. Summiert man über alleσ∈ Sn, so folgt

P Xi:n∈Ai∀1≤i≤n

= Z

×ni=1Ari

n!1B(x1, . . . , xn)dµn(x1, . . . , xn).

Wegen Lemma 1.24(b) ist demnach

P R(X) =σ, Xi:n∈Ai∀1≤i≤n

=P R(X) =σ

P ∀1≤i≤n: Xi:n∈Ai . zu (b):

E

T(X)|R(X) =σ

= Z

{R(X)=σ}

T(X) P(R(X) =σ)dP

=E

T((Xri:n)1in)|R(X) =σ

(∗)

=E

T((Xri:n)1in)

( (a)) (∗)gilt, da auf der Menge{R(X) =σ}offenbar die BeziehungX = (Xri:n)ni=1gilt.

Nach diesem längeren Exkurs kehren wir zurück zu den Score-Tests.

(24)

Korollar 1.27 (zu Satz 1.22 mit Lemma 1.17)

Sei(Pϑ)ϑΘ mitΘ ⊆ Reine Familie von im NullpunktL1(µ)-differenzierbaren Verteilungen (µ dominierendes Maß von(Pϑ)ϑΘ) mit Score-Funktioninϑ0 = 0. SeiX = (X1, . . . , Xn)nach Pn,ϑ=Nn

i=1Pc

iϑverteilt. Dann besitztPR

n,ϑdie Score-Funktion σ= (r1, . . . , rn)7−→ EP

n,0

Xn

i=1

ciL(X˙ i)|R(X) =σ

= Xn

i=1

ciEP

n,0

L(X˙ i)|R(X) =σ

= Xn

i=1

ciEP

n,0

L(X˙ ri:n)

(Satz 1.26(b))

=:

Xn

i=1

cia(ri)

mita(i) =EP

n,0

L(X˙ i:n) .

Bemerkung 1.28 (a) Die Gewichtea(i)heißen „Scores“ (entsprechen Punktzahlen in sportli- chen Wettbewerben).

(b) Die nichtparametrische HypotheseH0aus (1.10) führt unterR(X)zu einer einelementigen Nullhypothese aufSn, nämlich der Gleichverteilung aufSn(siehe Lemma 1.24(b)). Damit können die kritischen Wertec(α)für den resultierenden Rangtest ψ ≡ψ(R(X)), gegeben durch

ψ(x) =









1, falls Pn

i=1cia(Ri(x))> c(α), γ, falls Pn

i=1cia(Ri(x)) =c(α), 0, falls Pn

i=1cia(Ri(x))< c(α),

(1.12)

durch diskrete Erwartungswertbildung ermittelt werden. Für großesnkannc(α) approxi- miert werden, indem eine Zahl B < n! festgesetzt wird und nur B zufällig ausgewählte Permutationenσ∈ Sntraversiert werden.

(c) Die TeststatistikT ≡T(R(X)) =Pn

i=1cia(Ri(X))heißt einfache lineare Rangstatistik.

(d) Für die Scores giltPn

i=1a(i) = 0(zur Übung, einfach).

Istisoton, so gilta(1)≤a(2)≤. . .≤a(n).

(e) WegenXi:n =D F1(Ui:n)werden die Scores häufig in der Forma(i) =EL˙ ◦F1(Ui:n) angegeben und man nennt L˙ ◦F1 Score-erzeugende Funktion. Für große n kann man approximativ mit b(i) := ˙L◦F1(n+1i )(vgl.E

Ui:n

= n+11 aus Bemerkung 1.25) oder

˜b(i) =nRni

i−1 n

L˙ ◦F1(u)dugearbeitet werden.

(25)

Lemma 1.29

Seieine einfache lineare Rangstatistik von der Form wie in Bemerkung 1.28(c), aber mit allge- meinen deterministischen Scoresa(i). Seic¯:= n1Pn

i=1ci und¯a= n1Pn

i=1a(i). UnterH0 aus (1.10) gilt dann

ET˜

=n¯ca¯ und Var

= 1

n−1 Xn

i=1

(ci−¯c)2 Xn

i=1

(a(i)−¯a)2.

Beweis: Ri(X)ist gleichverteilt auf{1, . . . , n}, also E

a(Ri(X))

= Xn

i=1

a(i)n1= ¯a und

ET˜

= Xn

i=1

ciE

a(Ri(X))

= Xn

i=1

ci¯a.

AusPn

i=1a(i) =const. folgt (mitRi :=Ri(X)∀1≤i≤n) 0 =Var

Xn

i=1

a(i)

!

=Var Xn

i=1

a(Ri)

!

= Xn

i=1

Var(a(Ri)) + 2 X

1i<jn

Cov(a(Ri), a(Rj)).

Wegen Austauschbarkeit istPRi,Rj =PRk,Rlfüri6=j, k6=l. Damit ist 0 =nVar(a(R1)) +n(n−1)Cov(a(R1), a(R2))

⇔ Cov(a(R1), a(R2)) =− 1

n−1Var(a(R1)). Ferner ergibt sich

Var(a(R1)) =E

(a(R1)−¯a)2

= Xn

j=1

(a(j)−¯a)2 n

und mit weiteren Routinerechnungen die Varianz vonT˜wie angegeben.

Anwendung: Normalapproximation zur Ermittlung kritischer Werte fürψ.

Lemma 1.30

Sei ψ wie in (1.12) lokal bester Rangtest im Modell Pn,ϑ = Nn

i=1Pc

i für {ϑ = 0} gegen {ϑ >0}, vgl. Satz 1.20 zusammen mit Lemma 1.17. IstS :R→Reine streng isotone Funktion, so istψlokal optimal fürNn

i=1PS

ciϑ.

Beweis: ∀1≤i≤ngiltRi((S(X1), . . . , S(Xn))) =Ri(X).

Abbildung

Abbildung 1.2: Lokal bester { ϑ 0 } α-ähnlicher Test ϕ ∗

Referenzen

ÄHNLICHE DOKUMENTE

Arthur Harris – Der Oberkom- mandierende des Bomber Com- mand der RAF setzte die von der Regierung erteilte „Anweisung zum Flächenbombardement“ vol- ler Leidenschaft

lenseits der Reichweite wird aber die Schätzung der Varianz der Differenzen un¬ abhängig von der Distanz oder - in anderen Worten aus¬ gedrückt - können Datenpunkte, die von einem

śŞŜȮśşŚDZ ŗŘŞ śşŖȮśşŚDZ şř śşśǯDZ ŗŘŞ śşşDZ ŗŘŝǯ ŜŖŝDZ şř ŗŖŗǯDZ ŗŖŖ ŗŚŝǯDZ şŞ ŚŚŜȮŚśŘDZ şŘ ŚŚŝDZ şŘ śŚŜȮśŚşDZ şŝ ŜŖřDZ Şş ŘřŝǯDZ ŗŖŜ śşȮŜŗDZ şś ŗŜŝDZ şŘ ŘŜśǯDZ

Dazu gehören die Rückkehrpflicht für Mietwagen mit Fahrer, das Verbot des Poolings dieser Fahrzeuge, eine staatliche Mengensteuerung über Konzessionen, Preisbindung und die

[r]

Wenn er alle Symbole erraten hat ist der nächste Spieler dran, wenn er aber einen Fehler gemacht hat, bekommt er vom Gegenspieler ein Symbol aus dessen Kokosnuss…. Sieger ist,

Der einzige Unterschied zwischen meiner Auffassung und derjenigen von Nicolle und seiner Schule ist der, daß ich der Ansicht bin, daß die dissoziative Aufspaltung des Erregers

ten spätestens alle 90 Minuten eine halbe Stunde Pause ohne Masken ­ aus hygienischen Gründen und zur Entlastung der Haut.. Keime haben leichtes Spiel Wird die