Resamplingverfahren in der Statistik

(1)

Resamplingverfahren in der Statistik

Vorlesungsskript

Thorsten Dickhaus Humboldt-Universität zu Berlin

Sommersemester 2011 Version: 21. Juli 2011

(2)

Vorbemerkungen

Das Material aus Kapitel 1 dieses Skripts ist im Wesentlichen aus den Vorlesungsskripten über Sta- tistik I und II von Prof. Arnold Janssen, den Artikeln von Janssen and Pauls (2003) und Janssen (2005) sowie den Dissertationen von Thorsten Pauls und Markus Pauly übernommen. Teile von Kapitel 2 stammen aus dem Skript von Prof. Gerhard Dikta über Bootstrapverfahren in der Statis- tik. Arnold Janssen und Gerhard Dikta gilt mein herzlicher Dank für die vielen guten Lehrveran- staltungen, die ich bei ihnen hören durfte. Sollten sich in den Kapiteln 1 und 2 Fehler finden, so bin dafür natürlich ich verantwortlich. Lob und positive Kritik gebührt indes den Original-Autoren.

Abschnitt 1.2 findet sich in leicht anderer Form in meiner Master-Arbeit.

Für die Manuskripterstellung danke ich Mareile Große Ruse.

Übungsaufgaben und R-Programme zu diesem Kurs stelle ich auf Anfrage gerne zur Verfügung.

Einige Referenzen dazu finden sich im Text an den zugehörigen Stellen.

(3)

Verzeichnis der Abkürzungen und Symbole

B(p, q) Betafunktion,B(p, q) = Γ(p)Γ(q)/Γ(p+q)

⌈x⌉ Kleinste ganze Zahl größer oder gleichx

χ²_ν Chi-Quadrat Verteilung mitν Freiheitsgraden

∁M Komplement der MengeM

δ_a Dirac-Maß im Punktea

=D Gleichheit in Verteilung

FX Verteilungsfunktion einer reellwertigen ZufallsvariableX

FDR False Discovery Rate

FWER Family Wise Error Rate

⌊x⌋ Größte ganze Zahl kleiner oder gleichx

Γ(·) Gammafunktion,Γ(x) =R_∞

0 t^x⁻¹e⁻^tdt, x >0

im(X) Bildbereich einer ZufallsgrößeX

iid. independent and identically distributed

1M Indikatorfunktion einer MengeM

L(X) Verteilungsgesetz einer ZufallsvariableX

LFC Least Favorable Configuration

N(µ, σ²) Normalverteilung mit Parameternµundσ²

Φ Verteilungsfunktion derN(0,1)-Verteilung

(4)

ϕ(·) Verteilungsdichte derN(0,1)-Verteilung

supp(F) Träger der VerteilungsfunktionF

UNI[a, b] Gleichverteilung auf dem Intervall[a, b]

(5)

Inhaltsverzeichnis

1 Einführung, Beispiele und allgemeine Theorie 1

1.1 Grundlagen aus der Statistik . . . 1

1.2 Motivation und Beispiele . . . 6

1.3 L₁-Differenzierbarkeit und lokal beste Tests . . . 10

1.4 Einige Rangtests . . . 14

1.5 Allgemeine Theorie von Resamplingtests . . . 21

2 Spezielle Resamplingverfahren für unabhängige Daten 28 2.1 Mehrstichprobenprobleme, Permutationstests . . . 28

2.2 Einstichprobenprobleme, Bootstraptests . . . 32

2.3 Bootstrapverfahren für lineare Modelle . . . 36

3 Resamplingverfahren für multiple Testprobleme 46 3.1 Subset pivotality, Westfall und Young . . . 46

3.2 Dudoit, van der Laan, Pollard . . . 46 4 Resamplingverfahren für Zeitreihen und abhängige Daten 47

5 Statistisches Lernen, Klassifikationstheorie 48

Tabellenverzeichnis 49

Abbildungsverzeichnis 50

Literaturverzeichnis 51

(6)

(7)

Kapitel 1

Einführung, Beispiele und allgemeine Theorie

1.1 Grundlagen aus der Statistik

BezeichneXeine Zufallsgröße, die den möglichen Ausgang eines Experimentes beschreibt.¹ SeiΩder zuX gehörige Stichprobenraum, d. h., die Menge aller möglichen Realisierungen von XundA ⊆2^Ωeineσ-Algebra überΩ. Die Elemente vonAheißen messbare Teilmengen vonΩ oder Ereignisse.

BezeichneP^X die Verteilung vonX. Es gelteP^X ∈ P={P_ϑ:ϑ∈Θ}. Definition 1.1 (Statistisches Experiment / Modell)

Ein Tripel(Ω,A,P)mitΩ6=∅eine nichtleere Menge,A ⊆2^Ω eineσ-Algebra überΩundP = {P_ϑ : ϑ ∈ Θ}eine Familie von Wahrscheinlichkeitsmaßen aufAheißt statistisches Experiment bzw. statistisches Modell.

FallsΘ⊆R^k, k ∈N, so heißt(Ω,A,P)parametrisches statistisches Modell,ϑ∈ ΘParameter undΘParameterraum.

Statistische Inferenz beschäftigt sich damit, Aussagen über die wahre Verteilung P^X bzw. den wahren Parameterϑzu gewinnen. Speziell: Entscheidungsprobleme, insbesondere Testprobleme.

Testprobleme: Gegeben zwei disjunkte Teilmengen P0,P1 von P mit P0 ∪ P1 = P ist eine Entscheidung darüber gesucht, obP^X zuP0 oderP1gehört. Falls P durchϑeineindeutig iden- tifiziert ist, kann die Entscheidungsfindung auch vermittelsϑund TeilmengenΘ₀ undΘ₁ vonΘ mitΘ₀∩Θ₁ =∅undΘ₀∪Θ₁= Θformalisiert werden.

1Witting (1985): „Wir denken uns das gesamte Datenmaterial zu einer „Beobachtung“xzusammengefasst.“

(8)

Formale Beschreibung des Testproblems:

H₀ :ϑ∈Θ₀ versus H₁:ϑ∈Θ₁ oder H₀ :P^X ∈ P0 versus H₁:P^X ∈ P1.

DieH_i, i = 1,2 nennt man Hypothesen.H₀ heißt Nullhypothese,H₁ Alternativhypothese / Al- ternative. Oft interpretiert manH0undH1auch direkt selbst als Teilmengen des Parameterraums, d. h.,H₀∪H₁ = ΘundH₀∩H₁ = ∅. ZwischenH₀ undH₁ ist nun aufgrund vonx ∈ Ωeine Entscheidung zu treffen. Dazu benötigt man eine Entscheidungsregel. Diese liefert ein statistischer Test.

Definition 1.2 (Statistischer Test)

Ein (nicht-randomisierter) statistischer Test ist eine messbare Abbildung ϕ: (Ω,A)→({0,1},2^{^0,1^}).

Konvention:

ϕ(x) = 1 ⇐⇒ Nullhypothese wird verworfen, Entscheidung fürH1, ϕ(x) = 0 ⇐⇒ Nullhypothese wird nicht verworfen.

{x ∈ Ω : ϕ(x) = 1}heißt Ablehnbereich (oder auch kritischer Bereich) vonϕ, kurz:{ϕ= 1}. {x∈Ω :ϕ(x) = 0}heißt Annahmebereich vonϕ, kurz:{ϕ= 0}=∁{ϕ= 1}.

Problem: Testen beinhaltet mögliche Fehlentscheidungen.

Fehler 1. Art (α-Fehler, type I error): Entscheidung fürH1, obwohlH0wahr ist.

Fehler 2. Art (β-Fehler, type II error): Nicht-Verwerfung vonH₀, obwohlH₁wahr ist.

In der Regel ist es nicht möglich, die Wahrscheinlichkeiten für die Fehler 1. und 2. Art gleichzeitig zu minimieren. Daher: Asymmetrische Betrachtungsweise von Testproblemen.

(i) Begrenzung der Fehlerwahrscheinlichkeit 1. Art durch eine vorgegebene obere Schrankeα (Signifikanzniveau, englisch: level),

(ii) Unter der Maßgabe (i) Minimierung der Wahrscheinlichkeit für Fehler 2. Art⇒„optimaler“

Test.

Eine (zum Niveauα) statistisch abgesicherte Entscheidung kann also immer nur zu Gunsten von H₁getroffen werden⇒Merkregel: „Was nachzuweisen ist stets als AlternativeH₁formulieren!“.

(9)

Bezeichnungen 1.3

(i) β_ϕ(ϑ) =E_ϑ ϕ

=P_ϑ(ϕ(X) = 1) =R

ΩϕdP_ϑbezeichnet die Ablehnwahrscheinlichkeit ei- nes vorgegebenen Testsϕin Abhängigkeit vonϑ∈Θ. Fürϑ∈Θ₁heißtβ_ϕ(ϑ)Gütefunktion vonϕan der Stelleϑ. Fürϑ ∈Θ0ergibt βϕ(ϑ)die Typ I-Fehlerwahrscheinlichkeit vonϕ unterϑ∈Θ₀.

Fürα∈(0,1)vorgegeben heißt

(ii) ein Testϕmitβ_ϕ(ϑ)≤αfür alleϑ∈H₀ Test zum Niveauα,

(iii) ein Testϕzum Niveauαunverfälscht, fallsβ_ϕ(ϑ)≥αfür alleϑ∈H₁.

(iv) ein Testϕ₁ zum Niveauαbesser als ein zweiter Niveau-αTestϕ₂, fallsβ_ϕ₁(ϑ) ≥β_ϕ₂(ϑ) für alleϑ∈H₁und∃ϑ^∗ ∈H₁mitβ_ϕ₁(ϑ^∗)> β_ϕ₂(ϑ^∗).

Eine wichtige Teilklasse von Tests sind die Tests vom Neyman-Pearson Typ.

Definition 1.4

Sei(Ω,A,(P_ϑ)_ϑ_∈_Θ)ein statistisches Modell und seiϕein Test für das Hypothesenpaar∅ 6=H ⊂ ΘversusK = Θ\H, der auf einer PrüfgrößeT : Ω→Rbasiert. Genauer seiϕcharakterisiert durch die Angabe von AblehnbereichenΓ_α ⊂ Rfür jedes Signifikanzniveau α ∈ (0,1), so dass ϕ(x) = 1 ⇐⇒ T(x) ∈ Γ_α für x ∈ Ω gilt. Sei nun die Teststatistik T(X) derart, dass die Monotoniebedingung

∀ϑ₀ ∈H:∀ϑ₁ ∈K :∀c∈R:P_ϑ

0(T(X)> c)≤P_ϑ

1(T(X)> c) (1.1) gilt. Dann heißtϕein Test vom (verallgemeinerten) Neyman-Pearson Typ, falls für alleα ∈(0,1) eine Konstantec_αexistiert, so dass

ϕ(x) =







1, T(x)> c_α, 0, T(x)≤c_α. Bemerkung 1.5

(a) Die Monotoniebedingung (1.1) wird häufig so umschrieben, dass „die Teststatistik unter Alternativen zu größeren Werten neigt“.

(b) Die zu einem Test vom Neyman-Pearson (N-P) Typ gehörigen Ablehnbereiche sind gegeben alsΓ_α= (c_α,∞).

(10)

(c) Die Konstantenc_αwerden in der Praxis bestimmt überc_α= inf{c∈R:P^∗(T(X)> c)≤ α}, wobei das WahrscheinlichkeitsmaßP^∗so gewählt ist, dass

P^∗(T(X)∈Γ_α) = sup

ϑ∈H

P_ϑ(T(X)∈Γ_α)

gilt, fallsHeine zusammengesetzte Nullhypothese ist („am Rande der Nullhypothese“). Ist H einelementig undP_H stetig, so giltc_α =F_T⁻¹(1−α), wobeiF_T die Verteilungsfunktion vonT(X)unterHbezeichnet.

(d) Fundamentallemma der Testtheorie von Neyman und Pearson: Unter (leicht verschärftem) (1.1) ist ein Test vom N-P Typ gleichmäßig (über alleϑ₁ ∈K) bester Test fürHversusK.

Es gibt Dualitäten zwischen Testproblemen / Tests und (Bereichs-)Schätzproblemen / Konfidenz- intervallen.

Definition 1.6

Gegeben sei ein statistisches Modell(Ω,A,P ={P_ϑ: ϑ∈Θ}). Dann heißtC= (C(x) : x∈Ω) mitC(x) ⊆ Θ∀x ∈ Ωeine Familie von Konfidenzbereichen zum Konfidenzniveau 1−α für ϑ∈Θ :⇐⇒ ∀ϑ∈Θ :P_ϑ({x: C(x)∋ϑ})≥1−α.

Satz 1.7 (Korrespondenzsatz, siehe z.B. Lehmann and Romano (2005) oder Witting, 1985)

(a) Liegt für jedesϑ∈Θein Testϕ_ϑzum Niveauαvor und wirdϕ= (ϕ_ϑ, ϑ∈Θ)gesetzt, so ist C(ϕ), definiert über C(x) ={ϑ∈Θ : ϕ_ϑ(x) = 0}, eine Familie von Konfidenzbereichen zum Konfidenzniveau1−α.

(b) IstC eine Familie von Konfidenzbereichen zum Konfidenzniveau1−α und definiert man ϕ = (ϕ_ϑ, ϑ∈ Θ)überϕ_ϑ(x) = 1−1C(x)(ϑ), so istϕein Test zum allgemeinen lokalen Niveauα, d. h., zum Niveauαfür jedesϑ∈Θ.

Beweis:

Sowohl in (a) als auch in (b) erhält man∀ϑ∈Θ ∀x∈Ω :ϕ_ϑ(x) = 0⇐⇒ϑ∈C(x). Also ist ϕein Test zum allgemeinen lokalen Niveauαgenau dann, wenn

∀ϑ∈Θ : P_ϑ({ϕ_ϑ= 0})≥1−α

⇔ ∀ϑ∈Θ : P_ϑ({x: C(x)∋ϑ})≥1−α

⇔ Cist Familie von Konfidenzbereichen zum Konfidenzniveau1−α.

Bemerkung 1.8

(a) Die Dualitätϕ_ϑ(x) = 0 ⇔ ϑ∈C(x)lässt sich schön grafisch veranschaulichen, fallsΩ undΘeindimensional sind.

(11)

-x

x^∗ | {z }

ϕϑ∗(x)=0

6 ϑ

ϑ^∗

C(x^∗) (

Abbildung 1.1: Dualitätϕ_ϑ(x) = 0 ⇔ ϑ∈C(x)

(b) Ein einzelner Test ϕ zum Niveau α für eine Hypothese H kann interpretiert werden als (1−α)-Konfidenzbereich. Setze dazu

C(x) =







Θ, falls ϕ(x) = 0,

K = Θ\H , falls ϕ(x) = 1.

Umgekehrt liefert jeder KonfidenzbereichC(x)einen Test zum Niveauαfür eine Hypothese H ⊂Θ.

Setze hierzuϕ(x) =1K(C(x)), wobei

1B(A) :=







1, falls A⊆B, 0, sonst.

für beliebige MengenAundB.

Abschließend noch ein maßtheoretischer Satz, der sich einige Male für technische Beweise in den nachfolgenden Abschnitten in Kapitel 1 als nützlich erweisen wird.

Satz 1.9 (Satz von Vitali, siehe Witting (1985), Satz 1.181)

Sei(Ω,A, µ)einσ-endlicher Messraum. Fürn∈ N₀ seienf_n : Ω → Rmessbare Abbildungen.

(12)

Istf_n→f₀µ-fast überall konvergent und ist lim sup

n→∞

Z

|f_n|^pdµ≤ Z

|f₀|^pdµ <∞ für einp≥1, so folgtR

|fn−f0|^pdµ→0fürn→ ∞. Istµein Wahrscheinlichkeitsmaß, so genügt die Voraus- setzungµ-stochastischer Konvergenz vonf_ngegenf₀anstelle der Konvergenzµ-fast überall.

1.2 Motivation und Beispiele

Ein Hauptproblem der statistischen Testtheorie ist das Testen des Erwartungswertes von Zufalls- größen, die als Modell für eine erhobenen Stichprobe im experimentativen Umfeld vom Umfangn benutzt werden. Wir betrachten alsonZufallsvariablenX₁, . . . , X_n, wobei dieX_iim einfachsten Fall als i.i.d. angenommen werden. Das statistische Testproblem lautet nun häufig

H0 :E[X1] = 0 versus H1:E[X1]>0.

Dieses Testproblem ergibt sich zum Beispiel beim Testen der mittleren Wirksamkeit eines neuen Medikamentes im Vergleich mit einem bereits etablierten Produkt zum Zwecke der Zulassung des neuen Präparates.

Als Teststatistik für dieses Problem findet bei bekannter Varianzσ²=Var(X₁)das arithmetische Mittel T_n = ¹_nPn

i=1X_i =: ¯X_n Verwendung; diese Teststatistik ist suffizient und vollständig für das zu Grunde liegende Testproblem. Ist (wie in den meisten Anwendungsfällen) σ² indes unbekannt, so bildet sich die geeignete Teststatistik alsT˜_n = √

n·X¯_n/V_n¹², wobei hier für die unbekannte Varianzσ²der erwartungstreue SchätzerV_n= _n₋¹₁Pn

i=1(X_i−X¯_n)²eingesetzt wird.

Will man nun einen Niveauα-Test

ϕ_n=











1 >

T˜n cn(α)

0 ≤

konstruieren, stellt sich das Problem, den richtigen kritischen Wertc_n(α)zu ermitteln. Lässt sich für die zur Modellierung herangezogenen Zufallsgrößen die Normalverteilungsannahme rechtfer- tigen, so ist dieses Problem bereits gelöst und das Ergebnis ist der sogenannte Gaußtest fürT_nbzw.

der Studentische t-Test fürT˜_n, bei welchem die kritischen Werte als die Quantile der Standard- normalverteilung bzw.t-Verteilung mit(n−1)Freiheitsgraden gewählt werden. Ist die Normal- verteilungsannahme jedoch nicht gerechtfertigt und ist insbesondere keine Information über die Verteilung vonX₁, . . . , X_n verfügbar, so gibt es keine Theorie für die exakte Bestimmung von c_n(α). Dert-Test ist in Fällen, in denen dieX_inicht normalverteilt sind nicht zu empfehlen, da er das Niveauαschlecht einhält. Eine erste Möglichkeit, auch in diesem Fall einen Test anzugeben,

(13)

stammt aus dem Zentralen Grenzwertsatz. Dieser besagt, dass, mitµ=E[X₁], L

X¯_n−µ σ/√

n

→ N(0,1), n→ ∞.

Zusammen mit dem Satz von Slutsky lässt sich hieraus ein asymptotischer Niveauα-Test für das obige Testproblem konstruieren, nämlich

ϕ^as_n =











1 >

T˜_n Φ⁻¹(1−α)

0 ≤

.

Allerdings ist bei diesem Vorgehen die Approximationsgüte für kleine Stichprobenumfängenhäu- fig nicht hinreichend gut, siehe unten.

Eine Lösungsmöglichkeit der angedeuteten Problematik stellt der sogenannte bootstrap, eine Resamplingmethode, dar. Sei dazu im EinstichprobenproblemX = (X₁, . . . , X_n) . Das statistische Modell sei gegeben durch(Ωⁿ,Aⁿ,(Pⁿ

ϑ)_ϑ_∈_Θ). Hierbei ist also P_ϑ = L(X_i),Ω ⊆ Rder Bildraum vonXiundXi„lebt“ auf(Ω⁻¹,F,P),i= 1, . . . , n. Es sei

T :{Q:QVerteilung aufΩ} → R Q 7→ T(Q)

ein interessierendes Funktional (häufig: Kennzahl einer Verteilung) vom BildraumΩ derXi in die reellen Zahlen. Ein Schätzer für das WahrscheinlichkeitsmaßP_ϑist dann das empirische Maß ˆP_n = ¹_nPn

i=1εXi (Gleichverteilung auf den Daten). Daraus lässt sich ein (plug-in) Schätzer T(ˆP_n)für das FunktionalT(P_ϑ)gewinnen, der im Allgemeinen nicht erwartungstreu ist. Gesucht ist deshalb die Verteilung

P(T(ˆP_n)−T(P_ϑ)≤t), t∈R (1.2) des Fehlers, um beispielsweise Konfidenzintervalle zu konstruieren oder Tests durchzuführen.

Die bootstrap Idee besteht nun darin, den ursprünglichen Wahrscheinlichkeitsraum (Ωⁿ,Aⁿ,Pⁿ

ϑ)durch eine empirische Version(Ωⁿ,Aⁿ,(ˆP_n)ⁿ)zu ersetzen.

Dazu konstruiert man eine iid. bootstrap Stichprobe X₁^∗, . . . , X_n^∗ mit X_i^∗ : (Ω^∗,A^∗,P^∗) → (Ω,A), für die gilt:

P^∗^X¹^∗^|^(X¹^,...,Xⁿ⁾= ˆP_n.

Auf Grund der Definition vonPˆ_n ist unmittelbar klar, dass das Ziehen der bootstrap Stichprobe dem Ziehen mit Zurücklegen vonnGrößen aus der Ausgangsstichprobe entspricht.

Man berechnet dann den Ausdruck (1.2) in dem bootstrap Modell, bestimmt also

P(T(ˆP^∗_n)−T(ˆP_n)≤t), t∈R. (1.3)

(14)

Der Ausdruck (1.3) ist der bootstrap Schätzer für (1.2) und ist (im Prinzip) genau berechenbar, da er nur von den beobachteten Daten abhängt. Zum Beispiel lassen sich unmittelbar die (theoreti- schen!) bedingten Momente von Bootstrap-Zufallsvariablen ausrechnen.

Satz 1.10 (Bedingte Momente von bootstrap Größen)

Es seiX = (X₁, . . . , X_n)ein Vektor von i.i.d. Original-Variablen. Dann gilt bedingt unterX:

E^∗[X₁^∗|X] = 1 n

Xn

i=1

X_i =: ¯X_n (1.4)

E^∗[ 1 m(n)

m(n)X

i=1

X_i^∗|X] = 1 n

Xn

i=1

X_i = ¯X_n (1.5)

E^∗[X₁^∗²|X] = 1 n

Xn

i=1

X_i² (1.6)

Var(X₁^∗|X) = 1 n

Xn

i=1

(Xi−X¯n)² (1.7)

Var



 1 m(n)

m(n)X

i=1

X_i^∗|X



 = 1 n·m(n)

Xn

i=1

(X_i−X¯_n)² (1.8)

E^∗[X₁^∗³|X] = 1 n

Xn

i=1

X_i³ (1.9)

Beweis: Zur Übung.

Betrachten wir zur Komplettierung der Motivation von Bootstrapverfahren nun die Konvergenzra- te im Zentralen Grenzwertsatz, um zu einer Aussage über die zu erreichende Approximationsge- nauigkeit des asymptotischen Testsϕ^as_n zu gelangen.

Satz 1.11 (Satz von Berry-Esséen)

Seien(Xi)_i_∈^Nstochastisch unabhängige, reellwertige Zufallsvariablen mit0<Var(Xi)<∞für allei∈N. BezeichneF_ndie Verteilungsfunktion der standardisierten Summe

Pn

i=1(X_i−E[X_i]) pPn

i=1Var(Xi) . Dann gilt:

sup

x∈R|F_n(x)−Φ(x)| ≤ 6 s³_n ·

Xn

i=1

E

|X_i|³ ,

wobeiΦdie Verteilungsfunktion derN(0,1)-Verteilung bezeichnet unds²_n=Pn

i=1Var(Xi)gilt.

Liegen iid. VariablenX_ivor, so ergibt sich damit die folgende Abschätzung:

sup

x∈R|Fn(x)−Φ(x)| ≤ 6

√n·Var(X₁)³² ·E

|X1|³

=O 1

√n

.

(15)

Beweis: Klassisches Resultat, siehe, z. B., Gaenssler and Stute (1977).

Bemerkung 1.12

Damit ein bootstrap Test dem asymptotischen Testϕ^as_n in Sachen Niveaueinhaltung überlegen ist, muss die Konvergenzgeschwindigkeit der bootstrap Verteilung in gewisser Weise schneller sein als die „worst case“ Rate√

nim zentralen Grenzwertsatz. Dies ist auch tatsächlich der Fall, wie das Buch von Hall (1992) mit Hilfe von asymptotischen (Edgeworth-)Entwicklungen nachweist. Hall argumentiert, dass durch den bootstrap eine automatische Bias-Korrektur vorgenommen wird.

Technisch bedeutet das, dass der Term, der durch die dritte Kumulante vonX1 bestimmt wird, in der Edgeworth-Entwicklung der bootstrap Verteilungsfunktion verschwindet.

Für Zweistichprobenprobleme kann man sich eine andere Überlegung zu Nutze machen, um zu einer Resamplingmethode zu gelangen. Dazu betrachten wir wieder stochastisch unabhängige Zu- fallsvariablen(X₁, . . . , X_n). Wir nehmen an, dass (für eine festgelegte Zahl2 ≤ n₁ ≤ n−2) die (X_i)_i=1,...,n₁ identisch nach der Verteilung mit Verteilungsfunktion F₁ (Gruppe 1) und die (X_j)_j=n₁_+1,...,nidentisch nach der Verteilung mit VerteilungsfunktionF₂(Gruppe 1) verteilt sind.

Das interessierende (nichtparametrische) Testproblem ist dann gegeben alsH₀ :F₁ =F₂ gegen H1 :F1 6=F2. Unter der NullhypotheseH0sollten sich nun wichtige gruppenspezifische Charak- teristika einer empirisch erhobenen Stichprobe, die sich als eine Realisierung unter dem vorste- henden Modell beschreiben lässt, nicht zu stark ändern, wenn die Gruppenzugehörigkeit zufällig

„ausgewürfelt“ wird, also jedem beobachteten Wert aus(x₁, . . . , x_n)ein zufälliger Gruppenindi- kator angeheftet wird. Halten wir wie zuvor angedeutet die Plätzei= 1, . . . , n₁für die Gruppe 1 fest, so entspricht dieses „label shuffling“ offensichtlich einem zufälligen Ziehen ohne Zurückle- gen aus(x₁, . . . , x_n) und Verteilung der Werte auf die Plätze von1bisn. Mathematisch ist dies äquivalent zu einer Permutation der Werte(x1, . . . , xn). Genau diese Idee liegt den sogenannten Permutationstests zu Grunde. Betrachtet man zum Beispiel speziell Lageparametermodelle (Gruppe 1 ist unter der Alternative bezüglich eines gewissen Kriteriums besser als Gruppe 2), so kann ein Permutationstest z. B. die Differenz der arithmetischen Gruppenmittel der Original- Stichprobe als Teststatistik benutzen und sie mit einem emprischen Quantil der Differenzen von arithmetischen Resampling-Gruppenmittelwerten vergleichen, die durch das Ausführen von einer festgelegten AnzahlBvon Permuationenσ ∈ Snzu Stande kommen.

Das Ziel der folgenden Abschnitte dieses Kapitels ist es, die vorgenannten heuristischen Überle- gungen zu Bootstrap- und Permutationstests auf eine solide mathematische Grundlage zu stellen.

Kapitel 2 stellt dann die praktische Umsetzbarkeit der resultierenden Methoden in den Vorder- grund. Die Kapitel 3 bis 5 gehen auf spezielle nicht-Standard Probleme ein, die mit Resampling- verfahren bearbeitet werden können.

(16)

1.3 L

1

-Differenzierbarkeit und lokal beste Tests

Das Testen von zusammengesetzten Nullhypothesen bzw. Alternativen ist ein nicht-triviales Pro- blem in der Inferenzstatistik. Nur in Spezialfällen (z.B. monotoner Dichtequotient, verallgemei- nerte Neyman-Pearson-Theorie) ist eine zufriedenstellende generelle Methodik verfügbar, die zu gleichmäßig (überϑ∈H1) besten Niveau-α-Tests führt.

Ist die „Geometrie“ des Parameterraums indes komplizierter, so kann die Typ-II-Fehlerwahrscheinlichkeit (unter Maßgabe der Einhaltung des Signifikanzniveaus) typischerweise nicht gleichmäßig mi- nimiert werden und es ist eine Auswahl an konkurrierenden Testverfahren notwendig. Oftmals kommt es entscheidend darauf an, gegen welche Art von Alternativen man sich bestmöglich absi- chern möchte, d.h., gegen welche „Regionen“ vonH₁ man größtmögliche Trennschärfe anstrebt.

Eine Klasse von Verfahren bilden die sogenannten lokal besten Tests. Hierbei wird Trennschär- femaximierung in Regionen „nahe beiH0“ angestrebt. Zu ihrer Anwendbarkeit benötigt man das Konzept derL₁-Differenzierbarkeit von statistischen Modellen.

Definition 1.13 (L₁-Differenzierbarkeit)

Sei(Ω,A,(P_ϑ)_ϑ_∈_Θ)ein statistisches Modell mitΘ⊆R. Die Familie(P_ϑ)_ϑ_∈_Θsei dominiert, d.h.

∀ϑ∈Θ : P_ϑ ≪ µfür ein Maßµauf(Ω,A). Dann heißt(Ω,A,(P_ϑ)_ϑ_∈_Θ)L₁-differenzierbar in ϑ₀ ∈Θ^◦, falls∃g∈L₁(µ)mit

t⁻¹(dP_ϑ

0+t

dµ −dP_ϑ

0

dµ )−g

L1(µ)

−→0 fürt→0.

Die FunktiongheißtL₁(µ)-Ableitung vonϑ7→P_ϑinϑ₀.

Zur Vereinfachung der Notation sei von nun an oft ohne explizite Erwähnung und o.B.d.Aϑ₀ ≡0.

Satz 1.14 (§18 in Hewitt and Stromberg (1975), Satz 1.183 in Witting (1985))

Unter den Voraussetzungen von Definition 1.13 seiϑ₀ = 0und seienf_ϑ(x) := ^d_dµ^P^ϑ(x)Versionen der Dichten mit folgenden Eigenschaften:

(a) Es gibt eine offene UmgebungU von 0, so dass fürµ-fast allexdie AbbildungU ∋ ϑ 7→

f_ϑ(x)absolut stetig ist, d.h., es existiert eine integrierbare Funktionτ 7→f(x, τ)˙ aufUmit Z ϑ2

ϑ1

f˙(x, τ)dτ =f_ϑ₂(x)−f_ϑ₁(x), ϑ₁ < ϑ₂

und es sei _∂ϑ^∂ f_ϑ(x)|ϑ=0 = ˙f(x,0)µ-fast überall.

(b) Fürϑ∈ U seix7→f˙(x, ϑ)µ-integrierbar mit Z

f˙(x, ϑ)

dµ(x)^ϑ−→^→⁰ Z

f˙(x,0) dµ(x).

Dann istϑ7→P_ϑin 0L₁(µ)-differenzierbar mitg= ˙f(·,0).

(17)

Grob gesagt erhält man also im absolutstetigen Fall dieL₁-Ableitung einfach durch analytisches Differenzieren der Dichte nach dem Parameter. Eine andere wichtige Anwendung von Satz 1.14 ist die Bearbeitung von Lageparametermodellen wie in Beispiel 1.16.

Satz 1.15 (Satz und Definition)

Unter den Voraussetzungen von Definition 1.13 seien die Dichtenϑ7→ f_ϑim Nullpunkt (ϑ₀ = 0) L1(µ)-differenzierbar mit einer Ableitungg.

(a) Dann konvergiert fürϑ→0 ϑ⁻¹log^f_f^ϑ

0(x) =ϑ⁻¹(logf_ϑ(x)−logf₀(x)) P₀-stochastisch gegen (sagen wir)L(x).˙

L˙ heißt Ableitung des (logarithmischen) Dichtequotienten bzw. Score-Funktion. Ferner gilt L(x) =˙ _f^g(x)

0(x).

(b) R Ld˙ P₀= 0und{f₀= 0} ⊆ {g= 0}P₀-fast sicher.

Beweis:

(a) ϑ⁻¹(^f_f^ϑ

0 −1) −→ _f^g₀ konvergiert in L₁(P₀) und daher P₀-stochastisch. Die Kettenregel liefert das Resultat.

(b) Nach dem Satz von Vitali (Satz 1.9 hier im Skript) folgt (ϑ → 0entlang einer geeignet gewählten Teilfolge), dassR

(f_ϑ−f₀)dµ= 0gilt. Damit folgtRLd˙ P₀ =R

gdµ= 0.

Beispiel 1.16 (a) Lageparametermodell

Sei X = ϑ+Y, ϑ ≥ 0, und habeY die Dichte f, wobei f absolutstetig bezüglich des Lebesguemaßes λund ϑ-frei sei. Dann sind die Dichten ϑ 7→ f(x −ϑ) von X unter ϑ L₁(λ)-differenzierbar in0mit ScorefunktionL(x) =˙ −^f_f(x)^′^(x) (Differentiation nach x).

(b) Skalenparametermodell

SeiX = exp(ϑ)Y,Y habe absolutstetigeϑ-freie Dichtef und es gelteR

xf^′(x)

dx <∞. Dann sind die Dichtenϑ7→ exp(−ϑ)f(xexp(−ϑ))vonXunterϑ L₁(λ)-differenzierbar in0mit Score-FunktionL(x) =˙ −(1 +^xf_f(x)^′^(x)).

Beides folgt sofort aus den Sätzen 1.14 und 1.15 zusammen mit der Translationsäquivarianz des Lebesguemaßes.

Beachte:ϑ⁻¹(f(x−ϑ)−f(x))^ϑ−→ −^→⁰ f^′(x)λ-fast überall.

Lemma 1.17

Seien ϑ 7→ P_ϑ eine L₁(µ)-differenzierbare Familie mit Score-FunktionL˙ in ϑ₀ = 0 und c_i, 1≤i≤nreelle Konstanten. Dann ist auchϑ7→Nn

i=1P_c

iϑim NullpunktL₁(µ)-differenzierbar mit Scorefunktion(x₁, . . . , x_n)7→P_n

i=1c_iL(x˙ _i).

(18)

Beweis: Zur Übung.

Anmerkung: Ist das ModellL₂-differenzierbar, so liegtL˙ inL₂(P₀)und wird auch Tangentialvek- tor oder Einflusskurve genannt (vgl. auch Abschnitt 3.5 Mathematische Statistik, Markus Reiß).

Definition 1.18 (Score-Test)

Seiϑ7→P_ϑL₁-differenzierbar inϑ₀mit Score-FunktionL. Dann heißt jeder Test˙ ψvon der Form

ψ(x) =











1, fallsL(x)˙ >˜c γ, fallsL(x) = ˜˙ c 0, fallsL(x)˙ <˜c ein Score-Test. Dabei istγ ∈[0,1]eine Randomisationskonstante.

Definition 1.19 (Lokal bester Test)

Sei(P_ϑ)_ϑ_∈_Θ mitΘ⊆ RL1-differenzierbar inϑ0 ∈Θ. Ein^◦ {ϑ0}α-ähnlicher Testϕ^∗ heißt lokal bester{ϑ₀}α-ähnlicher Test fürH˜ ={ϑ₀}gegenK= Θ∩ {ϑ > ϑ₀}, falls gilt

d dϑE_ϑ

ϕ^∗

|ϑ=ϑ0 ≥ d dϑE_ϑ

ϕ ϑ=ϑ0

für alle{ϑ₀}α-ähnlichen Testsϕ, d.h. für alle TestsϕmitE_ϑ₀ ϕ

=α.

-ϑ ϑ₀

6 1

α

Eϑ

ϕ^∗ Eϑ

ϕ

Abbildung 1.2: Lokal bester{ϑ₀}α-ähnlicher Testϕ^∗

(19)

Anmerkung: Lokal beste Tests können für ϑ-Werte, die weit entfernt von ϑ₀ liegen, schlechte Eigenschaften haben.

Satz 1.20 (Satz 2.44 in Witting (1985))

Unter den Voraussetzungen von Definition 1.19 ist der Score-Test

ψ(x) =











1, fallsL(x)˙ > c(α)

γ, fallsL(x) =˙ c(α), γ∈[0,1]

0, fallsL(x)˙ < c(α) mitE_ϑ

0

ψ

=αein{ϑ₀}α-ähnlicher, lokal bester Test fürH˜ ={ϑ₀}gegenK={ϑ > ϑ₀}. Zumindest lokal umϑ₀ sind die Score-Tests also ein vernünftiger „Ersatz“ für Neyman-Pearson Tests, wenn kein monotoner Dichtequotient vorliegt. Für Einstichprobenprobleme ist die Anwen- dung sofort einsichtig.

Liege eine Stichprobe(x₁, . . . , x_n)vor, die als Realisierung von(X₁, . . . , X_n)iid mitf_ϑals Dich- te vonX₁ aufgefasst werde, alsof_ϑ(x) = _dµ(x)^d^P^ϑ .

Das Produktexperiment mit ProduktmaßPⁿ

ϑhat nach Lemma 1.17 die Score-Funktion(x₁, . . . , x_n)7→

Pn

i=1L(x˙ i).

Sind wir am einseitigen TestH˜ ={ϑ₀}gegenK ={ϑ∈Θ : ϑ > ϑ₀}interessiert, so lehnen wir H˜ ab, fallsPn

i=1L(x˙ _i)> c(α)gilt.

Für Mehrstichprobenprobleme (k≥2Gruppen) betrachten wir die nichtparametrische Hypothese H₀ :{P^X¹ =P^X² =. . .=P^Xⁿ : P^X¹ stetig} (1.10) Die Idee ist nun, zunächst einparametrige Kurvenϑ 7→ P_n,ϑzu studieren, die nur für ϑ = 0 in H₀ liegen (P_n,0 ∈H₀). Fürϑ6= 0bestehtP_n,ϑim Allgemeinen aus einem Produktmaß mit nicht identischen Faktoren.

Beispiel 1.21 (a) Regressionmodell für einen Lageparameter

Seien X_i = c_iϑ+Y_i,1 ≤ i ≤ n, ϑ ≥ 0. Die Y_i seien iid mit einer Lebesgue-Dichte f (ϑ-frei!). Für das Zweistichprobenproblem z.B. setzen wir nunc₁ = c₂ = · · · = c_n₁ = 1 undci = 0∀n1+ 1≤i≤n. Damit unterscheidet sich die erste Gruppe (Plätze1, . . . , n1) von der zweiten Gruppe unter Alternativen (ϑ >0) durch einen positiven Shift.

(b) Regressionsmodell für einen Skalenparameter

Seienc_i reelle Regressionskoeffizienten,X_i = exp(c_iϑ)Y_i,1≤i≤n, ϑ∈R. DieY_i seien iid mit derϑ-freien Lebesguedichtef. Dann ist

dP_n,ϑ dλⁿ (x) =

Yn

i=1

exp(−c_iϑ)f(x_iexp(−c_iϑ)).

Unterϑ₀ = 0liegt obiges Produktmaß offenbar inH₀, unter Alternativen nicht.

(20)

(c) Allgemeines Modell

Sei ϑ 7→ P_ϑ eine einparametrige Kurve von Verteilungen mit reellem Parameter ϑ. Setze P_n,ϑ =N_n

i=1P_c

iϑ.

1.4 Einige Rangtests

Satz 1.22

Sei ϑ 7→ P_ϑ L1(µ)-differenzierbar im Nullpunkt (ϑ0 = 0) mit Score-Funktion L. Ferner sei˙ S : Ω → Ω^′ eine Statistik. Dann ist ϑ 7→ P^S

ϑ (Bildmaß unter S) L₁(µ^S)-differenzierbar mit Score-Funktiony7→E_P

0

L˙ |S=y .

Beweis: O.B.d.A. seiµein Wahrscheinlichkeitsmaß und es gelte

ϑ⁻¹(f_ϑ−f₀)−→g inL₁(µ) fürϑ→0. (1.11) Allgemein gilt (Stochastik II):

Q≪P =⇒ dQ^T

dP^T(t) =E_PdQ

dP |T =t für WahrscheinlichkeitsmaßeP undQund eine StatistikT. Also haben wir

dP^S

ϑ

dµ^S(y) =E_µ

f_ϑ|S =y .

Damit gilt Z

ϑ⁻¹(dP^S

ϑ

dµ^S −dP^S

0

dµ^S)−E_µ

g|S=y dµ^S(y)

= Z

E_µ

ϑ⁻¹(f_ϑ−f0)−g|S

dµ (Linearität vonE_µ

· |S )

≤ Z

E_µ

ϑ⁻¹(f_ϑ−f₀)−g |S

dµ (Dreiecksungleichung)

ϑ→0

−→0 ((1.11), Satz von Vitali)

Also besitztP^S

ϑdie Score-Funktiony7→ ^E^µ g|S=y

E_µ_d_P

0

dµ|S=ynach der Kettenregel (_dx^d ln(f(x)) = ^f_f(x)^′^(x)).

Nach Satz 1.14 (a) gilt zudemg= ˙L^d_dµ^P⁰. Es bleibt zu zeigen:

E_µL˙dP₀ dµ |S

=EP₀

L˙ |S

E_µdP₀ dµ |S

µ-fast sicher.

(21)

Dazu seiA⊂Ω^′ eine beliebige messbare Menge. Wir rechnen nach (von rechts nach links):

Z

1A(S)E_P

0

L˙ |S

E_µdP₀ dµ |S

dµ= Z

1A(S)E_P

0

L˙ |SdP₀

dµ dµ (tower equation)

= Z

1A(S)E_P

0

L˙ |S dP₀

= Z

1A(S) ˙LdP₀ (tower equation)

= Z

1A(S) ˙LdP₀ dµ dµ.

Wir werden Satz 1.22 benutzen, um von den parametrischen KurvenP_n,ϑwie in Beispiel 1.21 auf Rangtests zu kommen. Es wird sich zeigen, dass die Vergröberung der Information (nur Ränge, nicht die Werte derX_i fließen in die Datenanalyse ein) zu einer einfachen Struktur der Score- Teststatistiken führt (einfache lineare Rangstatistik). Ferner haben Ränge den Vorteil, robuster gegenüber Modell-Fehlspezifikationen zu sein. Oftmals sind auch nur Ränge beobachtbar oder vertrauenswürdig.

Es bleibt natürlich der Kritikpunkt, dass man bei tatsächlichem Vorliegen eines parametrischen Modells einen Verlust an Trennschärfe in Kauf nehmen muss, also höhere Stichprobenumfänge für gleiche Güte benötigt. Effizienzrechnungen können die zu erwartenden Stichprobenumfangs- erhöhungen quantifizieren.

Zur Vorbereitung sammeln wir Basiswissen zu Rang- und Orderstatistiken. Wir verzichten auf Beweise und verweisen auf §1 und §2 in Janssen (1998) oder andere einschlägige Literatur.

Definition 1.23

Seix = (x₁, . . . , x_n)ein Punkt imRⁿ, diex_i seien paarweise verschieden. Seienx_1:n < x_2:n <

. . . < xn:ndie geordneten Werte derxi.

(a) Für1 ≤i≤nheißtr_i ≡r_i(x) := #{j ∈ {1, . . . , n}: x_j ≤x_i}der Rang vonx_i (inx).

Der Vektorr(x) := (r₁(x), . . . , r_n(x))∈ Snheißt Rangvektor vonx.

(Sn:symmetrische Gruppe)

(b) Die inverse Permutationd(x) := [r(x)]⁻¹heißt der Antirangvektor vonx,d(x) =: (d₁(x), . . . , d_n(x)), die Zahld_i(x)heißt der Antirang voni(Index, der zur i-ten kleinsten Beobachtung gehört)

Seien nunX₁, . . . , X_nmitX_i : Ω_i → Rstochastisch unabhängige, stetig verteilte Zufallsvaria- blen. BezeichnePdie gemeinsame Verteilung von(X1, . . . , Xn).

(c) DaP(S

i6=j{X_i =X_j}) = 0gilt, können wirP-fast sicher eindeutig die folgenden Größen definieren:

X_i:nheißti-te Orderstatistik vonX = (X₁, . . . , X_n),

(22)

R_i(X) :=nFˆ_n(X_i) =r_i(X₁, . . . , X_n)heißt Rang vonX_i, D_i(X) :=d_i(X₁, . . . , X_n)heißt Antirang vonibezüglichXund D(X) :=d(X)heißt Antirangvektor zuX.

Lemma 1.24

Voraussetzungen wir unter Definition 1.23.

(a) i=r_d_i =d_r_i, x_i=x_r_i_:n, x_i:n=x_d_i

(b) SindX1, . . . , Xnaustauschbar (gilt natürlich speziell bei iid.), so ist R(X) :

×

_i=1n ^Ωⁱ^{=: Ω}^{→ S}ⁿ

gleichverteilt aufSn, alsoP(R(X) = (r1, . . . , rn)) = _n!¹ für alleσ = (r1, . . . , rn)∈ Sn. (c) SindU1, . . . , Un iid. mitU1 ∼UNI[0,1], und istXi =F⁻¹(Ui) ∀1 ≤ i≤ n, dann gilt

X_i:n=F⁻¹(U_i:n).

Ist die VerteilungsfunktionF vonX1stetig, so giltR(X) =R(U).

(d) Sind(X1, . . . , Xn)iid. mit VerteilungsfunktionF vonX1, so gilt:

(i) P(X_i:n≤x) =P_n

j=i n j

F(x)^j(1−F(x))ⁿ⁻^j (ii) ^d_d^P_P^Xi:nX1 (x) =n ⁿ_i₋⁻₁¹

F(x)ⁱ⁻¹(1−F(x))ⁿ⁻ⁱ.

BesitztP^X¹ Lebesgue-Dichtef, so besitztP^X^i:nLebesguedichtef_i:n, gegeben durch f_i:n(x) =n

n−1 i−1

F(x)ⁱ⁻¹(1−F(x))ⁿ⁻ⁱf(x) (iii) Seiµ:=P^X¹. Dann besitzt(X_i:n)_i_≤_ndie gemeinsameµⁿ-Dichte

(x₁, . . . , x_n)7→n!1_{x1<x2<...<xn}.

Besitztµdie Lebesguedichtef, so besitzt(X_i:n)₁_≤_i_≤_ndieλⁿ-Dichte (x1, . . . , xn)7→n!

Yn

i=1

f(xi)1_{x1<x2<...<xn}.

Bemerkung 1.25

Lemma 1.24(c) (Quantilstransformation) zeigt die besondere Bedeutung der Verteilung der Or- derstatistiken von iid. UNI[0,1]-verteilten ZufallsvariablenU₁, . . . , U_n.

U_i:n besitzt nach Lemma 1.24(d) eine Beta(i, n−i+ 1)-Verteilung mit E[U_i:n] = _n+1ⁱ und Var(U_i:n) = _(n+1)ⁱ⁽ⁿ⁻2ⁱ⁺¹⁾(n+2).

Für die Berechnung der gemeinsamen Verteilungsfunktion von(U1:n, . . . , Un:n)existieren effizien-

te rekursive Algorithmen, inbesondere die Bolshev-Rekursion und die Steck-Rekursion (Shorack and Wellner (1986), S.362 ff.).

(23)

Satz 1.26

SeienX₁, . . . , X_nreelle iid. Zufallsvariablen mit stetigemµ=P^X¹. SeiX= (X₁, . . . , X_n).

(a) R(X)und(X_i:n)₁_≤_i_≤_nsind stochastisch unabhängig.

(b) SeiT :Rⁿ→ Reine Statistik. Die StatistikT(X)sei integrierbar. Fürσ = (r1, . . . , rn)∈ Sngilt

E

T(X)|R(X) =σ

=E

T((X_r_i_:n)₁_≤_i_≤_n)

Beweis: zu (a): Seienσ = (r₁, . . . , r_n) ∈ Sn undA_i ∈ B(R) für1 ≤ i ≤nbeliebig gewählt.

(d₁, . . . , d_n) :=σ⁻¹. Wir beachten

X_d_i =X_i:n∈A_i⇐⇒X_i ∈A_r_i und R(X) =σ ⇐⇒X_d₁ < X_d₂ < . . . X_d_n. Es seiB := {x ∈Rⁿ : x1 < x2 < . . . < xn}. Dann ergibt sich für die gemeinsame Verteilung von Rängen und Orderstatistiken:

P R(X) =σ, X_i:n∈A_i∀1≤i≤n

=P ∀1≤i≤n: X_d_i ∈A_i,(X_d_i)₁_≤_i_≤_n∈B ,

= Z

×ⁿⁱ⁼¹^Ari

1B(x_d₁, . . . , x_d_n)dµⁿ(x₁, . . . , x_n)

= Z

×ⁿi=1A_ri 1B(x₁, . . . , x_n)dµⁿ(x₁, . . . , x_n), da wegen Austauschbarkeitµⁿinvariant unter der Transformation(x₁, . . . , x_n)7→(x_d₁, . . . , x_d_n) ist. Summiert man über alleσ∈ Sn, so folgt

P X_i:n∈A_i∀1≤i≤n

= Z

×ⁿⁱ⁼¹^Ari

n!1B(x₁, . . . , x_n)dµⁿ(x₁, . . . , x_n).

Wegen Lemma 1.24(b) ist demnach

P R(X) =σ, X_i:n∈A_i∀1≤i≤n

=P R(X) =σ

P ∀1≤i≤n: X_i:n∈A_i . zu (b):

E

T(X)|R(X) =σ

= Z

{R(X)=σ}

T(X) P(R(X) =σ)dP

=E

T((X_r_i_:n)₁_≤_i_≤_n)|R(X) =σ

(∗)

=E

T((Xri:n)1≤i≤n)

( (a)) (∗)gilt, da auf der Menge{R(X) =σ}offenbar die BeziehungX = (X_r_i_:n)ⁿ_i=1gilt.

Nach diesem längeren Exkurs kehren wir zurück zu den Score-Tests.

(24)

Korollar 1.27 (zu Satz 1.22 mit Lemma 1.17)

Sei(P_ϑ)_ϑ_∈_Θ mitΘ ⊆ Reine Familie von im NullpunktL₁(µ)-differenzierbaren Verteilungen (µ dominierendes Maß von(P_ϑ)_ϑ_∈_Θ) mit Score-FunktionL˙ inϑ₀ = 0. SeiX = (X₁, . . . , X_n)nach P_n,ϑ=Nn

i=1P_c

iϑverteilt. Dann besitztP^R

n,ϑdie Score-Funktion σ= (r₁, . . . , r_n)7−→ E_P

n,0

Xⁿ

i=1

c_iL(X˙ _i)|R(X) =σ

= Xn

i=1

c_iE_P

n,0

L(X˙ _i)|R(X) =σ

= Xn

i=1

c_iE_P

n,0

L(X˙ _r_i_:n)

(Satz 1.26(b))

=:

Xn

i=1

c_ia(r_i)

mita(i) =E_P

n,0

L(X˙ _i:n) .

Bemerkung 1.28 (a) Die Gewichtea(i)heißen „Scores“ (entsprechen Punktzahlen in sportli- chen Wettbewerben).

(b) Die nichtparametrische HypotheseH₀aus (1.10) führt unterR(X)zu einer einelementigen Nullhypothese aufSn, nämlich der Gleichverteilung aufSn(siehe Lemma 1.24(b)). Damit können die kritischen Wertec(α)für den resultierenden Rangtest ψ ≡ψ(R(X)), gegeben durch

ψ(x) =











1, falls Pn

i=1c_ia(R_i(x))> c(α), γ, falls Pn

i=1c_ia(R_i(x)) =c(α), 0, falls Pn

i=1cia(Ri(x))< c(α),

(1.12)

durch diskrete Erwartungswertbildung ermittelt werden. Für großesnkannc(α) approxi- miert werden, indem eine Zahl B < n! festgesetzt wird und nur B zufällig ausgewählte Permutationenσ∈ Sntraversiert werden.

(c) Die TeststatistikT ≡T(R(X)) =Pn

i=1c_ia(R_i(X))heißt einfache lineare Rangstatistik.

(d) Für die Scores giltPn

i=1a(i) = 0(zur Übung, einfach).

IstL˙ isoton, so gilta(1)≤a(2)≤. . .≤a(n).

(e) WegenX_i:n =^D F⁻¹(U_i:n)werden die Scores häufig in der Forma(i) =EL˙ ◦F⁻¹(U_i:n) angegeben und man nennt L˙ ◦F⁻¹ Score-erzeugende Funktion. Für große n kann man approximativ mit b(i) := ˙L◦F⁻¹(_n+1ⁱ )(vgl.E

Ui:n

= _n+1¹ aus Bemerkung 1.25) oder

˜b(i) =nR_nⁱ

i−1 n

L˙ ◦F⁻¹(u)dugearbeitet werden.

(25)

Lemma 1.29

SeiT˜eine einfache lineare Rangstatistik von der Form wie in Bemerkung 1.28(c), aber mit allge- meinen deterministischen Scoresa(i). Seic¯:= n⁻¹P_n

i=1c_i und¯a= n⁻¹P_n

i=1a(i). UnterH₀ aus (1.10) gilt dann

ET˜

=n¯ca¯ und Var

T˜

= 1

n−1 Xn

i=1

(c_i−¯c)² Xn

i=1

(a(i)−¯a)².

Beweis: R_i(X)ist gleichverteilt auf{1, . . . , n}, also E

a(R_i(X))

= Xn

i=1

a(i)n⁻¹= ¯a und

ET˜

= Xn

i=1

c_iE

a(R_i(X))

= Xn

i=1

c_i¯a.

AusPn

i=1a(i) =const. folgt (mitR_i :=R_i(X)∀1≤i≤n) 0 =Var

Xn

i=1

a(i)

!

=Var Xn

i=1

a(R_i)

!

= Xn

i=1

Var(a(R_i)) + 2 X

1≤i<j≤n

Cov(a(R_i), a(R_j)).

Wegen Austauschbarkeit istP^Rⁱ^,R^j =P^R^k^,R^lfüri6=j, k6=l. Damit ist 0 =nVar(a(R₁)) +n(n−1)Cov(a(R₁), a(R₂))

⇔ Cov(a(R₁), a(R₂)) =− 1

n−1Var(a(R₁)). Ferner ergibt sich

Var(a(R₁)) =E

(a(R₁)−¯a)²

= Xn

j=1

(a(j)−¯a)² n

und mit weiteren Routinerechnungen die Varianz vonT˜wie angegeben.

Anwendung: Normalapproximation zur Ermittlung kritischer Werte fürψ.

Lemma 1.30

Sei ψ wie in (1.12) lokal bester Rangtest im Modell P_n,ϑ = N_n

i=1P_c

i,ϑ für {ϑ = 0} gegen {ϑ >0}, vgl. Satz 1.20 zusammen mit Lemma 1.17. IstS :R→Reine streng isotone Funktion, so istψlokal optimal fürN_n

i=1P^S

ciϑ.

Beweis: ∀1≤i≤ngiltR_i((S(X₁), . . . , S(X_n))) =R_i(X).