D a s G ru d sc h e m a d e r p a ra m e tr is c h e n S ta - tis tik

(1)

0

NichtparametrischeStatistik:

Resampling-Methodenanhand

einesExperimenteszurHagelabwehr

undanderenBeispielen

WernerStahel,Seminarf¨urStatistik,ETHZ

¨urich

FORMI-Kursf¨urGymnasiallehrer1.September2004,St.Gallen

(2)

1

1Einleitung

1.1

D a s G ru d sc h e m a d e r p a ra m e tr is c h e n S ta - tis tik

aWahrscheinlichkeits-Theorie:Modell.TypischerweiseparametrischeFamilie,z.B.NormalverteilungNhµ,σ 2i.

(3)

2

bStatistik:Br¨uckezwischenModellundDaten.DreiGrundfragenderSchliessendenStatistik

[1.]WelcherWertististf¨urden(jeden)Parameteramplausi-belsten?−→Sch

¨atzung

[2.]IsteinbestimmterWertplausibel?−→Test.

[3.]WelcheWertesindinsgesamtplausibel?−→Vertrauens-oderKonfidenzintervall

(4)

3

1.2

B e is p ie le

aHagelabwehr:GrossversuchIVFrage:Vermindert

mitAgIdieSch ” Impfung”vonGewitterwolken

¨aden?

Methode:RaketenmitAgI,russischeVorschrift

Zielgr¨osse:Sch

Beobachtungseinheit:Wolke ¨adenungeeignet−→Ersatzgr¨osse(Radar-Reflektiv.)

Versuchsplanung:Vergleichvon

” behandelten”und

−→Zuf ” Kontrolle”

GrosseStreuung−→Gewittervon5Jahren ¨alligeZuteilungv.potent.Hagel-TagenzudenGruppen

(5)

4

bAusfallzeitendesAirconditioning-SystemsinBoeing720n=12ZeitenzwischenAusf¨allen(sortiert):

3571843859198100130230487

Daten

Ausfallzeit

Frequency

050100200300400500

0 1 2 3 4 5

log. Daten

log10(Ausfallzeit)

Frequency

0.00.51.01.52.02.53.0

0 1 2 3 4 5

HistogrammderAirconditioning-Daten

(6)

5

cEinfachstesparametrischesModellf¨urAusfallzeiten:Exponential-VerteilungExpmitDichte

fhyi= 1µ e −y/µy>0

Oderallgemeiner:Gamma-VerteilungmitDichte

fhyi= 1Γhκi κµ κe −κy/µy>0,µ>0,κ>0

PassendieseModelle?−→Parametersch¨atzen,Kurveneinzeichnen.

(7)

6

Daten

Ausfallzeit

Frequency

050100200300400500

0 1 2 3 4 5

log. Daten

log10(Ausfallzeit)

Frequency

0.00.51.01.52.02.53.0

0 1 2 3 4 5

HistogrammderAirconditioning-DatenmitDichtenderangepasstenExponential-undGamma-Verteilung

(8)

7 1.2

dModellepassennichtschlecht.AberderDatensatzistklein.Besser:KeineVerteilungvoraussetzen!

Frage:Mittelwert?X=108.1.Etwasspannender:20%gestutztesMittel?=Lassedie20%kleinsten&20%gr

bildeMittelder ¨osstenDatenweg, F ¨ubrigen!

−→(7+18+43+85+91+98+100+130)/8=71.5 ¨urn=12je2Beob.weglassen.

Daf −→SchliessendeStatistik,Vertrauensintervall. ” EineZahlohneGenauigkeitsangabeistwertlos!”

¨urbrauchtmanWahrscheinlichkeitsmodelle!

(9)

8

1.3

P a ra m e tr is c h e & n ic h tp a ra m e tr . S ta tis tik

aWahrscheinlichkeitsmodellwirdgebraucht,umzubeschreiben,was

mitwelcher undbeschreibtunsereVorstellung,wasfürResultatewir Besser:W.modellbesteht,bevorwirdieDatensehen, undmitwelchenChancen”. ” auchnochhätteherauskommenkönnen,

” Plausibilit

¨at”erwarten.

(10)

9

bParametrischeVerteilungsfamilienImBeispiel:Exponential-(oderGamma-)Verteilung,Parameterµ(oder[µ,κ]).Ambekanntesten:Normal-undBinomial-Verteilung.FragestellungmeistmitBezugaufdieParameterformuliert:Sch

0¨atzungvonµ;Vertrauensintervall;Testf¨urNullhyp.µ=µ.

(11)

101.3 cNichtparametrischeStatistikWirwollendieAnnahmeeinerparametr.Familievermeiden.EsbrauchttrotzdemAnnahmen!Esbleibt:Xisindunabh¨angigundgleichverteilt.

Xi∼G,unabh¨angig

−→Fragesoformulieren,dasssief¨urjedesGSinnmacht.Beispiel:Medianistf¨uralleVerteilungendefiniert.EbensoErwartungswert,Varianz,andereQuantileetc.=” Funktional”.

(12)

11

dDasWort

Regressionsfunktionnicht NichtparametrischeRegression: ” nichtparametrisch”wirdauchandersverwendet:

¨uberParameterfestgelegt(

setztmeistNormalverteilungderZufallsfehlervoraus! ” glatt”)

eGrundideedesResampling:DieDatenselberverwenden,umihreVerteilungGzusch¨atzen.

(13)

12 1.4

¨U b e rb lic k

•Simulation(Gew

¨ohnunganNotationundJargon)

•Bootstrap

•Randomisierungstests,inkl.bekanntenichtparametr.Tests

•AusblickaufandereResampling-Verfahren

(14)

13

2Simulation

2.1

Z u fa lls z a h le n

aZur

eineganzeFunktion(W.-Funktion,-Dichteoderkumul.Vt.fn.)! ZurBeschreibungeiner(Zufalls-)Zahlbrauchenwir DieWahrscheinlichkeitliefertkomplexeModelle: Vert. ¨uckzumparametr.Wahrscheinlichkeitsmodell,Bsp.Exponential-

AndereanschaulicheVorstellung:ModelllegtM

−→Anschauungf¨urexperimentelldenkendeLeute. ihmentsprechendeZufallszahlenzuziehen. ¨oglichkeitfest,

(15)

14

bZufallszahlen-GeneratorenerzeugenZahlenzi,diederuniformenVerteilungentsprechen.Ausihnenerh¨altmanZufallszahlenmitbeliebiger,geg.Vt.FKumulativeVerteilungsfunktionF,inverseF −1

xi=F −1hziisindZufallszahlenentsprechendderVt.F.

(16)

15

050100150200

0.0 0.5 1.0

x z

z3

x3

SimulationvonstetigenZufallsvariablen:10Zufallszahlenxiwerdenausuniformverteiltenziberechnet.

(17)

162.1

cAufgabeDieDichtederExponential-Verteilungistgegebendurch

fhxi= 1σ e −x/σ,x>0

WiemussmaneponentialverteilteZufallszahlenausuniformverteiltenberechnen?

(18)

17

2.2

V e rt e ilu n g e in e r S c h

¨a tz u n g

aModellf¨ureineStichprobe:

•nunabh¨angige,identischverteilteZufallsvariableXi.nochabstrakter!

•nZufallszahlenzusammenfassen.

AusjenZufallszahlendenWertThx1,x2,...,xniberechnen.nrepMal−→

” Stichprobe”derVerteilungvonT

VerteilungeinerSch

¨atzungsimulieren.

von12exponential-verteiltenBeobachtungen Beispiel:20%gestutztesMitteleinerStichpobe ” Ersetzt”dieW.rechnung!

(19)

18

gest. Mittelwerte

Density

20406080100

0.000 0.010 0.020 0.030

gest. Mittel der Vert.Mittel der sim.Vt.

SimulierteVerteilungdes20%gestutztenMittelsvon12exponential-verteiltenBeobachtungenmitσ=50

(20)

192.2 bDasistderGrund-BausteinderStatistik!GegebenistdieVt.derBeobachtungen:StichprobeXi∼G,unabh¨angig.GesuchtistdieVerteilungLeinerFunktionThX1,...,XniderBeobachtungen.

TtypischerweiseSch

DieVt.h¨angtvonTundGab, ¨atzungeinesParametersoderTest-Statistik.

Xi∼G,unabh¨angig=⇒ThX1,...,Xni∼LhT,Gi

BeispielT=gest.Mittel,G=Exphσi,σ=50.

(21)

202.2

cSchwierigkeit:Zus

¨atzlicheWirkungdesZufalls−→Verwirrung!

•EssenziellerZufall:Modellf¨urdieDatenUnsicherheitendurchModell&Stichprobenumf.bestimmt.

•TechnischerZufall:SimulationUnsicherheitendurchbeschr¨ankteZahlnrepbestimmt−→GenauigkeitkannmitmehrComputer-Aufwandbeliebigerh¨ohtwerden.

(22)

21

dSimulierterTest:SimulationderVt.des20%gest.MittelsunterderNullhypotheseσ=50gest.Mittel(Daten)=71.5−→Ablehnung.

(23)

22

gest. Mittelwerte

Density

20406080100

0.000 0.010 0.020 0.030

gest. Mittel der Vert.Mittel der sim.Vt.gest. Mittel der Daten

eins.P−Wert = 0.0243

Simul.Verteilungdes20%gestutztenMittelsmitbeob.WertundP-Wert

(24)

232.2

eAufgabeDerP-Wertf¨ureinenTestwurdeausnrep=1000Simulations-Replikatenalsp=0.02berechnet.

(a)Wiegenauistdas?

(b)Mussmannreperh¨ohen?

−→BestimmungderAnzahln¨otigerReplikateh¨angtnichtvomspezifischenTest-Problemab!

(25)

24 2.2

fTheoretischeUntersuchungen

EigenschaftenvonT?

•Verteilungdesgesch¨atztengestutztenMittelsistschief!

•Tsolltedas20%gestutzteMittelderVt.Gsch¨atzen.Nichterwartungstreu.

EigenschafteneinesTests(Test-StatistikundVerw.bereich):

•WahresNiveau=W.desFehlersersterArt.SimulationunterNullhyp.−→H

¨aufigk.derVerwerfung.

•Macht=W.desVerwerfensunter(best.)Alternative.

Simulationwirdverwendet,wennneuestatistischeMethodenbegr¨undetwerdensollen.

(26)

25 2.2

gAnwendungf¨urgrafischeMethodenderDatenanalyseQuantil-Quantil-Diagramme:VergleichvonempirischerVerteilung(Daten)mitModell-VerteilungKumulativeVerteilungsfunktion,empirischundtheoretischUmkehrfunktion=Quantilfunktion,empirischundtheoretischEmpirischeQuantilesollten≈theoretischeseinDiagramm:EmpirischeQuantilevs.theoretische=QQ-Diagramm

Oftben

AbwannsindAbweichungenernstzunehmen? ¨utztf¨urResiduen-AnalyseinderRegression.

Simuliere19QQ-PlotsentsprechenddemModell!IstQQ-PlotderDatenauff

¨alliggegen¨uberdiesen19simulierten?

(27)

26

MerkpunkteSimulation

•SimulationkannWahrscheinlichkeitsrechnungersetzen.−→SpielerischerUmgangmitWahrscheinlichkeit.

•Schwierigkeit:Zus

¨atzlicheWirkungdesZufalls

QuadArrowVerwirrung!

•1.AnwendunginderStatistik:

derEigenschaftenvonstatistischenVerfahren. ” MonteCarlo”-Untersuchungen

•2.Anwendung:

” Kalibrierung”f¨urgrafischeDatenanalyse.

(28)

27

3Bootstrap

3.1

D ie g ru n d le g e n d e Id e e

aDiegrundlegendeAufgabewar,f¨ureinbest.T(gest.Mittel)dieVerteilungLhT,Gizubestimmen.

Anschaulichformuliert:Ichhabef¨urdievorliegendenDatenT=terhalten.WieunsicheristdieserWert?−→VerteilungvonT–unterwelcherVerteilungGderXi?

(29)

28

•LetztesKapitel:GausparametrischerFamilieG=Fθ.–Welchesθ?Naheliegend:θausdenDatensch¨atzen= bθ,G=Fbθ .−→Simulationuntergesch¨atzterparametrischerVert.NeuerName:

” ParametrischerBootstrap”.

•

InhaltdiesesKapitels. G=empirischeVerteilungderDaten ” NichtparametrischerBootstrap:”

(30)

293.1

bSchliessendeStatistikohneModell?

•Xi∼G,unabh¨angig(=Zufalls-Stichprobe)

•Ohnezus¨atzlicheStrukturkeinesinnvollenFragen;diesebrauchenAlternativen.

cStichprobeben

töntnachM ützen,umihreVerteilungzuschätzen,

−→Verfahrenbew Eigenschaftenuntersuchen,wief¨urjedesanderestat.Verfahren ¨unchhausen.

¨ahrensichf¨urviele(nichtalle!)Probleme.

(31)

30

3.2

N ic h tp a ra m e tr is c h e r B o o ts tr a p k o n k re t

aEmpirischeVerteilung,bezeichnetals bG,istdefiniertdurchPhX ∗=xii=1/nf¨urjedesxiausderbeob.Stichprobesonst=0.InseltenenF

Meistensgeh¨ortzumnicht-parametr.BootstrapdieSimulation ¨allenkannmanLhT;Gianalytischbestimmen. b

bSimulationgem

empirischeVerteilungsfunktionG=Treppenfunktion. b GisteinediskreteVerteilung,charakterisiertdurch b ¨assderempirischenVerteilung

SimulationvonZufalls-Stichproben[X ∗1 ,...,X ∗n ]?So,wieallgemeinf¨urdiskreteVerteilungen.

(32)

31

0100200300400500600

0 1

x z

z6

x6

SimulationvonZufallszahlengem

¨assG b

(33)

32 3.2

cF

mitZur i¨uhrtzu:ZiehenvonnWertenausdengeg.nWertenx

Resultat: ¨ucklegen.

•Bootstrap-Stichprobeenth

derbeobachtetenStichprobe. ¨altnurWerte

•EinigeWertekommennichtvor,einige1,2,3...Mal

dAufgabe:WiegrosssinddieWahrscheinlichkeitendaf¨ur?W.,dassdergr

¨ossteWertderStichprobeimbootstrap-sample

•nicht

•1,2,3...Malvorkommt?

(34)

33 3.2

eName

Wennanalyt.L ” Resampling”:WiederverwertungderStichprobe.

¨osungm

aber (BootstrapverwendetzwardieDatenwieder, ¨oglichist,istderBegriffirref¨uhrend!

” sample-t”nicht.)

fWeitergeht’swievorher:

•ErzeugenrepStichproben[X ∗r1 ,...,X ∗rn ],r=1,...,nrep,

•RechnediesimuliertenWertevonTaus:

t (r)=ThX ∗r1 ,...,X ∗rn i

−→(simulierte)Bootstrap-VerteilungvonT.nrepmeistenszwischen500und10000.

(35)

34 3.2

gBootstrap-Vt.f¨urdasBeispiel

gest. Mittel

Density

050100150200250

0.000 0.005 0.010 0.015

gest. Mittel der Daten

Bootstrap-VerteilungdesgestutzenMittelsf¨urdieAircondition-Daten

(36)

35

3.3

B o o ts tr a p -T e st s u n d -V e rt ra u e n si n te rv a lle

aGrundgedankedesstatistischenTests:VorgegebenesModellF0mitDatenvergleichen:Diskrepanzakzeptabeloderzugross?Vert.unterModellbestimmtAnnahmebereichf¨urDaten.

NichtparametrischerBootstrap:Modell

ohneeineparametrischeFamiliezuverwenden? WiekommenwirzueinemModell,dasderNullhyp.entspricht, −→PrinzipielleSchwierigkeit: ” gleich”Daten.

Schonbesprochen:UmeinesinnvollestatistischeUnsicherheitzubestimmen,m

¨ussenwiralternativeModellezuGeinbeziehen.

(37)

36 3.3

bVertrauensintervalleInvielenklassischenAnwendungenhabenVertrauensintervalledieFormbθ±qse (θ),se (θ)=Standardfehlervonθ

qQuantileinert-VerteilungoderNormalverteilung,alsoq≈2.Standardfehlervonθ=StandardabweichungderVt.vonθ.DieVerteilunghabenwirbestimmt(Bootstrap-Verteilung).−→VerwendeSt.dev.derBootstrap-Verteilungalsse (θ).

” Bootstrapnormalconfidenceinterval”

Problemgel¨ost!???

(38)

373.3

cDieseFormstimmt(approx.),wenngilt:Wennsichθver¨andert,verschiebtsichdieVerteilungvonT,

sichnurverschiebt. iNormalerweisekommtdasdavon,dassauchdieVert.derX ¨andertaberihreFormundStreuungnicht(stark).

Stimmtnichtz.B.f.Binomial-Vt.Xi∼Bhn,pi,Korrelation,...

(39)

38

EineVariantegiltf¨urExponential-Vert.:Vert.wirdskaliertstattverschoben.Log-Transformation−→VerschiebungAllgemeiner:NachgeeigneterTransformationderTest-StatistikkanndieVerteilungdie” Verschiebungs-Eigenschaft”(approx.)erhalten.

dFallsBootstrap-Vt.normalist(pr¨ufenmitQQ-Plot),dannist bθ±2·Bootstrap-se (θ)meistensgut.(Varianzstabil?)

(40)

39 3.3

eGrundlegendesVerschiebungs-Beispiel

•BeobachtungenXilassensichschreibenals

Xi=θ+Zi,Zi∼G0−→

” Lokations-Familie”

•Tisteine

” translations-¨aquivariante”Funktion

Thθ+Z1,Z2,...,Zni=θ+ThZ1,Z2,...,Zni

•Tsch¨atztθimSinnevon

EhThZ1,Z2,...,Znii=0Dann...kommtmanansZiel–wennmandieFallstrickebeachtet!

(41)

40 3.3

fFallsBootstrap-Vt.schief–wastun?WirhabendieganzeVerteilung,k¨onnenQuantilebestimmen−→bq (θ)0.025 undbq (θ)0.975 liefernGenzendesVertrauensintervalls.

” Bootstrappercentileconfidenceinterval”

Wirklich???–Dasw

wennNullhypotheseθ=θgepr b ¨arenGrenzendesAnnahmebereichs,

¨uftwerdenm

0.0250.975 00θ−(θ−bq),θ+(bq−θ) bb (θ)(θ) Verschiebungs-Prinzip:Annahmebereich ¨usste!(!)

Vertrauensintervall-Grenzendefiniertdurch:

•untereGrenze:θ0so,dass bθ=obereGrenzedesAnnahmebereichs.

•obereGrenze:θ1so,dass bθ=untereGrenzedesA.

(42)

41

Vertrauensintervall:bθ−(bq (θ)0.975 − bθ), bθ+( bθ−bq (θ)0.025 )

−→Abw.desoberenQuantilsvon bθnachuntenabtragenundumgekehrt!

” Bootstrapstandardconfidenceinterval”

gHinweis:WenndieBootstrap-Verteilungschiefist,h¨angtihreStreuungoftvonθab.−→Transformationvonθ(undT),Vertrauensintervallbestimmen,zur¨ucktransformieren.

(43)

423.3

hBeispielExponential-VerteilungBootstrap-Verteilungschief.Streuungproportionalzuσ(Plausibilit

−→Verschiebungs-Eigenschaft Skalen-ParameterσwirdzuLokations-Par.θ=−loghσi −→Log-Transformation:machtExponential-Vt.zuGumbel=Vt. ¨atsbetrachtung!)

(44)

43

log10(gest. Mittel)

Density

1.01.21.41.61.82.02.22.4

0.0 0.5 1.0 1.5 2.0 2.5

gest. Mittel der Daten

Annahmebereich

Bootstrap-VerteilungvonloghTimit

” Annahmebereich”

(45)

44

log10(gest. Mittel)

Density

1.41.61.82.02.22.42.62.83.03.2

0.0 0.5 1.0 1.5 2.0 2.5

log10(T)

Vertrauensintervall

gest. Mittel

Density

01002003004005006007008009001000

0.000 0.001 0.002 0.003 0.004 0.005

T

Vertrauensintervall

Bootstrap-Verteilung,verschobenaufdieGrenzendesVertrauensintervallsf¨urloghTiundzur¨ucktransformiert

(46)

45 3.3

iDieseIdee,allgemeinerformuliert:

TseieineSch

¨atzungvonθ=ThGi.

Idealerweiseh¨angtdieVerteilungvonT−θnichtvonθab.Giltz.B.f¨urSch

¨atzungdesParameterseinerLokations-Familie.

F¨ur

dieBinomial-VerteilungX∼Bhn,πiist

T=X/nSch

−→nichtausderBreitefürπ=Tzuschätzen! alsfürobereGrenze,fallsπ<0.5. Annahmebereichf.untereGrenzedesVertrauensint.schmaler also:VarianzhängtvonParameterab. Vert.vonT−πhatErwartungswert0undVarianzπ(1−π)/n. ätzungvonπ.

(47)

46

Verbesserung:SucheTransformationghθi,sodass

varhghTiinichtvonθabh¨angt.=” varianzstabilisierendeTransf.”.(F

¨urBinomial-Verteilung:Arc-Sin-Transformationghπi=arcsin

−→R BestimmeVertrauensintervallf¨urghπi=Bootstrap-Vi.ausghTi h √πi)

¨ucktransformation.

(48)

47 3.3

jSt¨or-ParameterBeidenmeistenFragestellungengibtesSt¨or-Parameter.

Xi∼Nhµ,σ 2i,µvonInteresse,σSt¨or-Parameter.−→Student’st-Teststattz-Test,

” Studentisieren”.

Daslohntsichauchf¨urdieBootstrap-Version.

Idee:eT= T−θbse mitse=bσ/ √nhateineVerteilung,dienichtvondenParameternabh¨angt–fallsXi∼Lokations-Skalen-Familie,z.B.Nhµ,σ 2i.DieVerteilungvon eTeignetsichbesserzumBootstrappenalsdieVerteilungvonT.

(49)

483.3

kKonkret:

•BerechneBootstrap-Vt.von[T,se]unddaraus eT.

•BildeBootstrap-Annahmebereichf¨ur eTQuantilederB-Vt.−→[ et0, et1]

•−→Vertrauensintervallf¨urθ:

[ bθ−bse· et1, bθ−bse· et0]

(50)

49

MerkpunkteBootstrap

•DerBootstrapliefertohneAnnahmen

(Bedingungenandie –Vertrauensintervall –insbesondereErwartungswert,VarianzundQuantile –VerteilungvonT undf¨urbeliebigkomplizierteFunktionenTderBeob. dieFormderVert.derBeobachtungen ¨uber

” Glattheit”vonTwerdengebraucht!)

•Eslohntsich,Parameterθ&Sch

dassdieVerteilungvonT−θm sozutransformieren, ¨atzungT

fürdasBootstrappenzuben einestandardisierteGrösseT e vonθabhängt,oder öglichstwenig derenVerteilungm ützen,

¨oglichstwenigvonθabh¨angt.

(51)

50

4Randomisierungs-Tests

4.1

E in f¨u h re n d e s B e is p ie l

aHagel-Experiment:(

Verringertdas ” GrossversuchIV”imNapfgebiet1978-1983)

mitSilberiodiddieHagelenergie? ” Impfen”vonpotenziellenHagelwolken

Zielgr¨osse:Hagelenergie,gemessenf¨urnWolkenZweiGruppen:ca.n/2

” geimpft”,Rest

” Kontrolle”.

Yi:HagelenergiederWolkei Gi= n1fallsWolkeigeimpft,0sonst.Hoffnung:YimitGi=1fallentendenziellniedrigeraus.

(52)

514.1

bBeobachtet:

Yi=y ∗i 166722585501520461219Gi=g ∗i 11000110

g ∗i :ZufallsauswahlderzuimpfendenWolken.(InWirklichkeit216Wolken;davonwurden94geimpft.) StatistischerTest!H0:KeineWirkung.(−→Widerspruchsbeweis!)UngepaarterZwei-Stichproben-Problem.−→t-Test?KeineAnnahmen

i¨uberdieVerteilungderY!!

(53)

52 4.2

S ta tis tis c h e ¨U b e rle g u n g

aNullhypothese=Wahrscheinlichkeitsmodell.Üblich:VerteilungfürYi;Gi=g ∗i festvorgegeben.Randomisierungstests:Gizufällig;Yi=y ∗i alsfestbetrachtet(Analyse

” bi edingtaufdiey”.) ∗

FallsdasImpfenkeinenEinflussaufdieHagelenergiehat,w

entspr.irgendeineranderenAuswahlgeimpftwordenw wenndieWolkenentspr.~g=[0,1,0,0,1,1,0,1]oder (1) i ¨urdenwirdiegenaugleichenWerteyerhalten, ∗

¨aren.

(54)

53

Zufallsauswahl:JedeAuswahlvonn/2=4Elementenausn=8hatgleicheWahrscheinlichkeit

p= 8

4 −1= 1

70DamitistdieNullhypothesefestgelegt.

(55)

544.2

bTeststatistik:SollextremeWerteannehmen,wennAlternativegilt.Alternative:y ∗i mitg ∗i =1sindtendenziellkleiner.

Th~g,~y ∗i= 1n/2 X

i:gi=0 y ∗i − 1n/2 Xⁱ^:^g

i=1 y ∗i = 2n X_i y ∗i (1−2gi).

cWieistTunterderNullhypotheseverteilt?

y ∗1 ,...,y ∗n gegeben−→≤ nn/2 m

¨oglicheWertef¨urT.

PhTh ~G,~y ∗i=ti= #{~g|Th~g,~y ∗i=t}nn/2

” Randomisierungs-Verteilung”

(56)

55

t

Wahrscheinlichkeit

−5000−3000−1000100030005000

0 / 70 5 / 70 10 / 70 15 / 70 20 / 70

Randomisierungs−Verteilung

t 3600380040004200440046004800

0 / 70 2 / 70 4 / 70 6 / 70 8 / 70

Randomisierungs−Vert., rechter Teil

(57)

564.2

dVerwerfungsbereich:α=5%extremsteWerte(sogenaualsm

Beispiel:{t|t≥4643.25}(einseitig). ¨oglich).

eExperiment:

Th~g ∗,~y ∗i= 14 (855+0+152+1219)− 14 (16672+25+0+46)=−3629.25EffektindieunerwarteteRichtung!Nullhypothesenichtverworfen;Effektnichtnachgewiesen.(AuchnichtinumgekehrterRichtung.)

(58)

574.2

f

*

VoraussetzungdesTests:Unabh

−→Randomisierung ¨angigkeit

¨uber76

” potentielleHageltage”

Davon33alsImpftageausgew

Eingeschr −→AnalysebedingtaufAnzahlHageltagemitImpfung. ¨ahlt.AnzahlImpftagezuf¨allig.

¨ankteRandomisierung.

g 7633 =36·10 20m

−→SimulationderRandomisierungs-Verteilung. ¨oglicheAuswahlen

(59)

58

4.3

T e st s f¨u r d a s Z w e i-S tic h p ro b e n -P ro b le m

aRandomisierungstestssindauchdannanwendbar,wenndieDurchf¨uhrungdesVersuchskeinenRandomisierungsschrittenth

¨alt.

Voraussetzungen,diedanngeltenm

•DieBeobachtungenm ¨ussen:

•unabh¨angigsein. 0¨ussenunterHgleichverteiltund

Dannstimmtdiegew

DieRandomisierungstestsbildenindiesemSinneden ¨ahlteIrrtumswahrscheinlichkeitαexakt.

” Goldstandard”unterdenstatistischenTests.

(

*

Schw

¨achereVoraussetzung:

” Austauschbarkeit”.)

(60)

594.3

bWennBeobachtungenzuf¨allig:Stichprobe[Y1,...,Yn]−→geordneteSt.Y[1] ,...,Y[n]oderempirischeVerteilungsfunktion bFn(s.Bootstrap)

Vert.derTeststatistik,bedingtauf bFn,=Randomisierungs-Vt.

BedingteW.einesFehlersersterArt,gegeben bFn,=α—f¨urjedeBedingung bFn,unddeshalbauchohneBedingung.

(61)

604.3

cBeliebigeTeststatistik.DifferenzderMittelwerteunrobust.

OptimaleTeststatistik?−→Machtf¨urdieAlternative(n)opt.!BrauchtbestimmteVerteilung(s-Familie)−→optimaleTeststatistik(Likelihood-Ratio-Test)

dBeispiel:Logarithmus-Transformation,dannMittelwertsdifferenz(robustifiziert).

(62)

61

t l

Wahrscheinlichkeit

−2.5−1.5−0.50.51.01.52.02.5

0 / 70 5 / 70 10 / 70

Rand.Vert. für log. Werte

010203040506070

0 10 20 30 40 50 60 70

Rang(tg)

Rang(^tg l)

g

Vergleich der Test−Statistiken

Randomisierungs-Verteilungf¨urdieMittelwerts-Differenzvonlogarithmier-tenDatenimBeispiel(links)undVergleichderRangordnungdereinzelnenRandomisierungen(rechts).

(63)

624.3

eRobustheit.WiesoeinerobusteTeststatistikverwenden,wennderTestauchohnediese

scheinlichkeitgenaueinh¨alt? ” Vorsichtsmassnahme”dieIrrtumswahr-

fRangsummentestvonWilcoxon,MannundWhitney(U-Test),

Th~g,~yi= X

gi=1 Ri= X

i giRi,

Rechtrobust−→TestderWahlf¨urdas2-Stichpr.-ProblemVerteilungderTeststatistikunterH0wiegehabt.

g

*

Hagel-Experiment:KomplizierteTeststatistik,zweidimensional−→zweidim.Verwerfungsbereich.

(64)

63

4.4

E in e S tic h p ro b e o d e r z w e i v e rb u n d e n e

aBeispielTranquilizer.Zielgr¨osse:

9Patienten,vorundnachAnwendungdesTranqulizers. ” HamiltondepressionscalefactorIV”.

vorher(X (1)i )1.830.501.622.481.681.881.553.061.30nachher(X (2)i )0.8780.6470.5982.051.061.291.063.141.29 Abnahme(−Yi)0.952-0.1471.0220.430.620.590.49-0.080.01

(65)

64

bVerbundeneStichproben.DifferenzenYi=X (2)i −X (1)i symmetrischum0verteilt?

H0:F

i¨urjedesYist+und–-Vorzeichengleichwahrscheinlich.

Gi=Vorzeichen,|Yi|=” Yi”imZwei-Stichproben-Problem.F

istW.=1/2. n 1n¨urjedeVorzeichen-Konstellation~g=[g,...,g] (ℓ)(ℓ)(ℓ)

(66)

654.4

cTeststatistikTh~g,~zifestlegen,

gi=+1oder=−1,zi>0.Rand.-Vert.PhTh ~G,~zi=ti=#{~g|Th~g,~zi=t}/2 n

•Th~g,~zi=(1/n) Pi gizi=aveihyiientsprichtdemt-Testf¨urgepaarteStichproben.

•Th~g,~zi=#{i:gi=1}:Vorzeichentest.

•Th~g,~zi= Pi:gi=1 Ri,Ri:Rangvonzi:Vorzeichen-Rangsummen-TestvonWilcoxon.

(67)

66 4.4

eBeispiel:

>wilcox.test(d.tranquilizer[,1],d.tranquilizer[,2],paired=TRUE)Wilcoxonsignedranktestdata:d.tranquilizer[,1]andd.tranquilizer[,2]V=40,p-value=0.03906alternativehypothesis:truemuisnotequalto0knappsignifikant.

Achtung:

Richtig:VergleichmitKontrollgruppeoderCrossover-Versuch. ” Vorher-Nachher-Vergleich”!

(68)

67

4.5

S c h

¨a tz u n g e n u n d V e rt ra u e n si n te rv a lle

aModell:Testfragewar:IstVerteilungsymmetrischum0?AllgemeineresModell:Verteilungsymmetrischumµ⇔Yi−µsymmetrischum0.

Test:TeststatistikTh~g,~y−µ ~1i.GrosseWerte=AbweichungvonH0:µ.

bDarausergibtsicheineSch

¨atzung:

bµ=argminµ hTh~g,~y−µ ~1ii

(69)

684.5

cVorzeichen-Rangsummen-Test−→Hodges-Lehmann-Sch

hiBetrachteWalshaverages(X+X)/2. ¨atzer.

bµ=medh≤ih(Xh+Xi)/2i.

BeispielTranquilizer:45Walsh-Mittelwerte-0.1470,-0.1135,-0.0800,-0.0685,-0.0350,0.0100,...,1.022Medianbµ=0.46

(70)

694.5

d

*

Herleitung:X[k] k-t-kleinsterWert.

X[k] >0,Zhk=(X[h] +X[k] )/2,h<k Zhk <0,wenn|X[h] |>|X[k] |.

#{Zhk<0}=#{h||X[h] |<|X[k] |}=R[k] −1 R[k] =#{h|Zhk>0,h≤k}.

X[k] <0=⇒Zhk <0,wennh<k.

Th~g,~zi= Pi:gi=1 Ri=#{[h,k]|Zhk>0,h≤k}

(71)

70

Nullhypotheseµ=µ0:

Th~g,~zi= Pi:gi=1 Ri=#{[h,k]|Zhk >µ0,h≤k}

Testamwenigstensignifikant,wenndies= n(n+1)2 ist−→bµ=medianhZhk|h≤ki.

(72)

714.5

fVertrauensintervallf¨urVorzeichen-Rangsummen-Test:

GrenzendesAnn.bereichsvonT:cundc ′=n(n+1)/2+1−cVertrauensgrenzen=c-terundc ′-terWalsh-Mittelwert.

BeispielTranquilizer:c=6,c ′=40,Vertrauensintervall[0.01,0.786].

hAllgemeineTeststatistikTh ~G,~z ∗;µi:Betrachte

Qhβi=PhTh ~G,~z ∗;µi>Th~g ∗,~z ∗;µii−β

Sch

L Vertrauensgrenzen=Nullstellenfürβ=0.025undβ=0.975. ätzung=Nullstellefürβ=0.5.

¨osbar!

(73)

72

4.6

M e h re re S tic h p ro b e n

aEinfacheVarianzanalyse.Randomisierung=Zugeh

AnzahlderBeobachtungeninjederGruppefest. ¨origkeitderBeob.zudenGruppen.

R¨an

geRideryiunterallenBeobachtungen.

h Abweichungsquadrate(R−(n+1)/2),gew.Mittel 2 ” Gihg=hhiruppensummen”R=aveR.EhRi=(n+1)/2.

Th~g,~yi= 12n(n+1) X

h nh Rh − n+1

2 2

Kruskal-Wallis-Test.2Stichproben−→U-Test.

(74)

734.6

bMehrereverbundeneStichproben=einfacherBlockversuch.

nBl¨ocke,mBedingungen.Randomisierungen?

cBeispielsaureB

¨oden

PositionBlock123456714.095.915.405.135.435.875.2123.904.074.344.134.394.323.2935.276.265.725.695.705.363.5044.534.304.864.615.035.403.95

(75)

74

Position

pH

1234567

3.5 4.5 5.5

BeispielsaureB

¨oden

(76)

75 Friedman-Test.Rij=RangderBeobachtungjimBlocki.eRj=aveihRijimittlererRangder

” Stichprobe”j.

T= 12nm(m+1) Xmj=1 ( eRj−(m+1)/2) 2.

d

(77)

76PositionBlock123456711742563223647513276453143254671Summe819211423216Mittel24.755.253.55.755.251.5

(78)

77

>friedman.test(t.dt)

Friedmanranksumtest

data:t.dt

Friedmanchi-squared=14.8,df=6,

p-value=0.02199

(79)

784.6

eVarianzanalyse

>summary(aov(pH~trans+pos,data=t.d))

DfSumSqMeanSqFvaluePr(>F)

trans10.120.120.170.68

pos10.180.180.270.61

Residuals2516.570.66