0
NichtparametrischeStatistik:
Resampling-Methodenanhand
einesExperimenteszurHagelabwehr
undanderenBeispielen
WernerStahel,Seminarf¨urStatistik,ETHZ
¨urich
FORMI-Kursf¨urGymnasiallehrer1.September2004,St.Gallen
1
1Einleitung
1.1
D a s G ru d sc h e m a d e r p a ra m e tr is c h e n S ta - tis tik
aWahrscheinlichkeits-Theorie:Modell.TypischerweiseparametrischeFamilie,z.B.NormalverteilungNhµ,σ 2i.
2
bStatistik:Br¨uckezwischenModellundDaten.DreiGrundfragenderSchliessendenStatistik
[1.]WelcherWertististf¨urden(jeden)Parameteramplausi-belsten?−→Sch
¨atzung
[2.]IsteinbestimmterWertplausibel?−→Test.
[3.]WelcheWertesindinsgesamtplausibel?−→Vertrauens-oderKonfidenzintervall
3
1.2
B e is p ie le
aHagelabwehr:GrossversuchIVFrage:Vermindert
mitAgIdieSch ” Impfung”vonGewitterwolken
¨aden?
Methode:RaketenmitAgI,russischeVorschrift
Zielgr¨osse:Sch
Beobachtungseinheit:Wolke ¨adenungeeignet−→Ersatzgr¨osse(Radar-Reflektiv.)
Versuchsplanung:Vergleichvon
” behandelten”und
−→Zuf ” Kontrolle”
GrosseStreuung−→Gewittervon5Jahren ¨alligeZuteilungv.potent.Hagel-TagenzudenGruppen
4
bAusfallzeitendesAirconditioning-SystemsinBoeing720n=12ZeitenzwischenAusf¨allen(sortiert):
3571843859198100130230487
Daten
Ausfallzeit
Frequency
050100200300400500
0 1 2 3 4 5
log. Daten
log10(Ausfallzeit)
Frequency
0.00.51.01.52.02.53.0
0 1 2 3 4 5
HistogrammderAirconditioning-Daten
5
cEinfachstesparametrischesModellf¨urAusfallzeiten:Exponential-VerteilungExpmitDichte
fhyi= 1µ e −y/µy>0
Oderallgemeiner:Gamma-VerteilungmitDichte
fhyi= 1Γhκi κµ κe −κy/µy>0,µ>0,κ>0
PassendieseModelle?−→Parametersch¨atzen,Kurveneinzeichnen.
6
Daten
Ausfallzeit
Frequency
050100200300400500
0 1 2 3 4 5
log. Daten
log10(Ausfallzeit)
Frequency
0.00.51.01.52.02.53.0
0 1 2 3 4 5
HistogrammderAirconditioning-DatenmitDichtenderangepasstenExponential-undGamma-Verteilung
7 1.2
dModellepassennichtschlecht.AberderDatensatzistklein.Besser:KeineVerteilungvoraussetzen!
Frage:Mittelwert?X=108.1.Etwasspannender:20%gestutztesMittel?=Lassedie20%kleinsten&20%gr
bildeMittelder ¨osstenDatenweg, F ¨ubrigen!
−→(7+18+43+85+91+98+100+130)/8=71.5 ¨urn=12je2Beob.weglassen.
Daf −→SchliessendeStatistik,Vertrauensintervall. ” EineZahlohneGenauigkeitsangabeistwertlos!”
¨urbrauchtmanWahrscheinlichkeitsmodelle!
8
1.3
P a ra m e tr is c h e & n ic h tp a ra m e tr . S ta tis tik
aWahrscheinlichkeitsmodellwirdgebraucht,umzubeschreiben,was
mitwelcher undbeschreibtunsereVorstellung,wasf¨urResultatewir Besser:W.modellbesteht,bevorwirdieDatensehen, undmitwelchenChancen”. ” auchnochh¨atteherauskommenk¨onnen,
” Plausibilit
¨at”erwarten.
9
bParametrischeVerteilungsfamilienImBeispiel:Exponential-(oderGamma-)Verteilung,Parameterµ(oder[µ,κ]).Ambekanntesten:Normal-undBinomial-Verteilung.FragestellungmeistmitBezugaufdieParameterformuliert:Sch
0¨atzungvonµ;Vertrauensintervall;Testf¨urNullhyp.µ=µ.
101.3 cNichtparametrischeStatistikWirwollendieAnnahmeeinerparametr.Familievermeiden.EsbrauchttrotzdemAnnahmen!Esbleibt:Xisindunabh¨angigundgleichverteilt.
Xi∼G,unabh¨angig
−→Fragesoformulieren,dasssief¨urjedesGSinnmacht.Beispiel:Medianistf¨uralleVerteilungendefiniert.EbensoErwartungswert,Varianz,andereQuantileetc.=” Funktional”.
11
dDasWort
Regressionsfunktionnicht NichtparametrischeRegression: ” nichtparametrisch”wirdauchandersverwendet:
¨uberParameterfestgelegt(
setztmeistNormalverteilungderZufallsfehlervoraus! ” glatt”)
eGrundideedesResampling:DieDatenselberverwenden,umihreVerteilungGzusch¨atzen.
12 1.4
¨U b e rb lic k
•Simulation(Gew
¨ohnunganNotationundJargon)
•Bootstrap
•Randomisierungstests,inkl.bekanntenichtparametr.Tests
•AusblickaufandereResampling-Verfahren
13
2Simulation
2.1
Z u fa lls z a h le n
aZur
eineganzeFunktion(W.-Funktion,-Dichteoderkumul.Vt.fn.)! ZurBeschreibungeiner(Zufalls-)Zahlbrauchenwir DieWahrscheinlichkeitliefertkomplexeModelle: Vert. ¨uckzumparametr.Wahrscheinlichkeitsmodell,Bsp.Exponential-
AndereanschaulicheVorstellung:ModelllegtM
−→Anschauungf¨urexperimentelldenkendeLeute. ihmentsprechendeZufallszahlenzuziehen. ¨oglichkeitfest,
14
bZufallszahlen-GeneratorenerzeugenZahlenzi,diederuniformenVerteilungentsprechen.Ausihnenerh¨altmanZufallszahlenmitbeliebiger,geg.Vt.FKumulativeVerteilungsfunktionF,inverseF −1
xi=F −1hziisindZufallszahlenentsprechendderVt.F.
15
050100150200
0.0 0.5 1.0
x z
z3
x3
SimulationvonstetigenZufallsvariablen:10Zufallszahlenxiwerdenausuniformverteiltenziberechnet.
162.1
cAufgabeDieDichtederExponential-Verteilungistgegebendurch
fhxi= 1σ e −x/σ,x>0
WiemussmaneponentialverteilteZufallszahlenausuniformverteiltenberechnen?
17
2.2
V e rt e ilu n g e in e r S c h
¨a tz u n g
aModellf¨ureineStichprobe:
•nunabh¨angige,identischverteilteZufallsvariableXi.nochabstrakter!
•nZufallszahlenzusammenfassen.
AusjenZufallszahlendenWertThx1,x2,...,xniberechnen.nrepMal−→
” Stichprobe”derVerteilungvonT
VerteilungeinerSch
¨atzungsimulieren.
von12exponential-verteiltenBeobachtungen Beispiel:20%gestutztesMitteleinerStichpobe ” Ersetzt”dieW.rechnung!
18
gest. Mittelwerte
Density
20406080100
0.000 0.010 0.020 0.030
gest. Mittel der Vert.Mittel der sim.Vt.
SimulierteVerteilungdes20%gestutztenMittelsvon12exponential-verteiltenBeobachtungenmitσ=50
192.2 bDasistderGrund-BausteinderStatistik!GegebenistdieVt.derBeobachtungen:StichprobeXi∼G,unabh¨angig.GesuchtistdieVerteilungLeinerFunktionThX1,...,XniderBeobachtungen.
TtypischerweiseSch
DieVt.h¨angtvonTundGab, ¨atzungeinesParametersoderTest-Statistik.
Xi∼G,unabh¨angig=⇒ThX1,...,Xni∼LhT,Gi
BeispielT=gest.Mittel,G=Exphσi,σ=50.
202.2
cSchwierigkeit:Zus
¨atzlicheWirkungdesZufalls−→Verwirrung!
•EssenziellerZufall:Modellf¨urdieDatenUnsicherheitendurchModell&Stichprobenumf.bestimmt.
•TechnischerZufall:SimulationUnsicherheitendurchbeschr¨ankteZahlnrepbestimmt−→GenauigkeitkannmitmehrComputer-Aufwandbeliebigerh¨ohtwerden.
21
dSimulierterTest:SimulationderVt.des20%gest.MittelsunterderNullhypotheseσ=50gest.Mittel(Daten)=71.5−→Ablehnung.
22
gest. Mittelwerte
Density
20406080100
0.000 0.010 0.020 0.030
gest. Mittel der Vert.Mittel der sim.Vt.gest. Mittel der Daten
eins.P−Wert = 0.0243
Simul.Verteilungdes20%gestutztenMittelsmitbeob.WertundP-Wert
232.2
eAufgabeDerP-Wertf¨ureinenTestwurdeausnrep=1000Simulations-Replikatenalsp=0.02berechnet.
(a)Wiegenauistdas?
(b)Mussmannreperh¨ohen?
−→BestimmungderAnzahln¨otigerReplikateh¨angtnichtvomspezifischenTest-Problemab!
24 2.2
fTheoretischeUntersuchungen
EigenschaftenvonT?
•Verteilungdesgesch¨atztengestutztenMittelsistschief!
•Tsolltedas20%gestutzteMittelderVt.Gsch¨atzen.Nichterwartungstreu.
EigenschafteneinesTests(Test-StatistikundVerw.bereich):
•WahresNiveau=W.desFehlersersterArt.SimulationunterNullhyp.−→H
¨aufigk.derVerwerfung.
•Macht=W.desVerwerfensunter(best.)Alternative.
Simulationwirdverwendet,wennneuestatistischeMethodenbegr¨undetwerdensollen.
25 2.2
gAnwendungf¨urgrafischeMethodenderDatenanalyseQuantil-Quantil-Diagramme:VergleichvonempirischerVerteilung(Daten)mitModell-VerteilungKumulativeVerteilungsfunktion,empirischundtheoretischUmkehrfunktion=Quantilfunktion,empirischundtheoretischEmpirischeQuantilesollten≈theoretischeseinDiagramm:EmpirischeQuantilevs.theoretische=QQ-Diagramm
Oftben
AbwannsindAbweichungenernstzunehmen? ¨utztf¨urResiduen-AnalyseinderRegression.
Simuliere19QQ-PlotsentsprechenddemModell!IstQQ-PlotderDatenauff
¨alliggegen¨uberdiesen19simulierten?
26
MerkpunkteSimulation
•SimulationkannWahrscheinlichkeitsrechnungersetzen.−→SpielerischerUmgangmitWahrscheinlichkeit.
•Schwierigkeit:Zus
¨atzlicheWirkungdesZufalls
QuadArrowVerwirrung!
•1.AnwendunginderStatistik:
derEigenschaftenvonstatistischenVerfahren. ” MonteCarlo”-Untersuchungen
•2.Anwendung:
” Kalibrierung”f¨urgrafischeDatenanalyse.
27
3Bootstrap
3.1
D ie g ru n d le g e n d e Id e e
aDiegrundlegendeAufgabewar,f¨ureinbest.T(gest.Mittel)dieVerteilungLhT,Gizubestimmen.
Anschaulichformuliert:Ichhabef¨urdievorliegendenDatenT=terhalten.WieunsicheristdieserWert?−→VerteilungvonT–unterwelcherVerteilungGderXi?
28
•LetztesKapitel:GausparametrischerFamilieG=Fθ.–Welchesθ?Naheliegend:θausdenDatensch¨atzen= bθ,G=Fbθ .−→Simulationuntergesch¨atzterparametrischerVert.NeuerName:
” ParametrischerBootstrap”.
•
InhaltdiesesKapitels. G=empirischeVerteilungderDaten ” NichtparametrischerBootstrap:”
293.1
bSchliessendeStatistikohneModell?
•Xi∼G,unabh¨angig(=Zufalls-Stichprobe)
•Ohnezus¨atzlicheStrukturkeinesinnvollenFragen;diesebrauchenAlternativen.
cStichprobeben
t¨ontnachM ¨utzen,umihreVerteilungzusch¨atzen,
−→Verfahrenbew Eigenschaftenuntersuchen,wief¨urjedesanderestat.Verfahren ¨unchhausen.
¨ahrensichf¨urviele(nichtalle!)Probleme.
30
3.2
N ic h tp a ra m e tr is c h e r B o o ts tr a p k o n k re t
aEmpirischeVerteilung,bezeichnetals bG,istdefiniertdurchPhX ∗=xii=1/nf¨urjedesxiausderbeob.Stichprobesonst=0.InseltenenF
Meistensgeh¨ortzumnicht-parametr.BootstrapdieSimulation ¨allenkannmanLhT;Gianalytischbestimmen. b
bSimulationgem
empirischeVerteilungsfunktionG=Treppenfunktion. b GisteinediskreteVerteilung,charakterisiertdurch b ¨assderempirischenVerteilung
SimulationvonZufalls-Stichproben[X ∗1 ,...,X ∗n ]?So,wieallgemeinf¨urdiskreteVerteilungen.
31
0100200300400500600
0 1
x z
z6
x6
SimulationvonZufallszahlengem
¨assG b
32 3.2
cF
mitZur i¨uhrtzu:ZiehenvonnWertenausdengeg.nWertenx
Resultat: ¨ucklegen.
•Bootstrap-Stichprobeenth
derbeobachtetenStichprobe. ¨altnurWerte
•EinigeWertekommennichtvor,einige1,2,3...Mal
dAufgabe:WiegrosssinddieWahrscheinlichkeitendaf¨ur?W.,dassdergr
¨ossteWertderStichprobeimbootstrap-sample
•nicht
•1,2,3...Malvorkommt?
33 3.2
eName
Wennanalyt.L ” Resampling”:WiederverwertungderStichprobe.
¨osungm
aber (BootstrapverwendetzwardieDatenwieder, ¨oglichist,istderBegriffirref¨uhrend!
” sample-t”nicht.)
fWeitergeht’swievorher:
•ErzeugenrepStichproben[X ∗r1 ,...,X ∗rn ],r=1,...,nrep,
•RechnediesimuliertenWertevonTaus:
t (r)=ThX ∗r1 ,...,X ∗rn i
−→(simulierte)Bootstrap-VerteilungvonT.nrepmeistenszwischen500und10000.
34 3.2
gBootstrap-Vt.f¨urdasBeispiel
gest. Mittel
Density
050100150200250
0.000 0.005 0.010 0.015
gest. Mittel der Daten
Bootstrap-VerteilungdesgestutzenMittelsf¨urdieAircondition-Daten
35
3.3
B o o ts tr a p -T e st s u n d -V e rt ra u e n si n te rv a lle
aGrundgedankedesstatistischenTests:VorgegebenesModellF0mitDatenvergleichen:Diskrepanzakzeptabeloderzugross?Vert.unterModellbestimmtAnnahmebereichf¨urDaten.
NichtparametrischerBootstrap:Modell
ohneeineparametrischeFamiliezuverwenden? WiekommenwirzueinemModell,dasderNullhyp.entspricht, −→PrinzipielleSchwierigkeit: ” gleich”Daten.
Schonbesprochen:UmeinesinnvollestatistischeUnsicherheitzubestimmen,m
¨ussenwiralternativeModellezuGeinbeziehen.
36 3.3
bVertrauensintervalleInvielenklassischenAnwendungenhabenVertrauensintervalledieFormbθ±qse (θ),se (θ)=Standardfehlervonθ
qQuantileinert-VerteilungoderNormalverteilung,alsoq≈2.Standardfehlervonθ=StandardabweichungderVt.vonθ.DieVerteilunghabenwirbestimmt(Bootstrap-Verteilung).−→VerwendeSt.dev.derBootstrap-Verteilungalsse (θ).
” Bootstrapnormalconfidenceinterval”
Problemgel¨ost!???
373.3
cDieseFormstimmt(approx.),wenngilt:Wennsichθver¨andert,verschiebtsichdieVerteilungvonT,
sichnurverschiebt. iNormalerweisekommtdasdavon,dassauchdieVert.derX ¨andertaberihreFormundStreuungnicht(stark).
Stimmtnichtz.B.f.Binomial-Vt.Xi∼Bhn,pi,Korrelation,...
38
EineVariantegiltf¨urExponential-Vert.:Vert.wirdskaliertstattverschoben.Log-Transformation−→VerschiebungAllgemeiner:NachgeeigneterTransformationderTest-StatistikkanndieVerteilungdie” Verschiebungs-Eigenschaft”(approx.)erhalten.
dFallsBootstrap-Vt.normalist(pr¨ufenmitQQ-Plot),dannist bθ±2·Bootstrap-se (θ)meistensgut.(Varianzstabil?)
39 3.3
eGrundlegendesVerschiebungs-Beispiel
•BeobachtungenXilassensichschreibenals
Xi=θ+Zi,Zi∼G0−→
” Lokations-Familie”
•Tisteine
” translations-¨aquivariante”Funktion
Thθ+Z1,Z2,...,Zni=θ+ThZ1,Z2,...,Zni
•Tsch¨atztθimSinnevon
EhThZ1,Z2,...,Znii=0Dann...kommtmanansZiel–wennmandieFallstrickebeachtet!
40 3.3
fFallsBootstrap-Vt.schief–wastun?WirhabendieganzeVerteilung,k¨onnenQuantilebestimmen−→bq (θ)0.025 undbq (θ)0.975 liefernGenzendesVertrauensintervalls.
” Bootstrappercentileconfidenceinterval”
Wirklich???–Dasw
wennNullhypotheseθ=θgepr b ¨arenGrenzendesAnnahmebereichs,
¨uftwerdenm
0.0250.975 00θ−(θ−bq),θ+(bq−θ) bb (θ)(θ) Verschiebungs-Prinzip:Annahmebereich ¨usste!(!)
Vertrauensintervall-Grenzendefiniertdurch:
•untereGrenze:θ0so,dass bθ=obereGrenzedesAnnahmebereichs.
•obereGrenze:θ1so,dass bθ=untereGrenzedesA.
41
Vertrauensintervall:bθ−(bq (θ)0.975 − bθ), bθ+( bθ−bq (θ)0.025 )
−→Abw.desoberenQuantilsvon bθnachuntenabtragenundumgekehrt!
” Bootstrapstandardconfidenceinterval”
gHinweis:WenndieBootstrap-Verteilungschiefist,h¨angtihreStreuungoftvonθab.−→Transformationvonθ(undT),Vertrauensintervallbestimmen,zur¨ucktransformieren.
423.3
hBeispielExponential-VerteilungBootstrap-Verteilungschief.Streuungproportionalzuσ(Plausibilit
−→Verschiebungs-Eigenschaft Skalen-ParameterσwirdzuLokations-Par.θ=−loghσi −→Log-Transformation:machtExponential-Vt.zuGumbel=Vt. ¨atsbetrachtung!)
43
log10(gest. Mittel)
Density
1.01.21.41.61.82.02.22.4
0.0 0.5 1.0 1.5 2.0 2.5
gest. Mittel der Daten
Annahmebereich
Bootstrap-VerteilungvonloghTimit
” Annahmebereich”
44
log10(gest. Mittel)
Density
1.41.61.82.02.22.42.62.83.03.2
0.0 0.5 1.0 1.5 2.0 2.5
log10(T)
Vertrauensintervall
gest. Mittel
Density
01002003004005006007008009001000
0.000 0.001 0.002 0.003 0.004 0.005
T
Vertrauensintervall
Bootstrap-Verteilung,verschobenaufdieGrenzendesVertrauensintervallsf¨urloghTiundzur¨ucktransformiert
45 3.3
iDieseIdee,allgemeinerformuliert:
TseieineSch
¨atzungvonθ=ThGi.
Idealerweiseh¨angtdieVerteilungvonT−θnichtvonθab.Giltz.B.f¨urSch
¨atzungdesParameterseinerLokations-Familie.
F¨ur
dieBinomial-VerteilungX∼Bhn,πiist
T=X/nSch
−→nichtausderBreitef¨urπ=Tzusch¨atzen! alsf¨urobereGrenze,fallsπ<0.5. Annahmebereichf.untereGrenzedesVertrauensint.schmaler also:Varianzh¨angtvonParameterab. Vert.vonT−πhatErwartungswert0undVarianzπ(1−π)/n. ¨atzungvonπ.
46
Verbesserung:SucheTransformationghθi,sodass
varhghTiinichtvonθabh¨angt.=” varianzstabilisierendeTransf.”.(F
¨urBinomial-Verteilung:Arc-Sin-Transformationghπi=arcsin
−→R BestimmeVertrauensintervallf¨urghπi=Bootstrap-Vi.ausghTi h √πi)
¨ucktransformation.
47 3.3
jSt¨or-ParameterBeidenmeistenFragestellungengibtesSt¨or-Parameter.
Xi∼Nhµ,σ 2i,µvonInteresse,σSt¨or-Parameter.−→Student’st-Teststattz-Test,
” Studentisieren”.
Daslohntsichauchf¨urdieBootstrap-Version.
Idee:eT= T−θbse mitse=bσ/ √nhateineVerteilung,dienichtvondenParameternabh¨angt–fallsXi∼Lokations-Skalen-Familie,z.B.Nhµ,σ 2i.DieVerteilungvon eTeignetsichbesserzumBootstrappenalsdieVerteilungvonT.
483.3
kKonkret:
•BerechneBootstrap-Vt.von[T,se]unddaraus eT.
•BildeBootstrap-Annahmebereichf¨ur eTQuantilederB-Vt.−→[ et0, et1]
•−→Vertrauensintervallf¨urθ:
[ bθ−bse· et1, bθ−bse· et0]
49
MerkpunkteBootstrap
•DerBootstrapliefertohneAnnahmen
(Bedingungenandie –Vertrauensintervall –insbesondereErwartungswert,VarianzundQuantile –VerteilungvonT undf¨urbeliebigkomplizierteFunktionenTderBeob. dieFormderVert.derBeobachtungen ¨uber
” Glattheit”vonTwerdengebraucht!)
•Eslohntsich,Parameterθ&Sch
dassdieVerteilungvonT−θm sozutransformieren, ¨atzungT
f¨urdasBootstrappenzuben einestandardisierteGr¨osseT e vonθabh¨angt,oder ¨oglichstwenig derenVerteilungm ¨utzen,
¨oglichstwenigvonθabh¨angt.
50
4Randomisierungs-Tests
4.1
E in f¨u h re n d e s B e is p ie l
aHagel-Experiment:(
Verringertdas ” GrossversuchIV”imNapfgebiet1978-1983)
mitSilberiodiddieHagelenergie? ” Impfen”vonpotenziellenHagelwolken
Zielgr¨osse:Hagelenergie,gemessenf¨urnWolkenZweiGruppen:ca.n/2
” geimpft”,Rest
” Kontrolle”.
Yi:HagelenergiederWolkei Gi= n1fallsWolkeigeimpft,0sonst.Hoffnung:YimitGi=1fallentendenziellniedrigeraus.
514.1
bBeobachtet:
Yi=y ∗i 166722585501520461219Gi=g ∗i 11000110
g ∗i :ZufallsauswahlderzuimpfendenWolken.(InWirklichkeit216Wolken;davonwurden94geimpft.) StatistischerTest!H0:KeineWirkung.(−→Widerspruchsbeweis!)UngepaarterZwei-Stichproben-Problem.−→t-Test?KeineAnnahmen
i¨uberdieVerteilungderY!!
52 4.2
S ta tis tis c h e ¨U b e rle g u n g
aNullhypothese=Wahrscheinlichkeitsmodell.¨Ublich:Verteilungf¨urYi;Gi=g ∗i festvorgegeben.Randomisierungstests:Gizuf¨allig;Yi=y ∗i alsfestbetrachtet(Analyse
” bi edingtaufdiey”.) ∗
FallsdasImpfenkeinenEinflussaufdieHagelenergiehat,w
entspr.irgendeineranderenAuswahlgeimpftwordenw wenndieWolkenentspr.~g=[0,1,0,0,1,1,0,1]oder (1) i ¨urdenwirdiegenaugleichenWerteyerhalten, ∗
¨aren.
53
Zufallsauswahl:JedeAuswahlvonn/2=4Elementenausn=8hatgleicheWahrscheinlichkeit
p= 8
4 −1= 1
70DamitistdieNullhypothesefestgelegt.
544.2
bTeststatistik:SollextremeWerteannehmen,wennAlternativegilt.Alternative:y ∗i mitg ∗i =1sindtendenziellkleiner.
Th~g,~y ∗i= 1n/2 X
i:gi=0 y ∗i − 1n/2 Xi:g
i=1 y ∗i = 2n Xi y ∗i (1−2gi).
cWieistTunterderNullhypotheseverteilt?
y ∗1 ,...,y ∗n gegeben−→≤ nn/2 m
¨oglicheWertef¨urT.
PhTh ~G,~y ∗i=ti= #{~g|Th~g,~y ∗i=t}nn/2
” Randomisierungs-Verteilung”
55
t
Wahrscheinlichkeit
−5000−3000−1000100030005000
0 / 70 5 / 70 10 / 70 15 / 70 20 / 70
Randomisierungs−Verteilung
t 3600380040004200440046004800
0 / 70 2 / 70 4 / 70 6 / 70 8 / 70
Randomisierungs−Vert., rechter Teil
564.2
dVerwerfungsbereich:α=5%extremsteWerte(sogenaualsm
Beispiel:{t|t≥4643.25}(einseitig). ¨oglich).
eExperiment:
Th~g ∗,~y ∗i= 14 (855+0+152+1219)− 14 (16672+25+0+46)=−3629.25EffektindieunerwarteteRichtung!Nullhypothesenichtverworfen;Effektnichtnachgewiesen.(AuchnichtinumgekehrterRichtung.)
574.2
f
*
VoraussetzungdesTests:Unabh−→Randomisierung ¨angigkeit
¨uber76
” potentielleHageltage”
Davon33alsImpftageausgew
Eingeschr −→AnalysebedingtaufAnzahlHageltagemitImpfung. ¨ahlt.AnzahlImpftagezuf¨allig.
¨ankteRandomisierung.
g 7633 =36·10 20m
−→SimulationderRandomisierungs-Verteilung. ¨oglicheAuswahlen
58
4.3
T e st s f¨u r d a s Z w e i-S tic h p ro b e n -P ro b le m
aRandomisierungstestssindauchdannanwendbar,wenndieDurchf¨uhrungdesVersuchskeinenRandomisierungsschrittenth
¨alt.
Voraussetzungen,diedanngeltenm
•DieBeobachtungenm ¨ussen:
•unabh¨angigsein. 0¨ussenunterHgleichverteiltund
Dannstimmtdiegew
DieRandomisierungstestsbildenindiesemSinneden ¨ahlteIrrtumswahrscheinlichkeitαexakt.
” Goldstandard”unterdenstatistischenTests.
(
*
Schw¨achereVoraussetzung:
” Austauschbarkeit”.)
594.3
bWennBeobachtungenzuf¨allig:Stichprobe[Y1,...,Yn]−→geordneteSt.Y[1] ,...,Y[n]oderempirischeVerteilungsfunktion bFn(s.Bootstrap)
Vert.derTeststatistik,bedingtauf bFn,=Randomisierungs-Vt.
BedingteW.einesFehlersersterArt,gegeben bFn,=α—f¨urjedeBedingung bFn,unddeshalbauchohneBedingung.
604.3
cBeliebigeTeststatistik.DifferenzderMittelwerteunrobust.
OptimaleTeststatistik?−→Machtf¨urdieAlternative(n)opt.!BrauchtbestimmteVerteilung(s-Familie)−→optimaleTeststatistik(Likelihood-Ratio-Test)
dBeispiel:Logarithmus-Transformation,dannMittelwertsdifferenz(robustifiziert).
61
t l
Wahrscheinlichkeit
−2.5−1.5−0.50.51.01.52.02.5
0 / 70 5 / 70 10 / 70
Rand.Vert. für log. Werte
010203040506070
0 10 20 30 40 50 60 70
Rang(tg)
Rang(tg l)
g
Vergleich der Test−Statistiken
Randomisierungs-Verteilungf¨urdieMittelwerts-Differenzvonlogarithmier-tenDatenimBeispiel(links)undVergleichderRangordnungdereinzelnenRandomisierungen(rechts).
624.3
eRobustheit.WiesoeinerobusteTeststatistikverwenden,wennderTestauchohnediese
scheinlichkeitgenaueinh¨alt? ” Vorsichtsmassnahme”dieIrrtumswahr-
fRangsummentestvonWilcoxon,MannundWhitney(U-Test),
Th~g,~yi= X
gi=1 Ri= X
i giRi,
Rechtrobust−→TestderWahlf¨urdas2-Stichpr.-ProblemVerteilungderTeststatistikunterH0wiegehabt.
g
*
Hagel-Experiment:KomplizierteTeststatistik,zweidimensional−→zweidim.Verwerfungsbereich.63
4.4
E in e S tic h p ro b e o d e r z w e i v e rb u n d e n e
aBeispielTranquilizer.Zielgr¨osse:
9Patienten,vorundnachAnwendungdesTranqulizers. ” HamiltondepressionscalefactorIV”.
vorher(X (1)i )1.830.501.622.481.681.881.553.061.30nachher(X (2)i )0.8780.6470.5982.051.061.291.063.141.29 Abnahme(−Yi)0.952-0.1471.0220.430.620.590.49-0.080.01
64
bVerbundeneStichproben.DifferenzenYi=X (2)i −X (1)i symmetrischum0verteilt?
H0:F
i¨urjedesYist+und–-Vorzeichengleichwahrscheinlich.
Gi=Vorzeichen,|Yi|=” Yi”imZwei-Stichproben-Problem.F
istW.=1/2. n 1n¨urjedeVorzeichen-Konstellation~g=[g,...,g] (ℓ)(ℓ)(ℓ)
654.4
cTeststatistikTh~g,~zifestlegen,
gi=+1oder=−1,zi>0.Rand.-Vert.PhTh ~G,~zi=ti=#{~g|Th~g,~zi=t}/2 n
•Th~g,~zi=(1/n) Pi gizi=aveihyiientsprichtdemt-Testf¨urgepaarteStichproben.
•Th~g,~zi=#{i:gi=1}:Vorzeichentest.
•Th~g,~zi= Pi:gi=1 Ri,Ri:Rangvonzi:Vorzeichen-Rangsummen-TestvonWilcoxon.
66 4.4
eBeispiel:
>wilcox.test(d.tranquilizer[,1],d.tranquilizer[,2],paired=TRUE)Wilcoxonsignedranktestdata:d.tranquilizer[,1]andd.tranquilizer[,2]V=40,p-value=0.03906alternativehypothesis:truemuisnotequalto0knappsignifikant.
Achtung:
Richtig:VergleichmitKontrollgruppeoderCrossover-Versuch. ” Vorher-Nachher-Vergleich”!
67
4.5
S c h
¨a tz u n g e n u n d V e rt ra u e n si n te rv a lle
aModell:Testfragewar:IstVerteilungsymmetrischum0?AllgemeineresModell:Verteilungsymmetrischumµ⇔Yi−µsymmetrischum0.
Test:TeststatistikTh~g,~y−µ ~1i.GrosseWerte=AbweichungvonH0:µ.
bDarausergibtsicheineSch
¨atzung:
bµ=argminµ hTh~g,~y−µ ~1ii
684.5
cVorzeichen-Rangsummen-Test−→Hodges-Lehmann-Sch
hiBetrachteWalshaverages(X+X)/2. ¨atzer.
bµ=medh≤ih(Xh+Xi)/2i.
BeispielTranquilizer:45Walsh-Mittelwerte-0.1470,-0.1135,-0.0800,-0.0685,-0.0350,0.0100,...,1.022Medianbµ=0.46
694.5
d
*
Herleitung:X[k] k-t-kleinsterWert.X[k] >0,Zhk=(X[h] +X[k] )/2,h<k Zhk <0,wenn|X[h] |>|X[k] |.
#{Zhk<0}=#{h||X[h] |<|X[k] |}=R[k] −1 R[k] =#{h|Zhk>0,h≤k}.
X[k] <0=⇒Zhk <0,wennh<k.
Th~g,~zi= Pi:gi=1 Ri=#{[h,k]|Zhk>0,h≤k}
70
Nullhypotheseµ=µ0:
Th~g,~zi= Pi:gi=1 Ri=#{[h,k]|Zhk >µ0,h≤k}
Testamwenigstensignifikant,wenndies= n(n+1)2 ist−→bµ=medianhZhk|h≤ki.
714.5
fVertrauensintervallf¨urVorzeichen-Rangsummen-Test:
GrenzendesAnn.bereichsvonT:cundc ′=n(n+1)/2+1−cVertrauensgrenzen=c-terundc ′-terWalsh-Mittelwert.
BeispielTranquilizer:c=6,c ′=40,Vertrauensintervall[0.01,0.786].
hAllgemeineTeststatistikTh ~G,~z ∗;µi:Betrachte
Qhβi=PhTh ~G,~z ∗;µi>Th~g ∗,~z ∗;µii−β
Sch
L Vertrauensgrenzen=Nullstellenf¨urβ=0.025undβ=0.975. ¨atzung=Nullstellef¨urβ=0.5.
¨osbar!
72
4.6
M e h re re S tic h p ro b e n
aEinfacheVarianzanalyse.Randomisierung=Zugeh
AnzahlderBeobachtungeninjederGruppefest. ¨origkeitderBeob.zudenGruppen.
R¨an
geRideryiunterallenBeobachtungen.
h Abweichungsquadrate(R−(n+1)/2),gew.Mittel 2 ” Gihg=hhiruppensummen”R=aveR.EhRi=(n+1)/2.
Th~g,~yi= 12n(n+1) X
h nh Rh − n+1
2 2
Kruskal-Wallis-Test.2Stichproben−→U-Test.
734.6
bMehrereverbundeneStichproben=einfacherBlockversuch.
nBl¨ocke,mBedingungen.Randomisierungen?
cBeispielsaureB
¨oden
PositionBlock123456714.095.915.405.135.435.875.2123.904.074.344.134.394.323.2935.276.265.725.695.705.363.5044.534.304.864.615.035.403.95
74
Position
pH
1234567
3.5 4.5 5.5
BeispielsaureB
¨oden
75 Friedman-Test.Rij=RangderBeobachtungjimBlocki.eRj=aveihRijimittlererRangder
” Stichprobe”j.
T= 12nm(m+1) Xmj=1 ( eRj−(m+1)/2) 2.
d
76PositionBlock123456711742563223647513276453143254671Summe819211423216Mittel24.755.253.55.755.251.5
77
>friedman.test(t.dt)
Friedmanranksumtest
data:t.dt
Friedmanchi-squared=14.8,df=6,
p-value=0.02199
784.6
eVarianzanalyse
>summary(aov(pH~trans+pos,data=t.d))
DfSumSqMeanSqFvaluePr(>F)
trans10.120.120.170.68
pos10.180.180.270.61
Residuals2516.570.66