1
VorgehenbeieinerstatistischenDatenanalyse
Check-ListemitStichworten,f¨urgrosseStudien.Beispiele
•Kompost:Qualit
¨atdesKomposts
•EmissionendesStrassenverkehrs
•Rehabilitationserfolg
2 1
V o rb e re it u n g e n 1 .1 A llg e m e in e ¨U b e rle g u n g e n z u m P ro je k t
1.AllgemeineFormulierungderZiele2.WichtigkeitdieserZiele(Anwendungsgebiet)3.Motivation:ErkenntnisseimAnwendungsgebiet,AusprobierenvonstatistischenMethoden,...34.CharakterisierungdesstatistischenProblems:(a)BeschreibungderDaten(b)ExplorativeSuchenachStrukturenindenDaten(c)SuchenachvordefiniertenStrukturen(d)BeziehungenzwischenVariablen,HinweiseaufUrsachenundWirkungen(e)Modell-Entwicklung(f)AnpasseneinesbestimmtenModells(g)VergleichvonGruppen(Behandlungen),allg.:Testeinerbest.Hypothese(h)VorhersageoderKlassifikation(Einzelfall-oderRoutine)
45.Daten:vorhandenoderhoffentlicherzeugbar?6.Wissen (a)Personen:Welche?Qualifikationen?Unterst 7.Resourcen: ¨uberdasProblem:Vielvorhanden?Wembekannt?
Zusammenarbeitm ¨utzung? 8.ZusammenhangmitanderenProjekten? (b)Computer,Software,Geld ¨oglich?
5
1 .2 P rim
(a)Modellbildungm 1.AnalysedesProblems:
¨a re P la n u n g
(d)Sekund¨areFragestellungen,W (c)Pr¨azisierungderFragestellungen.Minimal-Ziele (b)ErwarteteunddenkbareEffekte ¨oglich?
¨unschbares
62.WelcheVariablesollten/k
(b)Variable,diederberpr ¨U (a)Zielvariable,erkl¨arendeVariable,... (resp.sinderhobenworden?) ¨onnenerhobenwerden?
¨ufungdienen,Qualit
undStichprobentheorie). 3.Beobachtungs-EinheitenundDesign(sieheVersuchsplanung (c)Nebeneffekte ¨ats-Masse
74.StatistischeMethoden:DetaillierteStrategief¨urdieMinimalziele.Ben
¨otigteFunktionen,auchf¨ursekund
5.M ¨areZiele.
¨oglicheResultateundderenPlausibilit
¨at
6.Vorversuche:vorhanden?n¨otig?m
9.Schlussfolgerung:Istdieprim 8.Zeitplan 7.Resourcengenauerplanen(vgl.oben) ¨oglich?
10.Projektformulieren ¨areZielsetzungerreichbar?
8
1 .3 S ta tis tis c h e M e th o d e n su c h e n ,
k e n n e n le rn e n , a lle n fa lls im p le m e n tie re n
1.Literatur2.Softwareausw3.Auswertungf¨urprim ¨ahlenundkennenlernen.
durchspielen! ¨areZieleanhandvonk¨unstlichenDaten
9
1 .4 V o rv e rs u c h
Hauptziel:Erfahrungsammeln.F
¨urVersuchsplanungseltendirektzuverwenden.
1 .5 Z w e it e P la n u n g
RevisiondererstenPlanung,detaillierter
10
2
D a te n e rh e b e n 2 .1 P ro z e ss d e r D a te n e rh e b u n g
1.Planung(schonwieder!)(a)Notizbuch!(BemerkungamSchluss)(b)Detail-Abl¨aufederDaten-Erhebung(c)ListederVariablen.Notationfestlegen!(d)WiewerdendieDatenaufdenComputer/insProgrammsystemgebracht?Schnittstellen,Formate,Datenbank?Codesf¨urfehlendeDaten,zensierteDaten(z.B.unterNachweisgrenze)(e)InstruktionderBeteiligten112.Durchf¨uhrungderDaten-Erhebung.Zubeachten:(a)Notizbuchf¨uhren!(b)Mess-oderBeobachtungsmethodennurimNotfall
3.Daten (c)Statistiker/insollteDaten-Erhebungbeobachten ” verbessern”
vonunm WarnungvorautomatischemScreening Eventuelllaufend. f¨urerstepaarBeobachtungen. - ¨UbertragungaufdenComputer
¨oglichenWerten!
12
2 .2 D a ta S c re e n in g
1.Hastheplanofobtainingdatabeenfollowed?2.Screening:Isthedataplausible?(a)Comparisonofcomputerdatawithoriginalrecords(b)impossiblevalues:Aretherangesofthevariablesok?summary(data)(c)logicalrelations(partissmallerthantotaletc.)3.Correctdataifpossible−→” preliminarydataset”.
13
3
A n a ly se s 3 .1 F ir st a n a ly se s
Goal:getfamiliarwiththedataandcorrectfurther1.Calculatederivedvariables(firstaidtransformations,proportions,sums,standardizations...)2.typeandqualityofthevariables(factor,ordered)3.univariategraphicaldisplays(hist,barplot).Ifthereisamain(response)variable,define2-5groupsandgeneratedisplaysofothervariablescoloringthepointsaccordingtothegroups144.noteorcorrectoutliers5.scatterplotmatrix(plmatrixofregr,pairs).6.searchformultivariateoutliersandcorrectifpossible7.Possibly:firstmodelfitsandcoarseresidualanalysistofindmoreoutliers8.missingvalues:replacebyestimatedvalues(imputation)9.generatemortransformedvariables10.studythelogbookofdatacollection11.determineasetof”doubtful”observations12.documenttheresultingbasicdatasetstore(ifsmall,onpaper),describe,annotate
15
3 .2 M a in A n a ly se s
1.Observegenerally:(a)Documentationofthestepsofanalysesisimportant.Scriptfilewithcomment(orjournal)(b)paperOutputofallessentialresults.Date!(c)analysesshouldbereproducablewithlittleeffort(scriptfile)(d)Donotsitinfrontofthecomputerformorethan2hours.Takeyourtimeforanalyzing,interpretingtheresults,keepoverview.16
(e)Communicationwithall“stakeholders”indeterminedform(regularly,prepared).(f)Keeptheanalysesbounded.Documentpartialresultswith“finalized”graphicsandtables.2.Followtheplanforprimaryanalysesfirst(!)(seeabove).3.Manystepsofanalysesarespecifictotheadequatemethodology.Youoftenneedmodeldevelopment.
17
4
A b sc h lu ss 4 .1 B e ric h te
1.BerichtdurchStatistiker(c)Haupt-Analyse(nur (b)Daten-Erhebung,Daten-Beschreibung (a)Einleitung,Problemstellung lagef¨urProjekt-Bericht.Struktur: ¨uberDaten-Analyse.Ziel:Grund-
(d)WeitereAnalysen,auch Literatur-Hinweisen)undResultate,Interpretation ” erfolgreiche”Teile):Methoden(mit
dungen,weitereOutputs,Technisches,Projekt- (f)Anhang(oderseparat):Dokumentationf¨urEntschei- (e)Schlussfolgerungen ” Holzwege”
” Geschichte”
182.SchriftlicherProjekt-Berichtebenso3.Konferenzen,wissenschaftlichePublikationen.WievielPlatzsoll/darfdiestatistischeMethodikeinnehmen?
19
4 .2 E v a lu a tio n
1.FeedbackderBeteiligten.Zieleerreicht?2.KritikderDaten-Analyse.Lehren.3.Wten.VerwendungimUnterricht? ¨unscheandiestatistischeMethodik/Softwarefesthal-
20
5
B e m e rk u n g e n 5 .1 J o u rn a l
1.Planungsphase:W3.KorrekturenanDaten(nachDaten 2.Daten-Erhebung(separatesLog-Buch) d¨achte,... ¨unsche,Ideen,VermutungenundVer-
- ¨Uberpr
dungen,weggelasseneAlternativen 4.Daten-Analyse:Schritte,Schl¨usseausResultaten,Entschei- ¨ufung)
21
5 .2 V o rv e rs u c h , S tic h p ro b e n u m fa n g
Frage:AnzahlderzuuntersuchendenBeobachtungseinheiten?AnforderunganGenauigkeitderErgebnisseBrauchtGr¨ossevonEffektenundvonStreuungen.Effektesindaberunbekannt.WelcheEffektesindrelevant?Vorversuchn¨utzthierwenig;sinnvoll,umMess-undBeobachtungsmethodeneinzu¨uben.
22
6
E in ig e sc h
TypeIIIerror:givingthe‘right’answertothewrongquestion. mesattributedtoJohnTukey”(Chatfield,p.8) Chatfield:“thefirstgoldenruleofappliedmathematics,someti- dealmorethanapreciseanswertothewrongquestion.” “Anapproximateanswertotherightquestionisworthagreat politics.”(BoenandZahn,1982,p.3) donesubjecttothereal-worldconstraintsoftime,money,and nation,andcreativityasmuchasanyacademicpursuitandis andanopportunitytobecreative.Itrequiresintellect,imagi- “Fittingstatisticaltheorytopracticeisenormouslychallenging
¨o n e S p r¨u c h e
23“Allmodelsarewrong.Butsomeareuseful.”GEPBox(Chatfield,p.15)“cultoftheisolatedstudy”Nelder,JRSSA149(Chatfield,p.15)
24
TheIdealConsultant1.iswelltrainedinthetheoryandpracticeofstatistics,2.isaneffectiveproblemsolver,3.hasgoodoralandwrittencommunicationskills,4.canworkwithintheconstraintsoftherealworld,5.knowshowtousecomputerstosolveproblems,6.isfamiliarwiththestatisticalliterature,7.understandstherealitiesofstatisticalpractice,8.hasapleasingpersonalityandisabletoworkwithothers,9.getshighlyinvolvedinthesolutionofcompanyproblems,10.isabletoextendanddevelopstatisticalmethodology,11.canadaptquicklytonewproblemsandchallenges,12.produceshigh-qualityworkinatimelyfashion.
25
•Thereareplentyofjobsforstatisticalconsultantswhofallshortoftheideal.(?)
•Youcan’tknoweverything.
•You’regoingtomakemistakes.
•Hanginthereandkeepplugging.(BoenandZahn,1982)
BooksaboutConsultingandDataAnalysis