1
Vorgehen bei einer statistischen Datenanalyse
Check-Liste mit Stichworten, f¨ur grosse Studien.
Beispiele
• Kompost: Qualit¨at des Komposts
• Emissionen des Strassenverkehrs
• Rehabilitationserfolg
1.
VORBEREITUNGEN
21 Vorbereitungen
1.1 Allgemeine ¨ Uberlegungen zum Projekt
1. Allgemeine Formulierung der Ziele
2. Wichtigkeit dieser Ziele (Anwendungsgebiet) 3. Motivation: Erkenntnisse im Anwendungsgebiet,
Ausprobieren von statistischen Methoden, . . .
1.
VORBEREITUNGEN
34. Charakterisierung des statistischen Problems:
(a) Beschreibung der Daten
(b) Explorative Suche nach Strukturen in den Daten (c) Suche nach vordefinierten Strukturen
(d) Beziehungen zwischen Variablen, Hinweise auf Ursachen und Wirkungen (e) Modell-Entwicklung
(f) Anpassen eines bestimmten Modells
(g) Vergleich von Gruppen (Behandlungen), allg.: Test einer best. Hypothese
(h) Vorhersage oder Klassifikation (Einzelfall- oder Routine)
1.
VORBEREITUNGEN
45. Daten: vorhanden oder hoffentlich erzeugbar?
6. Wissen ¨uber das Problem: Viel vorhanden? Wem bekannt?
7. Resourcen:
(a) Personen: Welche? Qualifikationen? Unterst¨utzung?
Zusammenarbeit m¨oglich?
(b) Computer, Software, Geld
8. Zusammenhang mit anderen Projekten?
1.
VORBEREITUNGEN
51.2 Prim¨ are Planung
1. Analyse des Problems:
(a) Modellbildung m¨oglich?
(b) Erwartete und denkbare Effekte
(c) Pr¨azisierung der Fragestellungen. Minimal-Ziele (d) Sekund¨are Fragestellungen, W¨unschbares
1.
VORBEREITUNGEN
62. Welche Variable sollten/k¨onnen erhoben werden?
(resp. sind erhoben worden?)
(a) Zielvariable, erkl¨arende Variable, . . .
(b) Variable, die der ¨Uberpr¨ufung dienen, Qualit¨ats-Masse (c) Nebeneffekte
3. Beobachtungs-Einheiten und Design (siehe Versuchsplanung und Stichpro- bentheorie).
1.
VORBEREITUNGEN
74. Statistische Methoden:
Detaillierte Strategie f¨ur die Minimalziele.
Ben¨otigte Funktionen, auch f¨ur sekund¨are Ziele.
5. M¨ogliche Resultate und deren Plausibilit¨at 6. Vorversuche: vorhanden? n¨otig? m¨oglich?
7. Resourcen genauer planen (vgl. oben) 8. Zeitplan
9. Schlussfolgerung: Ist die prim¨are Zielsetzung erreichbar?
10. Projekt formulieren
1.
VORBEREITUNGEN
81.3 Statistische Methoden suchen,
kennenlernen, allenfalls implementieren
1. Literatur
2. Software ausw¨ahlen und kennenlernen.
3. Auswertung f¨ur prim¨are Ziele anhand von k¨unstlichen Daten durchspielen!
1.4 Vorversuch
Hauptziel: Erfahrung sammeln.
F¨ur Versuchsplanung selten direkt zu verwenden.
1.
VORBEREITUNGEN
91.5 Zweite Planung
Revision der ersten Planung, detaillierter
2.
DATEN ERHEBEN
102 Daten erheben
2.1 Prozess der Datenerhebung
1. Planung (schon wieder!)
(a) Notizbuch! (Bemerkung am Schluss) (b) Detail-Abl¨aufe der Daten-Erhebung
(c) Liste der Variablen. Notation festlegen!
(d) Wie werden die Daten auf den Computer / ins Programmsystem gebracht?
Schnittstellen, Formate, Datenbank?
Codes f¨ur fehlende Daten, zensierte Daten (z.B. unter Nachweisgrenze)
(e) Instruktion der Beteiligten
2.
DATEN ERHEBEN
112. Durchf¨uhrung der Daten-Erhebung. Zu beachten:
(a) Notizbuch f¨uhren!
(b) Mess- oder Beobachtungsmethoden nur im Notfall
”verbessern”
(c) Statistiker/in sollte Daten-Erhebung beobachten 3. Daten-¨Ubertragung auf den Computer
f¨ur erste paar Beobachtungen.
Eventuell laufend.
Warnung vor automatischem Screening von unm¨oglichen Werten!
2.
DATEN ERHEBEN
122.2 Data Screening
1. Has the plan of obtaining data been followed?
2. Screening: Is the data plausible?
(a) Comparison of computer data with original records (b) impossible values: Are the ranges of the variables ok?
summary(data)
(c) logical relations (part is smaller than total etc.) 3. Correct data if possible −→
”preliminary dataset”.
3.
ANALYSES
133 Analyses
3.1 First analyses
Goal: get familiar with the data and correct further
1. Calculate derived variables (first aid transformations, proportions, sums, standardizations . . . )
2. type and quality of the variables ( factor, ordered) 3. univariate graphical displays ( hist, barplot).
If there is a main (response) variable, define 2-5 groups
and generate displays of other variables coloring the points according to the groups 4. note or correct outliers
5. scatterplot matrix ( plmatrix of regr, pairs).
3.
ANALYSES
146. search for multivariate outliers and correct if possible 7. Possibly: first model fits and coarse residual analysis
to find more outliers
8. missing values: replace by estimated values (imputation) 9. generate mor transformed variables
10. study the logbook of data collection
11. determine a set of ”doubtful” observations 12. document the resulting basic data set
store (if small, on paper), describe, annotate
3.
ANALYSES
153.2 Main Analyses
1. Observe generally:
(a) Documentation of the steps of analyses is important.
Script file with comment (or journal)
(b) paper Output of all essential results. Date!
(c) analyses should be reproducable with little effort (script file)
(d) Do not sit in front of the computer for more than 2 hours.
Take your time for analyzing, interpreting the results, keep overview.
(e) Communication with all“stakeholders”in determined form (regularly, pre- pared).
(f) Keep the analyses bounded.
Document partial results with “finalized” graphics and tables.
3.
ANALYSES
162. Follow the plan for primary analyses first (!) (see above).
3. Many steps of analyses are specific to the adequate methodology.
You often need model development.
4.
FINAL STEPS
174 Final Steps 4.1 Reports
1. Report by the statistician on the data analyses.
Goal: Basis for project report. Structure:
(a) Introduction: Statement of (scientific) problem context, approach, overview
(b) Data: collecting procedure, description
(c) Results: main analyses (only successful ones):
Methods (including literature), results, interpretation (d) Further analyses (including unsuccessful ones),
possibly in appendix (e) Conclusions
4.
FINAL STEPS
18(f) Appendix: Documentation of decisions, further output, technical details, project “history”
2. Conferences, scientific publikations.
How much space for statistical methodology?
4.
FINAL STEPS
194.2 Evaluation
1. Feedback der Beteiligten. Ziele erreicht?
2. Kritik der Daten-Analyse. Lehren.
3. W¨unsche an die statistische Methodik / Software festhalten. Verwendung im Unterricht?
5.
BEMERKUNGEN
205 Bemerkungen 5.1 Journal
1. Planungsphase: W¨unsche, Ideen, Vermutungen und Verd¨achte, . . . 2. Daten-Erhebung (separates Log-Buch)
3. Korrekturen an Daten (nach Daten-¨Uberpr¨ufung)
4. Daten-Analyse: Schritte, Schl¨usse aus Resultaten, Entscheidungen, wegge- lassene Alternativen
5.
BEMERKUNGEN
215.2 Vorversuch, Stichprobenumfang
Frage: Anzahl der zu untersuchenden Beobachtungseinheiten?
Anforderung an Genauigkeit der Ergebnisse
Braucht Gr¨osse von Effekten und von Streuungen.
Effekte sind aber unbekannt. Welche Effekte sind relevant?
Vorversuch n¨utzt hier wenig;
sinnvoll, um Mess- und Beobachtungsmethoden einzu¨uben.
6.
EINIGE SCH ¨ ONE SPR ¨ UCHE
226 Einige sch¨ one Spr¨ uche
“Fitting statistical theory to practice is enormously challenging and an opportunity to be creative. It requires intellect, imagination, and creativity as much as any academic pursuit and is done subject to the real-world constraints of time, money, and politics.” (Boen and Zahn, 1982, p.3)
“An approximate answer to the right question is worth a great deal more than a precise answer to the wrong question.”
Chatfield: “the first golden rule of applied mathematics, sometimes attributed to John Tukey” (Chatfield, p.8)
Type III error: giving the ‘right’ answer to the wrong question.
“All models are wrong. But some are useful.”
GEP Box (Chatfield, p.15)
“cult of the isolated study” Nelder, JRSSA 149 (Chatfield, p.15)
6.
EINIGE SCH ¨ ONE SPR ¨ UCHE
23The Ideal Consultant
1. is well trained in the theory and practice of statistics, 2. is an effective problem solver,
3. has good oral and written communication skills, 4. can work within the constraints of the real world, 5. knows how to use computers to solve problems, 6. is familiar with the statistical literature,
7. understands the realities of statistical practice,
8. has a pleasing personality and is able to work with others, 9. gets highly involved in the solution of company problems, 10. is able to extend and develop statistical methodology, 11. can adapt quickly to new problems and challenges, 12. produces high-quality work in a timely fashion.
6.
EINIGE SCH ¨ ONE SPR ¨ UCHE
24• There are plenty of jobs for statistical consultants who fall short of the ideal.
(?)
• You can’t know everything.
• You’re going to make mistakes.
• Hang in there and keep plugging.
(Boen and Zahn, 1982)
Books about Consulting and Data Analysis