• Keine Ergebnisse gefunden

Vorgehen bei einer statistischen Datenanalyse

N/A
N/A
Protected

Academic year: 2021

Aktie "Vorgehen bei einer statistischen Datenanalyse"

Copied!
24
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

1

Vorgehen bei einer statistischen Datenanalyse

Check-Liste mit Stichworten, f¨ur grosse Studien.

Beispiele

• Kompost: Qualit¨at des Komposts

• Emissionen des Strassenverkehrs

• Rehabilitationserfolg

(2)

1.

VORBEREITUNGEN

2

1 Vorbereitungen

1.1 Allgemeine ¨ Uberlegungen zum Projekt

1. Allgemeine Formulierung der Ziele

2. Wichtigkeit dieser Ziele (Anwendungsgebiet) 3. Motivation: Erkenntnisse im Anwendungsgebiet,

Ausprobieren von statistischen Methoden, . . .

(3)

1.

VORBEREITUNGEN

3

4. Charakterisierung des statistischen Problems:

(a) Beschreibung der Daten

(b) Explorative Suche nach Strukturen in den Daten (c) Suche nach vordefinierten Strukturen

(d) Beziehungen zwischen Variablen, Hinweise auf Ursachen und Wirkungen (e) Modell-Entwicklung

(f) Anpassen eines bestimmten Modells

(g) Vergleich von Gruppen (Behandlungen), allg.: Test einer best. Hypothese

(h) Vorhersage oder Klassifikation (Einzelfall- oder Routine)

(4)

1.

VORBEREITUNGEN

4

5. Daten: vorhanden oder hoffentlich erzeugbar?

6. Wissen ¨uber das Problem: Viel vorhanden? Wem bekannt?

7. Resourcen:

(a) Personen: Welche? Qualifikationen? Unterst¨utzung?

Zusammenarbeit m¨oglich?

(b) Computer, Software, Geld

8. Zusammenhang mit anderen Projekten?

(5)

1.

VORBEREITUNGEN

5

1.2 Prim¨ are Planung

1. Analyse des Problems:

(a) Modellbildung m¨oglich?

(b) Erwartete und denkbare Effekte

(c) Pr¨azisierung der Fragestellungen. Minimal-Ziele (d) Sekund¨are Fragestellungen, W¨unschbares

(6)

1.

VORBEREITUNGEN

6

2. Welche Variable sollten/k¨onnen erhoben werden?

(resp. sind erhoben worden?)

(a) Zielvariable, erkl¨arende Variable, . . .

(b) Variable, die der ¨Uberpr¨ufung dienen, Qualit¨ats-Masse (c) Nebeneffekte

3. Beobachtungs-Einheiten und Design (siehe Versuchsplanung und Stichpro- bentheorie).

(7)

1.

VORBEREITUNGEN

7

4. Statistische Methoden:

Detaillierte Strategie f¨ur die Minimalziele.

Ben¨otigte Funktionen, auch f¨ur sekund¨are Ziele.

5. M¨ogliche Resultate und deren Plausibilit¨at 6. Vorversuche: vorhanden? n¨otig? m¨oglich?

7. Resourcen genauer planen (vgl. oben) 8. Zeitplan

9. Schlussfolgerung: Ist die prim¨are Zielsetzung erreichbar?

10. Projekt formulieren

(8)

1.

VORBEREITUNGEN

8

1.3 Statistische Methoden suchen,

kennenlernen, allenfalls implementieren

1. Literatur

2. Software ausw¨ahlen und kennenlernen.

3. Auswertung f¨ur prim¨are Ziele anhand von k¨unstlichen Daten durchspielen!

1.4 Vorversuch

Hauptziel: Erfahrung sammeln.

F¨ur Versuchsplanung selten direkt zu verwenden.

(9)

1.

VORBEREITUNGEN

9

1.5 Zweite Planung

Revision der ersten Planung, detaillierter

(10)

2.

DATEN ERHEBEN

10

2 Daten erheben

2.1 Prozess der Datenerhebung

1. Planung (schon wieder!)

(a) Notizbuch! (Bemerkung am Schluss) (b) Detail-Abl¨aufe der Daten-Erhebung

(c) Liste der Variablen. Notation festlegen!

(d) Wie werden die Daten auf den Computer / ins Programmsystem gebracht?

Schnittstellen, Formate, Datenbank?

Codes f¨ur fehlende Daten, zensierte Daten (z.B. unter Nachweisgrenze)

(e) Instruktion der Beteiligten

(11)

2.

DATEN ERHEBEN

11

2. Durchf¨uhrung der Daten-Erhebung. Zu beachten:

(a) Notizbuch f¨uhren!

(b) Mess- oder Beobachtungsmethoden nur im Notfall

”verbessern”

(c) Statistiker/in sollte Daten-Erhebung beobachten 3. Daten-¨Ubertragung auf den Computer

f¨ur erste paar Beobachtungen.

Eventuell laufend.

Warnung vor automatischem Screening von unm¨oglichen Werten!

(12)

2.

DATEN ERHEBEN

12

2.2 Data Screening

1. Has the plan of obtaining data been followed?

2. Screening: Is the data plausible?

(a) Comparison of computer data with original records (b) impossible values: Are the ranges of the variables ok?

summary(data)

(c) logical relations (part is smaller than total etc.) 3. Correct data if possible −→

”preliminary dataset”.

(13)

3.

ANALYSES

13

3 Analyses

3.1 First analyses

Goal: get familiar with the data and correct further

1. Calculate derived variables (first aid transformations, proportions, sums, standardizations . . . )

2. type and quality of the variables ( factor, ordered) 3. univariate graphical displays ( hist, barplot).

If there is a main (response) variable, define 2-5 groups

and generate displays of other variables coloring the points according to the groups 4. note or correct outliers

5. scatterplot matrix ( plmatrix of regr, pairs).

(14)

3.

ANALYSES

14

6. search for multivariate outliers and correct if possible 7. Possibly: first model fits and coarse residual analysis

to find more outliers

8. missing values: replace by estimated values (imputation) 9. generate mor transformed variables

10. study the logbook of data collection

11. determine a set of ”doubtful” observations 12. document the resulting basic data set

store (if small, on paper), describe, annotate

(15)

3.

ANALYSES

15

3.2 Main Analyses

1. Observe generally:

(a) Documentation of the steps of analyses is important.

Script file with comment (or journal)

(b) paper Output of all essential results. Date!

(c) analyses should be reproducable with little effort (script file)

(d) Do not sit in front of the computer for more than 2 hours.

Take your time for analyzing, interpreting the results, keep overview.

(e) Communication with all“stakeholders”in determined form (regularly, pre- pared).

(f) Keep the analyses bounded.

Document partial results with “finalized” graphics and tables.

(16)

3.

ANALYSES

16

2. Follow the plan for primary analyses first (!) (see above).

3. Many steps of analyses are specific to the adequate methodology.

You often need model development.

(17)

4.

FINAL STEPS

17

4 Final Steps 4.1 Reports

1. Report by the statistician on the data analyses.

Goal: Basis for project report. Structure:

(a) Introduction: Statement of (scientific) problem context, approach, overview

(b) Data: collecting procedure, description

(c) Results: main analyses (only successful ones):

Methods (including literature), results, interpretation (d) Further analyses (including unsuccessful ones),

possibly in appendix (e) Conclusions

(18)

4.

FINAL STEPS

18

(f) Appendix: Documentation of decisions, further output, technical details, project “history”

2. Conferences, scientific publikations.

How much space for statistical methodology?

(19)

4.

FINAL STEPS

19

4.2 Evaluation

1. Feedback der Beteiligten. Ziele erreicht?

2. Kritik der Daten-Analyse. Lehren.

3. W¨unsche an die statistische Methodik / Software festhalten. Verwendung im Unterricht?

(20)

5.

BEMERKUNGEN

20

5 Bemerkungen 5.1 Journal

1. Planungsphase: W¨unsche, Ideen, Vermutungen und Verd¨achte, . . . 2. Daten-Erhebung (separates Log-Buch)

3. Korrekturen an Daten (nach Daten-¨Uberpr¨ufung)

4. Daten-Analyse: Schritte, Schl¨usse aus Resultaten, Entscheidungen, wegge- lassene Alternativen

(21)

5.

BEMERKUNGEN

21

5.2 Vorversuch, Stichprobenumfang

Frage: Anzahl der zu untersuchenden Beobachtungseinheiten?

Anforderung an Genauigkeit der Ergebnisse

Braucht Gr¨osse von Effekten und von Streuungen.

Effekte sind aber unbekannt. Welche Effekte sind relevant?

Vorversuch n¨utzt hier wenig;

sinnvoll, um Mess- und Beobachtungsmethoden einzu¨uben.

(22)

6.

EINIGE SCH ¨ ONE SPR ¨ UCHE

22

6 Einige sch¨ one Spr¨ uche

“Fitting statistical theory to practice is enormously challenging and an opportunity to be creative. It requires intellect, imagination, and creativity as much as any academic pursuit and is done subject to the real-world constraints of time, money, and politics.” (Boen and Zahn, 1982, p.3)

“An approximate answer to the right question is worth a great deal more than a precise answer to the wrong question.”

Chatfield: “the first golden rule of applied mathematics, sometimes attributed to John Tukey” (Chatfield, p.8)

Type III error: giving the ‘right’ answer to the wrong question.

“All models are wrong. But some are useful.”

GEP Box (Chatfield, p.15)

“cult of the isolated study” Nelder, JRSSA 149 (Chatfield, p.15)

(23)

6.

EINIGE SCH ¨ ONE SPR ¨ UCHE

23

The Ideal Consultant

1. is well trained in the theory and practice of statistics, 2. is an effective problem solver,

3. has good oral and written communication skills, 4. can work within the constraints of the real world, 5. knows how to use computers to solve problems, 6. is familiar with the statistical literature,

7. understands the realities of statistical practice,

8. has a pleasing personality and is able to work with others, 9. gets highly involved in the solution of company problems, 10. is able to extend and develop statistical methodology, 11. can adapt quickly to new problems and challenges, 12. produces high-quality work in a timely fashion.

(24)

6.

EINIGE SCH ¨ ONE SPR ¨ UCHE

24

• There are plenty of jobs for statistical consultants who fall short of the ideal.

(?)

• You can’t know everything.

• You’re going to make mistakes.

• Hang in there and keep plugging.

(Boen and Zahn, 1982)

Books about Consulting and Data Analysis

Referenzen

ÄHNLICHE DOKUMENTE

Finally, the mortar method is employed as abstract projection operator for nodal information transfer and applied towards volume coupled multiphysics on different meshes in

The concerns of new players The most-cited argument for including security in the development agenda is the fact that conflict and post-conflict countries will not achieve a

In this paper, we extend our numerical approach to include the effect of porosity at a sub-resolution scale by adapting the so-called P - α model (Herrman 1969). Using our extended

Inclusion in DRR requires genuine people’s participation, especially that of people at the margins who prove the most vulnerable in facing hazards and disasters, including

 Scarcity : Describing the chance to receive the optimal efficacy of the vaccine as scarce and dwindling significantly increased the Likelihood item and the Vaccination Index.

The CHAIN utility is especially valuable for accomplishing tasks that require communications. The 1800, with its integral auto- answer communications interface,

Oral-to-inhalation route extrapolation in occupational health risk assessment: a critical assessment Regulatory Toxicology and Pharmacology, 39, 2004, 5-11. RIVM, Rijksinstituut

[r]