• Keine Ergebnisse gefunden

1. ¨Ubungsblatt 507.051 Angewandte Statistik, WS 2003/2004

N/A
N/A
Protected

Academic year: 2021

Aktie "1. ¨Ubungsblatt 507.051 Angewandte Statistik, WS 2003/2004"

Copied!
4
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

1. ¨ Ubungsblatt 507.051 Angewandte Statistik, WS 2003/2004

1

Univ.-Prof. DI Dr. Ernst Stadlober

1.) EDA und CDA, Einstichprobenproblem,aimu.asc; [SPSS 11.0, R 1.7]

(a) Kodieren Sie die kategoriale Variable regionmit dem Men¨uTransformieren (Trans- form) Automatisch umkodieren (Automatic Recode) als Faktor mit den Stufen 1,2 um. Definieren sie neue Gruppierungsvariablen jung alt (1,2) mit alter 16- 30, 31-56; al kl (1,2,3,4,5) mitalter 16–19, 20–25, 26–32, 33–40, 41–56;gr kl (1,2,3,4) mitgr m 1.60–1.72, 1.73–1.76, 1.77–1.81, 1.82–1.95.

(b) Definieren Sie f¨ur jede VariableVariable Labels (z.B.fvc l:Vitalkapazitaet).

(c) Analysieren Sie zumindest zwei der Variablen alter, gr m, ge kg, fvc l, fe l mit den Methoden der explorativen Datenanalyse. Benutzen sieHistogramme (histo- grams) (mit default-Werten und selbst gew¨ahlten Klassenanzahlen), Stengel–Blatt–

Diagramme (Stem–and–Leaf–Plots), Fehlerbalken (Error Bars), Boxplots und Q–

Q–Plots. Versuchen Sie, einen einheitlichen Standard f¨ur ihre Grafiken festzulegen (F¨ullfarbe, Beschriftungen, Symboldicke, -gr¨oße etc.) und geben sie jeder Grafik einen Titel.

(d) Berechnen Sie f¨ur zumindest zwei der Variablengr m, ge kg, fvc l, fe lstatisti- sche Kenngr¨oßen, die vonSPSSstandardm¨aßig angeboten werden. Berechnen Sie auch (h¨andisch oder mit einem Programm) sq,sM AD,g1q,gq2 und cv.

(e) F¨uhren Sie f¨ur zumindest zwei der Variablen gr m, ge kg, fvc l, fe l (i) einen Kolmogorov-Smirnov-Test und (ii) einen Test auf Normalverteilung (unter Men¨uAna- lysieren (Analyze) −→ Explorative Datenanalyse (Explore)) durch.

(f) Was liefert der t–Test bzgl. der Hypothesen µgr = 1.75, µge = 80, muf vc= 5.4 und µf e = 4.5?

(g) Fassen Sie Ihre Ergebnisse und Interpretationen in Form eines winword–Dokuments (max. 4 Seiten) zusammen.

2.) EDA und CDA, Zweistichprobenproblem, Merkmale fvc l, fe l mit Kategorien jung alt, region; [SPSS 11.0, R 1.7].

(a) Geben SieHistogramme, Box-Plots, Fehlerbalken, Stengel-Blatt-Diagrammebzgl. der beiden Merkmale fvc l, fe lin Abh¨angigkeit von jung altbzw. regionan.

(b) Was liefern die Q-Q-Plots mit Normalverteilung und die univariaten Tests auf Normal- verteilung (K–S–Test und Shapiro–Wilk–Test) f¨ur die einzelnen Gruppen?

(c) Berechnen Sie bei beiden Merkmalen fvc l, fe l, klassifiziert nach den Kategorien jung alt bzw.region, 99%–Konfidenzintervalle (h¨andisch) f¨ur µD =µX −µY. (d) Geben Sie die Sch¨atzer der Standardabweichungen f¨ur die Mediane ˜x und ˜y an und

ermitteln Sie daraus die Bereiche dergekerbtenBoxplots mit ˜1.7 ˆσ(˜x). Wie lauten die 95%–Konfidenzintervalle f¨ur die Differenzen mD =mX−mY unter der Annahme σ( ˜X) =σ( ˜Y)?

(e) F¨uhren Sie die entsprechenden t–Tests durch und interpretieren sie die Ergebnisse.

Als Test auf Gleichheit der Varianzen wird in SPSS der Levene–Test benutzt. Was liefert der klassische F–Test (α = 0.01,0.05) (h¨andische Berechnung oder durch Programm)?

(2)

1. ¨ Ubungsblatt 507.051 Angewandte Statistik, WS 2003/2004

2

(f) Welche Ergebnisse erh¨alt man mit (i) dem Mann–Whitney–U–Test und (ii) dem Kolmogorov–Smirnov–Test bzgl. des Vergleichs der klassifizierten Stichproben?

(g) Fassen Sie Ihre Ergebnisse und Interpretationen in Form eines winword–Dokuments (max. 4 Seiten) zusammen.

3.) [T] Kenngr¨oßen von Verteilungen.

(a) Sei X F mit E(X) = µ, V ar(X) = σ2. Man zeige, dass die Schiefe γ1(X) und die Kurtosis γ2(X) invariant sind unter der Standardisierung Z = (X−µ)/σ;

d.h. γi(X) =γi(Z), i= 1,2.

(b) Wegen (a) kann man o.B.d.A. E(X) = 0 undV ar(X) = 1 annehmen. Man zeige die Ungleichung γ2(X)≥γ12(X)2.

Hinweis: Integrieren SieR(x2−γ1x−1)2dF(x)

(c) Die ZufallsvariableX sei Gamma(a)–verteilt, hat also die Dichte f(x) = xa−1e−x

Γ(a) , x >0, a >0.

Zeigen Sie, daß γ1(X) = 2a, γ2(X) = 6a.

(d) Sei X iid∼F stetige Zufallsvariable mit Dichte f =F0.k=bnpc+1, f(xp)>0, wobei gilt F(xp) =p. Es gilt X(k) =F−1(U(k)) mitU(k)∼beta(k, n−k+1),E(U(k)) =n+1k , V ar(U(k)) = (n+1)(n+2)k ³1n+1k ´. Ist F−1 zweimal differenzierbar, dann motiviere man (vergleiche Satz 2.3.2.):

E(X(k)) xp+ p(1−p) 2n f2(xp)

Ã

−d f(F−1(u)) du

! ¯¯

¯¯

¯u=p

V ar(X(k)) p(1−p) n f2(xp).

(e) Die Zufallsvariable X sei Laplace(0,1)–verteilt mit f(x) = 12e−|x|, x∈ R.

Man berechne F(x),F−1(u) und zeige, dass γ2(X) = 3 und γ2q(X) = 2.16.

(f) Die Standard-Cauchy–Verteilung mit Dichte f(x) = π(1+x1 2), x ∈ R besitzt keine Momente. Als Maße f¨ur Lokation, Dispersion und H¨ohe der Tails werden daher Funk- tionen der Quantilsfunktion herangezogen. Berechnen sie F(x), F−1(u), den inter- quartilen Bereich iqr=F−1(0.75)−F−1(0.25) und das Tailmaß γ2q(X).

4.) EDA, k–Stichprobenproblem, Merkmalefvc l, fe lmit Kategorienjung alt, gr kl;

[SPSS 11.0, R 1.7].

(a) Bilden Sie Box–Plot–Serien und Fehlerbalken f¨ur die Merkmale fvc l (fe l) bzgl.

der Kategorienjung altundgr klgetrennt. (4 Serien;Optionen: simple, summaries for groups of cases).

(b) Bilden Sie Box-Plot-Serien und Fehlerbalken f¨ur die Merkmale fvc l und fe l ge- meinsam, aber getrennt nach den Kategorien jung alt und gr kl. (2 Serien; Optio- nen: clustered, summaries for separate variables).

(3)

1. ¨ Ubungsblatt 507.051 Angewandte Statistik, WS 2003/2004

3

(c) Bilden Sie Box-Plot-Serien und Fehlerbalken f¨ur fvc l und fe l getrennt, aber ge- meinsam nach der Kategorie jung alt und Gruppe gr kl. (2 Serien; Optionen: clu- stered, summaries for groups of cases).

(d) Versuchen Sie aus (a) – (c) entsprechende Schl¨usse zu ziehen.

(e) Man generiere Scatterplots von fvc l(fev l) gegen gr m bzw. alter und lege Re- gressionsfunktionen durch. Gehen Sie dazu in den Graphikeditor und dort in das Men¨uDiagramme (Chart) −→Optionen (Options)−→Anpassungsoptionen (Fit op- tions). W¨ahlen sie nacheinander eine lineare und quadratische Regression, sowie die nichtparametrische Gl¨attung lowessaus.

(f) Erzeugen sie die Scatterplotmatrix f¨ur die Variablen alter, gr m, ge kg, fvc l, fev lund legen sie die entsprechenden Regressionsfunktionen durch.

5.) Verbundene Stichproben (Matched pairs); [SPSS 11.0, R 1.7].

Um den Einfluss einer Yoga– ¨Ubung auf den Blutdruck zu bestimmen, wurden an 14 Per- sonen Blutdruckmessungen in mmHg (systolisch/diastolisch) vor und nach der ¨Ubung gemessen. Die gemessenen Daten sind in der folgenden Tabelle angegeben.

Yoga–Daten von Feuerabendt/Hammer (1987) Nr. Geschlecht Alter Blutdruck

vorher nachher

1 w 43 140/90 110/70

2 w 39 100/80 120/70

3 m 36 120/70 130/70

4 m 76 130/100 190/130

5 w 40 150/80 130/90

6 w 49 115/75 120/80

7 m 41 100/80 130/60

8 w 27 140/80 120/70

9 m 37 105/80 120/60

10 w 21 105/80 110/70

11 m 38 130/75 120/65

12 w 52 120/90 110/85

13 w 69 145/80 130/80

14 m 32 115/85 125/65

(a) Definieren Sie einen entsprechendenSPSS–Fileyoga.savmit Variablen, deren Labels etc. Definieren Sie die Variabled systals Differenz dessystolischen Blutdrucks vorher mit dem systolischen Blutdruck nachher, analog die Variable d dias.

(b) F¨uhren Sie eine explorative und konfirmatorische Analyse durch. Hat das Merkmal Geschlechteinen Einfluß auf die Blutdruckwerted systundd diast? Ist dert–Test anwendbar? ¨Uberlegen Sie sich weitere sinnvolle Hypothesen und Fragestellungen.

(c) Fassen Sie Ihre Ergebnisse und Interpretationen in Form eines tt winword—Dokuments (max. 2 Seiten) zusammen.

(4)

1. ¨ Ubungsblatt 507.051 Angewandte Statistik, WS 2003/2004

4

6.) Fallbeispiel Luftschadstoffdaten (1. Teil) grazluft.xls; [SPSS 11.0, R 1.7].

Im Excel-File grazluft.xls finden Sie Luftschadstoff-Daten von den vier Grazer Mess- stellen Graz-Nord, Graz-Mitte, Graz-Ost und Graz-DonBosco in den zwei Zeitr¨aumen 16.11.2002 – 15.12.2002 und 1.2.2003 – 2.3.2003. Es sind jeweils die Tagesmittelwerte an Feinstaub (P M10), Stickstoffmonoxid (N O) und Stickstoffdioxid (N O2) in µg/m3 ange- geben.

(a) Lesen Sie den Excel-file grazluft.xlsvon der Internet–Seite ein und definieren Sie den File grazluft.savmit folgenden Variablen.

Name Typ Spalten Dezimalstellen Variablenlabel Meßniveau

datum Datum 10 Datum Metrisch

ort String 14 Messort Nominal

pm10 Numerisch 11 2 Feinstaub PM10 Metrisch

no Numerisch 11 2 Stickstoffmonoxid NO Metrisch

no2 Numerisch 11 2 Stickstoffdioxid NO2 Metrisch

(b) Definieren Sie einen Faktor periode (1,2)mit VariablenlabelZeitperiode f¨ur die 2 Zeitr¨aume 16.11.2002 – 15.12.2002, 1.2.2002 – 2.3.2003 und einen Faktormort(1,2,3,4) mit Variablenlabel Messort.

(c) Analysieren Sie die Schadstoffe mit univariaten Statistiken, Stem–and–Leaf-Plots, Histogrammen und Q-Q-Plots. Sind Auff¨alligkeiten in den Verteilungen zu erkennen?

(d) Vergleichen Sie die Schadstoffe bzgl. des Faktors periode mit Hilfe von Methoden f¨ur das Zweistichprobenproblem.

(e) Bilden Sie Box–Plot- und Fehlerbalken-Serien f¨ur pm10, no, no2 getrennt, aber ge- meinsam nach der Kategorieperiodeund der Gruppemort(analog zu Aufgabe 4(c)).

(f) F¨ur eine bivariate Betrachtungsweise erstelle man die Scatterplotmatrix (mit Gl¨attungen) bez¨uglich pm10,no,no2. Gibt es bemerkenswerte Zusammenh¨ange mit hoher Korre- lation?

Hinweise: Zusammenarbeit in Zweiergruppen ist erw¨unscht.

Die Daten sind unter www.cis.tu-graz.ac.at/stat/angstat/data

zu finden. Speichern sie Ihre ¨Ubungsaufgaben (mit entsprechenden Kommentaren) unter folgen- den File–Namen ab: Nachname1aufgabenr.*z.B.stampf11.doc maximal 8 Zeichen!

und ¨ubermitteln sie die Files ¨uber anonymous ftp wie folgt an uns:

1. Starten des ftp–Programms (beispielweise ws ftp95 le) 2. Name des Rechners eingeben: zid.tu-graz.ac.at 3. Username: abgabe

4. Password:ws03/04

5. Ablegen der Daten unter /incoming/angstat

Transfer der Files bis sp¨atestens: Mo. 27. 10. 2003, 20.00 Uhr

Besprechungstermin: Mi. 29. 10. 2003, 8.30–10.00, SR 405

Referenzen

ÄHNLICHE DOKUMENTE

Man bestimme eine Basis des Kerns und eine Basis des Bildes von f.. Man untersuche, ob f

(b) Stellen Sie ein (lineares) Regressionsmodell f¨ ur Zeit in Abh¨angigkeit von Dosis und Druck auf. Erstellen Sie Residuenplots und beurteilen Sie die Resultate. Teil) grazluft;

(a) Erstellen Sie einen Scatterplot der beiden Variablen und versuchen Sie, die Abh¨angigkeit der beiden Variablen durch eine Regressionsanalyse zu beschreiben.. Man benutze dazu

Man benutze da- zu das Men¨ u Analysieren (Analyze) −→ Regression −→ Linear mit den Einstellun- gen Abh¨ angige Variable (Dependent) d syst, unabh¨ angige Variable (Independent)

(c) Aufruf des Menüs Analysieren −→ Allgemeines Lineares Modell −→ Univariat, Ab- hängige Variable fe_l, Feste Faktoren al_kl, Diagramme Horizontale Achse al_kl, Post Hoc siehe

Dies d¨ urfen Sie o.B.d.A f¨ ur alle weiteren Ubungsaufgaben verwenden... (*) Nun zum

[r]

Nun wollen wir zeigen, dass das Supremum von M tats¨ achlich angenommen wird, also ein Maximum