• Keine Ergebnisse gefunden

1. ¨Ubungsblatt 507.051 Angewandte Statistik, SS 2002

N/A
N/A
Protected

Academic year: 2021

Aktie "1. ¨Ubungsblatt 507.051 Angewandte Statistik, SS 2002"

Copied!
4
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

1. ¨ Ubungsblatt 507.051 Angewandte Statistik, SS 2002

1

Univ.-Prof. DI Dr. Ernst Stadlober

1.) EDA und CDA, Einstichprobenproblem,aimu.asc; [SPSS 9.0]

(a) Kodieren Sie die kategoriale Variable regionmit dem Men¨uTransformieren (Trans- form) Automatisch umkodieren (Automatic Recode) als Faktor mit den Stufen 1,2 um. Definieren sie neue Gruppierungsvariablen jung alt (1,2)mit alter 16- 30, 31-56; al kl (1,2,3,4,5) mitalter 16–19, 20–25, 26–32, 33–40, 41–56; gr kl (1,2,3,4) mitgr m 1.60–1.72, 1.73–1.76, 1.77–1.81, 1.82–1.95.

(b) Definieren Sie f¨ur jede VariableVariable Labels (z.B.fvc l: Vitalkapazitaet).

(c) Analysieren Sie zumindest zwei der Variablen alter, gr m, ge kg, fvc l, fe l mit den Methoden der explorativen Datenanalyse. Benutzen sie Histogramme (hi- stograms) (mit default-Werten und selbst gew¨ahlten Klassenanzahlen), Stem–and–

Leaf–Plots, Fehlerbalken (Error Bars), Boxplots und Q–Q–Plots. Versuchen sie, einen einheitlichen Standard f¨ur ihre Grafiken festzulegen (F¨ullfarbe, Beschriftungen, Sym- boldicke, -gr¨oße etc.) und geben sie jeder Grafik einen Titel.

(d) Berechnen Sie f¨ur zumindest zwei der Variablengr m, ge kg, fvc l, fe lstatisti- sche Kenngr¨oßen, die von SPSS standardm¨aßig angeboten werden. Berechnen Sie auch (h¨andisch oder mit einem Programm) sq,sM AD,g1q,g2q und cv.

(e) F¨uhren Sie f¨ur zumindest zwei der Variablen gr m, ge kg, fvc l, fe l (i) einen Kolmogorov-Smirnov-Test und (ii) einen Test auf Normalverteilung (unter Men¨uAna- lysieren (Analyze) −→ Explorative Datenanalyse (Explore)) durch.

(f) Was liefert der t–Test bzgl. der Hypothesen µgr = 1.75, µge = 80, muf vc= 5.4 und µf e = 4.5?

(g) Fassen Sie Ihre Ergebnisse und Interpretationen in Form eines winword–Dokuments (max. 4 Seiten) zusammen.

2.) EDA und CDA, Zweistichprobenproblem, Merkmale fvc l, fe l mit Kategorien jung alt, region; [SPSS 9.0].

(a) Geben SieHistogramme, Box-Plots, Fehlerbalken, Stem-and-Leaf-Plotsbzgl. der bei- den Merkmale fvc l, fe lin Abh¨angigkeit vonjung alt bzw.regionan.

(b) Was liefern die Q-Q-Plots mit Normalverteilung und die univariaten Tests auf Normal- verteilung (K–S–Test und Shapiro–Wilk–Test) f¨ur die einzelnen Gruppen?

(c) Berechnen Sie bei beiden Merkmalen fvc l, fe l, klassifiziert nach den Kategorien jung alt bzw.region, 99%–Konfidenzintervalle (h¨andisch) f¨ur µD =µX −µY. (d) F¨uhren Sie die entsprechenden t–Tests durch und interpretieren sie die Ergebnisse.

Als Test auf Gleichheit der Varianzen wird in SPSS der Levene–Test benutzt. Was liefert der klassische F–Test (α = 0.01,0.05) (h¨andische Berechnung oder durch Programm)?

(e) Welche Ergebnisse erh¨alt man mit (i) dem Mann–Whitney–U–Test und (ii) dem Kolmogorov–Smirnov–Test bzgl. des Vergleichs der klassifizierten Stichproben?

(f) Fassen Sie Ihre Ergebnisse und Interpretationen in Form eines winword–Dokuments (max. 4 Seiten) zusammen.

(2)

1. ¨ Ubungsblatt 507.051 Angewandte Statistik, SS 2002

2

3.) Kenngr¨oßen von Verteilungen.

(a) SeiX ∼F mit E(X) =µ,V ar(X) =σ2. Man zeige, daß die Schiefe γ1(X) und die Kurtosis γ2(X) invariant sind unter der Standardisierung Z = (X−µ)/σ;

d.h. γi(X) =γi(Z), i= 1,2.

(b) Wegen (a) kann man o.B.d.A. E(X) = 0 undV ar(X) = 1 annehmen. Man zeige die Ungleichung γ2(X)≥γ12(X)2.

Hinweis: Integrieren SieR(x2−γ1x−1)2dF(x)

(c) Die ZufallsvariableX sie Gamma(a)–verteilt, hat also die Dichte f(x) = xa−1e−x

Γ(a) , x >0, a >0.

Zeigen Sie, daß γ1(X) = 2a, γ2(X) = 6a.

(d) Die Zufallsvariable X sei Laplace(0,1)–verteilt mit f(x) = 12e−|x|, x∈ R.

Man berechne F(x),F−1(u) und zeige, dass γ2(X) = 3 und γ2q(X) = 2.16.

(e) Die Standard-Cauchy–Verteilung mit Dichte f(x) = π(1+x1 2), x ∈ R besitzt keine Momente. Als Maße f¨ur Lokation, Dispersion und H¨ohe der Tails werden daher Funktionen der Quantilsfunktion herangezogen. Berechnen sie F(x), F−1(u), den interquartilen Bereich iqr=F−1(0.75)−F−1(0.25) und das Tailmaß γ2q(X).

4.) EDA, k–Stichprobenproblem, Merkmalefvc l, fe lmit Kategorienjung alt, gr kl;

[SPSS 9.0].

(a) Bilden sie Box–Plot–Serien und Fehlerbalken f¨ur die Merkmale fvc l (fe l) bzgl.

der Kategorien jung alt und gr kl getrennt. (4 Serien; Optionen: simple, summa- ries for groups of cases).

(b) Bilden Sie Box-Plot-Serien und Fehlerbalken f¨ur die Merkmale fvc l und fe l ge- meinsam, aber getrennt nach den Kategorien jung alt undgr kl. (2 Serien;Optio- nen: clustered, summaries for separate variables).

(c) Bilden Sie Box-Plot-Serien und Fehlerbalken f¨ur fvc l und fe l getrennt, aber ge- meinsam nach der Kategorie jung alt und Gruppe gr kl. (2 Serien; Optionen:

clustered, summaries for groups of cases).

(d) Versuchen Sie aus (a) – (c) entsprechende Schl¨usse zu ziehen.

(e) Man generiere Scatterplots von fvc l(fev l) gegen gr m bzw. alter und lege Re- gressionsfunktionen durch. Gehen Sie dazu in den Graphikeditor und dort in das Men¨uDiagramme (Chart) −→Optionen (Options)−→Anpassungsoptionen (Fit op- tions). W¨ahlen sie nacheinander eine lineare und quadratische Regression, sowie die nichtparametrische Gl¨attung lowessaus.

(f) Erzeugen sie die Scatterplotmatrix f¨ur die Variablen alter, gr m, ge kg, fvc l, fev lund legen sie die entsprechenden Regressionsfunktionen durch.

5.) Verbundene Stichproben (Matched pairs); [SPSS 9.0].

Um den Einfluss einer Yoga– ¨Ubung auf den Blutdruck zu bestimmen, wurden an 14 Per- sonen Blutdruckmessungen in mmHg (systolisch/diastolisch) vor und nach der ¨Ubung gemessen. Die gemessenen Daten sind in der folgenden Tabelle angegeben.

(3)

1. ¨ Ubungsblatt 507.051 Angewandte Statistik, SS 2002

3

Yoga–Daten von Feuerabendt/Hammer (1987) Nr. Geschlecht Alter Blutdruck

vorher nachher

1 w 43 140/90 110/70

2 w 39 100/80 120/70

3 m 36 120/70 130/70

4 m 76 130/100 190/130

5 w 40 150/80 130/90

6 w 49 115/75 120/80

7 m 41 100/80 130/60

8 w 27 140/80 120/70

9 m 37 105/80 120/60

10 w 21 105/80 110/70

11 m 38 130/75 120/65

12 w 52 120/90 110/85

13 w 69 145/80 130/80

14 m 32 115/85 125/65

(a) Definieren Sie einen entsprechendenSPSS–Fileyoga.savmit Variablen, deren Labels etc. Definieren Sie die Variabled systals Differenz dessystolischen Blutdrucks vorher mit dem systolischen Blutdruck nachher, analog die Variable d dias.

(b) F¨uhren Sie eine explorative und konfirmatorische Analyse durch. Hat das Merkmal Geschlechteinen Einfluß auf die Blutdruckwerted systundd diast? Ist dert–Test anwendbar? ¨Uberlegen Sie sich weitere sinnvolle Hypothesen und Fragestellungen.

(c) Fassen Sie Ihre Ergebnisse und Interpretationen in Form eines tt winword—Dokuments (max. 2 Seiten) zusammen.

6.) Fallbeispiel Luftschadstoffdaten (1. Teil) luft.asc; [SPSS 9.0].

Im Datenfileluft.ascfinden Sie Luftschadstoff-Daten von n= 48 bayrischen Orten. F¨ur die beiden Monate Juli 1993 und April 1994 sind die durchschnittlichen Werte an Schwefel- dioxid (SO2), Kohlenmonoxid (CO), Stickoxid (N O), Stickstoffdioxid (N O2), Ozon (O3) jeweils inmg/m3 Luft und Schwebstaub (ST AU B) in µg/m3 angegeben.

(a) Lesen Sie den Textfile luft.asc von der Internet–Seite im festen Format wie folgt ein.

Achtung: Komma (Comma) bedeutet, daß die Dezimalstelle durch einen Punkt gegeben ist und dasKomma als Tausendertrennzeichen benutzt wird.

(4)

1. ¨ Ubungsblatt 507.051 Angewandte Statistik, SS 2002

4

Spalte Variable Variablendefinition Variablenlabel

1–15 ort String Messort

16–21 so2 Komma (Comma) Schwefeldioxid

22–26 co Komma Kohlenmonoxid

27–33 no Komma Stickoxid

34–40 no2 Komma Stickstoffdioxid

41–47 o3 Komma Ozon

48–52 staub Numerisch Schwebstaub

53–66 region String Regierungsbezirk

67–72 datum String Datum

73–75 regkurz String Bezirkkurz

(b) Definieren Sie einen Faktor fdat (1,2) mit Variablenlabel Messdatum f¨ur datum und einen Faktorregzif(1,...,7) mit VariablenlabelRegbezirk.

(c) Analysieren Sie zumindest zwei der Schadstoffe mit univariaten Statistiken, Stem–

and–Leaf-Plots, Histogrammen und Q-Q-Plots. Sind Auff¨alligkeiten in den Vertei- lungen zu erkennen?

(d) Vergleichen Sie die Schadstoffe bzgl. des Faktors fdat mit Hilfe von Methoden f¨ur das Zweistichprobenproblem.

(e) F¨ur eine bivariate Betrachtungsweise erstelle man die Scatterplotmatrix (mit Gl¨attungen) bez¨uglich so2,co,no,no2,o3und staub. Gibt es bemerkenswerte Zusammenh¨ange mit hoher Korrelation?

(f) Fassen Sie die Regierungsbezirke Unterfranken, Oberfranken, Mittelfranken und Ober- pfalz zur GruppeNordund die Regierungsbezirke Schwaben, Oberbayern und Nieder- bayern zur Gruppe S¨ud zusammen. (Definition eines neuen Faktors reggrup(1,2) mit Variablenlabel NordSuedund Wertelabels Bayern-Nord und Bayern-Sued). F¨ur welche Schadstoffe gibt es signifikante Unterschiede in den Mittelwerten der beiden Gruppen? Stellen Sie die Situation auch mittels Box-Plots und Fehlerbalken dar.

Hinweise: Zusammenarbeit in Zweiergruppen ist erw¨unscht.

Die Daten sind unter www.cis.tu-graz.ac.at/stat/angstat/data

zu finden. Speichern sie Ihre ¨Ubungsaufgaben (mit entsprechenden Kommentaren) unter folgen- den File–Namen ab: Nachname1aufgabenr.*z.B.stampf11.doc maximal 8 Zeichen!

und ¨ubermitteln sie die Files ¨uber anonymous ftp wie folgt an uns:

1. Starten des ftp–Programms (beispielweise das von Onnet angebotene) 2. Name des Rechners eingeben: statistik.tu-graz.ac.at

3. Username: anonymous 4. Password: guest

5. Ablegen der Daten unter statistik.tu-graz.ac.at/incoming/angstat Transfer der Files bis sp¨atestens: Di. 16. 4. 2002, 20.00 Uhr

Besprechungstermin: Do. 18. 4. 2002, 15.00 SR C208

Referenzen

ÄHNLICHE DOKUMENTE

Dies d¨ urfen Sie o.B.d.A f¨ ur alle weiteren Ubungsaufgaben verwenden... (*) Nun zum

[r]

Nun wollen wir zeigen, dass das Supremum von M tats¨ achlich angenommen wird, also ein Maximum

Aufgabe 1: Bemerkung: Bei dem angegebenen Modell handelt es sich um eine einfa- che Form des ber¨ uhmten Black-Scholes-Modells (ver¨ offentlicht 1973), f¨ ur das die Herren Robert

[r]

[r]

Aus der Vorlesung wissen wir dann, dass das N ’te approximierende Marktmodell f¨ ur hinreichend großes N arbitragefrei ist und das eindeutige Martingalmaß P ∗ N

[r]