• Keine Ergebnisse gefunden

1. ¨Ubungsblatt 506.051 Angewandte Statistik, WS 2006/2007

N/A
N/A
Protected

Academic year: 2021

Aktie "1. ¨Ubungsblatt 506.051 Angewandte Statistik, WS 2006/2007"

Copied!
4
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

1. ¨ Ubungsblatt 506.051 Angewandte Statistik, WS 2006/2007

1 Univ.-Prof. DI Dr. Ernst Stadlober

1.) EDA und CDA, Einstichprobenproblem,aimu.txt;[SPSS 14.0, R 2.3]

(a) Lesen Sie die Textdatei aimu.txt in SPSS (oder R) ein und definieren Sie die Va- riablen gem¨ass Beispiel 2.1 im Skriptum. In SPSS definieren Sie mit dem Men¨u Transformieren Umkodieren In andere Variable die Variablen gr m (Gr¨oße in Meter),fvc l(FVC in Liter),fe l(FEV1 in Liter). Kodieren Sie die kategoriale Va- riable regionmit dem Men¨u Transformieren→ Automatisch umkodierenals Faktor mit den Stufen 1,2um. Man definiere neue Gruppierungsvariablenjung alt (1,2) mit alter16-30, 31-56; al kl (1,2,3,4,5) mitalter 16–19, 20–25, 26–32, 33–40, 41–56; gr kl (1,2,3,4) mitgr m 1.60–1.72, 1.73–1.76, 1.77–1.81, 1.82–1.95.

(b) Definieren Sie f¨ur jede VariableVariable Labels (z.B.fvc l:Vitalkapazitaet).

(c) Analysieren Sie zweider Variablen alter, gr m, ge kg, fvc l, fe lmit den Me- thoden der explorativen Datenanalyse. Benutzen SieHistogramme(mit default-Werten und selbst gew¨ahlten Klassenanzahlen),Stengel–Blatt–Diagramme (Stem–and–Leaf–

Plots), Fehlerbalken (Error Bars), Boxplots und Q–Q–Plots. Versuchen Sie, einen einheitlichen Standard f¨ur ihre Grafiken festzulegen (F¨ullfarbe, Beschriftungen, Sym- boldicke, -gr¨oße etc.) und geben Sie jeder Grafik einen Titel.

(d) Berechnen Sie f¨ur zwei der Variablen gr m, ge kg, fvc l, fe lstatistische Kenn- gr¨oßen, die vonSPSSstandardm¨aßig angeboten werden. Berechnen Sie auch (h¨andisch oder mit einem Programm) sq,sM AD,g1q,gq2 und cv.

(e) F¨uhren Sie f¨urzweider Variablengr m, ge kg, fvc l, fe l(i) einen Kolmogorov- Smirnov-Test und (ii) einen Test auf Normalverteilung (unter Men¨uAnalysieren−→

Explorative Datenanalyse) durch.

(f) Was liefert der t–Test bzgl. der Hypothesen µgr = 1.75, µge = 80, muf vc= 5.4 und µf e = 4.5?

(g) Fassen Sie Ihre Ergebnisse und Interpretationen in Form eines Dokuments (*.pdf oder *.doc mit max. 4 Seiten) zusammen.

2.) EDA und CDA, Zweistichprobenproblem, Merkmale fvc l, fe l mit Kategorien jung alt, region; [SPSS 14.0, R 2.3].

(a) Geben SieHistogramme, Box-Plots, Fehlerbalken, Stengel-Blatt-Diagrammebzgl. der beiden Merkmale fvc l, fe lin Abh¨angigkeit von jung altbzw. regionan.

(b) Was liefern die Q-Q-Plots mit Normalverteilung und die univariaten Tests auf Normal- verteilung (K–S–Test und Shapiro–Wilk–Test) f¨ur die einzelnen Gruppen?

(c) Berechnen Sie bei beiden Merkmalen fvc l, fe l, klassifiziert nach den Kategorien jung alt bzw.region, 99%–Konfidenzintervalle (h¨andisch) f¨ur µD =µX −µY. (d) F¨uhren Sie die entsprechenden t–Tests durch und interpretieren Sie die Ergebnisse.

Als Test auf Gleichheit der Varianzen wird in SPSS der Levene–Test benutzt. Was liefert der klassische F–Test (α = 0.01,0.05) (h¨andische Berechnung oder durch Programm)?

(e) Welche Ergebnisse erh¨alt man mit (i) dem Mann–Whitney–U–Test und (ii) dem Kolmogorov–Smirnov–Test bzgl. des Vergleichs der klassifizierten Stichproben?

(2)

1. ¨ Ubungsblatt 506.051 Angewandte Statistik, WS 2006/2007

2

(f) Fassen Sie Ihre Ergebnisse und Interpretationen in Form eines Dokuments (*.pdf oder *.doc mit max. 4 Seiten) zusammen.

3.) [T] Kenngr¨oßen von Verteilungen.

(a) Sei X F mit E(X) = µ, V ar(X) = σ2. Man zeige, dass die Schiefe γ1(X) und die Kurtosis γ2(X) invariant sind unter der Standardisierung Z = (X−µ)/σ;

d.h. γi(X) =γi(Z), i= 1,2.

(b) Wegen (a) kann man o.B.d.A. E(X) = 0 undV ar(X) = 1 annehmen. Man zeige die Ungleichung γ2(X)>γ12(X)2.

Hinweis: Integrieren SieR

(x2−γ1x−1)2dF(x)

(c) Die ZufallsvariableX sei Gamma(a)–verteilt, hat also die Dichte f(x) = xa−1e−x

Γ(a) , x >0, a >0.

Zeigen Sie, daß γ1(X) = 2a, γ2(X) = 6a.

(d) Sei Xiiid F stetige Zufallsvariable mit Dichte f =F0.k=bnpc+1, f(xp)>0, wobei gilt F(xp) =p. Es gilt X(k) =F−1(U(k)) mitU(k)∼beta(k, n−k+1),E(U(k)) =n+1k , V ar(U(k)) = (n+1)(n+2)k

³

1n+1k

´

. Ist F−1 zweimal differenzierbar, dann verifiziere man (vergleiche Satz 2.3.2.):

E(X(k)) xp+ p(1−p) 2n f2(xp)

µ

−d f(F−1(u)) du

¶ ¯¯¯

¯¯

u=p

V ar(X(k)) p(1−p) n f2(xp).

(e) Die Zufallsvariable X sei Laplace(0,1)–verteilt mit f(x) = 12e−|x|, x∈R.

Man berechne F(x),F−1(u) und zeige, dass γ2(X) = 3 und γ2q(X) = 2.16.

(f) Die Standard-Cauchy–Verteilung mit Dichte f(x) = π(1+x1 2), x R, besitzt kei- ne Momente. Als Maße f¨ur Lokation, Dispersion und H¨ohe der Tails werden daher Funktionen der Quantilsfunktion herangezogen. Berechnen Sie F(x), F−1(u), den interquartilen Bereich iqr=F−1(0.75)−F−1(0.25) und das Tailmaß γ2q(X).

4.) EDA, k–Stichprobenproblem, Merkmalefvc l,fe lmit Kategorienjung alt, gr kl;

[SPSS 14.0, R 2.3].

(a) Man erzeuge Box–Plot–Serien und Fehlerbalken f¨ur die Merkmalefvc l (fe l)bzgl.

der Kategorien jung altund gr klgetrennt. (4 Serien; Optionen: Einfach, Auswer- tung ¨uber Kategorien einer Variablen).

(b) Man erzeuge Box-Plot-Serien und Fehlerbalken f¨ur die Merkmale fvc l und fe l gemeinsam, aber getrennt nach den Kategorien jung alt und gr kl. (2 Serien; Op- tionen: Gruppiert, Auswertung f¨ur verschiedene Variablen).

(c) Man erzeuge Box-Plot-Serien und Fehlerbalken f¨ur fvc l und fe l getrennt, aber gemeinsam nach der Kategorie jung alt und Gruppe gr kl. (2 Serien; Optionen:

Gruppiert, Auswertung ¨uber Kategorien einer Variablen).

(3)

1. ¨ Ubungsblatt 506.051 Angewandte Statistik, WS 2006/2007

3

(d) Versuchen Sie aus (a) – (c) entsprechende Schl¨usse zu ziehen.

(e) Man generiere Streudiagramme (Scatterplots) von fvc l(fev l) gegen gr m bzw.

alter und lege Regressionsfunktionen durch. Gehen Sie dazu in den Graphikedi- tor und f¨ugen eine Anpassungslinie hinzu (Symbol in der Men¨uleiste). W¨ahlen Sie nacheinander eine lineare und quadratische Regression, sowie die nichtparametrische Gl¨attunglowessaus.

(f) Man erzeuge die Scatterplotmatrix f¨ur die Variablen alter, gr m, ge kg, fvc l, fev lund lege entsprechende Regressionsfunktionen durch.

(g) Fassen Sie Ihre Ergebnisse und Interpretationen in Form eines Dokuments (*.pdf oder *.doc mit max. 4 Seiten) zusammen.

5.) Verbundene Stichproben (Matched pairs); [SPSS 14.0, R 2.3].

Um den Einfluss einer Yoga– ¨Ubung auf den Blutdruck zu bestimmen, wurden an 14 Per- sonen Blutdruckmessungen in mmHg (systolisch/diastolisch) vor und nach der ¨Ubung gemessen. Die gemessenen Daten sind in der folgenden Tabelle angegeben.

Yoga–Daten von Feuerabendt/Hammer (1987) Nr. Geschlecht Alter Blutdruck

vorher nachher

1 w 43 140/90 110/70

2 w 39 100/80 120/70

3 m 36 120/70 130/70

4 m 76 130/100 190/130

5 w 40 150/80 130/90

6 w 49 115/75 120/80

7 m 41 100/80 130/60

8 w 27 140/80 120/70

9 m 37 105/80 120/60

10 w 21 105/80 110/70

11 m 38 130/75 120/65

12 w 52 120/90 110/85

13 w 69 145/80 130/80

14 m 32 115/85 125/65

(a) Definieren Sie einen entsprechenden SPSS–File yoga.sav oder R–File mit Variablen, deren Labels etc. Definieren Sie die Variabled systals Differenz dessystolischen Blut- drucks vorher mit demsystolischen Blutdruck nachher, analog die Variable d dias.

(b) F¨uhren Sie eine explorative und konfirmatorische Analyse durch. Hat das Merkmal Geschlechteinen Einfluß auf die Blutdruckwerted systundd diast? Ist dert–Test anwendbar? ¨Uberlegen Sie sich weitere sinnvolle Hypothesen und Fragestellungen, und benutzen Sie dazu entsprechende statistische Verfahren.

(c) Fassen Sie Ihre Ergebnisse und Interpretationen in Form eines Dokuments (*.pdf oder *.doc mit max. 2 Seiten) zusammen.

(4)

1. ¨ Ubungsblatt 506.051 Angewandte Statistik, WS 2006/2007

4

6.) Fallbeispiel Luftschadstoffdaten (1. Teil) grazluft.xls; [SPSS 14.0, R 2.3]

Im Filegrazluft.xlsfinden Sie Luftschadstoff-Daten von vier Grazer Messstellen: Graz- Nord, Graz-Mitte, Graz-Ost und Graz-DonBosco in zwei Zeitr¨aumen 16.11.2002–15.12.2002 und 1.2.2003–2.3.2003. Es sind jeweils die Tagesmittelwerte an Feinstaub (P M10), Stick- stoffmonoxid (N O) und Stickstoffdioxid (N O2) in µg/m3 angegeben.

(a) Lesen Sie den File grazluft.xlsvon der Homepage ein und definieren Sie den File grazluft.sav mit folgenden Variablen.

Name Typ Spalten Dezimalen Variablenlabel Messniveau

datum Datum 10 Datum Metrisch

ort String 14 Messort Nominal

pm10 Numerisch 11 2 Feinstaub PM10 Metrisch

no Numerisch 11 2 Stickstoffmonoxid NO Metrisch

no2 Numerisch 11 2 Stickstoffdioxid NO2 Metrisch

(b) Definieren Sie den Faktor periode (1,2) mit Variablenlabel Zeitperiode f¨ur die 2 Zeitr¨aume 16.11.2002–15.12.2002, 1.2.2002–2.3.2003 und den Faktor mort(1,2,3,4) mit Variablenlabel Messort.

(c) Analysieren Sie die Schadstoffe mit univariaten Statistiken, Stem–and–Leaf-Plots, Histogrammen und Q-Q-Plots. Sind Auff¨alligkeiten in den Verteilungen zu erkennen?

(d) Vergleichen Sie die Schadstoffe bzgl. des Faktors periode mit Hilfe von Methoden f¨ur das Zweistichprobenproblem.

(e) Bilden Sie Box–Plot- und Fehlerbalken-Serien f¨ur pm10, no, no2 getrennt, aber ge- meinsam nach der Kategorieperiodeund der Gruppemort(analog zu Aufgabe 4(c)).

(f) F¨ur eine bivariate Betrachtungsweise erstelle man die Scatterplotmatrix (mit Gl¨attun- gen) bez¨uglich pm10, no, no2. Gibt es bemerkenswerte Zusammenh¨ange mit hoher Korrelation?

Hinweise: Zusammenarbeit in Zweiergruppen ist erw¨unscht.

Herunter laden der Daten ¨uber die HomePage des Instituts: www.stat.tugraz.at:

Klicken Sie der Reihe nach Lectures −→ Applied Statistics−→ aimu.txt.

Speichern Sie Ihre ¨Ubungsaufgaben (mit entsprechenden Kommentaren) unter folgenden File–

Namen ab: Nachname1aufgabenr.*z.B.schiefer11.doc

und ¨ubermitteln Sie die Files ¨uber e-mail (e.stadlober@tugraz.at) an mich.

Transfer der Files bis sp¨atestens: Di. 7. 11. 2006, 10.00 Uhr

Besprechungstermin: Mi. 8. 11. 2006, 10.15–11.45, SR 405

Referenzen

ÄHNLICHE DOKUMENTE

Um Auf- schluß ¨ uber die Wahrscheinlichkeit p zu bekommen, wird bei laufender Pro- duktion eine Stichprobe von n Bauteilen entnommen, die auf ihre Funkti- onst¨ uchtigkeit ¨

(b) Beim Vergleich von zwei Waschmitteln hat man folgende H¨ aufigkeiten f¨ ur die Einstufung in drei Qualit¨ atsklassen erhalten:..

Man benutze da- zu das Men¨ u Analysieren (Analyze) −→ Regression −→ Linear mit den Einstellun- gen Abh¨ angige Variable (Dependent) d syst, unabh¨ angige Variable (Independent)

(a) Erstellen Sie einen Scatterplot der beiden Variablen und versuchen Sie, die Abh¨angigkeit der beiden Variablen durch eine Regressionsanalyse zu beschreiben.. (b) ¨ Uberpr¨ ufen

(b) Stellen Sie ein (lineares) Regressionsmodell f¨ ur Zeit in Abh¨angigkeit von Dosis und Druck auf. Erstellen Sie Residuenplots und beurteilen Sie die Resultate. Teil) grazluft;

(d) Aufruf des Men¨ us Analysieren −→ Nichtparametrische Tests −→ K unabh¨ ang- ige Stichproben Tests: Kruskal-Wallis-H Optionen Deskriptive Statistik, Quar- tile.. (e)

(b) F¨ uhren Sie eine einfache Varianzanalyse in R mit den Befehlen gem¨ aß Hand- Out durch?. (c) Welche Parametrisierung liefert der Aufruf

(e) Die zwei Dreifachwechselwirkungen ABC und ABD haben offensichtlich große Effekte. Zeichnen Sie einen W¨ urfel in den Faktoren A, B, C mit den durch- schnittlichen Ertr¨ agen