• Keine Ergebnisse gefunden

2. ¨ Ubungsblatt 506.051 Angewandte Statistik, WS 2005/2006

N/A
N/A
Protected

Academic year: 2021

Aktie "2. ¨ Ubungsblatt 506.051 Angewandte Statistik, WS 2005/2006"

Copied!
3
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

2. ¨ Ubungsblatt 506.051 Angewandte Statistik, WS 2005/2006

1

Univ.-Prof. DI Dr. Ernst Stadlober

1.) Simulation von Stichproben, Transformation zur Normalverteilung,[SPSS 12.0, R 2.01]

(a) Erzeugen Sie einen Datenfile mit n = 32 (n = 64) Stichproben aus der Gamma- Verteilung mit den Parametern a= 2,5,10 und λ= 1 und aus der Standard-Normal N(0,1)–Verteilung. Speichern Sie diese 4 Variablen auf die Datenfiles simgam32.sav und simgam64.sav ab. Stellen Sie jedes Merkmal mittels Boxplot, Stengel-Blatt- Diagramm und Histogramm dar. Berechnen Sie statistische Kenngr¨oßen, f¨uhren Sie Tests auf Normalverteilung durch und stellen Sie die Situation durch Q-Q-Plots mit der N(0,1)-Verteilung als Referenz dar.

(b) Transformieren Sie die Stichproben (x1, . . . , xn) aus der Gamma-Verteilung nach der i. Fisher–Transformationyi =√

4xi−√ 4a−1,

ii. Wilson–Hilferty–Transformationwi = xai1/3−µ/σmitµ= 1−9a1 ,σ =q9a1 zu ann¨aherndN(0,1)–verteilten Stichproben und erweitern Sie die Datenfiles um die- se sechs Variablen. Analysieren Sie die Verteilung der transformierten Merkmale wie in (a).

Hinweis: Definieren Sie in SPSS eine neue Datei mit einer (k¨unstlichen) Varia- blen, die aus 32 (64) Werten besteht. Gehen Sie dann in das Men¨u Transformieren

−→ Startwert f¨ur Zufallszahlenund setzen den Startwert auf Ihre Matrikelnummer.

F¨uhren Sie dann im Untermen¨uBerechnen...die Transformationen RV.GAMMA(a,1) (a= 2,5,10) und RV.NORMAL(0,1) aus. Damit haben Sie die gew¨unschten Stich- proben erzeugt.

(c) Fassen Sie Ihre Ergebnisse und Interpretationen in Form einespdf–Dokuments (max.

4 Seiten) zusammen.

2.) [T] Einfache lineare Regression.

Sei Yi i

∼N(µi, σ), i= 1, . . . , n, mit

µi12xi12x¯+β2(xi−x) =¯ α+β2ti. Man l¨osezwei der folgenden Aufgaben.

(a) Man berechne explizit die Hat–Matrix H= (hij) =X(XTX)−1XT. (b) Man zeige, dass ˆα ∼ N(α,σn), ˆβ2 ∼ N(β2,σ

St) gilt und dass ˆα,βˆ2 unabh¨angige Zufallsvariablen sind. F¨ur ˆβ1 = ˆα−βˆ2x¯ gilt ˆβ1 ∼Nβ1, σq1n+xS¯2

t

und

ρ( ˆβ1,βˆ2) =− x¯ qSt

n + ¯x2 .

(c) Sei Ri = Yi −µˆi = Yi −αˆ−βˆ2ti das i–te Residuum. Man zeige, daß E(Ri) = 0, Cov(Ri,α) =ˆ Cov(Ri,βˆ2) = 0 und

Ri∼N

0, σ s

1− 1 n− t2i

St

=N(0, σp1−hii).

(2)

2. ¨ Ubungsblatt 506.051 Angewandte Statistik, WS 2005/2006

2

und

ρ(Ri, Rj) =− hij q

(1−hii)(1−hjj) .

3.) Yoga–Daten aus ¨Ubungsblatt 1.5, einfache lineare Regression.[SPSS 12.0, R 2.01]

Man untersuche, ob der Effekt der Yoga– ¨Ubung (Differenz der systolischen Blutdruckwerte d syst) vom Ausgangswert (systolischer Blutdruck vorher bd v sys) abh¨angt.

(a) Erstellen Sie einen Scatterplot der beiden Variablen und versuchen Sie, die Abh¨angigkeit der beiden Variablen durch eine Regressionsanalyse zu beschreiben. Man benutze da- zu das Men¨u Analysieren (Analyze) −→ Regression −→ Linear mit den Einstellun- gen Abh¨angige Variable (Dependent) d syst, unabh¨angige Variable (Independent) bd v sys, Speichern (Save) Vorhergesagte Werte (Predicted Values): Nicht standar- disiert (Unstandardized), Residuen (Residuals): standardisiert (Standardized). Die Werte werden als pre 1,zre 1im Datenfile abgespeichert.

(b) ¨Uberpr¨ufen Sie die standardisierten Residuen auf Normalverteilung und erstellen Sie den Scatterplot zre 1gegenpre 1.

(c) Falls Ausreißer zu erkennen sind, f¨uhren Sie die gesamte Analyse auch ohne Ausreißer durch und vergleichen Sie die Ergebnisse.

4.) Lineare Regressionsanalyse der Baum–Daten baum.txt; [SPSS 12.0, R 2.01].

Die Datei baum.txt enth¨alt 3 Messungen an n = 31 Kirschb¨aumen aus dem Allegheny National Forest, Pennsylvania. Die erste Spalte gibt den DurchmesserdinInches =(0.0254 Meter), gemessen in einer H¨ohe von 1.37 Meter, die zweite die H¨ohe h in Feet (=0.3048 Meter) und die dritte das Volumenvin cubic feetan. Auf Grund der Messung von H¨ohe und Durchmesser m¨ochte man das Volumen eines Baumes vorhersagen.

(a) Vergeben Sie Labels und rechnen Sie die Einheiten in Meter (Kubikmeter) um. Ana- lysieren Sie die Daten mit geeigneten graphischen Verfahren.

(b) Stellen Sie ein (lineares) Regressionsmodell f¨urv in Abh¨angigkeit von d und h auf.

Erstellen Sie Residuenplots und beurteilen Sie die Resultate.

(c) Der geometrische Zusammenhang zwischen den Variablen d,hund vist durch v= π

12d2h (1)

gegeben (unter der Annahme der Baum habe eine konische Form). Welches lineare Modell w¨are geeignet diesen Zusammenhang zu beschreiben?

Hinweis: Man logarithmiere die Gleichung (1).

5.) [T] Lineare und quadratische Formen von normalverteilten Gr¨oßen Sei Yi iid∼ N(µ, σ),i= 1, . . . , n.

Zeigen Sie, dass

√n(Y −µ) und

n

X

i=1

(Yi−Y)2

(3)

2. ¨ Ubungsblatt 506.051 Angewandte Statistik, WS 2005/2006

3

unabh¨angige Zufallsvariable sind, und dass folgende Verteilungseigenschaften gelten:

√n(Y −µ)∼ N(0, σ) und Pni=1(Yi−Y)2 ∼σ2χ2n−1. Man benutze dazu Satz 3.3.1und Satz 3.3.2 aus dem Skriptum.

6.) Fallbeispiel Luftschadstoffdaten (2. Teil) grazluft.sav; [SPSS 12.0, R 2.01].

(a) Erstellen Sie ein Regressionsmodell f¨ur pm10 in Abh¨angigkeit von no, no2 und dem Faktor periode.

(b) Analysieren Sie die standardisierten Residuen mittels Histogramm, Q–Q-Plot und Scatterplot zre 1gegenpre 1.

(c) Welches Bestimmtheitsmaßr2adj und welche Streuung ˜σ erreicht man f¨ur das Modell?

Wo tritt das gr¨oßte negative (positive) Residuum auf? Gibt es Ausreißer? Ist die Periode von Bedeutung?

Hinweise

Herunter laden der Daten ¨uber die homepage des Instituts: www.stat.tugraz.at:

Klicken Sie der Reihe nach Ftp −→ANGSTAT −→DATA.

Speichern sie Ihre ¨Ubungsaufgaben (mit entsprechenden Kommentaren) unter folgenden File–

Namen ab: Nachname1aufgabenr.*z.B.schiff21.doc maximal 8 Zeichen!

und ¨ubermitteln sie die Files ¨uber anonymous ftp wie folgt an uns:

1. Starten des ftp–Programms (freie downloads z.B. unter

http://www.thefreesite.com/Free Software/FTP freeware/) 2. Name des Rechners eingeben: bs2.tugraz.at

3. Username: abgabe.stat 4. Password:ws05/06

5. Ablegen der Daten unter /incoming/angstat

Transfer der Files bis sp¨atestens: Mo. 28. 11. 2005, 20.00 Uhr

Besprechungstermin: Mi. 30. 11. 2005, 10.15–11.45, SR 405

Referenzen

ÄHNLICHE DOKUMENTE

Berechnen Sie statistische Kenngr¨ oßen, f¨ uhren Sie Tests auf Normalverteilung durch und stellen Sie die Situation durch Q-Q-Plots mit der N (0, 1)-Verteilung als Referenz dar..

Linear mit den Einstellungen Abh¨ angige Variable (Dependent) d syst, un- abh¨ angige Variable (Independent) bd v sys, Speichern (Save) Vorhergesagte Werte (Predicted Values):

pm10, no2, lute, ltusg k, wige f¨ ur die Gesamtstichprobe und getrennt nach monat (auftrennen der Daten durch das Men¨ u Daten −→ F¨ alle ausw¨ ahlen).. (b) Man plotte

(b) Man erzeuge Box-Plot-Serien und Fehlerbalken f¨ur die Merkmale fvc l und fe l gemeinsam, aber getrennt nach den Kategorien jung alt und gr kl.. (2 Serien; Op- tionen:

Man benutze da- zu das Men¨ u Analysieren (Analyze) −→ Regression −→ Linear mit den Einstellun- gen Abh¨ angige Variable (Dependent) d syst, unabh¨ angige Variable (Independent)

(a) Erstellen Sie einen Scatterplot der beiden Variablen und versuchen Sie, die Abh¨angigkeit der beiden Variablen durch eine Regressionsanalyse zu beschreiben.. (b) ¨ Uberpr¨ ufen

(b) Stellen Sie ein (lineares) Regressionsmodell f¨ ur Zeit in Abh¨angigkeit von Dosis und Druck auf. Erstellen Sie Residuenplots und beurteilen Sie die Resultate. Teil) grazluft;

(d) Aufruf des Men¨ us Analysieren −→ Nichtparametrische Tests −→ K unabh¨ ang- ige Stichproben Tests: Kruskal-Wallis-H Optionen Deskriptive Statistik, Quar- tile.. (e)