2. ¨ Ubungsblatt 507.051 Angewandte Statistik, WS 2003/2004
1Univ.-Prof. DI Dr. Ernst Stadlober
1.) [T] Charakterisierung von Projektionsmatrizen.
Beweisen Sie Lemma 3.2.2 (Skriptum):
(a) Die Hat–Matrix H = X(XTX)−1XT ist symmetrisch (H = HT) und idempotent (H=H2).
(b) Sei H eine beliebige n×n–Matrix und L der Spaltenraum von H, dann ist H eine Projektionsmatrix (auf L), wenn H symmetrisch und idempotent ist.
2.) Simulation von Stichproben, Transformation zur Normalverteilung,[SPSS 11.0, R 1.7]
(a) Erzeugen Sie einen Datenfile mit n = 32 (n = 64) Stichproben aus der Gamma- Verteilung mit den Parameterna= 2,5,10 undλ= 1 und aus derN(0,1)–Verteilung.
Speichern Sie diese 4 Variablen auf die Datenfilessimgam32.sav und simgam64.sav ab. Stellen Sie jedes Merkmal mittels Boxplot, Stengel-Blatt-Diagramm und Histo- gramm dar. Berechnen Sie statistische Kenngr¨oßen, f¨uhren Sie Tests auf Normalver- teilung durch und stellen Sie die Situation durch Q-Q-Plots mit derN(0,1)-Verteilung als Referenz dar.
(b) Transformieren Sie die Stichproben (x1, . . . , xn) nach der i. Fisher–Transformationyi =√
4xi−√ 4a−1,
ii. Wilson–Hilferty–Transformationwi =³¡xai¢1/3−µ´/σmitµ= 1−9a1 ,σ =q9a1 zu ann¨aherndN(0,1)–verteilten Stichproben und erweitern Sie die Datenfiles um die- se sechs Variablen. Analysieren Sie die Verteilung der transformierten Merkmale wie in (a).
Hinweis: Definieren Sie in SPSS eine neue Datei mit einer (k¨unstlichen) Varia- blen, die aus 32 (64) Werten besteht. Gehen Sie dann in das Men¨u Transformieren
−→ Startwert f¨ur Zufallszahlenund setzen den Startwert auf Ihre Matrikelnummer.
F¨uhren Sie dann im Untermen¨uBerechnen...die Transformationen RV.GAMMA(a,1) (a= 2,5,10) und RV.NORMAL(0,1) aus. Damit haben Sie die gew¨unschten Stich- proben erzeugt.
(c) Fassen Sie Ihre Ergebnisse und Interpretationen in Form eines winword–Dokuments (max. 4 Seiten) zusammen.
3.) [T] Einfache lineare Regression.
Sei Yi ∼i N(µi, σ), i= 1, . . . , n, mit
µi=β1+β2xi =β1+β2x¯+β2(xi−x) =¯ α+β2ti. Man l¨ose zumindest zweider folgenden Aufgaben.
(a) Man berechne explizit die Hat–Matrix H= (hij) =X(XTX)−1XT.
2. ¨ Ubungsblatt 507.051 Angewandte Statistik, WS 2003/2004
2(b) Man zeige, dass ˆα ∼ N(α,√σn), ˆβ2 ∼ N(β2,√σ
St) gilt und dass ˆα,βˆ2 unabh¨angige Zufallsvariablen sind. F¨ur ˆβ1 = ˆα−βˆ2x¯ gilt ˆβ1 ∼N³β1, σq1n+xS¯2
t
´ und ρ( ˆβ1,βˆ2) =− x¯
qSt
n + ¯x2.
(c) Sei Ri = Yi −µˆi = Yi −αˆ−βˆ2ti das i–te Residuum. Man zeige, daß E(Ri) = 0, Cov(Ri,α) =ˆ Cov(Ri,βˆ2) = 0 und
Ri∼N
0, σ s
1− 1 n− t2i
St
=N(0, σp1−hii).
und
ρ(Ri, Rj) =− hij q
(1−hii)(1−hjj).
4.) Yoga–Daten aus ¨Ubungsblatt 1.5, einfache lineare Regression.[SPSS 11.0, R 1.7]
Man untersuche, ob der Effekt der Yoga– ¨Ubung (Differenz der systolischen Blutdruckwerte d syst) vom Ausgangswert (systolischer Blutdruck vorher bd v sys) abh¨angt.
(a) Erstellen Sie einen Scatterplot der beiden Variablen und versuchen Sie, die Abh¨angigkeit der beiden Variablen durch eine Regressionsanalyse zu beschreiben. Man benutze dazu das Men¨u Analysieren (Analyze) −→ Regression −→ Linear mit den Einstel- lungen Abh¨angige Variable (Dependent)d syst,unabh¨angige Variable (Independent) bd v sys,Speichern (Save) Vorhergesagte Werte (Predicted Values): Nicht standardi- siert (Unstandardized),Residuen (Residuals): standardisiert (Standardized). Die Wer- te werden als pre 1,zre 1im Datenfile abgespeichert.
(b) ¨Uberpr¨ufen Sie die standardisierten Residuen auf Normalverteilung und erstellen Sie den Scatterplot zre 1gegenpre 1.
(c) Falls Ausreißer zu erkennen sind, f¨uhren Sie die gesamte Analyse auch ohne Ausreißer durch und vergleichen Sie die Ergebnisse.
5.) Lineare Regressionsanalyse der Baum–Daten baum.txt; [SPSS 11.0, R 1.7].
Die Datei baum.txt enth¨alt 3 Messungen an n = 31 Kirschb¨aumen aus dem Allegheny National Forest, Pennsylvania. Die erste Spalte gibt den DurchmesserdinInches =(0.0254 Meter), gemessen in einer H¨ohe von 1.37 Meter, die zweite die H¨ohe h in Feet (=0.3048 Meter) und die dritte das Volumenvin cubic feetan. Auf Grund der Messung von H¨ohe und Durchmesser m¨ochte man das Volumen eines Baumes vorhersagen.
(a) Vergeben Sie Labels und rechnen Sie die Einheiten in Meter (Kubikmeter) um. Ana- lysieren Sie die Daten mit geeigneten graphischen Verfahren.
(b) Stellen Sie ein (lineares) Regressionsmodell f¨ur v in Abh¨angigkeit von d und h auf.
Erstellen Sie Residuenplots und beurteilen Sie die Resultate.
2. ¨ Ubungsblatt 507.051 Angewandte Statistik, WS 2003/2004
3(c) Der geometrische Zusammenhang zwischen den Variablen d,hund vist durch v= π
12d2h (1)
gegeben (unter der Annahme der Baum habe eine konische Form). Welches lineare Modell w¨are geeignet diesen Zusammenhang zu beschreiben?
Hinweis: Man logarithmiere die Gleichung (1.
6.) Fallbeispiel Luftschadstoffdaten (2. Teil) grazluft.sav; [SPSS 11.0, R 1.7].
(a) Erstellen Sie ein Regressionsmodell f¨ur pm10 in Abh¨angigkeit vonno,no2 und dem Faktor periode.
(b) Analysieren Sie die standardisierten Residuen mittels Histogramm, Q–Q-Plot und Scatterplot zre 1gegenpre 1.
(c) Welches Bestimmtheitsmaßr2adj und welche Streuung ˜σ erreicht man f¨ur das Modell?
Wo tritt das gr¨oßte negative (positive) Residuum auf? Gibt es Ausreißer? Ist die Periode von Bedeutung?
Hinweise: Zusammenarbeit in Zweiergruppen ist erw¨unscht.
Die Daten sind unter www.cis.tu-graz.ac.at/stat/angstat/data
zu finden. Speichern sie Ihre ¨Ubungsaufgaben (mit entsprechenden Kommentaren) unter folgen- den File–Namen ab: Nachname2aufgabenr.*z.B.stampf21.doc maximal 8 Zeichen!
und ¨ubermitteln sie die Files ¨uber anonymous ftp wie folgt an uns:
1. Starten des ftp–Programms (beispielweise ws ftp95 le) 2. Name des Rechners eingeben: zid.tu-graz.ac.at 3. Username: abgabe
4. Password:ws03/04
5. Ablegen der Daten unter /incoming/angstat
Transfer der Files bis sp¨atestens: Di. 18. 11. 2003, 15.00 Uhr