2. ¨ Ubungsblatt 506.556 Statistik, WS 2007/2008
1Univ.-Prof. DI Dr. Ernst Stadlober
1.) [P] Kontingenztabelle, diskrete Merkmale.
In einer Untersuchung zur Habilitationsdichte an deutschen Hochschulen wurden u.a. die Merkmale Geschlecht und Habilitationsfach erhoben. In der Tabelle sind die erfolgreich abgeschlossenen Habilitationen eines bestimmten Jahres aufge- listet.
SprachWi ReSoWi NaWi Kunst Medizin
Frauen 51 20 30 4 44
M¨anner 216 92 316 10 433
(a) Man bestimme die Randh¨aufigkeiten und interpretiere sie.
(b) Man bestimme die relativen H¨aufigkeiten und die relativen Randh¨aufigkeiten.
Zu welcher Interpretation kommen Sie?
(c) F¨ur festgehaltenes Fach (Y =bj) bestimme man die relative Verteilung ¨uber dasGeschlecht. Welcher Zusammenhang zwischenGeschlechtundFachgebiet l¨asst sich daraus herauslesen?
(d) Man berechne χ2 , den Kontingenzkoeffizienten K und den korrigierten Kon- tingenzkoeffizienten Kcorr.
(e) Ermitteln Sie einige relative Chancen, die Ihnen sinnvoll erscheinen.
2.) [P] Regressionsanalyse.
In einer Studie zur Auswirkung von Fernsehprogrammen mit gewaltt¨atigen Sze- nen auf die Aggressivit¨at von Kindern wurden ein Aggressivit¨atswert Y , die Fernsehdauer X (in Minuten) und das Geschlecht Z (0 = m¨annlich, 1 = weib- lich) erfasst. Sowohl Y als auch X lassen sich als metrische Variablen behandeln.
Folgende Stichprobe liege vor.
i 1 2 3 4 5 6 7 8 9 10 11 12 13
xi 10 50 30 70 80 60 90 40 10 20 30 50 60
yi 4 5 2 6 6 8 7 2 7 3 5 1 3
zi 0 0 0 0 0 0 0 1 1 1 1 1 1
(a) Tragen Sie die Datenpunkte in einem Streudiagramm ein und berechnen Sie den Korrelationskoeffizienten rX,Y von Pearson sowie die Ausgleichsgerade ohne Ber¨ucksichtigung des Geschlechts.
(b) Markieren Sie die Datenpunkte bzgl. des Geschlechts und berechnen Sie den Korrelationskoeffizienten und die Ausgleichsgeraden f¨ur beide Geschlechter ge- trennt.
2. ¨ Ubungsblatt 506.556 Statistik, WS 2007/2008
2(c) Vergleichen Sie die Ergebnisse aus (a) und (b). Wie ¨andert sich die Interpre- tation des Zusammenhangs zwischen Aggressivit¨at und Fernsehdauer von gewaltt¨atigen Szenen?
(d) Berechnen und interpretieren Sie die Quadratsummenzerlegungen.
(e) Zeichnen Sie die Streudiagramme der Residuen ˆei =yi−yˆi gegen die Vorher- sagewerte ˆyi f¨ur alle drei Ausgleichsgeraden.
3.) [CT] Korrelationen bei Absolventenstudie aus Bsp. 1.2 [R 2.6.0].
(a) Man ermittle die Korrelationsmatrizen mit den Korrelationskoeffizienten von Pearson und Spearman f¨ur Studiendauer, Note, fachliches Engagement bzgl. der Gesamtstichprobe und getrennt nach Geschlecht und interpretiere die Ergebnisse.
(b) Sei (xi, yi), xi 6=xj, yi 6= yj f¨ur alle i, j, di =ri −si, die Differenz der R¨ange der x- undy-Stichprobe. Man zeige, dass f¨ur den Korrelationskoeffizienten von Spearman gilt
rSPXY = 1− 6Pn
i=1d2i (n2−1)n.
4.) [CS, optional] Analyse der Residuen analog zu Skriptum S. 84 [R 2.6.0]
Man erzeuge jeweils n = 100 Datenpaare (xi, yi) mit xi = 1(0.5)20, wobei der lineare Zusammenhang durch die Gleichung
y= ˆy= 1 + 3x beschrieben wird. Die Zufallsfehler seien jeweils ei iid
∼ N(0,1). Man simuliere folgen- de k¨unstlichen Daten und stelle jeweils die Residuenplots ˆyi gegen eˆi = yi −yˆi dar.
(a) yi = 1 + 3xi+ei, (b) yi = 1 + 3xi +eix2i,
(c) yi = 1 + 3xi+eixi(20−xi), (d) yi = 1 + 3xi+x3i +ei.
5.) [C] Regression bei Luftschadstoffdaten aus Bsp. 1.1 [R 2.6.0].
(a) Ermitteln Sie die Korrelationskoeffizienten von Pearson bzgl.pm10, no2, lute, ltusg k, wige f¨ur die Gesamtstichprobe und getrennt nach monat.
(b) Man plotte die Scatterplotmatrix dieser Merkmale markiert nach monat zu- sammen mit linearen Regressionsfunktionen. Erstellen Sie ein Regressionsmo- dell f¨ur pm10 mit einer der 4 anderen Variablen. W¨ahlen Sie dazu f¨ur die (i) gesamte Stichprobe, (ii) nur f¨ur Oktober (monat=1) und (iii) nur f¨ur Novem- ber (monat=2) eine geeignete Variable aus und begr¨unden Sie Ihre Wahl der Variablen.
(c) Man analysiere die standardisierten Residuen ˆe∗i = ˆei/se der gew¨ahlten Mo- delle mittels Histogramm, Q–Q-Plot und Scatterplot standardisierte Residuen ˆ
e∗i gegen Vorhersagewerte yˆi.
2. ¨ Ubungsblatt 506.556 Statistik, WS 2007/2008
3(d) Welche Bestimmtheitsmaße r2 und welche Streuungen se weisen die Modelle auf? An welchen Tagen treten die gr¨oßten negativen (positiven) Residuen ˆei auf? Gibt es Ausreißer (d.h. Werte mit|ˆe∗i|>2)? Ist monat von Bedeutung?
(e) F¨uhren Sie gegebenenfalls Regressionsanalysen ohne Ausreißer durch. Zu wel- cher Interpretation kommen Sie?
(f) Fassen Sie die Ergebnisse in Form eines Dokuments (max. 4 Seiten) zusammen.
6.) [T] Sch¨atzer und ihre Eigenschaften.
F¨ur einen Parameter θ > 0 sei X1, X2, . . . eine unabh¨angige Folge von Exp(θ)–
verteilten Zufallsvariablen (Dichte fθ(x) = θe−θx, x > 0).
(a) Man zeige, dass f¨ur jedes n∈N Tn(X1, . . . , Xn) =
à 1 n
Xn
i=1
Xi
!2
=X2
kein erwartungstreuer Sch¨atzer f¨ur den Parameter τ(θ) = θ12 ist.
(b) Man bestimme den Bias des Sch¨atzers Tn.
(c) Man zeige, dass T1, T2, . . . eine konsistente Sch¨atzfolge f¨ur τ(θ) ist.
(d) Man gebe einen erwartungstreuenSch¨atzer f¨ur τ(θ) an.
7.) [T] Maximum–Likelihoodsch¨atzer.
F¨ur θ ∈R sei die Dichte einer Zufallsvariablen X gegeben durch
fθ(X) = 3 x√
2π e−92(θ−logx)2, x > 0.
(a) Die Zufallsvariablen X1, . . . , Xn seien unabh¨angig und identisch verteilt mit der Dichte fθ. Man bestimme einen Maximum–Likelihoodsch¨atzer f¨ur den Pa- rameter θ.
(b) Man zeige, dass die Zufallsvariable Y = logX normalverteilt ist. Weiters be- stimme man E(X) und V ar(X).
(c) Man zeige, dass der Maximum–Likelihood–Sch¨atzer erwartungstreuer Sch¨atzer von θ ist.
Hinweis:
Speichern Sie Ihre ¨Ubungsaufgaben (mit entsprechenden Kommentaren) unter folgenden File–Namen ab: Statistik Nachname1aufgabenr.* z.B. Statistik schiefer21.pdf und ¨ubermitteln Sie die Files per e-mail mit dem Betreffstat an statistik@tugraz.at.