L¨ osung zur 1. Klausur zu Statistik I
Prof. Dr. Claudia Becker Wintersemester 2007/08
12.02.2008
Aufgabe 1 (a)(insgesamt 13 Punkte: f¨ur jedes korrekt markierte Feld 1 Punkt) 1. (insgesamt 5 Punkte)
richtig falsch
x Spannweite R= 3
x xmed = 3
x x= 3
x xmod = 3
x M AD= 3
2. (insgesamt 8 Punkte) richtig falsch
x Die H¨aufigkeitsverteilung ist in Form der Urliste angegeben.
x Es handelt sich um eine unklassierte H¨aufigkeitsverteilung.
x Es handelt sich um eine klassierte H¨aufigkeitsverteilung.
x Das Merkmal ist stetig.
x Das Merkmal ist diskret.
x Die graphische Darstellung der H¨aufigkeitsverteilung kann durch ein Histogramm erfolgen.
x Die graphische Darstellung der H¨aufigkeitsverteilung kann durch eine Lorenzkurve erfolgen.
x Die H¨aufigkeitsverteilung kann nicht graphisch dargestellt werden, da sie nicht in relativen H¨aufigkeiten vorliegt.
Aufgabe 1 (b)(insgesamt 3 Punkte)
Abbildung 1 zeigt die H¨aufigkeitsverteilung aus Punkt 2 von Aufgabe 1 (a).(1 Punkt) Begr¨undung:
In Abbildung 2 ist der dargestellte Anteil der Klasse “200 und mehr” viel zu groß (0.5 Punkte), diese Klasse hat nur eine relative H¨aufigkeit von 5/1 087. Das entspricht nur rund 0.5% (0.5 Punkte). Somit kommen nur Abbildungen 1 oder 3 in Frage.
In Abbildung 3 ist der dargestellte Anteil der Klasse “160 bis unter 180” zu groß(0.5 Punkte).
Diese Klasse besitzt einen Anteil von 553/1 087 = 0.51. In Abbildung 3 ist aber ein Anteil von deutlich mehr als 50% ausgewiesen (0.5 Punkte).
Aufgabe 2 (a): (insgesamt 5 Punkte)
Durchschnittliche Benzinpreise f¨ur Halle und die Umgebung von Halle: Berechnung der arith- metischen Mittel(0.5 Punkte).
Allgemeine Formel: x= n1 ·Pni=1xi (0.5 Punkte) Damit
xHalle = 1
5 ·7.355 (1 Punkt)= 1.471 (0.5 Punkte) xU mgebung = 1
5·7.335 (1 Punkt)= 1.467 (0.5 Punkte)
Das Benzin ist im Schnitt in Halle teurer als in der Umgebung von Halle.(1 Punkt)
Aufgabe 2 (b):(insgesamt 8 Punkte)
Gesucht: 25%-, 75%-Quantil, Median, also x0.25, x0.75, xmed f¨ur Halle und Umgebung ge- trennt.
Quartile:
Falls n·p nicht ganzzahlig, ist xp =x([n·p]+1) (0.5 Punkte).
Hier ist jeweils n = 5, damit n ·0.25 = 1.25 nicht ganzzahlig und n· 0.75 = 3.75 nicht ganzzahlig.
Daherx0.25=x([5·0.25]+1) =x([1.25]+1) (0.5 Punkte) =x(2) (0.5 Punkte) und x0.75=x([5·0.75]+1) =x([3.75]+1) (0.5 Punkte) =x(4) (0.5 Punkte)
Alternativ: wenn x0.25 die zweite geordnete Beob. von unten, dann ist x0.75 die zweite geord- nete von oben, daher x0.75 =x(4).
Außerdem ist f¨ur n ungerade xmed=x(n+1
2 ) (0.5 Punkte), also xmed=x(6
2) =x(3) (1 Punkt).
Zur Berechnung: Beobachtungen ordnen(je 0.5 Punkte = 1 Punkt):
Halle
1.419 1.429 1.459 1.509 1.539 Umgebung von Halle
1.439 1.449 1.459 1.469 1.519 Damit f¨ur Halle:
x0.25= 1.429 (0.5 Punkte),x0.75 = 1.509 (0.5 Punkte), xmed= 1.459 (0.5 Punkte) F¨ur die Umgebung von Halle:
x0.25= 1.449 (0.5 Punkte),x0.75 = 1.469 (0.5 Punkte), xmed= 1.459 (0.5 Punkte)
Variante 1: Mit den richtigen L¨osungswerten aus Teil (b)
Variante 2: Mit den alternativen Werten gem¨aß Aufgabenstellung Teil (c)
Bewertung: Min, Max richtig eingetragen: jeweils 0.5 = insgesamt 2 Punkte; Boxen richtig je 0.5 = insgesamt 1 Punkt
Vergleich: Die Verteilungen der Benzinpreise in Halle und der Umgebung von Halle sind von der Lage (Zentrum) her ¨ahnlich (gleicher Median)(1 Punkt), aber die Streuungen unterschei- den sich deutlich. In Halle sind die Preisunterschiede wesentlich gr¨oßer als in der Umgebung von Halle(1 Punkt).
Aufgabe 3 (a): (insgesamt 8 Punkte)
Hilfstabelle: ben¨otigte Gr¨oßen f¨ur die Lorenzkurve
Klasse q nq fq uq mq fq·mq veq vq
[0,1 000) 7.5 0.15 0.15 500 75 0.0426 0.0426
[1 000,1 750) 20.5 0.41 0.56 1 375 563.75 0.3201 0.3627 [1 750,2 500) 7.0 0.14 0.70 2 125 297.5 0.1689 0.5316 [2 500,3 000) 15.0 0.30 1.00 2 750 825 0.4684 1.0000
P 50.0 1 761.25
(0.5 P.) (0.5 P.) (0.5 P.) (0.5 P.) (0.5 P.) (0.5 P.)
Lorenzkurve:
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
0.00.10.20.30.40.50.60.70.80.91.0
(Abbildung: 0.5 Punkte je richtig eingetragenem Koordinatenpunkt, 0.5 Punkte f¨ur Winkel- halbierende, insgesamt 3 Punkte)
Da die Lorenzkurve relativ nahe an der Winkelhalbierenden verl¨auft (1 Punkt), liegt eine eher geringe Konzentration der Behandlungskosten auf die Versichertenklassen vor(1 Punkt).
Aufgabe 3 (b):(insgesamt 5 Punkte) Gini-Koeffizient:
G=
Xk
j=1
(uj−1+uj)·vej −1 (1 Punkt)
q uq−1·veq uq·veq
1 0 0.0064
2 0.0480 0.1793
sind insgesamt eher gleichm¨aßiger auf die Versichertenklassen verteilt, nicht besonders stark auf eine Klasse konzentriert(0.5 Punkte).
Alternativ: G∗ auch richtig.
Aufgabe 3 (c): (insgesamt 4 Punkte) Die Aussage ist falsch (1 Punkt).
Es werden im Hochkostenbereich rund 46.8% der Kosten(2 Punkte)von 30% der Versicherten verursacht (1 Punkt).
Alternativ:
Es werden von 15% der Versicherten rund 4.3% der Kosten verursacht, dies betrifft aber den Niedrigkostenbereich. (ebenfalls 3 Punkte)
Aufgabe 4 (a): (insgesamt 6 Punkte)
Randsummen zur Bestimmung der bedingten Verteilungen:
Jahr
2000 2003 2006
deutsch 1 287 1 743 2 095 5 125 Nationalit¨at
nicht deutsch 836 980 981 2 797 2 123 2 723 3 076 7 922 (je 0.5 Punkte f¨ur korrekten Wert = 1.5 Punkte)
Bedingte Verteilungen des Merkmals “Nationalit¨at”, gegeben das Merkmal “Jahr”:
Jahr
2000 2003 2006 deutsch 0.606 0.640 0.681 Nationalit¨at
nicht deutsch 0.394 0.360 0.319
(muss nicht in Tabellenform angegeben sein; pro richtig angegebener relativer H¨aufigkeit 0.5 Punkte = 3 Punkte; falsche bedingte Verteilung: nur 1.5 Punkte)
Vergleicht man die beiden bedingten Verteilungen, so stellt man keine wesentlichen Unter- schiede fest (1 Punkt). Es kann daher nicht auf einen Zusammenhang zwischen den beiden Merkmalen geschlossen werden (0.5 Punkte).
Aufgabe 4 (b):(insgesamt 4 Punkte) χ2-Koeffizient:
χ2 =
Xk
i=1
Xm
j=1
(hij−eij)2 eij
(1 Punkt)
Konkret ist
χ2 = (1 287−1 373.438)2
1 373.438 +(1 743−1 761.598)2
1 761.598 + (2 095−1 989.965)2 1 989.965 (836−749.562)2 (980−961.403)2 (981−1 086.035)2
Nutzung von χ2 = 35. Zur Einsch¨atzung des Zusammenhangs zwischen den beiden Merk- malen wird der korrigierte Kontingenzkoeffizient K∗ berechnet (0.5 Punkte):
K∗ =
q χ2
χ2+n
qM−1 M
(0.5 Punkte)
mit M = min{k, m}(0.5 Punkte), hier M = 2 (0.5 Punkte) Damit :
K∗ =
q 35 35+7922
q1 2
= 0.094 (1 Punkt)
Es besteht praktisch kein Zusammenhang(1 Punkt)zwischen den Merkmalen “Nationalit¨at”
und “Jahr” (K∗ kleiner als 0.2(1 Punkt)).
Korrekturhinweis: Falls mit χ2 = 31.666 oder irgendeinem anderen (falschen) Ergebnis aus (b) gerechnet wurde: 1 Punkt abziehen; korrektes Ergebnis ist K∗ = 0.089 f¨ur χ2 = 31.666.
Aufgabe 5 (a): (insgesamt 11 Punkte)
Da in den Daten keine Bindungen vorliegen (1 Punkt), kann zur Bestimmung von rSp die folgende Formel verwendet werden:
rSp= 1− 6·Pni=1d2i
n·(n2−1) (1 Punkt) Damit ist in Version 1
rSp,1 = 1−6·(22+ (−2)2+ 02+ 02+ (−2)2+ 32+ (−1)2)
7·48 (0.5 Punkte)
= 1−6·22
7·48 = 1−132
336 = 0.607 (1 Punkt)
Es liegt zwischen den beiden Merkmalen ein deutlicher, positiver, monotoner Zusammenhang vor (je 0.5 = 1.5 Punkte): je besser die Note (niedriger Rangwert der Note), desto k¨urzer die Dauer der Arbeitssuche (niedriger Rangwert der Suchdauer) (0.5 Punkte).
In Version 2 ist
rSp,2 = 1−6·((−2)2+ 02+ (−6)2+ 62+ (−2)2 + 12+ 32)
7·48 (0.5 Punkte)
= 1−6·90
7·48 = 1−540
336 =−0.607 (1 Punkt)
Es liegt zwischen den beiden Merkmalen ein deutlicher, negativer, monotoner Zusammen- hang vor (je 0.5 = 1.5 Punkte): je besser die Note (niedriger Rangwert der Note), desto weniger lang ist die Suche nach einer Arbeitsstelle (hoher Rangwert der Suchdauer) (0.5 Punkte).
Der Unterschied in den Werten vonrSp liegt nur im Vorzeichen, die St¨arke und Art des Zu- sammenhangs ist in beiden Versionen gleich (1 Punkt). Durch die Umkehrung der Reihung bei der Rangvergabe der Arbeitssuchdauer kommt das unterschiedliche Vorzeichen zustande (1 Punkt).
Aufgabe 5 (b):(insgesamt 7 Punkte)
Wenn man nun auch noch die Reihenfolge der Rangvergabe bei der Note ¨andert, dann tritt der gleiche Effekt ein, den man auch schon zwischen den Versionen 1 und 2 der Berechnung beobachten konnte. Es ¨andert sich in beiden Versionen jeweils das Vorzeichen von rSp (2 Punkte). Damit wird
rSp,1,neu =−0.607 (1 Punkt) und
Lineares Trendmodell ist
yt =a·t+b+ǫt, t= 1, . . . , T, lineare Trendfunktion ist dabei
ybt=a·t+b (1 Punkt)
Korrekturhinweis: beide Varianten akzeptieren
Regressionskoeffizienten a und b der Trendfunktion aus den Daten berechnen: es ist ab=
PT
t=1t·yt−T ·t·y
PT
t=1t2−T ·t2 (1 Punkt) und
bb=y−ab·t (1 Punkt)
Weiterhin:t= T1·PTt=1t= 55/10 = 5.5(1 Punkt)undy= T1·PTt=1yt = 5929.43/10 = 592.943 (1 Punkt).
Damit und mit den weiteren angegebenen Hilfsgr¨oßen ist
ba= 31 122.14−10·5.5·592.943
385−10·5.52 (1 Punkt)= −1 489.725
82.5 =−18.0573 (1 Punkt) und
bb= 592.943−(−18.0573)·5.5 = 692.2582 (1 Punkt) Die errechnete Geradengleichung ist damit
ybt=−18.0573·t+ 692.2582 (1 Punkt)
Aufgabe 6 (b):(insgesamt 3 Punkte) Nutze Prognose f¨urt = 11:
yb11=−18.0573·11 + 692.2582 (1 Punkt)= 493.6279 (1 Punkt)
F¨ur den Juli 2006 (alsot= 11) rechnet der Hausbesitzer mit einem Preis von 493.6279 Euro pro 1 000 Liter Heiz¨ol(1 Punkt).
Aufgabe 6 (c): (insgesamt 4 Punkte)
Die Annahme eines linearen Trends scheint f¨ur die ersten neun Zeitpunkte recht gut zu pas- sen(1 Punkt). Der Preis zur Zeitt= 10 passt allerdings nicht so gut zur restlichen zeitlichen Entwicklung (1 Punkt). Darunter leidet auch die Anpassung, denn die letzte Beobachtung scheint die angepasste Gerade nach unten zu ziehen (1 Punkt). Insgesamt w¨are die Anpas- sung und damit wohl auch die Prognose f¨ur t = 11 wahrscheinlich besser, wenn ohne die Beobachtung zur Zeitt= 10 gearbeitet worden w¨are (1 Punkt).