L¨osung zur 1. Klausur zu Statistik I Prof. Dr. Claudia Becker Wintersemester 2007/08 12.02.2008

(1)

L¨ osung zur 1. Klausur zu Statistik I

Prof. Dr. Claudia Becker Wintersemester 2007/08

12.02.2008

Aufgabe 1 (a)(insgesamt 13 Punkte: f¨ur jedes korrekt markierte Feld 1 Punkt) 1. (insgesamt 5 Punkte)

richtig falsch

x Spannweite R= 3

x xmed = 3

x x= 3

x xmod = 3

x M AD= 3

2. (insgesamt 8 Punkte) richtig falsch

x Die H¨aufigkeitsverteilung ist in Form der Urliste angegeben.

x Es handelt sich um eine unklassierte H¨aufigkeitsverteilung.

x Es handelt sich um eine klassierte H¨aufigkeitsverteilung.

x Das Merkmal ist stetig.

x Das Merkmal ist diskret.

x Die graphische Darstellung der H¨aufigkeitsverteilung kann durch ein Histogramm erfolgen.

x Die graphische Darstellung der H¨aufigkeitsverteilung kann durch eine Lorenzkurve erfolgen.

x Die H¨aufigkeitsverteilung kann nicht graphisch dargestellt werden, da sie nicht in relativen H¨aufigkeiten vorliegt.

Aufgabe 1 (b)(insgesamt 3 Punkte)

Abbildung 1 zeigt die H¨aufigkeitsverteilung aus Punkt 2 von Aufgabe 1 (a).(1 Punkt) Begr¨undung:

In Abbildung 2 ist der dargestellte Anteil der Klasse “200 und mehr” viel zu groß (0.5 Punkte), diese Klasse hat nur eine relative H¨aufigkeit von 5/1 087. Das entspricht nur rund 0.5% (0.5 Punkte). Somit kommen nur Abbildungen 1 oder 3 in Frage.

In Abbildung 3 ist der dargestellte Anteil der Klasse “160 bis unter 180” zu groß(0.5 Punkte).

Diese Klasse besitzt einen Anteil von 553/1 087 = 0.51. In Abbildung 3 ist aber ein Anteil von deutlich mehr als 50% ausgewiesen (0.5 Punkte).

(2)

Aufgabe 2 (a): (insgesamt 5 Punkte)

Durchschnittliche Benzinpreise f¨ur Halle und die Umgebung von Halle: Berechnung der arith- metischen Mittel(0.5 Punkte).

Allgemeine Formel: x= _n¹ ·^Pⁿ_i=1xi (0.5 Punkte) Damit

xHalle = 1

5 ·7.355 (1 Punkt)= 1.471 (0.5 Punkte) xU mgebung = 1

5·7.335 (1 Punkt)= 1.467 (0.5 Punkte)

Das Benzin ist im Schnitt in Halle teurer als in der Umgebung von Halle.(1 Punkt)

Aufgabe 2 (b):(insgesamt 8 Punkte)

Gesucht: 25%-, 75%-Quantil, Median, also x0.25, x0.75, xmed f¨ur Halle und Umgebung ge- trennt.

Quartile:

Falls n·p nicht ganzzahlig, ist xp =x([n·p]+1) (0.5 Punkte).

Hier ist jeweils n = 5, damit n ·0.25 = 1.25 nicht ganzzahlig und n· 0.75 = 3.75 nicht ganzzahlig.

Daherx0.25=x([5·0.25]+1) =x([1.25]+1) (0.5 Punkte) =x(2) (0.5 Punkte) und x_0.75=x([5·0.75]+1) =x_([3.75]+1) (0.5 Punkte) =x₍₄₎ (0.5 Punkte)

Alternativ: wenn x0.25 die zweite geordnete Beob. von unten, dann ist x0.75 die zweite geordnete von oben, daher x_0.75 =x₍₄₎.

Außerdem ist f¨ur n ungerade xmed=x₍ⁿ⁺¹

2 ) (0.5 Punkte), also xmed=x₍⁶

2) =x(3) (1 Punkt).

Zur Berechnung: Beobachtungen ordnen(je 0.5 Punkte = 1 Punkt):

Halle

1.419 1.429 1.459 1.509 1.539 Umgebung von Halle

1.439 1.449 1.459 1.469 1.519 Damit f¨ur Halle:

x0.25= 1.429 (0.5 Punkte),x0.75 = 1.509 (0.5 Punkte), xmed= 1.459 (0.5 Punkte) F¨ur die Umgebung von Halle:

x_0.25= 1.449 (0.5 Punkte),x_0.75 = 1.469 (0.5 Punkte), xmed= 1.459 (0.5 Punkte)

(3)

Variante 1: Mit den richtigen L¨osungswerten aus Teil (b)

Variante 2: Mit den alternativen Werten gem¨aß Aufgabenstellung Teil (c)

Bewertung: Min, Max richtig eingetragen: jeweils 0.5 = insgesamt 2 Punkte; Boxen richtig je 0.5 = insgesamt 1 Punkt

Vergleich: Die Verteilungen der Benzinpreise in Halle und der Umgebung von Halle sind von der Lage (Zentrum) her ¨ahnlich (gleicher Median)(1 Punkt), aber die Streuungen unterschei- den sich deutlich. In Halle sind die Preisunterschiede wesentlich gr¨oßer als in der Umgebung von Halle(1 Punkt).

(4)

Hilfstabelle: benötigte Größen für die Lorenzkurve

Klasse q nq fq uq mq fq·mq veq vq

[0,1 000) 7.5 0.15 0.15 500 75 0.0426 0.0426

[1 000,1 750) 20.5 0.41 0.56 1 375 563.75 0.3201 0.3627 [1 750,2 500) 7.0 0.14 0.70 2 125 297.5 0.1689 0.5316 [2 500,3 000) 15.0 0.30 1.00 2 750 825 0.4684 1.0000

P 50.0 1 761.25

(0.5 P.) (0.5 P.) (0.5 P.) (0.5 P.) (0.5 P.) (0.5 P.)

Lorenzkurve:

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

0.00.10.20.30.40.50.60.70.80.91.0

(Abbildung: 0.5 Punkte je richtig eingetragenem Koordinatenpunkt, 0.5 Punkte f¨ur Winkel- halbierende, insgesamt 3 Punkte)

Da die Lorenzkurve relativ nahe an der Winkelhalbierenden verl¨auft (1 Punkt), liegt eine eher geringe Konzentration der Behandlungskosten auf die Versichertenklassen vor(1 Punkt).

Aufgabe 3 (b):(insgesamt 5 Punkte) Gini-Koeffizient:

G=

Xk

j=1

(uj−1+uj)·vej −1 (1 Punkt)

q uq−1·veq uq·veq

1 0 0.0064

2 0.0480 0.1793

(5)

sind insgesamt eher gleichm¨aßiger auf die Versichertenklassen verteilt, nicht besonders stark auf eine Klasse konzentriert(0.5 Punkte).

Alternativ: G^∗ auch richtig.

Aufgabe 3 (c): (insgesamt 4 Punkte) Die Aussage ist falsch (1 Punkt).

Es werden im Hochkostenbereich rund 46.8% der Kosten(2 Punkte)von 30% der Versicherten verursacht (1 Punkt).

Alternativ:

Es werden von 15% der Versicherten rund 4.3% der Kosten verursacht, dies betrifft aber den Niedrigkostenbereich. (ebenfalls 3 Punkte)

(6)

Randsummen zur Bestimmung der bedingten Verteilungen:

Jahr

2000 2003 2006

deutsch 1 287 1 743 2 095 5 125 Nationalit¨at

nicht deutsch 836 980 981 2 797 2 123 2 723 3 076 7 922 (je 0.5 Punkte f¨ur korrekten Wert = 1.5 Punkte)

Bedingte Verteilungen des Merkmals “Nationalit¨at”, gegeben das Merkmal “Jahr”:

Jahr

2000 2003 2006 deutsch 0.606 0.640 0.681 Nationalit¨at

nicht deutsch 0.394 0.360 0.319

(muss nicht in Tabellenform angegeben sein; pro richtig angegebener relativer H¨aufigkeit 0.5 Punkte = 3 Punkte; falsche bedingte Verteilung: nur 1.5 Punkte)

Vergleicht man die beiden bedingten Verteilungen, so stellt man keine wesentlichen Unter- schiede fest (1 Punkt). Es kann daher nicht auf einen Zusammenhang zwischen den beiden Merkmalen geschlossen werden (0.5 Punkte).

Aufgabe 4 (b):(insgesamt 4 Punkte) χ²-Koeffizient:

χ² =

Xk

i=1

Xm

j=1

(hij−eij)² eij

(1 Punkt)

Konkret ist

χ² = (1 287−1 373.438)²

1 373.438 +(1 743−1 761.598)²

1 761.598 + (2 095−1 989.965)² 1 989.965 (836−749.562)² (980−961.403)² (981−1 086.035)²

(7)

Nutzung von χ² = 35. Zur Einsch¨atzung des Zusammenhangs zwischen den beiden Merk- malen wird der korrigierte Kontingenzkoeffizient K^∗ berechnet (0.5 Punkte):

K^∗ =

q _χ2

χ²+n

qM−1 M

(0.5 Punkte)

mit M = min{k, m}(0.5 Punkte), hier M = 2 (0.5 Punkte) Damit :

K^∗ =

q 35 35+7922

q1 2

= 0.094 (1 Punkt)

Es besteht praktisch kein Zusammenhang(1 Punkt)zwischen den Merkmalen “Nationalit¨at”

und “Jahr” (K^∗ kleiner als 0.2(1 Punkt)).

Korrekturhinweis: Falls mit χ² = 31.666 oder irgendeinem anderen (falschen) Ergebnis aus (b) gerechnet wurde: 1 Punkt abziehen; korrektes Ergebnis ist K^∗ = 0.089 f¨ur χ² = 31.666.

(8)

Da in den Daten keine Bindungen vorliegen (1 Punkt), kann zur Bestimmung von rSp die folgende Formel verwendet werden:

rSp= 1− 6·^Pⁿ_i=1d²_i

n·(n²−1) (1 Punkt) Damit ist in Version 1

rSp,1 = 1−6·(2²+ (−2)²+ 0²+ 0²+ (−2)²+ 3²+ (−1)²)

7·48 (0.5 Punkte)

= 1−6·22

7·48 = 1−132

336 = 0.607 (1 Punkt)

Es liegt zwischen den beiden Merkmalen ein deutlicher, positiver, monotoner Zusammenhang vor (je 0.5 = 1.5 Punkte): je besser die Note (niedriger Rangwert der Note), desto k¨urzer die Dauer der Arbeitssuche (niedriger Rangwert der Suchdauer) (0.5 Punkte).

In Version 2 ist

rSp,2 = 1−6·((−2)²+ 0²+ (−6)²+ 6²+ (−2)² + 1²+ 3²)

7·48 (0.5 Punkte)

= 1−6·90

7·48 = 1−540

336 =−0.607 (1 Punkt)

Es liegt zwischen den beiden Merkmalen ein deutlicher, negativer, monotoner Zusammen- hang vor (je 0.5 = 1.5 Punkte): je besser die Note (niedriger Rangwert der Note), desto weniger lang ist die Suche nach einer Arbeitsstelle (hoher Rangwert der Suchdauer) (0.5 Punkte).

Der Unterschied in den Werten vonrSp liegt nur im Vorzeichen, die St¨arke und Art des Zu- sammenhangs ist in beiden Versionen gleich (1 Punkt). Durch die Umkehrung der Reihung bei der Rangvergabe der Arbeitssuchdauer kommt das unterschiedliche Vorzeichen zustande (1 Punkt).

Aufgabe 5 (b):(insgesamt 7 Punkte)

Wenn man nun auch noch die Reihenfolge der Rangvergabe bei der Note ¨andert, dann tritt der gleiche Effekt ein, den man auch schon zwischen den Versionen 1 und 2 der Berechnung beobachten konnte. Es ¨andert sich in beiden Versionen jeweils das Vorzeichen von rSp (2 Punkte). Damit wird

rSp,1,neu =−0.607 (1 Punkt) und

(9)

Lineares Trendmodell ist

yt =a·t+b+ǫt, t= 1, . . . , T, lineare Trendfunktion ist dabei

ybt=a·t+b (1 Punkt)

Korrekturhinweis: beide Varianten akzeptieren

Regressionskoeffizienten a und b der Trendfunktion aus den Daten berechnen: es ist ab=

PT

t=1t·yt−T ·t·y

PT

t=1t²−T ·t² (1 Punkt) und

bb=y−ab·t (1 Punkt)

Weiterhin:t= _T¹·^P^T_t=1t= 55/10 = 5.5(1 Punkt)undy= _T¹·^P^T_t=1yt = 5929.43/10 = 592.943 (1 Punkt).

Damit und mit den weiteren angegebenen Hilfsgr¨oßen ist

ba= 31 122.14−10·5.5·592.943

385−10·5.5² (1 Punkt)= −1 489.725

82.5 =−18.0573 (1 Punkt) und

bb= 592.943−(−18.0573)·5.5 = 692.2582 (1 Punkt) Die errechnete Geradengleichung ist damit

ybt=−18.0573·t+ 692.2582 (1 Punkt)

Aufgabe 6 (b):(insgesamt 3 Punkte) Nutze Prognose f¨urt = 11:

yb11=−18.0573·11 + 692.2582 (1 Punkt)= 493.6279 (1 Punkt)

F¨ur den Juli 2006 (alsot= 11) rechnet der Hausbesitzer mit einem Preis von 493.6279 Euro pro 1 000 Liter Heiz¨ol(1 Punkt).

Aufgabe 6 (c): (insgesamt 4 Punkte)

Die Annahme eines linearen Trends scheint für die ersten neun Zeitpunkte recht gut zu pas- sen(1 Punkt). Der Preis zur Zeitt= 10 passt allerdings nicht so gut zur restlichen zeitlichen Entwicklung (1 Punkt). Darunter leidet auch die Anpassung, denn die letzte Beobachtung scheint die angepasste Gerade nach unten zu ziehen (1 Punkt). Insgesamt wäre die Anpas- sung und damit wohl auch die Prognose für t = 11 wahrscheinlich besser, wenn ohne die Beobachtung zur Zeitt= 10 gearbeitet worden wäre (1 Punkt).