• Keine Ergebnisse gefunden

L¨osung zur 1. Klausur zu Statistik I Prof. Dr. Claudia Becker Wintersemester 2007/08 12.02.2008

N/A
N/A
Protected

Academic year: 2022

Aktie "L¨osung zur 1. Klausur zu Statistik I Prof. Dr. Claudia Becker Wintersemester 2007/08 12.02.2008"

Copied!
9
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

L¨ osung zur 1. Klausur zu Statistik I

Prof. Dr. Claudia Becker Wintersemester 2007/08

12.02.2008

Aufgabe 1 (a)(insgesamt 13 Punkte: f¨ur jedes korrekt markierte Feld 1 Punkt) 1. (insgesamt 5 Punkte)

richtig falsch

x Spannweite R= 3

x xmed = 3

x x= 3

x xmod = 3

x M AD= 3

2. (insgesamt 8 Punkte) richtig falsch

x Die H¨aufigkeitsverteilung ist in Form der Urliste angegeben.

x Es handelt sich um eine unklassierte H¨aufigkeitsverteilung.

x Es handelt sich um eine klassierte H¨aufigkeitsverteilung.

x Das Merkmal ist stetig.

x Das Merkmal ist diskret.

x Die graphische Darstellung der H¨aufigkeitsverteilung kann durch ein Histogramm erfolgen.

x Die graphische Darstellung der H¨aufigkeitsverteilung kann durch eine Lorenzkurve erfolgen.

x Die H¨aufigkeitsverteilung kann nicht graphisch dargestellt werden, da sie nicht in relativen H¨aufigkeiten vorliegt.

Aufgabe 1 (b)(insgesamt 3 Punkte)

Abbildung 1 zeigt die H¨aufigkeitsverteilung aus Punkt 2 von Aufgabe 1 (a).(1 Punkt) Begr¨undung:

In Abbildung 2 ist der dargestellte Anteil der Klasse “200 und mehr” viel zu groß (0.5 Punkte), diese Klasse hat nur eine relative H¨aufigkeit von 5/1 087. Das entspricht nur rund 0.5% (0.5 Punkte). Somit kommen nur Abbildungen 1 oder 3 in Frage.

In Abbildung 3 ist der dargestellte Anteil der Klasse “160 bis unter 180” zu groß(0.5 Punkte).

Diese Klasse besitzt einen Anteil von 553/1 087 = 0.51. In Abbildung 3 ist aber ein Anteil von deutlich mehr als 50% ausgewiesen (0.5 Punkte).

(2)

Aufgabe 2 (a): (insgesamt 5 Punkte)

Durchschnittliche Benzinpreise f¨ur Halle und die Umgebung von Halle: Berechnung der arith- metischen Mittel(0.5 Punkte).

Allgemeine Formel: x= n1 ·Pni=1xi (0.5 Punkte) Damit

xHalle = 1

5 ·7.355 (1 Punkt)= 1.471 (0.5 Punkte) xU mgebung = 1

5·7.335 (1 Punkt)= 1.467 (0.5 Punkte)

Das Benzin ist im Schnitt in Halle teurer als in der Umgebung von Halle.(1 Punkt)

Aufgabe 2 (b):(insgesamt 8 Punkte)

Gesucht: 25%-, 75%-Quantil, Median, also x0.25, x0.75, xmed f¨ur Halle und Umgebung ge- trennt.

Quartile:

Falls n·p nicht ganzzahlig, ist xp =x([n·p]+1) (0.5 Punkte).

Hier ist jeweils n = 5, damit n ·0.25 = 1.25 nicht ganzzahlig und n· 0.75 = 3.75 nicht ganzzahlig.

Daherx0.25=x([5·0.25]+1) =x([1.25]+1) (0.5 Punkte) =x(2) (0.5 Punkte) und x0.75=x([5·0.75]+1) =x([3.75]+1) (0.5 Punkte) =x(4) (0.5 Punkte)

Alternativ: wenn x0.25 die zweite geordnete Beob. von unten, dann ist x0.75 die zweite geord- nete von oben, daher x0.75 =x(4).

Außerdem ist f¨ur n ungerade xmed=x(n+1

2 ) (0.5 Punkte), also xmed=x(6

2) =x(3) (1 Punkt).

Zur Berechnung: Beobachtungen ordnen(je 0.5 Punkte = 1 Punkt):

Halle

1.419 1.429 1.459 1.509 1.539 Umgebung von Halle

1.439 1.449 1.459 1.469 1.519 Damit f¨ur Halle:

x0.25= 1.429 (0.5 Punkte),x0.75 = 1.509 (0.5 Punkte), xmed= 1.459 (0.5 Punkte) F¨ur die Umgebung von Halle:

x0.25= 1.449 (0.5 Punkte),x0.75 = 1.469 (0.5 Punkte), xmed= 1.459 (0.5 Punkte)

(3)

Variante 1: Mit den richtigen L¨osungswerten aus Teil (b)

Variante 2: Mit den alternativen Werten gem¨aß Aufgabenstellung Teil (c)

Bewertung: Min, Max richtig eingetragen: jeweils 0.5 = insgesamt 2 Punkte; Boxen richtig je 0.5 = insgesamt 1 Punkt

Vergleich: Die Verteilungen der Benzinpreise in Halle und der Umgebung von Halle sind von der Lage (Zentrum) her ¨ahnlich (gleicher Median)(1 Punkt), aber die Streuungen unterschei- den sich deutlich. In Halle sind die Preisunterschiede wesentlich gr¨oßer als in der Umgebung von Halle(1 Punkt).

(4)

Aufgabe 3 (a): (insgesamt 8 Punkte)

Hilfstabelle: ben¨otigte Gr¨oßen f¨ur die Lorenzkurve

Klasse q nq fq uq mq fq·mq veq vq

[0,1 000) 7.5 0.15 0.15 500 75 0.0426 0.0426

[1 000,1 750) 20.5 0.41 0.56 1 375 563.75 0.3201 0.3627 [1 750,2 500) 7.0 0.14 0.70 2 125 297.5 0.1689 0.5316 [2 500,3 000) 15.0 0.30 1.00 2 750 825 0.4684 1.0000

P 50.0 1 761.25

(0.5 P.) (0.5 P.) (0.5 P.) (0.5 P.) (0.5 P.) (0.5 P.)

Lorenzkurve:

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

0.00.10.20.30.40.50.60.70.80.91.0

(Abbildung: 0.5 Punkte je richtig eingetragenem Koordinatenpunkt, 0.5 Punkte f¨ur Winkel- halbierende, insgesamt 3 Punkte)

Da die Lorenzkurve relativ nahe an der Winkelhalbierenden verl¨auft (1 Punkt), liegt eine eher geringe Konzentration der Behandlungskosten auf die Versichertenklassen vor(1 Punkt).

Aufgabe 3 (b):(insgesamt 5 Punkte) Gini-Koeffizient:

G=

Xk

j=1

(uj−1+uj)·vej −1 (1 Punkt)

q uq1·veq uq·veq

1 0 0.0064

2 0.0480 0.1793

(5)

sind insgesamt eher gleichm¨aßiger auf die Versichertenklassen verteilt, nicht besonders stark auf eine Klasse konzentriert(0.5 Punkte).

Alternativ: G auch richtig.

Aufgabe 3 (c): (insgesamt 4 Punkte) Die Aussage ist falsch (1 Punkt).

Es werden im Hochkostenbereich rund 46.8% der Kosten(2 Punkte)von 30% der Versicherten verursacht (1 Punkt).

Alternativ:

Es werden von 15% der Versicherten rund 4.3% der Kosten verursacht, dies betrifft aber den Niedrigkostenbereich. (ebenfalls 3 Punkte)

(6)

Aufgabe 4 (a): (insgesamt 6 Punkte)

Randsummen zur Bestimmung der bedingten Verteilungen:

Jahr

2000 2003 2006

deutsch 1 287 1 743 2 095 5 125 Nationalit¨at

nicht deutsch 836 980 981 2 797 2 123 2 723 3 076 7 922 (je 0.5 Punkte f¨ur korrekten Wert = 1.5 Punkte)

Bedingte Verteilungen des Merkmals “Nationalit¨at”, gegeben das Merkmal “Jahr”:

Jahr

2000 2003 2006 deutsch 0.606 0.640 0.681 Nationalit¨at

nicht deutsch 0.394 0.360 0.319

(muss nicht in Tabellenform angegeben sein; pro richtig angegebener relativer H¨aufigkeit 0.5 Punkte = 3 Punkte; falsche bedingte Verteilung: nur 1.5 Punkte)

Vergleicht man die beiden bedingten Verteilungen, so stellt man keine wesentlichen Unter- schiede fest (1 Punkt). Es kann daher nicht auf einen Zusammenhang zwischen den beiden Merkmalen geschlossen werden (0.5 Punkte).

Aufgabe 4 (b):(insgesamt 4 Punkte) χ2-Koeffizient:

χ2 =

Xk

i=1

Xm

j=1

(hij−eij)2 eij

(1 Punkt)

Konkret ist

χ2 = (1 287−1 373.438)2

1 373.438 +(1 743−1 761.598)2

1 761.598 + (2 095−1 989.965)2 1 989.965 (836−749.562)2 (980−961.403)2 (981−1 086.035)2

(7)

Nutzung von χ2 = 35. Zur Einsch¨atzung des Zusammenhangs zwischen den beiden Merk- malen wird der korrigierte Kontingenzkoeffizient K berechnet (0.5 Punkte):

K =

q χ2

χ2+n

qM1 M

(0.5 Punkte)

mit M = min{k, m}(0.5 Punkte), hier M = 2 (0.5 Punkte) Damit :

K =

q 35 35+7922

q1 2

= 0.094 (1 Punkt)

Es besteht praktisch kein Zusammenhang(1 Punkt)zwischen den Merkmalen “Nationalit¨at”

und “Jahr” (K kleiner als 0.2(1 Punkt)).

Korrekturhinweis: Falls mit χ2 = 31.666 oder irgendeinem anderen (falschen) Ergebnis aus (b) gerechnet wurde: 1 Punkt abziehen; korrektes Ergebnis ist K = 0.089 f¨ur χ2 = 31.666.

(8)

Aufgabe 5 (a): (insgesamt 11 Punkte)

Da in den Daten keine Bindungen vorliegen (1 Punkt), kann zur Bestimmung von rSp die folgende Formel verwendet werden:

rSp= 1− 6·Pni=1d2i

n·(n2−1) (1 Punkt) Damit ist in Version 1

rSp,1 = 1−6·(22+ (−2)2+ 02+ 02+ (−2)2+ 32+ (−1)2)

7·48 (0.5 Punkte)

= 1−6·22

7·48 = 1−132

336 = 0.607 (1 Punkt)

Es liegt zwischen den beiden Merkmalen ein deutlicher, positiver, monotoner Zusammenhang vor (je 0.5 = 1.5 Punkte): je besser die Note (niedriger Rangwert der Note), desto k¨urzer die Dauer der Arbeitssuche (niedriger Rangwert der Suchdauer) (0.5 Punkte).

In Version 2 ist

rSp,2 = 1−6·((−2)2+ 02+ (−6)2+ 62+ (−2)2 + 12+ 32)

7·48 (0.5 Punkte)

= 1−6·90

7·48 = 1−540

336 =−0.607 (1 Punkt)

Es liegt zwischen den beiden Merkmalen ein deutlicher, negativer, monotoner Zusammen- hang vor (je 0.5 = 1.5 Punkte): je besser die Note (niedriger Rangwert der Note), desto weniger lang ist die Suche nach einer Arbeitsstelle (hoher Rangwert der Suchdauer) (0.5 Punkte).

Der Unterschied in den Werten vonrSp liegt nur im Vorzeichen, die St¨arke und Art des Zu- sammenhangs ist in beiden Versionen gleich (1 Punkt). Durch die Umkehrung der Reihung bei der Rangvergabe der Arbeitssuchdauer kommt das unterschiedliche Vorzeichen zustande (1 Punkt).

Aufgabe 5 (b):(insgesamt 7 Punkte)

Wenn man nun auch noch die Reihenfolge der Rangvergabe bei der Note ¨andert, dann tritt der gleiche Effekt ein, den man auch schon zwischen den Versionen 1 und 2 der Berechnung beobachten konnte. Es ¨andert sich in beiden Versionen jeweils das Vorzeichen von rSp (2 Punkte). Damit wird

rSp,1,neu =−0.607 (1 Punkt) und

(9)

Lineares Trendmodell ist

yt =a·t+b+ǫt, t= 1, . . . , T, lineare Trendfunktion ist dabei

ybt=a·t+b (1 Punkt)

Korrekturhinweis: beide Varianten akzeptieren

Regressionskoeffizienten a und b der Trendfunktion aus den Daten berechnen: es ist ab=

PT

t=1t·yt−T ·t·y

PT

t=1t2−T ·t2 (1 Punkt) und

bb=y−ab·t (1 Punkt)

Weiterhin:t= T1·PTt=1t= 55/10 = 5.5(1 Punkt)undy= T1·PTt=1yt = 5929.43/10 = 592.943 (1 Punkt).

Damit und mit den weiteren angegebenen Hilfsgr¨oßen ist

ba= 31 122.14−10·5.5·592.943

385−10·5.52 (1 Punkt)= −1 489.725

82.5 =−18.0573 (1 Punkt) und

bb= 592.943−(−18.0573)·5.5 = 692.2582 (1 Punkt) Die errechnete Geradengleichung ist damit

ybt=−18.0573·t+ 692.2582 (1 Punkt)

Aufgabe 6 (b):(insgesamt 3 Punkte) Nutze Prognose f¨urt = 11:

yb11=−18.0573·11 + 692.2582 (1 Punkt)= 493.6279 (1 Punkt)

F¨ur den Juli 2006 (alsot= 11) rechnet der Hausbesitzer mit einem Preis von 493.6279 Euro pro 1 000 Liter Heiz¨ol(1 Punkt).

Aufgabe 6 (c): (insgesamt 4 Punkte)

Die Annahme eines linearen Trends scheint f¨ur die ersten neun Zeitpunkte recht gut zu pas- sen(1 Punkt). Der Preis zur Zeitt= 10 passt allerdings nicht so gut zur restlichen zeitlichen Entwicklung (1 Punkt). Darunter leidet auch die Anpassung, denn die letzte Beobachtung scheint die angepasste Gerade nach unten zu ziehen (1 Punkt). Insgesamt w¨are die Anpas- sung und damit wohl auch die Prognose f¨ur t = 11 wahrscheinlich besser, wenn ohne die Beobachtung zur Zeitt= 10 gearbeitet worden w¨are (1 Punkt).

Abbildung

Abbildung 1 zeigt die H¨aufigkeitsverteilung aus Punkt 2 von Aufgabe 1 (a). (1 Punkt) Begr¨undung:

Referenzen

ÄHNLICHE DOKUMENTE

Der Zusammenhang besteht nicht zwischen der Impfung gegen die normale Grippe und der Anzahl der Schweinegrippe-F¨alle, son- dern beispielsweise zwischen der Impfung gegen die

Bei klassierten Daten darf f¨ur das arithmetische Mittel nicht ¨uber die Klassenmitten gerechnet werden.... Richtig

Da die zur Konstruktion eines Histogramms verwendeten Klassen nicht aneinanderstoßen, stoßen auch die Rechtecke nicht aneinander.. Das Kreisdiagramm wird nach dem Prinzip

Das arithmetische Mittel darf nur f¨ur metrisch skalierte Merkmale berechnet werden, jedoch nicht f¨ur ordinal oder nominal skalierte Merkmale.. Das arithmetische Mittel darf nur

x Das arithmetische Mittel darf nur f¨ur metrisch skalierte Merkmale berechnet werden, jedoch nicht f¨ur ordinal oder nominal skalierte Merkmale2. Das arithmetische Mittel darf nur

(b) Wie ¨andert sich der Wert der absoluten Konzentration f¨ur Staat 2, wenn eine neue Verwaltungsregion eingerichtet wird, die nicht verschuldet ist.. Zeigen Sie das Ergebnis

x Ein diskretes Merkmal kann sowohl stetig als auch diskret erhoben werden.. x Ein stetiges Merkmal muss stetig

F¨ur die Dauer der Arbeitssuche betrach- ten Sie die beiden folgenden Varianten der Rangvergabe: Version 1 vergibt den ersten Rang f¨ur die k¨urzeste Dauer, Version 2 dagegen