L¨ osung zur 2. Klausur zu Statistik I
Prof. Dr. Claudia Becker Wintersemester 2009/10
22.03.2010 Aufgabe 1 (insgesamt 15 Punkte)
1. Es sind mehr Anbieter von Fachb¨uchern vertreten als von Belletristik. (3 Punkte) x Richtig
Falsch Begr¨undung:
x Die S¨aule “Fachbuch” ist h¨oher als die S¨aule “Belletristik”.
Die S¨aule “Fachbuch” steht rechts von der S¨aule “Belletristik”.
Die S¨aule “Fachbuch” ist breiter als die S¨aule “Belletristik”.
2. Rund 13% der Anbieter von Kinder- und Jugendb¨uchern sind auf der Messe vertreten.
(3 Punkte) Richtig x Falsch Begr¨undung:
Es sind rund 0.13% dieser Anbieter auf der Messe vertreten.
x Rund 13% der Anbieter auf der Messe bieten Kinder- und Jugendb¨ucher an.
Rund 0.13% der B¨ucher sind Kinder- und Jugendb¨ucher.
3. B¨ucher zur Kunst finden am wenigsten Interesse. (3 Punkte) Richtig
x Falsch Begr¨undung:
Nur gut 8% der verkauften B¨ucher sind B¨ucher zum Thema Kunst.
Nur gut 8% der Kunden kaufen B¨ucher zum Thema Kunst.
x Die Aussage ist aus der Darstellung nicht zu ersehen.
4. Die Anbieter von Belletristik und Fachbuch zusammen machen mehr als 50% aller Anbieter auf der Messe aus.(3 Punkte)
Richtig x Falsch Begr¨undung:
Die Anbieter dieser beiden Themen stellen den h¨ochsten und zweith¨ochsten Anteil aller Anbieter.
Die Anbieter dieser beiden Themen stellen zusammen weniger als die Anbieter von Ratgeber- und sonstiger Literatur.
x Die Anbieter dieser beiden Themen stellen zusammen weniger als die H¨alfte aller Anbieter.
5. Rund 18% der Kunden sind an “sonstigen” Themen interessiert. (3 Punkte) Richtig
x Falsch Begr¨undung:
Rund 18% der angebotenen B¨ucher werden zu “sonstigen” Themen angeboten.
x Rund 18% der Anbieter verkaufen B¨ucher zu “sonstigen” Themen.
Rund 18% der “sonstigen” Themen sind f¨ur die Kunden interessant.
Durchschnittliche B¨ucherpreise: nutze arithmetisches Mittel, x= 1n·Pni=1xi (0.5 Punkte).
USA : x= 1
10 ·769 (0.5 Punkte)= 7.69[$] (0.5 Punkte) Großbritannien : y = 1
10 ·100.9 = 10.09[£](0.5 Punkte) BRD : z = 1
10 ·93.6 = 9.36[e](0.5 Punkte)
Vergleich der Preise: Umrechnen aller W¨ahrungen in die gleiche W¨ahrung.
Umrechnung ist lineare Transformation, daher k¨onnen die arithmetischen Mittel ebenfalls linear transformiert werden: xi →yi =a·xi+b ⇒x→y=a·x+b (1 Punkt).
Umrechnung in Euro ergibt
USA : xEuro = 7.69/1.37(1 Punkt)= 5.61[e] (0.5 Punkte) Großbritannien : yEuro= 10.09/0.91 = 11.09[e] (0.5 Punkte)
BRD : zEuro= 9.36[e]
Wenn man davon ausgehen kann, dass die Stichproben gute Repr¨asentanten der Preise sind, dann sind Taschenb¨ucher im Schnitt in den USA am preiswertesten (0.5 Punkte).
Aufgabe 2 (b):(insgesamt 7 Punkte) Standardabweichung se=√
es2 =qn1 ·Pni=1x2i −x2 (0.5 Punkte).
Damit ist f¨ur
USA : se2x = 1
10 ·611.461−7.692 (0.5 Punkte)= 61.1461−59.1361 = 2.01 (1 Punkt) sex = √
2.01 = 1.4177 (1 Punkt) Großbritannien : se2y = 1
10 ·1 052.981−10.092 = 105.2981−101.8081 = 3.49 (1 Punkt) sey = √
3.49 = 1.8682 (1 Punkt) BRD : se2z = 1
10 ·914.12−9.362 = 91.412−87.6096 = 3.8024 (1 Punkt) sez = √
3.8024 = 1.9500 (1 Punkt)
Aufgabe 2 (c): (insgesamt 4 Punkte)
Maßstabsunabh¨angiges Streuungsmaß: nutze Variationskoeffizient (0.5 Punkte), v = esx (0.5 Punkte). Dabei zu beachten: zur Berechnung sind die nicht transformierten Werte der arith- metischen Mittel zu verwenden (0.5 Punkte).
Es ergibt sich
USA : vx = 1.4177
7.69 = 0.1844 (0.5 Punkte) Großbritannien : vy = 1.8682
10.09 = 0.1852 (0.5 Punkte) BRD : vz = 1.9500
9.36 = 0.2083 (0.5 Punkte)
Vergleich: die Streuung der Preise ist in den USA und Großbritannien ungef¨ahr gleich (sehr
¨ahnlich), in der BRD dagegen etwas h¨oher (1 Punkt).
Aufgabe 3:(insgesamt 16 Punkte) Aufgabe 3 (a): (insgesamt 5 Punkte)
Tabelle: Ansatz zur Berechnung der relativen Konzentration
q fq uq x(q) veq
1 0.1 0.1 175.0 0.0635
2 0.1 0.2 175.0 0.0635
3 0.1 0.3 175.0 0.0635
4 0.1 0.4 176.6 0.0641
5 0.1 0.5 186.1 0.0675
6 0.1 0.6 246.8 0.0895
7 0.1 0.7 259.1 0.0940
8 0.1 0.8 354.3 0.1285
9 0.1 0.9 439.0 0.1593
10 0.1 1.0 569.3 0.2066
P 1.0 2 756.2 1.0000
(0.5 P.) (0.5 P.) (2 P.) (2 P.)
Aufgabe 3 (b):(insgesamt 6 Punkte)
Normiertes Maß zur Beurteilung der relativen Konzentration: normierter Gini-KoeffizientG∗ (1 Punkt). Es istG∗ = n−1n ·G (0.5 Punkte)mit G=Pui−1·vei+Pui·vei−1 (0.5 Punkte).
Mit den angegebenen Hilfsgr¨oßen ergibt sich
G= 0.5698 + 0.6702−1 = 1.24−1 = 0.24(1 Punkt) und
G∗ = 10
9 ·0.24 = 0.2667 (1 Punkt)
Da 0.2 < G∗ ≤ 0.5 (1 Punkt), liegt bei den Top-10-Buchverlagen eine schwache relative Konzentration vor (1 Punkt).
Aufgabe 3 (c): (insgesamt 5 Punkte)
Bestimmung der absoluten Konzentration: nutze Index von Hirschmann / Herfindahl (1 Punkt). Es ist H =Pve2i (0.5 Punkte).
q ve2q
1 0.06352 = 0.0040
2 0.06352 = 0.0040
3 0.06352 = 0.0040
4 0.06412 = 0.0041
5 0.06752 = 0.0046
6 0.08952 = 0.0080
7 0.09402 = 0.0088
8 0.12852 = 0.0165
9 0.15932 = 0.0254
10 0.20662 = 0.0427
P 0.1221
(2 P. Tabelleninneres (quadrierte Werte)),(1 P. Summe)
Aufgabe 4:(insgesamt 19 Punkte) Aufgabe 4 (a): (insgesamt 5 Punkte)
Bestimmung der Genre-Pr¨aferenzen f¨ur die beiden Geschlechter: nutze bedingte Verteilung des Genres gegeben das Geschlecht (1 Punkt).
Die bedingten Verteilungen sind in der folgenden Tabelle dargestellt.
Genre (Y)
Kriminalroman Fantasy
gegeben = w. 70/100 = 0.7 (0.5 P.) 30/100 = 0.3 (0.5 P.) 100/100 = 1 (0.5 P.) Geschlecht (X)
= m. 80/150 = 0.5333 (0.5 P.) 70/150 = 0.4667 (0.5 P.) 150/150 = 1 (0.5 P.)
Damit bevorzugen die Frauen eher Kriminalromane(0.5 Punkte), w¨ahrend es bei den M¨annern nur eine sehr leichte Pr¨aferenz zugunsten der Krimis gibt (bzw. kaum eine Pr¨aferenz erkenn- bar ist) (0.5 Punkte).
Aufgabe 4 (b):(insgesamt 3 Punkte)
Aussage abzuleiten aus der bedingten Verteilung des Geschlechts, gegeben das Genre ist der Fantasyroman(0.5 Punkte). Bedingte Verteilung:
gegeben Genre (Y)
= Fantasy w. 30/100 = 0.3(0.5 P.) Geschlecht (X)
m. 70/100 = 0.7(0.5 P.) 100/100 = 1 (0.5 P.)
Unter den Interessenten f¨ur Fantasyromane ist der Anteil der M¨anner deutlich h¨oher als der Anteil der Frauen (0.5 Punkte). Die Autorin sollte ihre Fantasyromane daher tendenziell eher f¨ur M¨anner schreiben (0.5 Punkte).
Aufgabe 4 (c): (insgesamt 7 Punkte) Der χ2-Koeffizient berechnet sich gem¨aß
χ2 =
Xk i=1
Xm j=1
(hij −eij)2 eij
(0.5 Punkte)
Dabei sind eij die unter Unabh¨angigkeit der Merkmale erwarteten absoluten H¨aufigkeiten in der Tafel, eij = hi•n·h•j (0.5 Punkte).
Tafel der unter Unabh¨angigkeit erwarteten H¨aufigkeiten:
Genre (Y)
Kriminalroman Fantasy
weiblich 60 (0.5 P.) 40(0.5 P.) 100 Geschlecht (X)
m¨annlich 90 (0.5 P.) 60(0.5 P.) 150 150 (0.5 P.) 100
χ2 =
60 +
40 +
90 +
60 (1 Punkt)
= 100
60 + 100
40 +100
90 + 100 60
= 1.6667 + 2.5 + 1.1111 + 1.6667 (je 0.5 = 2 Punkte)
= 6.9445 (0.5 Punkte) Ergebnis ohne Zwischenrundung: 6.9444
Aufgabe 4 (d):(insgesamt 4 Punkte)
Zur Beurteilung des Zusammenhangs zwischen den beiden Merkmalen bestimme den korri- gierten Kontingenzkoeffizienten K∗ (0.5 Punkte). Es ist
K∗ =
q χ2
n+χ2
qM−1 M
(0.5 Punkte) mit M = min{k, m}(0.5 Punkte).
Hier ist k =m = 2, daherM = 2 (0.5 Punkte). Weiter ist nach Aufgabentext n = 250 und nach (c) χ2 = 6.9445. Insgesamt ergibt sich
K∗ =
q 6.9445 250+6.9445
q1 2
(0.5 P.)=
√0.0270
√0.5 =√
0.054 = 0.2324 (rundungsbedingt 0.2325) (0.5 P.) Einsch¨atzung des Zusammenhangs zwischen den beiden Merkmalen: da der korrigierte Kon- tingenzkoeffizientK∗ einen Wert von 0.2< K∗ = 0.2324≤0.5(0.5 Punkte)) besitzt, besteht ein schwacher Zusammenhang (0.5 Punkte) zwischen den Merkmalen.
Aufgabe 5:(insgesamt 16 Punkte) Aufgabe 5 (a): (insgesamt 9 Punkte)
Zur Korrelationsbestimmung nutze rXY (1 Punkt). Es ist rXY =
1
n ·Pni=1(xi−x)·(yi−y) sex·sey
(0.5 Punkte) =
1
n·Pni=1xi·yi−x·y sex·sey
(1 Punkt) Mit den angegebenen Hilfsgr¨oßen ergibt sich
x= 1 n ·
Xn
i=1
xi = 3 885/10 = 388.5(0.5 Punkte), y = 19.2/10 = 1.92(0.5 Punkte), x·y= 745.92 (0.5 Punkte),
sex =qse2x =√
7 619.65 = 87.2906 (0.5 Punkte), sey =qse2y =√
3.0436 = 1.7446 (0.5 Punkte).
Insgesamt also
rXY = 7 328.9/10−745.92
87.2906·1.7446 (0.5 Punkte)
= 732.89−745.92
87.2906·1.7446 = −13.03
152.2872 =−0.0856 (1 Punkt)
Zwischen der Anzahl der Seiten und der Anzahl der Tippfehler pro Seite besteht kein (0.5 Punkte) linearer (0.5 Punkte)Zusammenhang. Damit treten mit wachsender Seitenzahl we- der proportional weniger noch proportional mehr Tippfehler pro Seite auf(1 Punkt). Es l¨asst sich allerdings nicht ausschließen, dass es einen anderen als einen linearen Zusammenhang zwischen den beiden Merkmalen gibt (0.5 Punkte).
Aufgabe 5 (b):(insgesamt 7 Punkte)
Betrachte die Daten von Verlag 1 und Verlag 2 getrennt (1 Punkt). Bei Verlag 1 zeigt sich eine Erh¨ohung der Tippfehler pro Seite, wenn die Anzahl der Seiten w¨achst (1 Punkt). Bei Verlag 2 bleibt die Anzahl der Tippfehler pro Seite im Wesentlichen konstant (1 Punkt). In den Daten existieren zwei Gruppne mit verschiedenen Auspr¨agungen der Korrelation, die sich gegenseitig aufzuheben scheinen (1 Punkt). Damit ist hier der Effekt einer verdeckten Korrelation zu vermuten (1 Punkt).
300 350 400 450 500 550
01234
Seitenzahl
Tippfehler pro Seite
(2 Punkte f¨ur Illustration in Abbildung)
Charakterisierung des Zeitreihenverlaufs:
• Regelm¨aßiges Aussehen (1 Punkt).
• Aussehen wird wesentlich bestimmt durch zyklische Figur(1 Punkt):
– jeweils Abfall der Verkaufszahlen von Januar bis Juni (1 Punkt), – jeweils Anstieg der Verkaufszahlen von Juli bis Dezember (1 Punkt),
→ zu vermuten ist ein saisonaler Effekt mit Spitze zur Weihnachtszeit / zum Jahresende (1 Punkt).
– zus¨atzlich eine “St¨orung” durch leichten Anstieg im M¨arz / April (1 Punkt);
eventuell Effekt der Leipziger Buchmesse (1 Punkt).
• Weiterhin zu sehen: langfristige Entwicklung “nach oben” in Form eines vermutlich linearen Trends (1 Punkt), Steigerung der Verk¨aufe im Laufe der Zeit (1 Punkt).
• Eine irregul¨are Komponente ist in der Abbildung nicht zu erkennen (1 Punkt).
Aufgabe 6 (b):(insgesamt 7 Punkte)
M¨oglichkeit 1: Gl¨attung durch gleitende Mittelwerte (1 Punkt):
• aus bestimmter Anzahl von Beobachtungen (innerhalb eines Fensters) das arithmeti- sche Mittel bilden (1 Punkt),
Mittelwert in der Fenstermitte abtragen(1 Punkt),
Fenster von links nach rechts ¨uber die Zeitreihe schieben (1 Punkt).
M¨oglichkeit 2: Anpassung einer Trendgeraden mittels einfacher linearer Regression(1 Punkt):
• Zeitreihe als lineares Modelly=a·t+b+ε (1 Punkt)
• Parameter a und b aus den Daten berechnen (sch¨atzen) mittels Kleinste-Quadrate- Verfahren(1 Punkt)