L¨ osungen zur Klausur zu Statistik I
PD Dr. Joachim Wilde Wintersemester 2006/07
13.02.2007 Aufgabe 1 (Insgesamt 15 Punkte)
zu Aufgabe 1 (a) (Insgesamt 3 Punkte)
Im vorliegenden Fall ist ein Histogramm besser geeignet. (1 Punkt)
Begr¨undung: Merkmal ist metrisch/stetig, und die Klassen sind unterschiedlich breit.
(2 Punkte)
zu Aufgabe 1 (b)(Insgesamt 8,5 Punkte)
j xuj xoj nj fj dj =xoj −xuj fjr = fdj
j ·1 000
1 0 b. unter 1 500 150 0.15 1500 0.100
2 1 500 b. unter 2 000 300 0.30 500 0.600 3 2 000 b. unter 2 500 350 0.35 500 0.700 4 2 500 b. unter 3 500 150 0.15 1 000 0.150 5 3 500 b. unter 5 500 50 0.05 2 000 0.025
1 000 1.000
- 6
0.1 0.2 0.3 0.4 0.5 0.6 0.7 fjr
0 500 1000 2000 3000 4000 5000 Einkommen
• Fall A: Es wurde korrekterweise das Histogramm als Darstellung gew¨ahlt.
korrekte Achsenbeschriftungenje 0,5 Punkte = 1 Punkt Berechnung der f¨unf S¨aulenh¨ohen fjr je 1 Punkt = 5 Punkte
Zeichnen des Histogramm je 0,5 Punkte pro richtiger Fl¨ache = 2,5 Punkte
Fall B: Es wurde ein Stabdiagramm als Darstellung gew¨ahlt.
korrekte Achsenbeschriftungenje 0,5 Punkte = 1 Punkt
Zeichnen des S¨aulendiagrammsje 0,5 Punkte pro S¨aule = 2,5 Punkte
D.h. mit einem S¨aulendiagramm k¨onnen maximal 3,5 Punkte erreicht werden.
zu Aufgabe 1 (c)(Insgesamt 3,5 Punkte)
Die Klasse 5 (mit einem Einkommen von 3500 bis unter 5500 Euro) w¨urde bei der Darstel- lung mitfj stattfjram deulichsten ¨uberbetont werden,(1 Punkte)da diese Klasse die gr¨oßte Klassenbreite hat (2.5 Punkte).
Aufgabe 2 (insgesamt 24 Punkte) zu Aufgabe 2 (a) (insgesamt 5 Punkte)
Es liegt eine unklassierte H¨aufigkeitsverteilung vor(0,5 Punkte) F¨ullmenge des Tanks/Tag = aj
Anzahl Tage = h(aj) = hj (0,5 Punkte) x= n1 Pkj=1aj ·hj =Pkj=1aj ·fj (1 Punkt)
aj hj fj kumfj aj·hj aj·fj 0.01 3 0.01 0.01 0.03 0.0001 20 15 0.05 0.06 300.00 1.0000 50 24 0.08 0.14 1 200.00 4.0000 75 48 0.16 0.30 3 600.00 12.0000 80 72 0.24 0.54 5 760.00 19.2000 85 96 0.32 0.86 8 160.00 27.2000 90 30 0.10 0.96 2 700.00 9.0000 100 12 0.04 1.00 1 200.00 4.0000 300 1.00 22 920.03 76.4001
Insgesamt f¨ur Spalteaj·hj bzw. aj·fj (1 Punkt) x= 3001 22 920.03 = 76.4001 (1 Punkt)
Die durchschnittliche F¨ullmenge des Tanks/Tag betr¨agt 76 400.1 Tonnen. Bei einer t¨aglichen Verarbeitungsmenge von 38 000 t Roh¨ol reicht dieser Vorrat f¨ur 76 400.1/38 000=2.0105 Ta- ge, also rund 2 Tage.(1 Punkt)
zu Aufgabe 2 (b)(insgesamt 11 Punkte)
Zur 5-Punkte-Zusammenfassung geh¨oren:x(1), x0.25, x0.5 =xmed, x0.75, x(n) (1 Punkt) x(1) = 0.01(0,5 Punkte)
x(n) = 100 (0,5 Punkte)
F¨ur die Ermittlung der anderen Werte der 5-Punkte-Zusammenfassung ist es notwendig, die relativen und kumulierten relativen H¨aufigkeiten (fj und kumfj) zu bestimmen.
Spaltefj (siehe unter 2(a), 1 Punkt) Spaltekumfj (siehe unter 2(a), 1 Punkt)
Die gesuchten p-Quantile (25-/50-/75%-Quantil) ergeben sich bei der Merkmalsauspr¨agung aj, bei der die kumulierten relativen H¨aufigkeiten kumfj erstmals die gesuchten Anteile p (0.25/0.5/0.75) ¨uberschreiten.
x0.25= 75 (1 Punkt) x0.5 = 80 (1 Punkt) x0.75= 85 (1 Punkt)
-
0 10 20 30 40 50 60 70 80 90 100
Pro richtigem senkrechten Strich 0.5 Punkteund 0,5 Punkte f¨ur Box (zusammen 3 Punkte) Aus Boxplot Rechtssteile/Linksschiefe erkennbar(1 Punkt)
zu Aufgabe 2 (c)(insgesamt 5 Punkte) se2 = 1nPkj=1a2j ·hj −x2 (1 Punkt)
se2 = 3001 1 853 400.0003−76.40012 = 341.0247 (1 Punkt) se=√
se2 =√
341.0247 = 18.4669 (1 Punkt)
HINWEIS: Auch die Berechnung von s statt seist f¨ur die vorliegende Aufgabenstellung kor- rekt (Punktvergabe analog zu s):e
s2 = n−11 (Pkj=1a2j ·hj −n·x2)
s2 = 300−11 (1 853 400.0003−300·76.40012) = 342.1653 s=√
s2 =√
342.1653 = 18.4977
Die Standardabweichung beschreibt die H¨ohe der durchschnittlichen Schwankungen der F¨ull- menge des Tanks. Eine hohe Standardabweichung ist daher gleichbedeutend mit hohen Schwankungen der F¨ullmenge um den Mittelwert. D.h. es gibt viele Tage mit geringem Tankinhalt und viele Tage mit hohem Tankinhalt. Insbesondere an Tagen mit geringem Tankinhalt ist die Raffinerie bei Lieferausf¨allen gef¨ahrdet.(2 Punkte)
zu Aufgabe 2 (d)(insgesamt 3 Punkte) durchschnittliche Wachstumsrate rgeom wgeom= qn xxn0 (1 Punkt)
wgeom=q5 xx20052000 =q5 12 124 6759 500 000 (Einsetzen 1 Punkt) wgeom=√5
1.2763 = 1.05⇒rgeom =wgeom−1 = 0.05(1 Punkt)
Die durchschnittliche Wachstumsrate der Erd¨olverarbeitung pro Jahr betr¨agt 5 %.
Aufgabe 3 (insgesamt 12 Punkte) zu Aufgabe 3 (a) (insgesamt 3 Punkte)
Die absolute Konzentration wird durch 2 Effekte beeinflusst: Den Anzahleffekt und der Dis- parit¨ateneffekt (1 Punkt).
Anzahleffekt: Je kleiner die Anzahl der Unternehmen (bzw. Merkmalstr¨ager), desto gr¨oßer tendenziell die absolute Konzentration (1 Punkt).
Disparit¨ateneffekt: Je gr¨oßer die Disparit¨at (also je unterschiedlicher die Verteilung der Merk- malssumme auf die Merkmalstr¨ager), desto gr¨oßer die absolute Konzentration (1 Punkt).
zu Aufgabe 3 (b)(insgesamt 6 Punkte)
Absolute Konzentration: Geeignetes Maß ist Herfindahl-Index H (0,5 Punkte) H =Pni=1ve2i (0,5 Punkte)
• F¨ur das Jahr 2004:
H = (160500)2 + (180500)2+ (50090)2+ (50070)2
H = 0.322+ 0.362+ 0.182+ 0.142 (1 Punkt f¨ur richtige vei) H = 0.1024 + 0.1296 + 0.0324 + 0.0196 = 0.2840 (1 Punkt)
• F¨ur das Jahr 1999:
i 1 2 3 4 5 6 7 8 Summe
Strom 1999 70 100 90 30 10 10 30 60 400
vei 0.1750 0.2500 0.2250 0.0750 0.0250 0.0250 0.0750 0.1500 1.000 vei2 0.0306 0.0625 0.0506 0.0056 0.0006 0.0006 0.0056 0.0225 0.1786 f¨ur richtige vei (1 Punkt)
H = 0.1786 (1 Punkt)
Die Konzentration im Jahr 2004 ist gr¨oßer als die Konzentraton im Jahr 1999. (1 Punkt)
zu Aufgabe 3 (c)(insgesamt 3 Punkte)
Durch die Zerschlagung der 4 Konzerne w¨urde sich die Anzahl der Unternehmen verdoppeln (1 Punkt)- die Konzentration m¨usste sinken.
Da jeder der 4 Konzerne in je k=2 gleich große Einheiten zerschlagen werden soll, w¨urde sich die absolute Konzentration halbieren (2 Punkte):
Hneu= 1kHalt = 12Halt
zu Aufgabe 4 (a) (insgesamt 2 Punkte)
Bestimme Randverteilung des Merkmals ’Beitragserh¨ohung’ (X)⇒hi• =Pmj=1hij Art der Krankenkasse (Y) Summe %
AOK EK BKK IKK hi• fi•
Beitrags- ja 14 9 105 4 132 132/242=0.5455
erh¨ohung (X) nein 2 1 95 12 110 0.4545
Summeh•j 16 10 200 16 242 1.000
Pro richtiger Randsumme in absoluten H¨aufigkeiten (0.5 Punkte; Zusammen 1 Punkt) 54.55% der Krankenkassen haben ihre Beitr¨age erh¨oht (0.5 Punkte)
45.45% der Krankenkassen haben ihre Beitr¨age nicht erh¨oht(0.5 Punkte)
zu Aufgabe 4 (b)(insgesamt 6 Punkte)
Gesucht ist die bedingte Verteilung des Merkmals Beitragserh¨ohungX gegeben das Merkmal
’Art der Krankenkasse’Y. fX(ai|Y =bj) = hhij
•j
Art der Krankenkasse (Y)
AOK EK BKK IKK
Beitrags- ja 0.875 0.9 0.525 0.25 erh¨ohung (X) nein 0.125 0.1 0.475 0.75 Summe 1.000 1.000 1.000 1.000
Pro richtig angegebener bedingter relativer H¨aufigkeit (0.5 Punkte; Zusammen 4 Punkte) Die bedingten Verteilungen des Merkmals Beitragserh¨ohung in den Krankenkassenarten un- terscheiden sich (1 Punkt). Daher scheint es einen Zusammenhang zwischen dem Merkmal Beitragserh¨ohung und dem Merkmal ’Art der Krankenkasse’ zu geben(1 Punkt). Die Kran- kenkassenart hat also einen Einfluss darauf, ob eine Beitragserh¨ohung vorgenommen wurde oder nicht.
zu Aufgabe 4 (c)(insgesamt 8 Punkte) Berechne zuerst χ2 und dann K∗
• χ2 =PiPj (hij−ee ij)2
ij (0.5 Punkte)
χ2 = (14−8.7)8.7 2 +(9−5.5)5.5 2 +. . .+(12−7.3)7.3 2 (1 Punkt) χ2 = 17.9303 (1 Punkt)
Zur Kontrolle:χ2-Beitr¨age
Art der Krankenkasse (Y) Summe
AOK EK BKK IKK
Beitrags- ja 3.2287 2.2273 0.1541 2.5391 erh¨ohung (X) nein 3.8479 2.7222 0.1849 3.0260
Summe 17.9303
• Zur Interpretation des Zusammenhangs zweier nominaler Variablen ben¨otigt:
K∗ (1 Punkt)
K∗ = √KM−1
M
(0.5 Punkte) K =qχ2χ+n2 =q17.9303+24217.9303 =√
0.06898 = 0.2626 (0.5 Punkte) M =min(k, m) =min(2,4) = 2 (0.5 Punkte)
K∗ = √KM−1
M
= 0.2626√1
2
= 0.3714 (1 Punkt)
Der Zusammenhang zwischen den Merkmalen Beitragserh¨ohung und Art der Kranken- kasse ist schwach, da 0.2≤K∗ ≤0.5(2 Punkte)
zu Aufgabe 5 (a) (insgesamt 2 Punkte)
Temperatur: metrisch skaliert (1 Punkt), intervallskaliert, stetig, diskret erhoben Schneeh¨ohe: metrisch skaliert (1 Punkt), verh¨altnisskaliert, stetig, aber diskret erhoben zu Aufgabe 5 (b)(insgesamt 11 Punkte)
Temperatur = Variable X Schneeh¨ohe = Variable Y
Datensatz enth¨alt keine Bindungen (1 Punkt) Daher berechnerSP ¨uber rSP = 1− 6·
Pn
i=1d2i
n(n2−1) (1 Punkt) mit di =rg(xi)−rg(yi) Vor¨uberlegung: Vergabe von Rangpl¨atzen getrennt f¨ur jedes Merkmal
- Hohe Temperatur→ niedriger Rang (alternativ: hoher Rang)
- Hohe Schneeh¨ohe → niedriger Rang (alternativ: hoher Rang) (1 Punkt)
Saison 1996/ 1997/ 1998/ 1999/ 2000/ 2001/ 2002/ 2003/ 2004/ 2005/
1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
i 1 2 3 4 5 6 7 8 9 10
Temp. (X) 22 20 27 21 30 29 23 33 26 35
Schnee (Y) 1.90 2.00 1.40 1.80 1.20 1.65 1.70 1.30 1.95 1.45
rg(xi) 8 10 5 9 3 4 7 2 6 1
rg(yi) 3 1 8 4 10 6 5 9 2 7
di 5 9 -3 5 -7 -2 2 -7 4 -6
d2i 25 81 9 25 49 4 4 49 16 36
ALTERNATIV
rg(xi) 3 1 6 2 8 7 4 9 5 10
rg(yi) 8 10 3 7 1 5 6 2 9 4
di -5 -9 3 -5 7 2 -2 7 -4 6
d2i 25 81 9 25 49 4 4 49 16 36
F¨ur Zeile rg(xi) (1 Punkt) F¨ur Zeile rg(yi)(1 Punkt) F¨ur Zeile di (1 Punkt) F¨ur Zeile d2i (0.5 Punkte) rSP = 1− 6·
Pn
i=1d2i
n(n2−1) = 1− 10(100−1)6·298 =−0.8061 (1 Punkt)
Interpretation: Monotoner, negativer, starker Zusammenhang(1.5 Punkte)
Dies bedeutet: Je h¨oher der Rang von X (Temperatur), desto kleiner der Rang von Y (Schneeh¨ohe). Mit anderen Worten: Je k¨alter der Sommer, desto mehr Schnee liegt im Win- ter; je heißer der Sommer, desto weniger Schnee liegt. (1 Punkt)
Der Hotelbesitzer kann daher die Bauernregel nicht f¨ur seine Planungen einsetzen, da diese einen positiven Zusammenhang zwischen den Variablen unterstellt. (1 Punkt) Die Umkeh- rung der Bauernregel kann der Hotelbesitzer aber nutzen.
zu Aufgabe 5 (c)(insgesamt 5 Punkte)
Da beide Variablen metrisch sind, k¨onnte man auch den Korrelationskoeffizient nach Bravais- Pearson berechnen (1 Punkt).
Bravais-Pearson: 2 metrische Variablen, Linearer Zusammenhang (2 Punkte)
Spearman: 2 mindestens ordinale Merkmale, Monotoner Zusammenhang (2 Punkte)
Aufgabe 6 (insgesamt 15 Punkte) zu Aufgabe 6 (a) (insgesamt 6 Punkte)
Neuwahlen Summe
Bef¨urworter (B) Ablehnen (BC)
Partei- K¨onigspartei (K) 900 000 (0.18) 2 100 000 (0.42) 3 000 000 (0.60) pr¨aferenz Graue Maus (KC) 1 600 000 (0.32) 400 000 (0.08) 2 000 000 (0.40) Summe 2 500 000 (0.50) 2 500 000 (0.50) 5 000 000 (1.00) richtige Anlage der Tabelle 1,5 Punkte
in Tabelle einzutragende Werte je 0,5 Punkte = 4,5 Punkte
zu Aufgabe 6 (b)(insgesamt 2 Punkte)
400
K
2 100
900
1 600 B
'
&
$
% '
&
$
%
korrekte Anlage Venn-Diagramm 1 Punkt, korrektes Eintragen der Werte 1 Punkt
zu Aufgabe 6 (c)(insgesamt 7 Punkte)
Zuf¨allige Auswahl → Jeder Wahlberechtigte hat dieselbe Wahrscheinlichkeit, gezogen zu werden → Laplace-Wahrscheinlichkeit→ Anzahl g¨unstiger F¨alle
Anzahl m¨oglicher F¨alle 1. P(Bef¨urworter Neuwahlen) =P(B) = 2 500 0005 000 000 = 0.5 (2 Punkte)
2. P(Graue Maus und Neuwahlen ablehnen) = P(KCTBC) = 5 000 000400 000 = 0.08(2 Punkte) 3. P(K¨onigspartei|Bef¨urworter Neuwahlen) =P(K|B) = P(K
TB)
P(B) = 2 500 000900 000 = 0.36 (3 Punkte)