L¨ osung zur 2. Klausur zu Statistik I
Prof. Dr. Claudia Becker Wintersemester 2011/12
28.03.2012 Aufgabe 1 (20 Punkte)
1. Die Varianz ist ein direkt interpretierbares Streuungsmaß. (1 Punkt) Richtig
x Falsch
Begr¨undung: (4 Punkte)
Die Varianz liegt in der gleichen Maßeinheit vor wie die Beobachtungen.
Die Varianz muss quadriert werden, um interpretierbar zu sein.
x Die Varianz wird in der quadrierten Maßeinheit der Beobachtungen berechnet.
Die Varianz muss durch die Standardabweichung dividiert werden, um inter- pretierbar zu sein.
2. Die Berechnung von Durchschnittsnoten mit Hilfe des arithmetischen Mittels ist aus statistischer Sicht sinnvoll. (1 Punkt)
Richtig x Falsch
Begr¨undung: (4 Punkte)
Noten sind nominal skaliert, das arithmetische Mittel ist also ein geeignetes Lagemaß.
x Noten sind ordinal skaliert, das arithmetische Mittel ist also kein geeignetes Lagemaß.
Noten sind metrisch skaliert, das arithmetische Mittel ist also ein geeignetes Lagemaß.
Noten sind kardinal skaliert, das arithmetische Mittel ist also kein geeignetes Lagemaß.
3. Der Wertebereich des Gini-Koeffizienten Ghat die Obergrenze (n−1)/n. (1 Punkt) x Richtig
Falsch
Begr¨undung: (4 Punkte)
Gkann maximal den Wert G= 1 annehmen.
Die Obergrenze von (n−1)/n gilt f¨ur G∗.
x G∗ =n/(n−1)·G hat als Obergrenze den Wert 1.
Die Obergrenze von (n−1)/n gilt f¨ur den Herfindahl-Index.
(1 Punkt) Richtig x Falsch
Begr¨undung: (4 Punkte)
x In diesem Fall ist die Verteilung rechtssteil.
In diesem Fall ist die Verteilung linkssteil.
Nur f¨ur eine symmetrische Verteilung kann ein negativer Schiefewert entstehen.
Eine symmetrische Verteilung h¨atte einen deutlich positiven Schiefewert.
Aufgabe 2 (a): (insgesamt 10 Punkte)
Methoden: Spannweite (1 Punkt) und Interquartilsabstand (1 Punkt) Vergleich:
• Spannweite R
– Vorteil:Rumfasst gesamte Streubreite der Daten(1 Punkt), daher ¨Uberblick ¨uber tats¨achlichen Bereich, der abgedeckt wird (1 Punkt)
– Nachteil: Rwird extrem groß, sobald nur eine extreme Beobachtung in den Daten (1 Punkt), daher wird eventuell gr¨oßere Streuung suggeriert als im wesentlichen Teil der Daten eigentlich vorhanden (1 Punkt)
• Interquartilsabstand dQ
– Vorteil: dQ wenig empfindlich gegen extreme Beobachtungen (1 Punkt), spiegelt die Streuung des Hauptteils der Daten (1 Punkt)
– Nachteil: dQ basiert nur auf den mittleren 50% der geordneten Werte (1 Punkt), kann daher Wert Null annehmen, obwohl die Daten Streuung beinhalten(1 Punkt) Aufgabe 2 (b):(insgesamt 10 Punkte)
Gesucht:
MAD =med{|xi−xmed|, i= 1, . . . , n} (1 Punkt) da n = 7 ungerade (0.5 Punkte):
xmed =x(n+12 ) (0.5 Punkte)=x(7+12 ) =x(4) (0.5 Punkte) Geordnete Beobachtungsreihe:
x(i): 1.7 2.2 2.2 2.2 2.2 5.7 6.8 (1 Punkt) x(4) = 2.2 (1 Punkt)
Somit MAD:
xi−xmed: 3.5 0 -0.5 0 0 4.6 0
|xi−xmed|: 3.5 0 0.5 0 0 4.6 0 (1 Punkt) geordnet: 0 0 0 0 0.5 3.5 4.6 (0.5 Punkte) MAD = 0 (1 Punkt)
Ziehe Standardabweichung vor(1 Punkt), da Beobachtungen nicht alle identisch, es existiert also Variation (1 Punkt); MAD nimmt Wert Null an, Standardabweichung ist gr¨oßer als Null, spiegelt daher die Datensituation besser (1 Punkt).
Gesucht: korrigierter Gini-Koeffizient (1 Punkt) G∗ = n
n−1G (0.5 Punkte) wobei
G=
Xn
i=1
ui·vei +
Xn
i=1
ui−1·vei−1 (0.5 Punkte) mit
uq = q
n (0.5 Punkte); veq = x(q)
Pn
i=1xi
(0.5 Punkte)
i x(i) ui vei ui·vei ui−1·vei
1 14.5 0.25 0.0740 0.0185
2 17.6 0.50 0.0898 0.0449 0.0225 3 70.9 0.75 0.3619 0.2714 0.1810 4 92.9 1.00 0.4742 0.4742 0.3557
P 195.9 0.8090 0.5592
(0.5 P.) (0.5 P.) (0.5 P.) (0.5 P.) (0.5 P.) G= 0.8090 + 0.5592−1 = 0.3682 (0.5 Punkte)
G∗ = 4−14 ·0.3682 = 0.4909 (1 Punkt)
Da 0.2 < G∗ ≤ 0.5 (0.5 Punkte) → schwache Konzentration (bzw. schwache bis deutliche, da G∗ knapp unter 0.5) (0.5 Punkte). Die Marktkonzentration im Energiemarkt ist also von mittlerer St¨arke; damit wird der Markt nicht von nur einem der Konzerne dominiert(1 Punkt), es haben aber auch nicht alle Konzerne dieselbe Marktmacht (gemessen am Umsatz) (1 Punkt).
Aufgabe 3 (b):(insgesamt 10 Punkte) Gesucht: H∗ (1 Punkt)
H∗ = H−n1
1− n1
(0.5 Punkte)
H =
Xn
i=1
vei2 (0.5 Punkte)
= 0.07402+ 0.08982+ 0.36192+ 0.47422 (1 Punkt)
= 0.0055 + 0.0081 + 0.1310 + 0.2249
= 0.3695 (1 Punkt) H∗ = 0.3695− 14
1− 14
= 0.1593 (1 Punkt) Absolute vs. relative Konzentration:
Ein Maß f¨ur die relative Konzentration ber¨ucksichtigt nicht die absolute Anzahl der Objekte
Aufgabe 4 (a): (insgesamt 8 Punkte)
Tabelle der gemeinsamen absoluten H¨aufigkeiten Stromverbrauch (Y)
Region (X) niedrig (≤ 1.7) hoch (> 1.7)
Nord 6 4 10
S¨ud 0 6 6
6 10 16
(4 Punkte)
Tabelle der unter Unabh¨angigkeit erwarteten H¨aufigkeiten Stromverbrauch (Y)
Region (X) niedrig (≤ 1.7) hoch (> 1.7)
Nord 3.75 6.25 10
S¨ud 2.25 3.75 6
6 10 16
(4 Punkte)
Aufgabe 4 (b):(insgesamt 6 Punkte) Gesucht: K∗ (1 Punkt)
K∗ = K
qM−1 M
(0.5 Punkte)
wobei:M =min{k, m} (0.5 Punkte) und K =
s χ2
n+χ2 (0.5 Punkte)=
s 5.76
16 + 5.76 (0.5 Punkte)=√
0.2647 = 0.5145 (0.5 Punkte)
K∗ = 0.5145
q2−1 2
(0.5 Punkte)= 0.5145
0.7071 = 0.7276 (0.5 Punkte)
Da 0.5< K∗ <0.8 (0.5 Punkte) →Es besteht ein deutlicher Zusammenhang zwischen dem durchschnittlichen Stromverbrauch und der Region, in der der Haushalt angesiedelt ist (1 Punkt).
Aufgabe 4 (c): (insgesamt 6 Punkte)
K∗ wird aus Kontingenztafel bestimmt, vorgegeben sind aber nur die Rohdaten (1 Punkt);
daher w¨ahlt jedes Institut die Klasseneinteilung der Variable “Stromverbrauch” eigenst¨andig (1 Punkt); damit ergeben sich unterschiedliche Kontingenztafeln (1 Punkt) und damit auch unterschiedliche Werte von K∗ (1 Punkt). Dar¨uber hinaus kann auch die Zuordnung der Bundesl¨ander zu den Regionen “Nord” und “S¨ud” anders vorgenommen worden sein (1 Punkt). Schließlich k¨onnten die Institute auch f¨ur die beiden Variablen unterschiedlich viele Klassen gew¨ahlt haben (etwa drei Regionen statt zwei) (1 Punkt).
Lineares Trendmodell:
yt =a·t+b+εt, t= 1, . . . , T. (0.5 Punkte) Bestimmung von a und b mittels
ba=
PT
t=1t·yt−T ·t·y
PT
t=1t2−T ·t2 (0.5 Punkte),
bb =y−ab·t (0.5 Punkte).
MitT = 10 ist
t = 1
10 ·(1 +. . .+ 10) = 55
10 = 5.5(1 Punkt), und mit den angegebenen Hilfsgr¨oßen ist
y = 1 10·
XT t=1
yt (0.5 Punkte)= 6 024
10 = 602.4 (0.5 Punkte) und
ab = 33 247−10·5.5·602.4
385−10·5.52 = 33 247−33 132
385−302.5 = 115
82.5 = 1.3939 (1 Punkt),
bb= 602.4−1.3939·5.5 = 602.4−7.6665 (7.66645) = 594.7335 (594.7336) (1 Punkt).
Lineare Trendfunktion:
ybt= 1.3939·t+ 594.7335 (0.5 Punkte)
Aufgabe 5 (b):(insgesamt 4 Punkte) Es ist
yb20= 1.3939·20 + 594.7335 (1 Punkt)= 622.6115(1 Punkt).
Inhaltlich bedeutet dies, dass bei einer Weiterentwicklung des Stromverbrauchs wie bisher (oder: unter dem linearen Trendmodell) (0.5 Punkte) zum Zeitpunkt t = 20 (0.5 Punkte), d.h. im Jahr 2020 (0.5 Punkte), mit einem j¨ahrlichen Verbrauch von 622.6115 (rund 623) TWh zu rechnen ist (0.5 Punkte).
Aufgabe 5 (c): (insgesamt 10 Punkte)
Maß zur Beurteilung der Anpassungsg¨ute im linearen Regressionsmodell: R2 (1 Punkt).
Es ist
R2 =
PT
t=1(ybt−y)2
PT
t=1(yt−y)2 (0.5 Punkte) Nutze f¨ur Z¨ahler und Nenner den Verschiebungssatz:
R2 =
PT
t=1(ybt−y)2
P =
PT
t=1ybt2−T ·y2
P (1 Punkt)
Zeitpunkt t 1 2 3 4 5 ybt 596.1274 597.5213 598.9152 600.3091 601.7030 ybt2 355 367.8770 357 031.7040 358 699.4168 360 371.0155 362 046.5002
yt 585 587 599 608 612
yt2 342 225 344 569 358 801 369 664 374 544
Zeitpunkt t 6 7 8 9 10 Summe
ybt 603.0969 604.4908 605.8847 607.2786 608.6725
ybt2 363 725.8708 365 409.1273 367 096.2697 368 787.2980 370 482.2123 3 629 017.2916
yt 585 587 599 608 612
yt2 380 689 381 924 378 225 335 241 364 816 3 630 698
(3 Punkte)
Damit
R2 =
PT
t=1ybt2−T ·y2
PT
t=1yt2−T ·y2 = 3 629 017.2916−10·602.42
3 630 698−10·602.42 (1 Punkt)
= 3 629 017.2916−10·362885.76
3 630 698−10·362885.76 = 159.6916
1840.4 = 0.0868(1 Punkt)
Da R2 beinahe Null ist (0.5 Punkte), werden die Daten durch die lineare Trendfunktion nicht sinnvoll beschrieben (1 Punkt). Eine Prognose auf Basis dieses Modells ist daher nicht sinnvoll (1 Punkt).