L¨osung zur 2. Klausur zu Statistik I Prof. Dr. Claudia Becker Wintersemester 2011/12 28.03.2012

(1)

L¨ osung zur 2. Klausur zu Statistik I

Prof. Dr. Claudia Becker Wintersemester 2011/12

28.03.2012 Aufgabe 1 (20 Punkte)

1. Die Varianz ist ein direkt interpretierbares Streuungsmaß. (1 Punkt) Richtig

x Falsch

Begr¨undung: (4 Punkte)

Die Varianz liegt in der gleichen Maßeinheit vor wie die Beobachtungen.

Die Varianz muss quadriert werden, um interpretierbar zu sein.

x Die Varianz wird in der quadrierten Maßeinheit der Beobachtungen berechnet.

Die Varianz muss durch die Standardabweichung dividiert werden, um interpretierbar zu sein.

2. Die Berechnung von Durchschnittsnoten mit Hilfe des arithmetischen Mittels ist aus statistischer Sicht sinnvoll. (1 Punkt)

Richtig x Falsch

Noten sind nominal skaliert, das arithmetische Mittel ist also ein geeignetes Lagemaß.

x Noten sind ordinal skaliert, das arithmetische Mittel ist also kein geeignetes Lagemaß.

Noten sind metrisch skaliert, das arithmetische Mittel ist also ein geeignetes Lagemaß.

Noten sind kardinal skaliert, das arithmetische Mittel ist also kein geeignetes Lagemaß.

3. Der Wertebereich des Gini-Koeffizienten Ghat die Obergrenze (n−1)/n. (1 Punkt) x Richtig

Falsch

Gkann maximal den Wert G= 1 annehmen.

Die Obergrenze von (n−1)/n gilt f¨ur G^∗.

x G^∗ =n/(n−1)·G hat als Obergrenze den Wert 1.

Die Obergrenze von (n−1)/n gilt f¨ur den Herfindahl-Index.

(2)

(1 Punkt) Richtig x Falsch

x In diesem Fall ist die Verteilung rechtssteil.

In diesem Fall ist die Verteilung linkssteil.

Nur f¨ur eine symmetrische Verteilung kann ein negativer Schiefewert entstehen.

Eine symmetrische Verteilung h¨atte einen deutlich positiven Schiefewert.

(3)

Aufgabe 2 (a): (insgesamt 10 Punkte)

Methoden: Spannweite (1 Punkt) und Interquartilsabstand (1 Punkt) Vergleich:

• Spannweite R

– Vorteil:Rumfasst gesamte Streubreite der Daten(1 Punkt), daher Überblick über tatsächlichen Bereich, der abgedeckt wird (1 Punkt)

– Nachteil: Rwird extrem groß, sobald nur eine extreme Beobachtung in den Daten (1 Punkt), daher wird eventuell gr¨oßere Streuung suggeriert als im wesentlichen Teil der Daten eigentlich vorhanden (1 Punkt)

• Interquartilsabstand dQ

– Vorteil: dQ wenig empfindlich gegen extreme Beobachtungen (1 Punkt), spiegelt die Streuung des Hauptteils der Daten (1 Punkt)

– Nachteil: dQ basiert nur auf den mittleren 50% der geordneten Werte (1 Punkt), kann daher Wert Null annehmen, obwohl die Daten Streuung beinhalten(1 Punkt) Aufgabe 2 (b):(insgesamt 10 Punkte)

Gesucht:

MAD =med{|xi−xmed|, i= 1, . . . , n} (1 Punkt) da n = 7 ungerade (0.5 Punkte):

xmed =x(ⁿ⁺¹2 ) (0.5 Punkte)=x(⁷⁺¹2 ) =x(4) (0.5 Punkte) Geordnete Beobachtungsreihe:

x_(i): 1.7 2.2 2.2 2.2 2.2 5.7 6.8 (1 Punkt) x(4) = 2.2 (1 Punkt)

Somit MAD:

xi−xmed: 3.5 0 -0.5 0 0 4.6 0

|xi−xmed|: 3.5 0 0.5 0 0 4.6 0 (1 Punkt) geordnet: 0 0 0 0 0.5 3.5 4.6 (0.5 Punkte) MAD = 0 (1 Punkt)

Ziehe Standardabweichung vor(1 Punkt), da Beobachtungen nicht alle identisch, es existiert also Variation (1 Punkt); MAD nimmt Wert Null an, Standardabweichung ist gr¨oßer als Null, spiegelt daher die Datensituation besser (1 Punkt).

(4)

Gesucht: korrigierter Gini-Koeffizient (1 Punkt) G^∗ = n

n−1G (0.5 Punkte) wobei

G=

Xn

i=1

ui·v^ei +

Xn

i=1

ui−1·v^ei−1 (0.5 Punkte) mit

uq = q

n (0.5 Punkte); veq = x_(q)

P_n

i=1xi

(0.5 Punkte)

i x(i) ui vei ui·v^ei ui−1·v^ei

1 14.5 0.25 0.0740 0.0185

2 17.6 0.50 0.0898 0.0449 0.0225 3 70.9 0.75 0.3619 0.2714 0.1810 4 92.9 1.00 0.4742 0.4742 0.3557

P 195.9 0.8090 0.5592

(0.5 P.) (0.5 P.) (0.5 P.) (0.5 P.) (0.5 P.) G= 0.8090 + 0.5592−1 = 0.3682 (0.5 Punkte)

G^∗ = ₄₋₁⁴ ·0.3682 = 0.4909 (1 Punkt)

Da 0.2 < G^∗ ≤ 0.5 (0.5 Punkte) → schwache Konzentration (bzw. schwache bis deutliche, da G^∗ knapp unter 0.5) (0.5 Punkte). Die Marktkonzentration im Energiemarkt ist also von mittlerer St¨arke; damit wird der Markt nicht von nur einem der Konzerne dominiert(1 Punkt), es haben aber auch nicht alle Konzerne dieselbe Marktmacht (gemessen am Umsatz) (1 Punkt).

Aufgabe 3 (b):(insgesamt 10 Punkte) Gesucht: H^∗ (1 Punkt)

H^∗ = H−n¹

1− n¹

(0.5 Punkte)

H =

Xn

i=1

ve_i² (0.5 Punkte)

= 0.0740²+ 0.0898²+ 0.3619²+ 0.4742² (1 Punkt)

= 0.0055 + 0.0081 + 0.1310 + 0.2249

= 0.3695 (1 Punkt) H^∗ = 0.3695− ¹₄

1− ¹4

= 0.1593 (1 Punkt) Absolute vs. relative Konzentration:

Ein Maß f¨ur die relative Konzentration ber¨ucksichtigt nicht die absolute Anzahl der Objekte

(5)

Aufgabe 4 (a): (insgesamt 8 Punkte)

Tabelle der gemeinsamen absoluten H¨aufigkeiten Stromverbrauch (Y)

Region (X) niedrig (≤ 1.7) hoch (> 1.7)

Nord 6 4 10

S¨ud 0 6 6

6 10 16

(4 Punkte)

Tabelle der unter Unabh¨angigkeit erwarteten H¨aufigkeiten Stromverbrauch (Y)

Region (X) niedrig (≤ 1.7) hoch (> 1.7)

Nord 3.75 6.25 10

S¨ud 2.25 3.75 6

6 10 16

(4 Punkte)

Aufgabe 4 (b):(insgesamt 6 Punkte) Gesucht: K^∗ (1 Punkt)

K^∗ = K

qM−1 M

(0.5 Punkte)

wobei:M =min{k, m} (0.5 Punkte) und K =

s χ²

n+χ² (0.5 Punkte)=

s 5.76

16 + 5.76 (0.5 Punkte)=√

0.2647 = 0.5145 (0.5 Punkte)

K^∗ = 0.5145

q2−1 2

(0.5 Punkte)= 0.5145

0.7071 = 0.7276 (0.5 Punkte)

Da 0.5< K^∗ <0.8 (0.5 Punkte) →Es besteht ein deutlicher Zusammenhang zwischen dem durchschnittlichen Stromverbrauch und der Region, in der der Haushalt angesiedelt ist (1 Punkt).

Aufgabe 4 (c): (insgesamt 6 Punkte)

K^∗ wird aus Kontingenztafel bestimmt, vorgegeben sind aber nur die Rohdaten (1 Punkt);

daher wählt jedes Institut die Klasseneinteilung der Variable “Stromverbrauch” eigenständig (1 Punkt); damit ergeben sich unterschiedliche Kontingenztafeln (1 Punkt) und damit auch unterschiedliche Werte von K^∗ (1 Punkt). Darüber hinaus kann auch die Zuordnung der Bundesländer zu den Regionen “Nord” und “Süd” anders vorgenommen worden sein (1 Punkt). Schließlich könnten die Institute auch für die beiden Variablen unterschiedlich viele Klassen gewählt haben (etwa drei Regionen statt zwei) (1 Punkt).

(6)

Lineares Trendmodell:

yt =a·t+b+εt, t= 1, . . . , T. (0.5 Punkte) Bestimmung von a und b mittels

ba=

PT

t=1t·yt−T ·t·y

PT

t=1t²−T ·t² (0.5 Punkte),

bb =y−a^b·t (0.5 Punkte).

MitT = 10 ist

t = 1

10 ·(1 +. . .+ 10) = 55

10 = 5.5(1 Punkt), und mit den angegebenen Hilfsgr¨oßen ist

y = 1 10·

XT t=1

yt (0.5 Punkte)= 6 024

10 = 602.4 (0.5 Punkte) und

ab = 33 247−10·5.5·602.4

385−10·5.5² = 33 247−33 132

385−302.5 = 115

82.5 = 1.3939 (1 Punkt),

bb= 602.4−1.3939·5.5 = 602.4−7.6665 (7.66645) = 594.7335 (594.7336) (1 Punkt).

Lineare Trendfunktion:

ybt= 1.3939·t+ 594.7335 (0.5 Punkte)

Aufgabe 5 (b):(insgesamt 4 Punkte) Es ist

yb20= 1.3939·20 + 594.7335 (1 Punkt)= 622.6115(1 Punkt).

Inhaltlich bedeutet dies, dass bei einer Weiterentwicklung des Stromverbrauchs wie bisher (oder: unter dem linearen Trendmodell) (0.5 Punkte) zum Zeitpunkt t = 20 (0.5 Punkte), d.h. im Jahr 2020 (0.5 Punkte), mit einem j¨ahrlichen Verbrauch von 622.6115 (rund 623) TWh zu rechnen ist (0.5 Punkte).

Aufgabe 5 (c): (insgesamt 10 Punkte)

Maß zur Beurteilung der Anpassungsg¨ute im linearen Regressionsmodell: R² (1 Punkt).

Es ist

R² =

P_T

t=1(ybt−y)²

P_T

t=1(yt−y)² (0.5 Punkte) Nutze f¨ur Z¨ahler und Nenner den Verschiebungssatz:

R² =

P_T

t=1(ybt−y)²

P =

P_T

t=1yb_t²−T ·y²

P (1 Punkt)

(7)

Zeitpunkt t 1 2 3 4 5 ybt 596.1274 597.5213 598.9152 600.3091 601.7030 yb_t² 355 367.8770 357 031.7040 358 699.4168 360 371.0155 362 046.5002

yt 585 587 599 608 612

y_t² 342 225 344 569 358 801 369 664 374 544

Zeitpunkt t 6 7 8 9 10 Summe

ybt 603.0969 604.4908 605.8847 607.2786 608.6725

yb_t² 363 725.8708 365 409.1273 367 096.2697 368 787.2980 370 482.2123 3 629 017.2916

yt 585 587 599 608 612

y_t² 380 689 381 924 378 225 335 241 364 816 3 630 698

(3 Punkte)

Damit

R² =

PT

t=1yb_t²−T ·y²

PT

t=1y_t²−T ·y² = 3 629 017.2916−10·602.4²

3 630 698−10·602.4² (1 Punkt)

= 3 629 017.2916−10·362885.76

3 630 698−10·362885.76 = 159.6916

1840.4 = 0.0868(1 Punkt)

Da R² beinahe Null ist (0.5 Punkte), werden die Daten durch die lineare Trendfunktion nicht sinnvoll beschrieben (1 Punkt). Eine Prognose auf Basis dieses Modells ist daher nicht sinnvoll (1 Punkt).