• Keine Ergebnisse gefunden

L¨osung zur 2. Klausur zu Statistik I Prof. Dr. Claudia Becker Wintersemester 2011/12 28.03.2012

N/A
N/A
Protected

Academic year: 2022

Aktie "L¨osung zur 2. Klausur zu Statistik I Prof. Dr. Claudia Becker Wintersemester 2011/12 28.03.2012"

Copied!
7
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

L¨ osung zur 2. Klausur zu Statistik I

Prof. Dr. Claudia Becker Wintersemester 2011/12

28.03.2012 Aufgabe 1 (20 Punkte)

1. Die Varianz ist ein direkt interpretierbares Streuungsmaß. (1 Punkt) Richtig

x Falsch

Begr¨undung: (4 Punkte)

Die Varianz liegt in der gleichen Maßeinheit vor wie die Beobachtungen.

Die Varianz muss quadriert werden, um interpretierbar zu sein.

x Die Varianz wird in der quadrierten Maßeinheit der Beobachtungen berechnet.

Die Varianz muss durch die Standardabweichung dividiert werden, um inter- pretierbar zu sein.

2. Die Berechnung von Durchschnittsnoten mit Hilfe des arithmetischen Mittels ist aus statistischer Sicht sinnvoll. (1 Punkt)

Richtig x Falsch

Begr¨undung: (4 Punkte)

Noten sind nominal skaliert, das arithmetische Mittel ist also ein geeignetes Lagemaß.

x Noten sind ordinal skaliert, das arithmetische Mittel ist also kein geeignetes Lagemaß.

Noten sind metrisch skaliert, das arithmetische Mittel ist also ein geeignetes Lagemaß.

Noten sind kardinal skaliert, das arithmetische Mittel ist also kein geeignetes Lagemaß.

3. Der Wertebereich des Gini-Koeffizienten Ghat die Obergrenze (n−1)/n. (1 Punkt) x Richtig

Falsch

Begr¨undung: (4 Punkte)

Gkann maximal den Wert G= 1 annehmen.

Die Obergrenze von (n−1)/n gilt f¨ur G.

x G =n/(n−1)·G hat als Obergrenze den Wert 1.

Die Obergrenze von (n−1)/n gilt f¨ur den Herfindahl-Index.

(2)

(1 Punkt) Richtig x Falsch

Begr¨undung: (4 Punkte)

x In diesem Fall ist die Verteilung rechtssteil.

In diesem Fall ist die Verteilung linkssteil.

Nur f¨ur eine symmetrische Verteilung kann ein negativer Schiefewert entstehen.

Eine symmetrische Verteilung h¨atte einen deutlich positiven Schiefewert.

(3)

Aufgabe 2 (a): (insgesamt 10 Punkte)

Methoden: Spannweite (1 Punkt) und Interquartilsabstand (1 Punkt) Vergleich:

• Spannweite R

– Vorteil:Rumfasst gesamte Streubreite der Daten(1 Punkt), daher ¨Uberblick ¨uber tats¨achlichen Bereich, der abgedeckt wird (1 Punkt)

– Nachteil: Rwird extrem groß, sobald nur eine extreme Beobachtung in den Daten (1 Punkt), daher wird eventuell gr¨oßere Streuung suggeriert als im wesentlichen Teil der Daten eigentlich vorhanden (1 Punkt)

• Interquartilsabstand dQ

– Vorteil: dQ wenig empfindlich gegen extreme Beobachtungen (1 Punkt), spiegelt die Streuung des Hauptteils der Daten (1 Punkt)

– Nachteil: dQ basiert nur auf den mittleren 50% der geordneten Werte (1 Punkt), kann daher Wert Null annehmen, obwohl die Daten Streuung beinhalten(1 Punkt) Aufgabe 2 (b):(insgesamt 10 Punkte)

Gesucht:

MAD =med{|xi−xmed|, i= 1, . . . , n} (1 Punkt) da n = 7 ungerade (0.5 Punkte):

xmed =x(n+12 ) (0.5 Punkte)=x(7+12 ) =x(4) (0.5 Punkte) Geordnete Beobachtungsreihe:

x(i): 1.7 2.2 2.2 2.2 2.2 5.7 6.8 (1 Punkt) x(4) = 2.2 (1 Punkt)

Somit MAD:

xi−xmed: 3.5 0 -0.5 0 0 4.6 0

|xi−xmed|: 3.5 0 0.5 0 0 4.6 0 (1 Punkt) geordnet: 0 0 0 0 0.5 3.5 4.6 (0.5 Punkte) MAD = 0 (1 Punkt)

Ziehe Standardabweichung vor(1 Punkt), da Beobachtungen nicht alle identisch, es existiert also Variation (1 Punkt); MAD nimmt Wert Null an, Standardabweichung ist gr¨oßer als Null, spiegelt daher die Datensituation besser (1 Punkt).

(4)

Gesucht: korrigierter Gini-Koeffizient (1 Punkt) G = n

n−1G (0.5 Punkte) wobei

G=

Xn

i=1

ui·vei +

Xn

i=1

ui−1·vei−1 (0.5 Punkte) mit

uq = q

n (0.5 Punkte); veq = x(q)

Pn

i=1xi

(0.5 Punkte)

i x(i) ui vei ui·vei ui1·vei

1 14.5 0.25 0.0740 0.0185

2 17.6 0.50 0.0898 0.0449 0.0225 3 70.9 0.75 0.3619 0.2714 0.1810 4 92.9 1.00 0.4742 0.4742 0.3557

P 195.9 0.8090 0.5592

(0.5 P.) (0.5 P.) (0.5 P.) (0.5 P.) (0.5 P.) G= 0.8090 + 0.5592−1 = 0.3682 (0.5 Punkte)

G = 4−14 ·0.3682 = 0.4909 (1 Punkt)

Da 0.2 < G ≤ 0.5 (0.5 Punkte) → schwache Konzentration (bzw. schwache bis deutliche, da G knapp unter 0.5) (0.5 Punkte). Die Marktkonzentration im Energiemarkt ist also von mittlerer St¨arke; damit wird der Markt nicht von nur einem der Konzerne dominiert(1 Punkt), es haben aber auch nicht alle Konzerne dieselbe Marktmacht (gemessen am Umsatz) (1 Punkt).

Aufgabe 3 (b):(insgesamt 10 Punkte) Gesucht: H (1 Punkt)

H = H−n1

1− n1

(0.5 Punkte)

H =

Xn

i=1

vei2 (0.5 Punkte)

= 0.07402+ 0.08982+ 0.36192+ 0.47422 (1 Punkt)

= 0.0055 + 0.0081 + 0.1310 + 0.2249

= 0.3695 (1 Punkt) H = 0.3695− 14

1− 14

= 0.1593 (1 Punkt) Absolute vs. relative Konzentration:

Ein Maß f¨ur die relative Konzentration ber¨ucksichtigt nicht die absolute Anzahl der Objekte

(5)

Aufgabe 4 (a): (insgesamt 8 Punkte)

Tabelle der gemeinsamen absoluten H¨aufigkeiten Stromverbrauch (Y)

Region (X) niedrig (≤ 1.7) hoch (> 1.7)

Nord 6 4 10

S¨ud 0 6 6

6 10 16

(4 Punkte)

Tabelle der unter Unabh¨angigkeit erwarteten H¨aufigkeiten Stromverbrauch (Y)

Region (X) niedrig (≤ 1.7) hoch (> 1.7)

Nord 3.75 6.25 10

S¨ud 2.25 3.75 6

6 10 16

(4 Punkte)

Aufgabe 4 (b):(insgesamt 6 Punkte) Gesucht: K (1 Punkt)

K = K

qM1 M

(0.5 Punkte)

wobei:M =min{k, m} (0.5 Punkte) und K =

s χ2

n+χ2 (0.5 Punkte)=

s 5.76

16 + 5.76 (0.5 Punkte)=√

0.2647 = 0.5145 (0.5 Punkte)

K = 0.5145

q2−1 2

(0.5 Punkte)= 0.5145

0.7071 = 0.7276 (0.5 Punkte)

Da 0.5< K <0.8 (0.5 Punkte) →Es besteht ein deutlicher Zusammenhang zwischen dem durchschnittlichen Stromverbrauch und der Region, in der der Haushalt angesiedelt ist (1 Punkt).

Aufgabe 4 (c): (insgesamt 6 Punkte)

K wird aus Kontingenztafel bestimmt, vorgegeben sind aber nur die Rohdaten (1 Punkt);

daher w¨ahlt jedes Institut die Klasseneinteilung der Variable “Stromverbrauch” eigenst¨andig (1 Punkt); damit ergeben sich unterschiedliche Kontingenztafeln (1 Punkt) und damit auch unterschiedliche Werte von K (1 Punkt). Dar¨uber hinaus kann auch die Zuordnung der Bundesl¨ander zu den Regionen “Nord” und “S¨ud” anders vorgenommen worden sein (1 Punkt). Schließlich k¨onnten die Institute auch f¨ur die beiden Variablen unterschiedlich viele Klassen gew¨ahlt haben (etwa drei Regionen statt zwei) (1 Punkt).

(6)

Lineares Trendmodell:

yt =a·t+b+εt, t= 1, . . . , T. (0.5 Punkte) Bestimmung von a und b mittels

ba=

PT

t=1t·yt−T ·t·y

PT

t=1t2−T ·t2 (0.5 Punkte),

bb =y−ab·t (0.5 Punkte).

MitT = 10 ist

t = 1

10 ·(1 +. . .+ 10) = 55

10 = 5.5(1 Punkt), und mit den angegebenen Hilfsgr¨oßen ist

y = 1 10·

XT t=1

yt (0.5 Punkte)= 6 024

10 = 602.4 (0.5 Punkte) und

ab = 33 247−10·5.5·602.4

385−10·5.52 = 33 247−33 132

385−302.5 = 115

82.5 = 1.3939 (1 Punkt),

bb= 602.4−1.3939·5.5 = 602.4−7.6665 (7.66645) = 594.7335 (594.7336) (1 Punkt).

Lineare Trendfunktion:

ybt= 1.3939·t+ 594.7335 (0.5 Punkte)

Aufgabe 5 (b):(insgesamt 4 Punkte) Es ist

yb20= 1.3939·20 + 594.7335 (1 Punkt)= 622.6115(1 Punkt).

Inhaltlich bedeutet dies, dass bei einer Weiterentwicklung des Stromverbrauchs wie bisher (oder: unter dem linearen Trendmodell) (0.5 Punkte) zum Zeitpunkt t = 20 (0.5 Punkte), d.h. im Jahr 2020 (0.5 Punkte), mit einem j¨ahrlichen Verbrauch von 622.6115 (rund 623) TWh zu rechnen ist (0.5 Punkte).

Aufgabe 5 (c): (insgesamt 10 Punkte)

Maß zur Beurteilung der Anpassungsg¨ute im linearen Regressionsmodell: R2 (1 Punkt).

Es ist

R2 =

PT

t=1(ybt−y)2

PT

t=1(yt−y)2 (0.5 Punkte) Nutze f¨ur Z¨ahler und Nenner den Verschiebungssatz:

R2 =

PT

t=1(ybt−y)2

P =

PT

t=1ybt2−T ·y2

P (1 Punkt)

(7)

Zeitpunkt t 1 2 3 4 5 ybt 596.1274 597.5213 598.9152 600.3091 601.7030 ybt2 355 367.8770 357 031.7040 358 699.4168 360 371.0155 362 046.5002

yt 585 587 599 608 612

yt2 342 225 344 569 358 801 369 664 374 544

Zeitpunkt t 6 7 8 9 10 Summe

ybt 603.0969 604.4908 605.8847 607.2786 608.6725

ybt2 363 725.8708 365 409.1273 367 096.2697 368 787.2980 370 482.2123 3 629 017.2916

yt 585 587 599 608 612

yt2 380 689 381 924 378 225 335 241 364 816 3 630 698

(3 Punkte)

Damit

R2 =

PT

t=1ybt2−T ·y2

PT

t=1yt2−T ·y2 = 3 629 017.2916−10·602.42

3 630 698−10·602.42 (1 Punkt)

= 3 629 017.2916−10·362885.76

3 630 698−10·362885.76 = 159.6916

1840.4 = 0.0868(1 Punkt)

Da R2 beinahe Null ist (0.5 Punkte), werden die Daten durch die lineare Trendfunktion nicht sinnvoll beschrieben (1 Punkt). Eine Prognose auf Basis dieses Modells ist daher nicht sinnvoll (1 Punkt).

Abbildung

Tabelle der gemeinsamen absoluten H¨ aufigkeiten Stromverbrauch (Y )

Referenzen

ÄHNLICHE DOKUMENTE

Die Verteilungen des Familienstands in den beiden unteren Altersklassen sind sich eher ¨ahnlich (0.5 Punkte), die in den beiden oberen sind sich auch eher ¨ahnlich (0.5

Die Anbieter dieser beiden Themen stellen zusammen weniger als die Anbieter von Ratgeber- und sonstiger Literatur5. x Die Anbieter dieser beiden Themen stellen zusammen weniger als

Der Zusammenhang besteht nicht zwischen der Impfung gegen die normale Grippe und der Anzahl der Schweinegrippe-F¨alle, son- dern beispielsweise zwischen der Impfung gegen die

Da die zur Konstruktion eines Histogramms verwendeten Klassen nicht aneinanderstoßen, stoßen auch die Rechtecke nicht aneinander.. Das Kreisdiagramm wird nach dem Prinzip

x Das arithmetische Mittel darf nur f¨ur metrisch skalierte Merkmale berechnet werden, jedoch nicht f¨ur ordinal oder nominal skalierte Merkmale2. Das arithmetische Mittel darf nur

x Ein diskretes Merkmal kann sowohl stetig als auch diskret erhoben werden.. x Ein stetiges Merkmal muss stetig

sind insgesamt eher gleichm¨aßiger auf die Versichertenklassen verteilt, nicht besonders stark auf eine Klasse konzentriert (0.5 Punkte).. Alternativ: G ∗

Wenn schon kein besonders starker monotoner Zu- sammenhang vorliegt, kann man auch keinen starken linearen Zusammenhang erwarten (2 Punkte)... Er sagt hier aus, ob die er-