Lösung zur Klausur zu Statistik I

(1)

Lösung zur Klausur zu Statistik I

Prof. Dr. Claudia Becker Wintersemester 2012/2013

06.02.2013 Aufgabe 1: (insgesamt 20 Punkte)

Richtige Entscheidung Zutreffen(jeweils 1 Punkt), richtige Begründung(jeweils 3 Punkte).

1. Im Boxplot kann man Mittelwert und Standardabweichung der Häufigkeitsverteilung ablesen.

Richtig x Falsch Begründung:

Der innere Strich und die Breite der Box entsprechen Mittelwert und Standard- abweichung.

Der innere Strich und die Breite der Box entsprechen Median und MAD.

x Der innere Strich und die Breite der Box entsprechen Median und Interquartils- abstand.

2. Beim gleitenden Durchschnitt der Ordnungp= 2q+ 1 sollte man immer den maximal zulässigen Wert fürp wählen.

x Je größer p, desto mehr Werte gehen am Anfang und Ende der Reihe verloren.

Damit wird der gleitende Durchschnitt weniger aussagekräftig.

Je größer p, desto „glatter“ wird der gleitende Durchschnitt. Der maximale Wert von p zeigt daher den Trend am deutlichsten.

Je größer p, desto weniger folgt der gleitende Durchschnitt der Originalreihe.

Daher sollte man besser den minimal zulässigen Wert für p wählen.

3. Der Rangkorrelationskoeffizient nach Spearman ist ausschließlich für ordinal skalierte Merkmale anwendbar.

Das ordinale Skalenniveau ist die Minimalanforderung an die Merkmale.

Der Rangkorrelationskoeffizient nach Spearman darf daher auch für niedriger skalierte Merkmale berechnet werden.

x Das ordinale Skalenniveau ist die Minimalanforderung an die Merkmale.

Der Rangkorrelationskoeffizient nach Spearman darf daher auch für höher skalierte Merkmale berechnet werden.

Das ordinale Skalenniveau ist die Minimalanforderung an die Merkmale.

Da die ordinale Skalierung das höchste Skalenniveau darstellt, kann der Rangkorrelationskoeffizient nach Spearman ausschließlich für ordinal skalierte Merkmale berechnet werden.

(2)

eingesetzt werden.

x Richtig Falsch Begründung:

x Die Methode dient zur Bestimmung einer Regressionsfunktion. Eine derartige Funktion ist bei zeitlichen Daten etwa eine lineare Trendgerade.

Die Methode dient zur Bestimmung einer Regressionsfunktion. Eine derartige Funktion gibt es bei zeitlichen Daten nicht.

Die Methode dient zur Bestimmung einer Regressionsfunktion. Hierzu werden Einfluss- und Zielgrößen benötigt. Bei zeitlichen Daten gibt es

aber keine Einflussgröße.

5. Der Umsatz- oder Wertindex setzt den Wert zweier unterschiedlicher Warenkörbe zu zwei unterschiedlichen Zeiten miteinander ins Verhältnis.

Dieser Index nutzt zur Basiszeit den für diese Zeit aktuellen Warenkorb und zur Berichtszeit den zu dieser Zeit aktuellen Warenkorb.

x Dieser Index nutzt denselben Warenkorb zu zwei unterschiedlichen Zeiten.

Dieser Index nutzt zwei unterschiedliche Warenkörbe für dieselbe Zeit.

Aufgabe 2: (insgesamt 20 Punkte) Aufgabe 2 (a):(insgesamt 8 Punkte)

Gesucht:x und ˜s für beide Automobilhersteller.

x= 1 n

n

X

i=1

x_i(0.5 Punkte) und ˜s=√

˜

s² mit ˜s² = 1 n

n

X

i=1

x²_i −x²(0.5 Punkte)

Für Automobilhersteller 1:

x_A1 = 1

10·68.8(0.5 Punkte)= 6.88(0.5 Punkte)

˜

s²_A1 = 1

10·499.2−6.88²(0.5 Punkte)= 2.5856(0.5 Punkte)

˜

s_A1 = √

2.5856 = 1.6080(0.5 Punkte) Für Automobilhersteller 2:

x_A2 = 1

10·45.9 = 4.59(0.5 Punkte)

˜

s²_A2 = 1

10·215.05−4.59² = 0.4369(0.5 Punkte)

˜

s_A2 = √

0.4369 = 0.6610(0.5 Punkte)

PKWs vom Automobilhersteller 2 verbrauchen im Durchschnitt weniger (0.5 Punkte). Da hier auch die Streuung kleiner ist (0.5 Punkte), scheint sich der zweite Hersteller auf die Zielgruppe der „Sparwilligen“ zu spezialisieren (1 Punkt). Im Gegensatz dazu bedient das erste Unternehmen eine heterogene Zielgruppe(1 Punkt).

(3)

Aufgabe 2 (b): (insgesamt 8 Punkte)

Ein Boxplot ist die grafische Darstellung der Fünf-Punkte-Zusammenfassung. Daher bestim- me zunächst:

x₍₁₎, x_0.25, x_med, x_0.75, x_(n)(1 Punkt).

Ordne hierfür zunächst die Datenreihe:

3.4 4.0 4.0 4.2 4.6 4.8 4.8 5.0 5.5 5.6 (1 Punkt)

x₍₁₎ = 3.4(0.5 Punkte) x_0.25 = 4.0(0.5 Punkte)

→n·p= 10·0.25 = 2.5 nicht ganzzahlig, verwende xp =x([n·p]+1)(0.5 Punkte) =x₍₃₎(0.5 Punkte) x_med = 4.7(0.5 Punkte)

→dan gerade, verwende x_med = 1

2 ·x₍ⁿ

2)+x₍ⁿ

2+1)

(0.5 Punkte) = 1

2 ·x₍₅₎+x₍₆₎ x_0.75 = 5.0(0.5 Punkte)

→wegen Symmetrie, nehme dritte Beobachtung von oben(0.5 Punkte) x_p =x₍₈₎

x_(n) = x₍₁₀₎= 5.6(0.5 Punkte)

Zeichnung des Boxplots (1 Punkt). Die Boxplots bestätigen die Eindrücke aus Teilaufgabe (a) (0.5 Punkte).

Aufgabe 2 (c):(insgesamt 4 Punkte)

Der Boxplot für den ersten Hersteller deutet auf eine rechtsschiefe/linkssteile Verteilung hin (1 Punkt), der vom Hersteller 2 auf eine annährend symmetrische Verteilung (1 Punkt) (alternativ: linksschief/rechtssteil). Man erwartet also g_m;A1 > 0 (1 Punkt) und g_m;A2 ≈ 0 (1 Punkt) (alternativ: g_m;A2 <0).

• gegeben: Absatzzahlen als unklassierte Häufigkeitsverteilung; gesucht: relative Konzen- tration→ normierter Gini-Koeffizient & Lorenzkurve (1 Punkt)

• Lösungstabelle für Lorenzkurve: (5 Punkte)

j a_j h(a_j) f(a_j) u_j a_j ·h(a_j) v_e_j v_j

1 3 3 3/10=0.3 0.3 9 9/54=1/6 0.1

2 4 1 0.1 0.4 4 2/27 13/54

3 5 2 0.2 0.6 10 5/27 23/54

4 7 1 0.1 0.7 7 7/54 5/9

5 8 3 0.3 1 24 4/9 1

P 10 1 54 1

(4)

• Grafik: (3 Punkte)

0.0 0.2 0.4 0.6 0.8 1.0

uj

vj

●

• Lösungstabelle für Gini-Koeffizient (Fortsetzung von oben): (2 Punkte) j u_j ·ve_j uj−1·ve_j

1 1/20 0

2 4/135 1/45

3 1/9 2/27

4 49/540 7/90

5 4/9 14/45

P 98/135 131/270

• G= ^P^k

j=1

uj ·vej + ^P^k

j=1

uj−1·vej−1 = 98/135 + 131/270−1 = 19/90≈0.2111 (1 Punkt)

• normierter Gini-Koeffizient: G^∗ = _n−1ⁿ ·G= ¹⁰₉ ·19/90 = 19/81≈0.2346(2 Punkte)

• normierter Gini-Koeffizient & Lorenzkurve lassen auf eine eher geringe Konzentration am Automobilmarkt schließen; Ergebnis kontraintuitiv: Automobilmarkt ist bekannt für erhebliche Konsolidierungsbewegungen; Problem: nur die 10 größten Unternehmen wurden zur Berechnung herangezogen; um Konzentration sinnvoll einzuschätzen, müs- sen auch Kleinhersteller berücksichtigt werden(3 Punkte)

Lorenzkurve bleibt bzgl. der Form unverändert (die Konzentration ändert sich nicht); Lo- renzkurve auf Basis der Urliste besteht allerdings aus mehr (11) Punkten, die äquidistant auf der Kurve verteilt liegen

(5)

• zu unterscheidene Koeffizienten: Korrelationskoeffizient nach Bravais-Pearson(0.5 Punkte), Rangkorrelationskoeffizient nach Spearman (0.5 Punkte)

• Wahl des Koeffizienten nach Bravais-Pearson(0.5 Punkte), da beide Merkmal metrisch skaliert sind (0.5 Punkte)

• bei Wahl des Koeffizienten nach Spearman würden Informationen (Abstand zwischen den Beobachtungswerten(0.5 Punkte)) verloren gehen (0.5 Punkte)

Zur Korrelationsbestimmung nutze r_XY (1 Punkt). Es ist

r_XY =

Pn

i=1x_i·y_i−n·x·y

q(^Pⁿ_i=1x²_i −n·x²)·^q(^Pⁿ_i=1y²_i −n·y²)

(1 Punkt)

Mit den angegebenen Hilfsgrößen ergibt sich

x= 1

n ·^Xx_t= 48.55/8 = 6.0688(1 Punkt), y = 2821/8 = 352.625(1 Punkt) Insgesamt also

r_XY = 16793.53−8·6.0688·352.625

q(313.7637−8·6.0688²)·^q(1007285−8·352.625²)

(1 Punkt)

= −326.4137 4.3733·111.9369

= −0.6668(1 Punkt)

Zwischen der Anzahl der Gästeübernachtungen und der Anzahl der Arbeitslosen besteht ein deutlicher(1 Punkt), negativer(1 Punkt), linearer(1 Punkt) Zusammenhang, da gilt: 0.5 <

|-0.6668| < 0.8 (1 Punkt). D.h. wenn die Gästeübernachtungen hoch gehen, gehen zugleich die Arbeitslosenzahlen runter (1 Punkt).

Der Grund für die hohe negative Korrelation sind hier wohl die durch die Jahreszeit bedingten Schwankungen (1 Punkt): Im Winter gibt es mehr Arbeitslose (saisonale Arbeitslosigkeit), dafür weniger Touristen und damit Übernachtungen. Im Sommer ist es genau umgekehrt(1 Punkt). Es gibt aber keinen direkten kausalen Zusammenhang von Gästeübernachtungen zu Arbeitslosenzahlen(1 Punkt), da nicht alle Arbeitslose, die aus der Statistik verschwunden sind, im Tourismusgewerbe tätig sind (sondern z.B. im Baugewerbe, in der Landwirtschaft oder in anderen Branchen, die von der Jahrezeit abhängig sind)(1 Punkt).

Hier ist somit der Effekt der Scheinkorrelation zu vermuten (2 Punkte).

(6)

Aufgabe 5 (a):(insgesamt 8 Punkte)

• gegeben: lineares Trendmodell: y(t) = α·t+β+, wobei y. . . Höchstgeschwindigkeit und t. . . Jahr; gesucht: α und β (1 Punkt)

• nutze KQ-Methode zur Bestimmung vonα und β: ˆα=

Pn

i=1ti·yi−n·t·y

Pn

i=1t²_i−n·t² und ˆβ =y−αˆ·t (1 Punkt)

• αˆ = 5 329 150−15·1 973.6667·179.2

58 441 805−15·1 973.6667² = 2.09886 → je Jahr steigt die Höchstgeschwindigkeit um 2.09886 Meilen pro Stunde (2 Punkte)

• βˆ = 179.2 −2.09886 · 1 973.6667 = −3963.25 → ”Geschwindigkeit im Jahr 0” → inhaltlich nicht sinnvoll interpretierbar (2 Punkte)

• Grafik: (2 Punkte)

1900 1920 1940 1960 1980 2000

50100150200250

Jahr

vmax

●

●●

●

●●

●

● ●

y(1886) = 2.09886 ·1886 −3 963.25 = −4.80004 (1 Punkt) → Prognose beruht auf An- nahme eines linearen Zusammenhangs zwischen Jahr und Höchstgeschwindigkeit; ”negative Geschwindigkeit” nicht sinnvoll; generelles Problem bei Prognose von Werten außerhalb des Bereichs, für den Daten vorliegen, da dort andere Zusammenhänge gelten können(1 Punkt)

Umwandlung der Daten von Meilen pro Stunde in Kilometer pro Stunde stellt Transfor- mation der Daten dar: x_i = a·y_i, wobei y. . . Höchstgeschwindigkeit in Meilen pro Stunde, x. . . Höchstgeschwindigkeit in Kilometer pro Stunde und a= 1.6

(7)

αˆkmh =

Pn

i=1t_i·x_i−n·t·x

Pn

i=1t²_i −n·t²

=

P_n

i=1ti·a·yi−n·t·a·y

Pn

i=1t²_i −n·t²

= a^Pⁿ_i=1t_i ·y_i−a·n·t·y

Pn

i=1t²_i −n·t²

= a

Pn

i=1t_i·y_i−n·t·y

Pn

i=1t²_i −n·t²

= a·αˆ_mph (5 Punkte)

βˆ_kmh = x−αˆ_kmh·t

= a·y−a·αˆ_mph·t

= a·(y−αˆ_mph·t)

= a·βˆ_mph (4 Punkte)

→ αˆ und ˆβ machen die Transformation der Daten mit (1 Punkt)