• Keine Ergebnisse gefunden

Lösung zur Klausur zu Statistik I

N/A
N/A
Protected

Academic year: 2022

Aktie "Lösung zur Klausur zu Statistik I"

Copied!
7
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Lösung zur Klausur zu Statistik I

Prof. Dr. Claudia Becker Wintersemester 2012/2013

06.02.2013 Aufgabe 1: (insgesamt 20 Punkte)

Richtige Entscheidung Zutreffen(jeweils 1 Punkt), richtige Begründung(jeweils 3 Punkte).

1. Im Boxplot kann man Mittelwert und Standardabweichung der Häufigkeitsverteilung ablesen.

Richtig x Falsch Begründung:

Der innere Strich und die Breite der Box entsprechen Mittelwert und Standard- abweichung.

Der innere Strich und die Breite der Box entsprechen Median und MAD.

x Der innere Strich und die Breite der Box entsprechen Median und Interquartils- abstand.

2. Beim gleitenden Durchschnitt der Ordnungp= 2q+ 1 sollte man immer den maximal zulässigen Wert fürp wählen.

Richtig x Falsch Begründung:

x Je größer p, desto mehr Werte gehen am Anfang und Ende der Reihe verloren.

Damit wird der gleitende Durchschnitt weniger aussagekräftig.

Je größer p, desto „glatter“ wird der gleitende Durchschnitt. Der maximale Wert von p zeigt daher den Trend am deutlichsten.

Je größer p, desto weniger folgt der gleitende Durchschnitt der Originalreihe.

Daher sollte man besser den minimal zulässigen Wert für p wählen.

3. Der Rangkorrelationskoeffizient nach Spearman ist ausschließlich für ordinal skalierte Merkmale anwendbar.

Richtig x Falsch Begründung:

Das ordinale Skalenniveau ist die Minimalanforderung an die Merkmale.

Der Rangkorrelationskoeffizient nach Spearman darf daher auch für niedriger skalierte Merkmale berechnet werden.

x Das ordinale Skalenniveau ist die Minimalanforderung an die Merkmale.

Der Rangkorrelationskoeffizient nach Spearman darf daher auch für höher skalierte Merkmale berechnet werden.

Das ordinale Skalenniveau ist die Minimalanforderung an die Merkmale.

Da die ordinale Skalierung das höchste Skalenniveau darstellt, kann der Rangkorrelationskoeffizient nach Spearman ausschließlich für ordinal skalierte Merkmale berechnet werden.

(2)

eingesetzt werden.

x Richtig Falsch Begründung:

x Die Methode dient zur Bestimmung einer Regressionsfunktion. Eine derartige Funktion ist bei zeitlichen Daten etwa eine lineare Trendgerade.

Die Methode dient zur Bestimmung einer Regressionsfunktion. Eine derartige Funktion gibt es bei zeitlichen Daten nicht.

Die Methode dient zur Bestimmung einer Regressionsfunktion. Hierzu werden Einfluss- und Zielgrößen benötigt. Bei zeitlichen Daten gibt es

aber keine Einflussgröße.

5. Der Umsatz- oder Wertindex setzt den Wert zweier unterschiedlicher Warenkörbe zu zwei unterschiedlichen Zeiten miteinander ins Verhältnis.

Richtig x Falsch Begründung:

Dieser Index nutzt zur Basiszeit den für diese Zeit aktuellen Warenkorb und zur Berichtszeit den zu dieser Zeit aktuellen Warenkorb.

x Dieser Index nutzt denselben Warenkorb zu zwei unterschiedlichen Zeiten.

Dieser Index nutzt zwei unterschiedliche Warenkörbe für dieselbe Zeit.

Aufgabe 2: (insgesamt 20 Punkte) Aufgabe 2 (a):(insgesamt 8 Punkte)

Gesucht:x und ˜s für beide Automobilhersteller.

x= 1 n

n

X

i=1

xi(0.5 Punkte) und ˜s=√

˜

s2 mit ˜s2 = 1 n

n

X

i=1

x2ix2(0.5 Punkte)

Für Automobilhersteller 1:

xA1 = 1

10·68.8(0.5 Punkte)= 6.88(0.5 Punkte)

˜

s2A1 = 1

10·499.2−6.882(0.5 Punkte)= 2.5856(0.5 Punkte)

˜

sA1 = √

2.5856 = 1.6080(0.5 Punkte) Für Automobilhersteller 2:

xA2 = 1

10·45.9 = 4.59(0.5 Punkte)

˜

s2A2 = 1

10·215.05−4.592 = 0.4369(0.5 Punkte)

˜

sA2 = √

0.4369 = 0.6610(0.5 Punkte)

PKWs vom Automobilhersteller 2 verbrauchen im Durchschnitt weniger (0.5 Punkte). Da hier auch die Streuung kleiner ist (0.5 Punkte), scheint sich der zweite Hersteller auf die Zielgruppe der „Sparwilligen“ zu spezialisieren (1 Punkt). Im Gegensatz dazu bedient das erste Unternehmen eine heterogene Zielgruppe(1 Punkt).

(3)

Aufgabe 2 (b): (insgesamt 8 Punkte)

Ein Boxplot ist die grafische Darstellung der Fünf-Punkte-Zusammenfassung. Daher bestim- me zunächst:

x(1), x0.25, xmed, x0.75, x(n)(1 Punkt).

Ordne hierfür zunächst die Datenreihe:

3.4 4.0 4.0 4.2 4.6 4.8 4.8 5.0 5.5 5.6 (1 Punkt)

x(1) = 3.4(0.5 Punkte) x0.25 = 4.0(0.5 Punkte)

n·p= 10·0.25 = 2.5 nicht ganzzahlig, verwende xp =x([n·p]+1)(0.5 Punkte) =x(3)(0.5 Punkte) xmed = 4.7(0.5 Punkte)

→dan gerade, verwende xmed = 1

2 ·x(n

2)+x(n

2+1)

(0.5 Punkte) = 1

2 ·x(5)+x(6) x0.75 = 5.0(0.5 Punkte)

→wegen Symmetrie, nehme dritte Beobachtung von oben(0.5 Punkte) xp =x(8)

x(n) = x(10)= 5.6(0.5 Punkte)

Zeichnung des Boxplots (1 Punkt). Die Boxplots bestätigen die Eindrücke aus Teilaufgabe (a) (0.5 Punkte).

Aufgabe 2 (c):(insgesamt 4 Punkte)

Der Boxplot für den ersten Hersteller deutet auf eine rechtsschiefe/linkssteile Verteilung hin (1 Punkt), der vom Hersteller 2 auf eine annährend symmetrische Verteilung (1 Punkt) (al- ternativ: linksschief/rechtssteil). Man erwartet also gm;A1 > 0 (1 Punkt) und gm;A2 ≈ 0 (1 Punkt) (alternativ: gm;A2 <0).

Aufgabe 3: (insgesamt 20 Punkte) Aufgabe 3 (a):(insgesamt 17 Punkte)

• gegeben: Absatzzahlen als unklassierte Häufigkeitsverteilung; gesucht: relative Konzen- tration→ normierter Gini-Koeffizient & Lorenzkurve (1 Punkt)

• Lösungstabelle für Lorenzkurve: (5 Punkte)

j aj h(aj) f(aj) uj aj ·h(aj) vej vj

1 3 3 3/10=0.3 0.3 9 9/54=1/6 0.1

2 4 1 0.1 0.4 4 2/27 13/54

3 5 2 0.2 0.6 10 5/27 23/54

4 7 1 0.1 0.7 7 7/54 5/9

5 8 3 0.3 1 24 4/9 1

P 10 1 54 1

(4)

• Grafik: (3 Punkte)

0.0 0.2 0.4 0.6 0.8 1.0

0.0 0.2 0.4 0.6 0.8 1.0

uj

vj

• Lösungstabelle für Gini-Koeffizient (Fortsetzung von oben): (2 Punkte) j uj ·vej uj−1·vej

1 1/20 0

2 4/135 1/45

3 1/9 2/27

4 49/540 7/90

5 4/9 14/45

P 98/135 131/270

G= Pk

j=1

uj ·vej + Pk

j=1

uj−1·vej−1 = 98/135 + 131/270−1 = 19/90≈0.2111 (1 Punkt)

• normierter Gini-Koeffizient: G = n−1n ·G= 109 ·19/90 = 19/81≈0.2346(2 Punkte)

• normierter Gini-Koeffizient & Lorenzkurve lassen auf eine eher geringe Konzentration am Automobilmarkt schließen; Ergebnis kontraintuitiv: Automobilmarkt ist bekannt für erhebliche Konsolidierungsbewegungen; Problem: nur die 10 größten Unternehmen wurden zur Berechnung herangezogen; um Konzentration sinnvoll einzuschätzen, müs- sen auch Kleinhersteller berücksichtigt werden(3 Punkte)

Aufgabe 3 (b): (insgesamt 3 Punkte)

Lorenzkurve bleibt bzgl. der Form unverändert (die Konzentration ändert sich nicht); Lo- renzkurve auf Basis der Urliste besteht allerdings aus mehr (11) Punkten, die äquidistant auf der Kurve verteilt liegen

(5)

Aufgabe 4: (insgesamt 20 Punkte) Aufgabe 4 (a):(insgesamt 3 Punkte)

• zu unterscheidene Koeffizienten: Korrelationskoeffizient nach Bravais-Pearson(0.5 Punkte), Rangkorrelationskoeffizient nach Spearman (0.5 Punkte)

• Wahl des Koeffizienten nach Bravais-Pearson(0.5 Punkte), da beide Merkmal metrisch skaliert sind (0.5 Punkte)

• bei Wahl des Koeffizienten nach Spearman würden Informationen (Abstand zwischen den Beobachtungswerten(0.5 Punkte)) verloren gehen (0.5 Punkte)

Aufgabe 4 (b): (insgesamt 11 Punkte)

Zur Korrelationsbestimmung nutze rXY (1 Punkt). Es ist

rXY =

Pn

i=1xi·yin·x·y

q(Pni=1x2in·x2q(Pni=1y2in·y2)

(1 Punkt)

Mit den angegebenen Hilfsgrößen ergibt sich

x= 1

n ·Xxt= 48.55/8 = 6.0688(1 Punkt), y = 2821/8 = 352.625(1 Punkt) Insgesamt also

rXY = 16793.53−8·6.0688·352.625

q(313.7637−8·6.06882q(1007285−8·352.6252)

(1 Punkt)

= −326.4137 4.3733·111.9369

= −0.6668(1 Punkt)

Zwischen der Anzahl der Gästeübernachtungen und der Anzahl der Arbeitslosen besteht ein deutlicher(1 Punkt), negativer(1 Punkt), linearer(1 Punkt) Zusammenhang, da gilt: 0.5 <

|-0.6668| < 0.8 (1 Punkt). D.h. wenn die Gästeübernachtungen hoch gehen, gehen zugleich die Arbeitslosenzahlen runter (1 Punkt).

Aufgabe 4 (c):(insgesamt 6 Punkte)

Der Grund für die hohe negative Korrelation sind hier wohl die durch die Jahreszeit bedingten Schwankungen (1 Punkt): Im Winter gibt es mehr Arbeitslose (saisonale Arbeitslosigkeit), dafür weniger Touristen und damit Übernachtungen. Im Sommer ist es genau umgekehrt(1 Punkt). Es gibt aber keinen direkten kausalen Zusammenhang von Gästeübernachtungen zu Arbeitslosenzahlen(1 Punkt), da nicht alle Arbeitslose, die aus der Statistik verschwunden sind, im Tourismusgewerbe tätig sind (sondern z.B. im Baugewerbe, in der Landwirtschaft oder in anderen Branchen, die von der Jahrezeit abhängig sind)(1 Punkt).

Hier ist somit der Effekt der Scheinkorrelation zu vermuten (2 Punkte).

(6)

Aufgabe 5 (a):(insgesamt 8 Punkte)

• gegeben: lineares Trendmodell: y(t) = α·t+β+, wobei y. . . Höchstgeschwindigkeit und t. . . Jahr; gesucht: α und β (1 Punkt)

• nutze KQ-Methode zur Bestimmung vonα und β: ˆα=

Pn

i=1ti·yi−n·t·y

Pn

i=1t2i−n·t2 und ˆβ =yαˆ·t (1 Punkt)

αˆ = 5 329 150−15·1 973.6667·179.2

58 441 805−15·1 973.66672 = 2.09886 → je Jahr steigt die Höchstgeschwindigkeit um 2.09886 Meilen pro Stunde (2 Punkte)

βˆ = 179.2 −2.09886 · 1 973.6667 = −3963.25 → ”Geschwindigkeit im Jahr 0” → inhaltlich nicht sinnvoll interpretierbar (2 Punkte)

• Grafik: (2 Punkte)

1900 1920 1940 1960 1980 2000

50100150200250

Jahr

vmax

Aufgabe 5 (b): (insgesamt 2 Punkte)

y(1886) = 2.09886 ·1886 −3 963.25 = −4.80004 (1 Punkt) → Prognose beruht auf An- nahme eines linearen Zusammenhangs zwischen Jahr und Höchstgeschwindigkeit; ”negative Geschwindigkeit” nicht sinnvoll; generelles Problem bei Prognose von Werten außerhalb des Bereichs, für den Daten vorliegen, da dort andere Zusammenhänge gelten können(1 Punkt)

Aufgabe 5 (c):(insgesamt 10 Punkte)

Umwandlung der Daten von Meilen pro Stunde in Kilometer pro Stunde stellt Transfor- mation der Daten dar: xi = a·yi, wobei y. . . Höchstgeschwindigkeit in Meilen pro Stunde, x. . . Höchstgeschwindigkeit in Kilometer pro Stunde und a= 1.6

(7)

αˆkmh =

Pn

i=1ti·xin·t·x

Pn

i=1t2in·t2

=

Pn

i=1ti·a·yin·t·a·y

Pn

i=1t2in·t2

= aPni=1ti ·yia·n·t·y

Pn

i=1t2in·t2

= a

Pn

i=1ti·yin·t·y

Pn

i=1t2in·t2

= a·αˆmph (5 Punkte)

βˆkmh = xαˆkmh·t

= a·ya·αˆmph·t

= a·(y−αˆmph·t)

= a·βˆmph (4 Punkte)

αˆ und ˆβ machen die Transformation der Daten mit (1 Punkt)

Referenzen

ÄHNLICHE DOKUMENTE

b) Es liegt eine Datenreihe vor, auf dessen Grundlage der Gini-Koeffizient berechnet wur- de. Werden alle Beobachtungswerte dieser Datenreihe verdoppelt und wird der Gini-

Um die Höhe der Streuung zu beurteilen, muss der normierte MAD berechnet wer- den... d) Bei Vorliegen einer symmetrischen Verteilung (d.h., Median und arithmetisches Mittel

Wird auf diesen Daten der Rangkorrelationskoeffizient mit Hilfe der allgemeinen Formel berech- net, ist das Ergebnis größer, als wenn die Formel „ohne Bindungen“ verwendet

Einer bestimmten Lorenzkurve kann immer ein eindeutiger Wert des Gini-Koeffizienten zugeordenet werden.. x Richtig

Ein Boxplot kann erst bei ordinalen Merkmalen eingesetzt werden und ist deswegen kein Instrument für die Beurteilung von Lage, Streuung und Schiefe bei metrischen

Der Rangkorrelationskoeffizient nach Spearman darf daher auch für niedriger skalierte Merkmale berechnet werden.. Das ordinale Skalenniveau ist die Minimalanforderung an

Das arithmetische Mittel darf nur f¨ur metrisch skalierte Merkmale berechnet werden, jedoch nicht f¨ur ordinal oder nominal skalierte Merkmale.. Das arithmetische Mittel darf nur

x Das arithmetische Mittel darf nur f¨ur metrisch skalierte Merkmale berechnet werden, jedoch nicht f¨ur ordinal oder nominal skalierte Merkmale2. Das arithmetische Mittel darf nur