L¨ osung zur Klausur zu Statistik I
Prof. Dr. Claudia Becker Wintersemester 2017/2018
27.03.2018
Aufgabe 1: (insgesamt 20 Punkte)
Richtige Entscheidung bzgl. Zutreffen(jeweils 1 Punkt), richtige Begr¨undung(jeweils 3 Punkte). a) Die drei Grundaufgaben der Statistik sind das Beschreiben des Datenmaterials, das Suchen nach Strukturen und die Gewinnung neuer Forschungshypothesen sowie das Schließen von Experiment bzw. Stichprobe auf die Grundgesamtheit.
X Richtig Falsch
Die Statistik dient einzig der Beschreibung, Komprimierung und Visualisierung von Daten.
X Die drei Grundaufgaben sind die deskriptive, explorative und induktive Analyse von Daten.
Die einzige Aufgabe der Statistik ist es, allgemeine Schlussfolgerungen ¨uber die Grundgesamt- heit zu ziehen.
b) Das arithmetische Mittel und der Median sind Lagemaße, die das Zentrum einer Verteilung beschreiben.
X Richtig Falsch
Lagemaße beschreiben immer das Zentrum einer Verteilung.
Der Median ist das einzige Lagemaß, das das Zentrum einer Verteilung beschreibt. Er wird aus diesem Grund auch als Zentralwert bezeichnet.
X Ob ein Lagemaß das Zentrum einer Verteilung beschreibt, ist von den Eigenschaften dieser abh¨angig. Das arithmetische Mittel und der Median besitzen diese Eigenschaften.
c) Untersuchungseinheiten werden auch als Merkmalstr¨ager bezeichnet.
X Richtig Falsch
X Merkmalstr¨ager beschreiben ein Einzelobjekt einer statistischen Untersuchung.
Merkmalstr¨ager werden hinsichtlich des Merkmals beschrieben das erhoben wurde und d¨urfen deshalb nicht mit dem Begriff Untersuchungseinheit vermischt werden.
Merkmalstr¨ager werden nur durch Merkmal und Merkmalsauspr¨agung definiert.
d) Sei y=a·x+b+ein einfaches lineares Modell. Dann hat das Sch¨atzen der Regressionskoeffi- zienten mithilfe der Kleinsten Quadrate Methode zum Ziel,Pni=1(yi−yˆi)2 zu minimieren.
X Richtig Falsch
X Die Kleinste Quadrate Methode bestimmt die Regressionskoeffizienten so, dass Pn
i=1(yi−(ˆa·xi+ ˆb))2 minimiert wird.
Die Kleinste Quadrate Methode bestimmt die Regressionskoeffizienten so, dass Pni=1(yi−y)¯2 minimiert wird.
Die Kleinste Quadrate Methode bestimmt die Regressionskoeffizienten so, dass Pni=1( ˆyi−y)¯2 minimiert wird.
e) Die Kovarianz der Merkmale X und Y kann nicht interpretiert werden und dient lediglich der Berechnung des Korrelationskoeffizienten nach Bravais-Pearson.
Richtig X Falsch
X Die Kovarianz kann hinsichtlich der Richtung des Zusammenhangs interpretiert werden.
Im Gegensatz zur Varianz werden die Gr¨oßeneinheiten der Merkmale bei der Berechnung der Kovarianz nicht quadriert, sodass die Kovarianz eine genaue Auskunft ¨uber St¨arke und Richtung des Zusammenhangs gibt.
Die Kovarianz kann nicht interpretiert werden, da sie die Summe des Produktes der Abwei- chungen zweier Merkmale X und Y von ihrem Mittelwert ist.
Aufgabe 2(Insgesamt 20 Punkte) Aufgabe 2 (a):(11.5 Punkte)
j xuj xoj nj fj dj =xoj −xuj fjr= fdjj
1 65 b. unter 68 2 0.1 3 0.0333
2 68 b. unter 71 5 0.25 3 0.0833
3 71 b. unter 74 3 0.15 3 0.0500
4 74 b. unter 77 3 0.15 3 0.0500
5 77 b. unter 80 5 0.25 3 0.0833
6 80 b. unter 83 1 0.05 3 0.0167
7 83 b. unter 86 1 0.05 3 0.0167
20 1
• Berechnung der sieben S¨aulenh¨ohen fjr je 1 Punkt = 7 Punkte korrekte Achsenbeschriftungen je 0.5 Punkte = 1 Punkt
Zeichnen des Histogramm je 0.5 Punkte pro richtiger Fl¨ache = 3.5 Punkte
Histogram of gew
gew
Density
65 70 75 80 85
0.000.020.040.060.08
Aufgabe 2 (b): (2.5 Punkte)
Das Merkmal K¨orpergewicht in kg von Studierenden ist metrisch und stetig erhoben. F¨ur metrische Merkmale eignet sich die grafische Darstellung mittels Histogramm, denn quanti- tative Merkmale haben typischerweise sehr viele Merkmalsauspr¨agungen, die oft nur einmal vorkommen. Das Prinzip der Fl¨achentreue ist insbesondere bei verschiedener Klassenbreite von Bedeutung.
Aufgabe 2 (c):(6 Punkte)
• Beschreiben, Aufbereiten & Komprimieren von Datenmaterial: deskriptive Statistik Beispielfrage: Wie groß ist der Mittelwert (o.a. statistisches Maß) f¨ur eine beliebige Da- tenreihe? oder allgemein- Wie k¨onnen Sie eine Verteilung eines Merkmals beschreiben?
• Suchen nach Strukturen, Gewinnung neuer Forschungshypothesen: explorative Statistik Beispielfrage: Entdecken Sie Zusammenh¨ange in den Daten? Was ist an einer Verteilung eines Merkmals bemerkenswert?
• Schließen von Stichprobe auf die Grundgesamtheit: induktive Statistik Beispielfrage: Unterscheiden sich zwei Variablen signifikant voneinander?
Aufgabe 3: Zusammenhangsanalyse (insgesamt 20 Punkte) Aufgabe 3 (a):(insgesamt 8 Punkte)
• Kontingenztafel, korrekte Ausf¨uhrung und Beschriftung der Tafel (2 Punkte)
• Formel: eij = hi.n·h.j (1 Punkt) Y
schwarz weiß rosa gold P
weiblich 97 200 102 000 2 400 2 400 204 000 X
m¨annlich 307 800 323 000 7 600 7 600 646 000
P 405 000 425 000 10 000 10 000 850 000
• F¨ur alle korrekten Erg¨anzungen in der Tabelle (insgesamt 5 Punkte). Das entspricht 12 Punkte f¨ur jeden korrekten Zahlenwert.
Aufgabe 3 (b): (insgesamt 12 Punkte)
• gesucht: korrigierter Kontingenzkoeffizient (1 Punkt)
• n = 850000 (0.5 Punkte), k = 2 (0.5 Punkte),m= 4 (0.5 Punkte), M =min{k, m} = 2 (0.5 Punkte)
• Formel: K =
s χ2
n+χ2 (1 Punkt)
• Ergebnis: K = 0.1692 (1 Punkt)
• Formel:
sM −1
M (1 Punkt)
• Ergebnis:
sM −1
M =
s2−1
2 = 0.71(1 Punkt)
• Formel:K∗ =
q χ2 n+χ2
qM−1 M
= K
qM−1 M
(1 Punkt)
• Ergebnis: K∗ = 0.2383 (1 Punkt)
• Angabe Wertebereich von K∗ (1 Punkt)
• Interpretation: Es besteht ein schwacher Zusammenhang (1 Punkt)zwischen der gekauf- ten Farbe des aPads und dem Geschlecht des K¨aufers (1 Punkt).
Aufgabe 4: Konzentrationsmaße (insgesamt 20 Punkte) Aufgabe 4 (a):(insgesamt 15 Punkte)
• Formel: uq =Pqi=1fi = q
n (1 Punkt)
• Formel: vq =Pqi=1v˜i (1 Punkt)
• Formel: ˜vq = x(q)
Pn
i=1xi (1 Punkt)
Tabelle 3: Arbeitstabelle(4 Punkte, je Spalte 0.5 Punkte)
aPad aPad II
q fq uq x(q) v˜q vq x(q) v˜q vq
1 0.2500 0.2500 10 000 0.0118 0.0118 2 000 0.0024 0.0024
2 0.2500 0.5000 10 000 0.0118 0.0236 7 000 0.0082 0.0106
3 0.2500 0.7500 405 000 0.4764 0.5000 185 500 0.2182 0.2288
4 0.2500 1.0000 425 000 0.5000 1.0000 655 500 0.7712 1.0000
P 850 000 850 000
0.0 0.2 0.4 0.6 0.8 1.0
0.00.20.40.60.81.0
Lorenzkurve
uq vq
apad apad II
• Graphik (4 Punkte)
• Interpretation und Einsch¨atzung: Limitierte Auflagen spiegeln nicht die wahre Nachfrage wider, daher sollten ”Gold“ und ”Rosa“ nicht in die Interpretation einbezogen werden.
Deutliche Verschiebung der Absatzmenge zugunsten von ”Weiß“. Es liegt f¨ur das aPad II eine deutliche Konzentration auf der Farbe ”Weiß“ vor. (4 Punkte)
Aufgabe 4 (b): (insgesamt 5 Punkte)
• Formel: G=Pni=1ui·v˜i+Pni=1ui−1·v˜i−1(1 Punkt)
aPad:G= (0.25·0.0118 + 0.5·0.0118 + 0.75·0.4764 + 1·0.5) + (0·0.0118 + 0.25·0.0118 + 0.5·0.4764 + 0.75·0.5)−1 = 0.4823 (1 Punkt)
aPad II: G= (0.25·0.0024 + 0.5·0.0082 + 0.75·0.2182 + 1·0.7712) + (0·0.0024 + 0.25· 0.0082 + 0.5·0.2182 + 0.75·0.7712)−1 = 0.6291 (1 Punkt)
• alternativFormel: G= 2·Pni=1i·x(i)
n·Pni=1xi −n+1n (1 Punkt) aPad: G= 2·(1·10000 + 2·10000 + 3·405000 + 4·425000)
4·850000 − 5
4 = 0.4824 (1 Punkt) aPad II: G= 2·(1·2000 + 2·7000 + 3·185000 + 4·655500)
4·850000 −5
4 = 0.6282 (1 Punkt)
• Die beiden Gini-Koeffizienten besitzen aufgrund der gleichen Fallzahl denselben Wertebe- reich. Daher w¨are ein Vergleich denkbar, da der Gini-Koeffizient jedoch zum Teil extreme Werte annehmen kann, ist es besser, die normierten Gini-Koeffizienten f¨ur einen Vergleich bzw. eine Interpretation heranzuziehen.(2 Punkte)
Aufgabe 5: Analyse zeitlicher Verl¨aufe (20 Punkte) Aufgabe 5(a) (insgesamt 10 Punkte)
• geg: lineares Modell: ln(U msatz) =a·J ahr+b+ε ges: a, b(1 Punkt)
• Nutze KQ-Methode: ˆa = Pn=14i=1 ln(U msatzi)·J ahri−n·ln(U msatz)·J ahr
Pn=14
i=1 J ahr2i−n·J ahr2 , ˆb=ln(U msatz)−ˆa·J ahr (1 Punkt)
• ˆa= (220 390.5−14·2010.5·7.8281)
(56 589 771−14·2010.52) = 0.2320 (≈0.2328) (2 Punkte)
• ˆb= 7.8281−0.2320·2010.5 = −458.5 (≈ −460.2163)(2 Punkte)
• ja der Experte hat recht, da der Anstieg des Umsatzes in Mio. US-Dollar exponentiell und nicht linear scheint(2 Punkte)
• Die unabh¨angige Variable (das Jahr) erkl¨art 99.52% der Variation der abh¨angigen Variable (des logarithmierten Umsatzes). Damit besitzt das Modell eine hohe G¨ute.(2 Punkte) Aufgabe 5(b)(insgesamt 10 Punkte)
• ges.: Umsatz in Mio. US-Dollar im Jahr 2002 (1 Punkt)
• ln(U msatz) = 0.2320·2002−458.5 = 5.8564 (≈5.8493)(2 Punkte)
• U msatz =e5.8564 = 349.4564 Mio. US-Dollar (≈346.9914) →Der gesch¨atzte Umsatz f¨ur das Jahr 2002 betr¨agt 349.4564 Mio. US-Dollar (≈346.9914) (2 Punkte)
• Der gesch¨atzte Wert (349.4564 Mio. US-Dollar) ist im Vergleich gr¨oßer als der tats¨achliche Wert (150.8 Mio. US-Dollar) (1 Punkt)
• Da der Experte die funktionale Form des Modells als exponentiell festgelegt hat, kon- vergiert die Funktion asymptotisch gegen 0 f¨ur alle (a·x+b) → −∞. Damit f¨allt die Funktion in den tats¨achlichen absoluten Einheiten um so geringer, je kleinera·x+b wird.
(2 Punkte)
• Generelles Problem: Sch¨atzen von Werten außerhalb des Wertebereichs, da dort andere Zusammenh¨ange gelten k¨onnen. (2 Punkte)