• Keine Ergebnisse gefunden

L¨osung zur 2. Klausur zu Statistik I Prof. Dr. Claudia Becker Wintersemester 2007/08 19.03.2008

N/A
N/A
Protected

Academic year: 2022

Aktie "L¨osung zur 2. Klausur zu Statistik I Prof. Dr. Claudia Becker Wintersemester 2007/08 19.03.2008"

Copied!
9
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

L¨ osung zur 2. Klausur zu Statistik I

Prof. Dr. Claudia Becker Wintersemester 2007/08

19.03.2008

Aufgabe 1 (a)(insgesamt 16 Punkte: F¨ur jedes korrekt markierte Feld 1 Punkt.) 1. (insgesamt 8 Punkte)

richtig falsch

x Ein stetiges Merkmal kann diskret erhoben werden.

x Ein diskretes Merkmal kann sowohl stetig als auch diskret erhoben werden.

x Ein stetiges Merkmal muss stetig erhoben werden.

x Ein stetiges Merkmal besitzt endlich viele oder abz¨ahlbar viele Auspr¨agungen.

x Das Geschlecht ist ein qualitatives Merkmal.

x Das Geschlecht ist ein metrisch skaliertes, diskretes Merkmal.

x Das Geschlecht ist ein ordinal skaliertes Merkmal.

x Das Geschlecht ist ein nominal skaliertes Merkmal mit endlich vielen Auspr¨agungen.

2. (insgesamt 8 Punkte) richtig falsch

x Rund 50% der Personen haben eine Gr¨oße von 1.60 m bis unter 1.80 m.

x Es gibt keine Person, die 2 m oder gr¨oßer ist.

x Der Anteil an Personen unter 160 cm ist wesentlich gr¨oßer als der Anteil an Personen von 180 bis unter 200 cm.

x Alle Personen sind kleiner als 1.90 m.

x Es stehen Daten von weniger als 160 Personen zur Verf¨ugung x Die durchschnittliche K¨orpergr¨oße ist 180 m.

x Es gibt etwas mehr als doppelt so viele Personen von 1.60 m bis unter 1.80 m wie Personen unter 160 cm.

x Einige wenige Personen wurden 200-mal und mehr vermessen.

(2)

Aufgabe 2 (a): (insgesamt 7 Punkte) Gesucht:s.e

Es ist laut Verschiebungssatzse2 = 1n·Pni=1x2i −xe2 (0.5 Punkte), undse=√

se2 (0.5 Punkte).

Nach Aufgabentext ist x= 915, so dassx2 = 837 225 (1 Punkt).

Damit

se2 = 1

9·12 437 725−837 225 = 544 744.44 (1 Punkt), se=√

544 744.44 = 738.0681 (1 Punkt).

Betrachtet man das arithmetische Mittel und die Gr¨oßenordnung der Daten, so erscheint die Streuung relativ groß (1 Punkt). Der wesentliche Streubereich der Beobachtungen liegt zwischen 610 und 750, es gibt nur eine sehr schwere Zucchini von 3 000 Gramm (1 Punkt).

Dieser “Ausreißer” ist die Ursache f¨ur die große Streuung (1 Punkt).

Aufgabe 2 (b):(insgesamt 8 Punkte) Gesucht: MAD

Es ist M AD = med{|xi −xmed|, i = 1, . . . , n} (0.5 Punkte), außerdem ist f¨ur n ungerade xmed=x(n+1

2 ) (0.5 Punkte).

Hierxmed =x(10

2)=x(5) (0.5 Punkte).

Zur Berechnung: Beobachtungen ordnen(0.5 Punkte):

610 625 650 650 650 650 650 750 3 000 Damitxmed=x(5) = 650 (0.5 Punkte).

Berechnung von MAD: bestimme|xi−xmed|

x(i) 610 625 650 650 650 650 650 750 3 000

x(i)−xmed −40 −25 0 0 0 0 0 100 2 350 (1 Punkt)

|x(i)−xmed| 40 25 0 0 0 0 0 100 2 350 (0.5 Punkte)

|x(i) −xmed| ordnen (0.5 Punkte) und den Median als die f¨unfte Ordnungsstatistik dieser Werte bestimmen (0.5 Punkte):

0 0 0 0 0 25 40 100 2 350

Der Median dieser Werte und damit der MAD ist M AD = 0. (Punkte 0.5 f¨ur Ordnen und 0.5 f¨ur Bestimmung, siehe oben).

Laut Aussage dieses Streuungsmaßes streuen die Beobachtungen gar nicht (Streuung von Null)(1 Punkt). Ursache hierf¨ur ist, dass die mittleren 50% der geordneten Beobachtungen identisch sind (5-mal der Wert 650) (1 Punkt). Damit streuen die mittleren Beobachtungen tats¨achlich nicht (1 Punkt).

(3)

Laut Aufgabentext ist x0.25 = x(3). Damit ist x0.25 = 650 (0.5 Punkte). Außerdem ist x0.75 dann die dritte geordnete Statistik “von oben”, alsox0.75=x(7)(1 Punkt). Damitx0.75= 650 (0.5 Punkte).

Der gesuchte Interquartilsabstand ist dQ = x0.75−x0.25 (0.5 Punkte) = 650−650 = 0 (0.5 Punkte).

Auch dieses Streuungsmaß liefert die Aussage “keine Streuung”, da die mittleren 50% der geordneten Beobachtungen identisch sind (1 Punkt).

(4)

Aufgabe 3 (a): (insgesamt 9 Punkte)

Gesucht: Maß f¨ur die absolute Konzentration (nicht normiert)

W¨ahle daher den Index von Hirschmann / Herfindahl, H = Pni=1ve2i mit veq = Pnxq

i=1xi (0.5 Punkte).

Dazu ben¨otigt pro Staat: Pni=1xi. Es ist f¨ur Staat 1: Pni=1xi = 9 (0.5 Punkte) f¨ur Staat 2: Pni=1xi = 9 (0.5 Punkte) f¨ur Staat 3: Pni=1xi = 4.5 (0.5 Punkte) Damit ergibt sich

f¨ur Staat 1: H = 811 +1681 +0.2581 + 0.2581 + 814 + 811 (1 Punkt)= 22.581 = 0.2778 (1 Punkt) f¨ur Staat 2: H = 2581 +811 +819 = 3581 = 0.4321 (1 Punkt)

f¨ur Staat 3: H = 20.250.25 +20.254 + 0.062520.25 +0.062520.25 + 20.251 + 20.250.25 = 5.62520.25 = 0.2778 (1 Punkt) Zusammenh¨ange:

Staaten 1 und 3 haben dieselbe Anzahl von Regionen(0.5 Punkte), Staat 1 hat pro Region jeweils eine genau doppelt so hohe Verschuldung wie Staat 3(0.5 Punkte), daher hat H f¨ur beide Staaten denselben Wert (0.5 Punkte).

Zwischen den Staaten 1 und 2 ist kein Zusammenhang der Werte von H erkennbar. Zwar hat Staat 2 die halbe Anzahl an Regionen wie Staat 1 und die gleiche Verschuldungssumme, aber die Verschuldungswerte der Regionen von Staat 2 finden sich nicht jeweils zur H¨alfte bei den Regionen von Staat 1 (1.5 Punkte).

Eine entsprechende Argumentation gilt f¨ur Staaten 2 und 3.

Aufgabe 3 (b):(insgesamt 2 Punkte)

Da H ein Maß f¨ur die absolute Konzentration ist (0.5 Punkte), ¨andert sich der Wert vonH in diesem Fall nicht(0.5 Punkte).

Rechnerisch ergibt sich f¨ur Staat 2:H = 2581+ 811 +819 = 3581 +810 = 0.4321 (1 Punkt)

Aufgabe 3 (c): (insgesamt 4 Punkte)

Zur Bestimmung der relativen Konzentration ist der normierte Gini-KoeffizientG geeignet (1 Punkt), da er die relative Konzentration misst und ein auf den Bereich von 0 bis 1 nor- miertes Maß ist, das gut interpretierbar ist (1 Punkt).

Zu erwarten ist ein mittelhoher Wert von G, da einerseits etwas mehr als 50% der Ver- schuldung von einer Region beigesteuert wird, andererseits die restliche Verschuldung auf die beiden anderen Regionen nicht zu ungleich verteilt ist (2 Punkte)

(5)

Es gibt 19(0.5 Punkte) Kandidaten mit einem Gewinn aus der h¨ochsten Kategorie. Von die- sen haben 10 die Risikovariante gespielt, das entspricht einem Anteil von 10/19 = 0.5263 (1 Punkt). 52.63% der Kandidaten mit dem h¨ochsten Gewinn haben die Risikovariante gespielt (0.5 Punkte).

Aufgabe 4 (b):(insgesamt 5 Punkte)

Ben¨otigte Randsummen f¨ur die bedingten Verteilungen:

Gewinn (in Euro)

0 bis 500 uber 500 bis 16 000¨ uber 16 000 bis 1 000 000¨

herk¨ommlich 3 18 9 30

Variante

Risiko 10 80 10 100

130 (je 0.5 Punkte f¨ur korrekten Wert = 1 Punkt)

Bedingte Verteilungen des Merkmals “Gewinn”, gegeben das Merkmal “Variante”:

Gewinn (in Euro)

0 bis 500 ¨uber 500 bis 16 000 ¨uber 16 000 bis 1 000 000 herk¨ommlich 3/30 = 0.1 18/30 = 0.6 9/30 = 0.3

Variante

Risiko 10/100 = 0.1 80/100 = 0.8 10/100 = 0.1

(pro richtig angegebener relativer H¨aufigkeit 0.5 Punkte = 3 Punkte) muss nicht in Tabellenform angegeben sein

Vergleicht man die beiden bedingten Verteilungen, so stellt man fest, dass es unter den Spie- lern der Risikovariante 10% mit einem hohen Gewinn gibt, unter den Spielern der herk¨omm- lichen Variante dagegen 30%. Es kann daher bezweifelt werden, ob sich die Risikovariante lohnt(1 Punkt).

Aufgabe 4 (c): (insgesamt 3 Punkte)

Die unter Unabh¨angigkeit erwartete Tafel ergibt sich durch die Zelleneintr¨age eij = hi•n·h•j (0.5 Punkte).

Pr¨ufen de linken oberen Zelle(0.5 Punkte, wenn eine geeignete Zelle ¨uberpr¨uft wurde) f¨uhrt zu

(6)

Aufgabe 4 (d):(insgesamt 4 Punkte)

Zur Einsch¨atzung des Zusammenhangs zwischen den beiden Merkmalen wird der korrigierte Kontingenzkoeffizient K berechnet, da der Kontingenzkoeffizient K selbst nicht interpre- tierbar ist (1 Punkt):

K = K

qM1 M

(0.5 Punkte)

mit M = min{k, m}(0.5 Punkte), hier M = 2 (0.5 Punkte) Damit :

K = 0.2341

q1 2

= 0.3311 (0.5 Punkte)

Es besteht ein schwacher Zusammenhang zwischen den beiden Merkmalen (0.2≤K <0.5) (1 Punkt)).

Aufgabe 4 (e):(insgesamt 5 Punkte)

Der Rangkorrelationskoeffizient nach Spearman setzt ordinales Skalenniveau der Merkmale voraus(1 Punkt). Das Merkmal “Gewinn” ist hier zwar ordinal(1 Punkt), aber die “Variante”

ist nur nominal skaliert(1 Punkt). Daher istrSp hier nicht sinnvoll berechenbar, man w¨urde ihn also gar nicht berechnen(2 Punkte).

(7)

Gesucht:rXY. Es ist rXY =

Pn

i=1xi·yi−n·x·y

qPn

i=1x2i −n·x2·qPni=1yi2−n·y2 (1 Punkt)

Mit den angegebenen Hilfsgr¨oßen istx= 27(0.5 Punkte),y= 11(0.5 Punkte)und insgesamt rXY = 2 224−8·27·11

√9 324−8·729·√

1 020−8·121 (1 Punkt f¨ur Ansatz)= −152

√3 492·√

52 =−0.3567 (1 Punkt) Es liegt zwischen den beiden Merkmalen ein schwacher, negativer, linearer Zusammenhang

vor(je 0.5 = 1.5 Punkte): mit steigendem Alter nimmt die Ged¨achtnisleistung leicht ab(1.5 Punkte).

Aufgabe 5 (b):(insgesamt 3 Punkte)

Ordnen der Resultate nach dem Alter der Testpersonen:

Alter in Jahren (X) 5 6 7 8 40 45 50 55

Anzahl richtig wiedergegebener Gegenst¨ande (Y) 10 11 12 13 15 12 9 6 (0.5 Punkte f¨ur Ordnen in X, 0.5 f¨ur richtiges Mitf¨uhren der Y-Werte = 1 Punkt)

Bei jungen Teilnehmern (Kindern) steigt die Ged¨achtnisleistung mit dem Alter (1 Punkt), bei den Erwachsenen sinkt sie mit wachsendem Alter(1 Punkt).

Aufgabe 5 (c): (insgesamt 5 Punkte)

Aufgrund der beiden unterschiedlichen Arten von Zusammenh¨angen (siehe (b)) gibt rXY

aus (a) den Zusammenhang offenbar nicht angemessen wieder (1 Punkt). Es handelt sich hier um zwei verschiedene Personengruppen (1 Punkt) mit unterschiedlich gerichteten Zu- sammenh¨angen der beiden Merkmale (1 Punkt). Der hier auftretende Effekt einer schwach ausgepr¨agten Korrelation bei Nichtbeachtung der zwei Gruppen ist die verdeckte Korrelation (2 Punkte).

(8)

Aufgabe 6 (a): (insgesamt 3 Punkte)

Bei der einfachen linearen Regressionsgerade beschreibt ba als Steigung der Geraden die Anderung des Werts der abh¨angigen Variable¨ Y, wenn die Einflussgr¨oße X um eine Ein- heit ge¨andert wird (1 Punkt).

Bei den hier vorliegenden Beobachtungen sinken die Werte von Y mit steigenden Werten von X (1 Punkt), daher muss das Vorzeichen von ab negativ sein (1 Punkt).

Aufgabe 6 (b):(insgesamt 3 Punkte) Es ist

bb =y−ba·x (0.5 Punkte),

so dass sich mitx= n1·Pni=1xi (0.5 Punkte)= 47.5(0.5 Punkte),y = 10.3(0.5 Punkte)und den ¨Uberlegungen aus (a) ergibt:

bb = 10.3 + 0.3212·47.5 = 25.557 (1 Punkt).

Aufgabe 6 (c): (insgesamt 8 Punkte)

Zur Bewertung der G¨ute der Regressionsgerade: berechne das Bestimmtheitsmaß R2 (0.5 Punkte) mit

R2 =

Pn

i=1(ybi−y)2

Pn

i=1(yi−y)2 (0.5 Punkte)

Berechnungsm¨oglichkeit 1: ¨uber den Korrelationskoeffizienten; es ist R2 =r2XY (1 Punkt) rXY =

Pn

i=1xi·yi−n·x·y

qPn

i=1x2i −n·x2·qPni=1y2i −n·y2 (1 Punkt)

= 4 230−10·47.5·10.3

√24 625−10·47.52·√

1 289−10·10.32 (1 Punkt)

= −662.5

√2 062.5·√ 228.1

= −0.9659 (1 Punkt) DamitR2 =−0.96592 = 0.9329 (1 Punkt).

Berechnungsm¨oglichkeit 2: direkt nach der Formel, unter Ausnutzung des Verschiebungssat- zes (s. Hinweis); es ist

im Z¨ahler

Xn i=1

(ybi−y)2 =

Xn i=1

ybi2−n·y2 (1 Punkt)

= 1 273.687−10·106.09 = 212.787 (1 Punkt) im Nenner

Xn

i=1

(yi −y)2 =

Xn

i=1

yi2−n·y2 (1 Punkt)

= 1 289−10·106.09 = 228.1 (1 Punkt)

(9)

Es gibt auch noch die M¨oglichkeit, die Differenzen im Z¨ahler personenweise auszurechnen, zu quadrieren und aufzuaddieren; die (ybi−y)2 sind

52.2295 31.5956 16.1202 5.8033 0.6448 0.6448 5.8033 16.1202 31.5956 52.2295 Im Nenner sollte man die Anwendbarkeit des Verschiebungssatzes erkennen k¨onnen.

Auch f¨ur diesen Rechenweg - wenn erfolgreich - insgesamt 5 Punkte geben (Z¨ahler 2, Nenner 2, Ergebnis 1)

F¨ur beide Berechnungsm¨oglichkeiten:

DaR2 ein auf [0,1] normiertes Maß ist und die G¨ute der Regressionsgerade um so besser, je n¨aher der Wert vonR2 an 1 liegt (1 Punkt), kann man hier von einer sehr guten Anpassung sprechen (1 Punkt).

Aufgabe 6 (d):(insgesamt 2 Punkte) Prognose f¨ur x= 100:

yb=ba·x+bb (0.5 Punkte)=−0.3212·100 + 25.557 =−6.563 (0.5 Punkte)

Eine negative Anzahl von richtig wiedergegebenen Gegenst¨anden macht inhaltlich keinen Sinn (0.5 Punkte). Die Aussagekraft dieser Vorhersage ist schlecht, da f¨ur einen X-Wert vorhergesagt wird, der relativ weit von dem Bereich entfernt liegt, in dem Werte f¨ur X be- obachtet wurden(0.5 Punkte).

Referenzen

ÄHNLICHE DOKUMENTE

Da die zur Konstruktion eines Histogramms verwendeten Klassen nicht aneinanderstoßen, stoßen auch die Rechtecke nicht aneinander.. Das Kreisdiagramm wird nach dem Prinzip

Das arithmetische Mittel darf nur f¨ur metrisch skalierte Merkmale berechnet werden, jedoch nicht f¨ur ordinal oder nominal skalierte Merkmale.. Das arithmetische Mittel darf nur

x Das arithmetische Mittel darf nur f¨ur metrisch skalierte Merkmale berechnet werden, jedoch nicht f¨ur ordinal oder nominal skalierte Merkmale2. Das arithmetische Mittel darf nur

(b) Wie ¨andert sich der Wert der absoluten Konzentration f¨ur Staat 2, wenn eine neue Verwaltungsregion eingerichtet wird, die nicht verschuldet ist.. Zeigen Sie das Ergebnis

F¨ur die Dauer der Arbeitssuche betrach- ten Sie die beiden folgenden Varianten der Rangvergabe: Version 1 vergibt den ersten Rang f¨ur die k¨urzeste Dauer, Version 2 dagegen

sind insgesamt eher gleichm¨aßiger auf die Versichertenklassen verteilt, nicht besonders stark auf eine Klasse konzentriert (0.5 Punkte).. Alternativ: G ∗

Wenn schon kein besonders starker monotoner Zu- sammenhang vorliegt, kann man auch keinen starken linearen Zusammenhang erwarten (2 Punkte)... Er sagt hier aus, ob die er-

Eine metrische Skalierung kann in keine andere Skalierung umgewandelt werden.. Die Ordnung der Skalen von niedrig nach hoch ist nominal → metrisch