• Keine Ergebnisse gefunden

Klausur zu Statistik I Prof. Dr. Claudia Becker Wintersemester 2007/08 12.02.2008

N/A
N/A
Protected

Academic year: 2022

Aktie "Klausur zu Statistik I Prof. Dr. Claudia Becker Wintersemester 2007/08 12.02.2008"

Copied!
8
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Klausur zu Statistik I Prof. Dr. Claudia Becker

Wintersemester 2007/08 12.02.2008

Name: ...

Matrikelnummer: ...

Bearbeitungszeit: 2 Stunden

Erlaubte Hilfsmittel:

• Taschenrechner (keine alphanumerische Tastatur)

• standardisierte Formelsammlung Statistik vom WS 07/08 in gehefteter Form (unver¨andert, keine Hervorhebungen, keine Zus¨atze, keine losen Bl¨atter)

Nicht zugelassen sind:

• eigenes Papier

• Skript, ¨ Ubungsaufgaben, alte Klausuren, andere Formelsammlungen, eigene Aufzeichnungen

• Lehrb¨ucher, Verteilungstabellen

Es sind insgesamt 100 Punkte zu erreichen.

Uberpr¨ufen Sie, ob Ihre Klausur alle sechs Aufgaben enth¨alt. ¨

Geben Sie die Aufgaben bitte zusammen mit Ihrer L¨ osung ab!

Aufgabe 1 2 3 4 5 6

P

erreichbare

Punkte 16 18 17 15 18 16 100

erreichte

Punkte

(2)

Aufgabe 1 (16 Punkte)

(a) Markieren Sie bei den folgenden Fragen jeweils, ob die vorgesehenen Antworten richtig oder falsch sind. Nutzen Sie die vorgesehenen Felder f¨ur Ihre Markierung.

Es k¨onnen jeweils eine oder mehrere Antworten korrekt sein, mindestens eine Antwort ist auf jeden Fall richtig. Eine Antwort wird nur bewertet, wenn f¨ur sie genau ein Feld markiert ist (entweder “richtig” oder “falsch”). F¨ur jedes korrekt markierte Feld gibt es 1 Punkt.

1. (5 Punkte) Gegeben ist der folgende Datensatz: 1, 5, 5, 1, 3.

Welche Werte sind korrekt berechnet, welche nicht?

richtig falsch

Spannweite R= 3 xmed= 3

x= 3 xmod = 3 M AD= 3

2. (8 Punkte) Betrachten Sie die folgende H¨aufigkeitsverteilung:

K¨orpergr¨oße (in cm) <160 [160,180) [180,200) ≥200

Anzahl Personen 220 553 309 5

Welche Aussagen sind richtig, welche falsch?

richtig falsch

Die H¨aufigkeitsverteilung ist in Form der Urliste angegeben.

Es handelt sich um eine unklassierte H¨aufigkeitsverteilung.

Es handelt sich um eine klassierte H¨aufigkeitsverteilung.

Das Merkmal ist stetig.

Das Merkmal ist diskret.

Die graphische Darstellung der H¨aufigkeitsverteilung kann durch ein Histogramm erfolgen.

Die graphische Darstellung der H¨aufigkeitsverteilung kann durch eine Lorenzkurve erfolgen.

Die H¨aufigkeitsverteilung kann nicht graphisch dargestellt werden, da sie nicht in relativen H¨aufigkeiten vorliegt.

(3)

(b) Betrachten Sie die folgenden Abbildungen. Welche Abbildung zeigt die H¨aufigkeitsver- teilung aus Punkt 2 von Aufgabe 1 (a)? Begr¨unden Sie Ihre Ansicht. (3 Punkte)

Abbildung 1 Abbildung 2

weniger als 160 160 bis unter 180

180 bis unter 200

200 und mehr

weniger als 160 160 bis unter 180

180 bis unter 200

200 und mehr

Abbildung 3

weniger als 160

160 bis unter 180

180 bis unter 200 200 und mehr

(4)

Aufgabe 2 (18 Punkte)

Steigende Roh¨olpreise haben dazu gef¨uhrt, dass der Benzinpreis an den Tankstellen Rekord- niveau erreicht. Um sich einen ¨Uberblick dar¨uber zu verschaffen, wo man am g¨unstigsten tanken kann, hat ein Autofahrer aus Halle Benzinpreise von jeweils 5 Tankstellen in Halle und in der Umgebung von Halle in der zweiten Kalenderwoche 2008 erhoben.

In der folgenden Tabelle sind die ermittelten Preise f¨ur den Liter Superbenzin f¨ur die be- trachteten Tankstellen ausgewiesen.

Halle

Tankstelle 1 2 3 4 5

Preis (Euro / Liter) 1.419 1.429 1.539 1.459 1.509 Umgebung von Halle

Tankstelle 1 2 3 4 5

Preis (Euro / Liter) 1.519 1.469 1.439 1.459 1.449

(a) Wo ist das Benzin im Schnitt teurer, in Halle oder in der Umgebung von Halle?

(5 Punkte)

(b) Bestimmen Sie f¨ur die Daten aus Halle und aus der Umgebung von Halle jeweils ge- trennt das 25%- und das 75%-Quantil und den Median. (8 Punkte)

(c) Vergleichen Sie die Preisverteilung in Halle mit der Preisverteilung in der Umgebung von Halle anhand der zugeh¨origen Boxplots. Nutzen Sie dazu das unten vorgegebene Koordinatensystem. Sollten Sie Teil (b) nicht gel¨ost haben, benutzen Sie bitte die folgenden Werte (Achtung: dies sind nicht die Ergebnisse f¨ur (b)!): x0.25,Halle = 1.419, xmed,Halle = 1.449, x0.75,Halle = 1.499, x0.25,U mgebung = 1.439, xmed,U mgebung = 1.449, x0.75,U mgebung = 1.459. (5 Punkte)

Hinweis:

Geben Sie in (a) und (b) jeweils zun¨achst die allgemeinen Formeln an.

Runden Sie ggf. Ihre Ergebnisse auf drei Stellen nach dem Komma.

HalleUmgebung

1.409 1.429 1.449 1.469 1.489 1.509 1.529

(5)

Die Kostenentwicklung im Gesundheitswesen sorgt immer wieder f¨ur Schlagzeilen. In der aktuellen Diskussion um den Kostenausgleich im Gesundheitsfonds wollen sich die Kranken- kassen einen ¨Uberblick ¨uber die Ausgabenverteilung bei der Behandlung von Krankheiten verschaffen. Dazu teilen sie die gesetzlich Versicherten nach der H¨ohe der pro Kopf verursach- ten Behandlungskosten in vier Klassen ein. F¨ur jede Klasse wird die Anzahl der Versicherten erfasst. Die Ergebnisse sind in der folgenden Tabelle zusammengestellt.

Kosten pro Kopf Anzahl Versicherte (in Euro) (in Mio.)

[0,1 000) 7.5

[1 000,1 750) 20.5

[1 750,2 500) 7.0

[2 500,3 000) 15.0

(a) Beurteilen Sie die Konzentration der Behandlungskosten auf die Klassen anhand der Lorenzkurve. Nutzen Sie f¨ur die Zeichnung das unten vorgegebene Koordinatensystem.

(8 Punkte)

(b) Bestimmen Sie außerdem den Wert des Gini-KoeffizientenG. Sind die Behandlungsko- sten eher gleichm¨aßig auf die vier Klassen verteilt, oder konzentrieren sich die Kosten auf wenige Klassen? (5 Punkte)

(c) Ein Krankenkassensprecher sagt, dass auf Basis dieser Ergebnisse feststehe, dass im Hochkostenbereich gut 48% der Kosten von nur 15% der Versicherten verursacht wer- den. Stimmen Sie dieser Aussage zu? Begr¨unden Sie Ihr Urteil. (4 Punkte)

Hinweis:

Geben Sie in (b) zun¨achst die allgemeine Formel an.

Runden Sie ggf. Ihre Ergebnisse auf 4 Nachkommstellen.

Abbildung: Lorenzkurve der Behandlungskosten

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

0.00.10.20.30.40.50.60.70.80.91.0

(6)

Aufgabe 4 (15 Punkte)

Ein heißes Thema im Wahlkampf in Hessen ist die steigende Jugendkriminalit¨at. Dabei steht besonders die Diskussion im Vordergrund, ob nichtdeutsche Jugendliche einen besonders ho- hen Anteil an den jugendlichen Straft¨atern ausmachen. Um die Diskussion auf eine sachliche Ebene zu bringen, kann man sich die polizeiliche Kriminalstatistik ansehen. F¨ur das Bun- desland Hessen sind dazu in der folgenden Tabelle die absoluten Zahlen an jugendlichen Tatverd¨achtigen (14–18 Jahre) aufgef¨uhrt, die in den Jahren 2000, 2003 und 2006 eines Ge- waltverbrechens verd¨achtigt wurden. Dabei sind die Zahlen f¨ur deutsche und nichtdeutsche Jugendliche separat ausgewiesen.

Jahr

2000 2003 2006

deutsch 1 287 1 743 2 095 5 125 Nationalit¨at

nicht deutsch 836 980 981 2 797 7 922

(a) Stellen Sie die bedingten Verteilungen des Merkmals “Nationalit¨at” auf, gegeben das Merkmal “Jahr”. ¨Andert sich die Verteilung der jugendlichen Tatverd¨achtigen auf Deutsche und Nichtdeutsche im Verlauf der Jahre wesentlich? (6 Punkte)

(b) Die unter Unabh¨angigkeit der beiden Merkmale erwartete Kontingenztafel ist unten angegeben. Bestimmen Sie den Wert desχ2-Koeffizienten. (4 Punkte)

(c) Angenommen, der χ2-Koeffizient h¨atte den Wert 35. Besteht ein Zusammenhang zwi- schen den beiden Merkmalen “Nationalit¨at” und “Jahr”? Begr¨unden Sie Ihre Antwort.

(5 Punkte) Hinweis:

Geben Sie in (b) und ggf. (c) zun¨achst die ben¨otigten allgemeinen Formeln an.

Runden Sie, falls n¨otig, auf 3 Nachkommastellen.

Tafel der unter Unabh¨angigkeit erwarteten H¨aufigkeiten:

Jahr

2000 2003 2006

deutsch 1 373.438 1 761.598 1 989.965 Nationalit¨at

nicht deutsch 749.562 961.403 1 086.035

7 922

(7)

Es wird vermutet, dass sich die Abschlussnote des Studiums darauf auswirkt, wie schnell man anschließend eine Anstellung findet. Zur ¨Uberpr¨ufung, ob es zwischen der Abschlussnote und der Dauer der Arbeitssuche ¨uberhaupt einen Zusammenhang gibt, werden sieben Absolven- tinnen und Absolventen eines Studienganges bei ihrer Arbeitssuche begleitet. Nachdem alle eine Anstellung gefunden haben, werden die Noten und die Dauer der Arbeitssuche zusam- men dargestellt. Die Ergebnisse sind der folgenden Tabelle zu entnehmen.

Absolvent/in 1 2 3 4 5 6 7

Abschlussnote (X) 2.7 2.0 1.0 4.0 1.3 3.3 3.0 Dauer der Arbeitssuche in Monaten (Y) 3 6 2 8 5 4 7

(a) Zur Beurteilung des Zusammenhangs zwischen X und Y ist aufgrund der ordinalen Skalierung der Noten der Rangkorrelationskoeffizient nach Spearman angemessen. Da- zu werden f¨ur die ursrp¨unglichen Auspr¨agungen von X und Y Rangwerte vergeben.

F¨ur die Noten vergibt man die R¨ange so, dass die beste Note auf den ersten Rangplatz kommt, die zweitbeste auf den zweiten, usw. F¨ur die Dauer der Arbeitssuche betrach- ten Sie die beiden folgenden Varianten der Rangvergabe: Version 1 vergibt den ersten Rang f¨ur die k¨urzeste Dauer, Version 2 dagegen vergibt den ersten Rang f¨ur die l¨angste Dauer der Arbeitssuche. Das Resultat der Rangvergabe ist in der folgenden Tabelle dargestellt.

Absolvent/in 1 2 3 4 5 6 7

Abschlussnote (X) 2.7 2.0 1.0 4.0 1.3 3.3 3.0

Rang rg(xi) 4 3 1 7 2 6 5

Dauer der Arbeitssuche in Monaten (Y) 3 6 2 8 5 4 7

Rang rg(yi), Version 1 2 5 1 7 4 3 6

Rang rg(yi), Version 2 6 3 7 1 4 5 2

Bestimmen Sie f¨ur beide Versionen der Rangvergabe den Wert des Rangkorrelationsko- effizientenrSp zwischen Abschlussnote und Dauer der Arbeitssuche und interpretieren Sie ihn jeweils. Wie erkl¨aren Sie die unterschiedlichen Werte des Korrelationskoeffizi- enten? (11 Punkte)

(b) Wie ¨andern sich die Werte der beiden Korrelationskoeffizienten (Variante 1 und Va- riante 2), wenn Sie bei den Noten die Rangvergabe umgekehrt vornehmen, also den Rangplatz 1 f¨ur die schlechteste Note vergeben? Wie ¨andert sich die formale, wie die inhaltliche Interpretation des Ergebnisses? (7 Punkte)

Hinweis:

Geben Sie in (a) zun¨achst die ben¨otigte allgemeine Formel an.

Runden Sie ggf. auf 3 Nachkommastellen.

In (b) m¨ussen Sie nicht rechnen, nur argumentieren.

(8)

Aufgabe 6 (16 Punkte)

F¨ur Hausbesitzer, deren Heizungssysteme auf der Verbrennung von Heiz¨ol beruhen, ist es wichtig, die Entwicklung der Heiz¨olpreise im Auge zu behalten. Mitte 2006 wollte ein Haus- besitzer entscheiden, ob er zu diesem Zeitpunkt seinen Tank auff¨ullen oder mit dem Kauf von Heiz¨ol lieber noch etwas warten sollte. Dazu verschaffte er sich eine Zeitreihe der durch- schnittlichen Heiz¨olpreise (monatlich) von September 2005 bis Juni 2006. Die Angaben sind der folgenden Tabelle zu entnehmen.

Zeitpunkt t 1 2 3 4 5 6

Monat 09/2005 10/2005 11/2005 12/2005 01/2006 02/2006 Heiz¨olpreis Y 659.88 657.75 603.73 594.12 596.01 606.87 (in Euro pro 1 000 Liter)

Zeitpunkt t 7 8 9 10

Monat 03/2006 04/2006 05/2006 06/2006 Heiz¨olpreis Y 611.33 648.10 642.69 308.95 (in Euro pro 1 000 Liter)

(a) Der Hausbesitzer geht davon aus, dass sich der Heiz¨olpreis linear entwickelt. Er m¨ochte daher einen linearen Trend anpassen. Unterst¨utzen Sie dieses Vorhaben, indem Sie zun¨achst die lineare Trendfunktion formulieren und dann die Regressionskoeffizien- ten der Trendfunktion aus den Daten berechnen. Geben Sie schließlich die errechnete Geradengleichung an. (9 Punkte)

(b) Mit welchem Heiz¨olpreis (in Euro pro 1 000 Liter) rechnet der Hausbesitzer f¨ur den Juli 2006 (also den Zeitpunkt t= 11)? (3 Punkte)

(c) Die unten angegebene Abbildung zeigt die Zeitreihe der Heiz¨olpreise zusammen mit der angepassten Trendfunktion. Wie beurteilen Sie anhand der Abbildung die Qualit¨at der Anpassung (bitte nicht rechnen, nur argumentieren)? Begr¨unden Sie Ihr Urteil.

(4 Punkte) Hinweis:

Nutzen Sie in (a) zur Berechnung die folgenden Hilfsgr¨oßen:

P10

t=1yt= 5 929.43, P10t=1t·yt= 31 122.14, P10t=1t = 55, P10t=1t2 = 385.

Runden Sie Ihre Ergebnisse ggf. auf 4 Nachkommastellen.

Abbildung: Zeitreihe der Heiz¨olpreise mit linearem Trend

Zeitpunkt

Preis in Euro (pro 1000 Liter)

0 2 4 6 8 10 12

0200400600800

Abbildung

Abbildung 1 Abbildung 2 weniger als 160 160 bis unter 180 180 bis unter 200 200 und mehr weniger als 160160 bis unter 180 180 bis unter 200 200 und mehr Abbildung 3 weniger als 160 160 bis unter 180 180 bis unter 200 200 und mehr
Tafel der unter Unabh¨angigkeit erwarteten H¨aufigkeiten:

Referenzen

ÄHNLICHE DOKUMENTE

Der Rangkorrelationskoeffizient nach Spearman darf daher auch für niedriger skalierte Merkmale berechnet werden.. Das ordinale Skalenniveau ist die Minimalanforderung an

Insbesondere wird Strom verst¨arkt von denjenigen Orten aus verteilt werden m¨ussen, wo mit Technologien f¨ur erneuerbare Energien (insbesondere Wind- und Sonnenenergie)

x Noten sind ordinal skaliert, das arithmetische Mittel ist also kein geeignetes Lagemaß.. Noten sind metrisch skaliert, das arithmetische Mittel ist also ein

Wachstumsraten sind gar nicht skaliert, daher kommt das geometrische Mittel zur Anwendung.. Wachstumsraten werden durch Multiplikationen bestimmt, daher kommt das geometrische

Wachstumsraten sind nur ordinal skaliert, daher kann das arithmetische Mittel nicht benutzt werden.. Wachstumsraten sind gar nicht skaliert, daher kommt das geometrische Mittel

“Wahl-O-Mat” die rechtsextremistische NPD als Partei empfohlen werde, lautet die Be- gr¨undung der f¨ur das Internet-Angebot verantwortlichen Landeszentrale f¨ur politische Bil-

F¨ur ein quantitatives, stetiges Merkmal wie das hier betrachtete ist ein S¨aulendiagramm geeignet.. F¨ur ein qualitatives, stetiges Merkmal wie das hier betrachtete ist

Bei klassierten Daten darf f¨ur das arithmetische Mittel nicht ¨uber die Klassenmitten gerechnet werden.... Richtig