Klausur zu Statistik II Prof. Dr. Claudia Becker
Sommersemester 2014 28.07.2014
Name: ...
Matrikelnummer: ...
Bearbeitungszeit: 2 Stunden Erlaubte Hilfsmittel:
• Taschenrechner (keine alphanumerische Tastatur)
• standardisierte Formelsammlungen Statistik I und II in gehefteter Form (unver¨andert, keine Hervorhebungen, keine Zus¨atze, keine losen Bl¨atter) Nicht zugelassen sind:
• eigenes Papier
• Skript, ¨ Ubungsaufgaben, alte Klausuren, andere Formelsammlungen, Zusatzmaterialien zur Vorlesung, eigene Aufzeichnungen
• Lehrb¨ ucher, Verteilungstabellen
Es sind insgesamt 100 Punkte zu erreichen.
Uberpr¨ ¨ ufen Sie, ob Ihre Klausur alle f¨ unf Aufgaben enth¨alt.
Geben Sie die Aufgaben bitte zusammen mit Ihrer L¨ osung ab!
Aufgabe 1 2 3 4 5 P
erreichbare
Punkte 20 20 20 20 20 100
erreichte
Punkte
Aufgabe 2: Wahrscheinlichkeitsrechnung (20 Punkte)
Zur Konstruktion eines auf statistischen Wahrscheinlichkeiten basierenden Spamfilters f¨ur E- Mails dient der sogenannte Bayes-Filter. Dieses Verfahren geht von der Wahrscheinlichkeit aus, mit der die in einer E-Mail vorkommenden Worte bisher in Spam-Mails (unerw¨unschte Mails) bzw.”Ham“-Mails (erw¨unschte Mails) vorkamen. Dabei wird eine eingehende E-Mail in Worte zerteilt, z.B.
”Viagra“, ”kostenlos“ und
”Statistik II“. Diese werden dann Wort f¨ur Wort ana- lysiert. Die Definition von
”Wort“ wird dabei sehr weit gefasst. Neben Worten im Text, dem Ab- sender, Betreffzeilen etc. werden auch Bildverweise, Links sowie Teile des ¨Ubertragungsprotokolls, die dem Anwender nur auf Nachfrage gezeigt werden, analysiert.
In einer neu eingehenden Mail taucht das WortW =
”Viagra“ auf. Zur Bestimmung der Wahr- scheinlichkeiten liegen 1000 E-Mails, davon 600 Spam-Mails, zur Analyse vor. Bisher enthielten 25% aller Spam-Mails das Wort
”Viagra“, aber auch eine Ham-Mail (
”Bekommst du auch immer diese Viagra-Angebote per Mail?“).
(a) Wie groß ist die Wahrscheinlichkeit, dass es sich bei der neuen E-Mail um eine Spam- Mail handelt, wenn nur dieses eine Wort betrachtet wird? Nutzen Sie zur Bestimmung der Wahrscheinlichkeiten die Definition der Wahrscheinlichkeit durch relative H¨aufigkeiten.
(13 Punkte)
(b) Was sind die Grenzen einer Analyse, die nur das Wort
”Viagra“ ber¨ucksichtigt? Welchen Fehler k¨onnte der Spamfilter dabei begehen? Welche Wahrscheinlichkeit m¨usste bestimmt werden, damit dieser Fehler nicht begangen wird? (7 Punkte)
Hinweis:
Stellen Sie zun¨achst die ben¨otigten Gr¨oßen bereit. Geben Sie die verwendeten Rechenregeln in allgemeiner Form an. Runden Sie Ihre Ergebnisse ggf. auf 4 Nachkommastellen.
Aufgabe 3: Stetige Zufallsvariablen (20 Punkte)
Herr Jones m¨ochte seinen Fuhrpark um einen neuen Firmenwagen erweitern. Da er bereits sehr schlechte Erfahrungen mit defekten Spurstangenk¨opfen an Fahrzeugen gesammelt hat, macht er seine Entscheidung f¨ur den Kauf eines neuen PKWs von der durchschnittlichen Haltbarkeit der eingebauten Spurstangenk¨opfe abh¨angig. Die gefahrene DistanzX (in tausend Kilometern) bis zur erforderlichen Reparatur eines Spurstangenkopfes an einem beliebten Kraftfahrzeug des Herstellers Cars sei eine stetige Zufallsvariable und folge der Dichtefunktion
f(x, a) =
( a·x·(6−x) ,0≤x≤6 0 , sonst
(a) Welchen Wert muss der Parameter aannehmen, damit es sich beif(x, a) um eine Dichte- funktion von X handelt? (D.h., es muss gezeigt werden, dass alle Anforderungen an eine Dichtefunktion erf¨ullt sind.) (5 Punkte)
(b) Berechnen Sie die Wahrscheinlichkeit daf¨ur, dass ein Spurstangenkopf nach 3-4 tausend Kilometern repariert werden muss! Unterstellen Sie einen Wert von a = 361, unabh¨angig von Ihrem in Teilaufgabe (a) errechneten Ergebnis f¨ur die Konstante a. (8 Punkte) (c) Bestimmen Sie den Erwartungswert von X. Nutzen Sie hierf¨ur die Dichtefunktion aus
Aufgabenteil (b). (4 Punkte)
(d) Stellen Sie die Dichtefunktion aus Teilaufgabe (b) skizzenhaft grafisch dar. Markieren Sie die Wahrscheinlichkeit daf¨ur, dass ein Spurstangenkopf fr¨uhestens nach einer Laufzeit von 4 tausend Kilometern kaputt geht. (3 Punkte)
Hinweis:
Stellen Sie zun¨achst die ben¨otigten Gr¨oßen bereit. Geben Sie die verwendeten Rechenregeln in allgemeiner Form an. Runden Sie Ihre Ergebnisse ggf. auf 4 Nachkommastellen.
Aufgabe 4: Normalverteilung (20 Punkte)
Wie man aus einem Artikel einer deutschen Zeitschrift erfahren konnte, sind die europ¨aischen M¨anner in den vergangenen Jahren deutlich gewachsen. Dabei tun sich die Deutschen durch ihre
¨uberragende Gr¨oße hervor. Im Artikel wird behauptet, deutsche M¨anner seien im Durchschnitt rund 178 cm groß bei einer Standardabweichung von 10 cm. Man kann davon ausgehen, dass die durchschnittliche K¨orpergr¨oßeX eine normalverteilte Zufallsgr¨oße ist.
(a) Wie groß ist die Wahrscheinlichkeit, dass ein zuf¨allig ausgew¨ahlter deutscher Mann eine K¨orpergr¨oße von h¨ochstens 193 cm aufweist? (6 Punkte)
(b) Angenommen, man zieht eine zuf¨allige Stichprobe im Umfang von n = 100 aus allen erwachsenen deutschen M¨annern. Wie groß ist die Wahrscheinlichkeit, dass die durch- schnittliche K¨orpergr¨oße der M¨anner mehr als 177 cm betr¨agt? (Hinweis: Nutzen Sie, was Sie ¨uber die Verteilung von X wissen, wenn X1, ..., Xn unabh¨angig und identisch verteilt, Xi ∼N(µ, σ2).) (8 Punkte)
(c) Zur ¨Uberpr¨ufung der Behauptung aus dem Zeitschriftenartikel werden Zufallsstichpro- ben vom Umfang n = 100 aus allen erwachsenen deutschen M¨annern gezogen. Es ergibt sich jeweils eine durchschnittliche K¨orpergr¨oße von 179 cm. Ist die Behauptung ¨uber die durchschnittliche K¨orpergr¨oße deutscher M¨anner aus dem Zeitschriftenartikel bei einer Wahrscheinlichkeit von 95.44% haltbar? (Hinweis: Bestimmen Sie dazu ein symmetri- sches Intervall, in dem die durchschnittliche K¨orpergr¨oße mit einer Wahrscheinlichkeit von 95.44% liegt.) (7 Punkte)
Hinweis:
Geben Sie jeweils zun¨achst die allgemeinen Formeln an. Runden Sie Ihre Ergebnisse ggf. auf 4 Nachkommastellen.
Nutzen Sie zur L¨osung die folgende Tabelle:
x 0.25 0.28 0.30 0.35 0.40 0.45 0.50 0.55 0.56
Φ(x) 0.5987 0.6103 0.6179 0.6368 0.6554 0.6736 0.6915 0.7088 0.7123
x 0.60 0.65 0.69 0.70 0.71 0.80 0.85 0.875 0.90
Φ(x) 0.7257 0.7422 0.7549 0.7580 0.7611 0.7881 0.8023 0.8092 0.8159
x 0.95 1.00 1.20 1.25 1.40 1.50 2.00 2.50 3.50
Φ(x) 0.8289 0.8413 0.8849 0.8944 0.9192 0.9332 0.9772 0.9938 0.9998
Aufgabe 5: Sch¨atzen und Testen (20 Punkte)
Seit jeher wird zu Beginn eines jeden Fußballspiels eine (faire) M¨unze geworfen, um die an- stoßende Seite zu bestimmen. Grunds¨atzlich ist jede Mannschaft daran interessiert, das Spiel anzustoßen, da dies einen fr¨uhen Ballbesitz garantiert. Durch den M¨unzwurf soll gew¨ahrleistet werden, dass beide Seiten die gleiche Chance haben, das Spiel zu beginnen. Bei der vergangenen Fußball-WM in Brasilien wurden bei den insgesamt 64 Spielen die folgenden Ergebnisse erzielt:
K Z K K Z K Z Z
Z Z K K K Z Z K
Z K Z K K Z K Z
K K Z Z K Z K Z
Z Z Z K Z Z K Z
Z Z K Z Z Z K Z
Z K Z Z K Z Z Z
Z K K K Z Z Z K
(a) Beschreiben Sie modellhaft die Situation der mehrfachen Wiederholung eines M¨unzwurfs bei der Fußball-WM. Gehen Sie davon aus, dass die einzelnen W¨urfe mit derselben M¨unze durchgef¨uhrt wurden und (stochastisch) unabh¨angig voneinander sind. Welcher Verteilung folgt die Gesamtanzahl der geworfenen Kopf- bzw. Zahlbilder? Wie sehen die Verteilungs- parameter aus, wenn man davon ausgeht, dass es sich um eine faire M¨unze handelt?
(5 Punkte)
(b) Um in der in (a) beschriebenen Situation zu ¨uberpr¨ufen, ob es sich tats¨achlich um eine faire M¨unze handelt, soll die Erfolgswahrscheinlichkeit p (f¨ur Kopf) gesch¨atzt werden.
Dazu stehen die folgenden erwartungstreuen Sch¨atzer zur Verf¨ugung:
t1(X1, . . . , Xn) = 1
2X1+1 2Xn
t2(X1, . . . , Xn) =X
Hierbei beschreibt die ZufallsvariableXi den Erfolg beimi-ten M¨unzwurf. Welchen dieser Sch¨atzer w¨urden Sie verwenden? Zeigen Sie auch, warum Sie den gew¨ahlten Sch¨atzer verwenden w¨urden. Berechnen Sie anschließend mit dem von Ihnen gew¨ahlten Sch¨atzer eine Sch¨atzung f¨ur die oben gegebenen Daten.(10 Punkte)
(c) Nehmen Sie an, dass in (b) als Erfolgswahrscheinlichkeit (f¨ur Kopf) ein Wert von 0.4063 gesch¨atzt wurde. Warum kann man nicht bereits durch dieses Ergebnis davon ausgehen, dass der M¨unzwurf nicht fair war? Mit Hilfe welcher statistischen Methode ließe sich dies stattdessen ¨uberpr¨ufen? Beschreiben Sie kurz den Ansatz. (Bitte nicht rechnen.)
(5 Punkte)
Hinweis:
Geben Sie jeweils zun¨achst die allgemeinen Formeln an. Runden Sie Ihre Ergebnisse ggf. auf 4 Nachkommastellen.