• Keine Ergebnisse gefunden

Einführung in die Stochastik 3. Übungsblatt

N/A
N/A
Protected

Academic year: 2022

Aktie "Einführung in die Stochastik 3. Übungsblatt"

Copied!
8
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Einführung in die Stochastik 3. Übungsblatt

Fachbereich Mathematik SS 2011

M. Kohler 06.05.2011

A. Fromkorth D. Furer

Gruppen und Hausübung

Aufgabe 9 (4 Punkte)

Der Mikrozensus ist eine statistische Erhebung. Hierbei werden nach bestimmten Zufallskriterien Haushalte ausgewählt, die Daten zu unteschiedlichen Merkmalen liefern, wie z.B. Nettoeinkommen, Alter, Arbeitszeit, Wohnfläche. In den un- ten stehenden Abbildungen sind Kern-Dichteschätzer (mit Gauß-Kern) angewandt auf die Wohnfläche bei Personen mit einem Nettoeinkommen unter 1500 Euro und mit einem Nettoeinkommen von über 1500 Euro. Welche Aussagen lassen sich anhand dieser Grafiken treffen? Begründen Sie diese.

0 50 100 150 200

0.0000.0050.0100.0150.020

Wohnfläche der Personen mit Einkommen unter 1500 Euro

N = 2690 Bandwidth = 5

Density

0 50 100 150 200

0.0000.0050.0100.015

Wohnfläche der Personen mit Einkommen über 1500 Euro

N = 1484 Bandwidth = 5

Density

Hinweis:Betrachten Sie z.B. als Referenz die Stelle 100m2.

(2)

Lösung: Vergleicht man diese untereinander liegende Dichteschätzer, so stellt man eine Verlagerung nach rechts bei einem Nettoeinkommen von über 1500 Euro fest. Dies bedeutet nichts Anderes als, dass der relative Anteil der Personen die sich eine größere Wohnung leisten mit dem Einkommen steigt. Diesen Zusammenhang stellt man fest, wenn man z.B.

die Flächen unter den Grafen auf dem Abschnitt[100, 200]vergleicht.

Aufgabe 10 (4 Punkte)

In der folgenden Tabelle sind die Ausgaben pro Student (in Euro) und die Arbeitslosenquote (in Prozent) in den sechs neuen Bundesländern im Jahr 2001 angegeben.

Ausgaben pro Student (in Euro) Arbeitslosenquote (in Prozent)

Berlin 8100 17.9

Brandenburg 6600 18.8

M.-V. 8700 19.6

Sachsen 8700 19

Sachsen-Anhalt 9900 20.9

Thüringen 8800 16.5

(a) Zeichnen Sie ein Streudiagramm (Scatterplot) der Daten, wobei sie als x-Wert die Ausgaben pro Student und als y-Wert die Arbeitslosenquote verwenden.

(b) Bestimmen Sie mit Hilfe der in der Vorlesung hergeleiteten allgemeinen Formel die zugehörige Regressionsgerade und zeichnen Sie diese in das Streudiagramm aus a) ein.

(c) Inwieweit ändert sich das Resultat in b), wenn man den zu Sachsen-Anhalt gehörenden Datenpunkt weglässt?

Lösung:

6500 7000 7500 8000 8500 9000 9500 10000

1718192021

a)

ausgaben pro Student (in Euro)

Arbeitslosenquote (in Prozent)

Abbildung 1:Aufgabe 10 a)

(b) Seien xi die Ausgaben pro Student (in Euro) in Zeile i der Tabelle und yi die Arbeitslosenquote (in Prozent) in Zeile i der Tabelle. Nach der Formel aus der Vorlesung hat die Regressionsgerade die Form

y= ˆa(x−¯x) +¯y,

(3)

mit

ˆ

a = sx y s2x , sx y = 1

n−1

n

X

i=1

(xix)(¯ yi−¯y),

s2x = 1 n−1

n

X

i=1

(xix¯)2,

¯

x = 1

n

n

X

i=1

xi,

¯

y = 1

n

n

X

i=1

yi

undn=6. Einsetzen der Werte ergibt

¯

x = 1

6(8100+6600+8700+8700+9900+8800)≈8466.667

¯

y = 1

6(17.9+18.8+19.6+19+20.9+16.5)≈18.7833 sx y = 1

5((8100−8466.667)·(17.9−18.7833) +· · ·+ (8800−8466.667)·(16.5−18.7833))

≈561.33 s2x = 1

5((8100−8466.667)2+· · ·+ (8800−8466.667)2)≈1178667 ˆ

a ≈ 0.000476 und damit

y=0.000476·(x−8466.667) +18.7833.

6500 7000 7500 8000 8500 9000 9500 10000

1718192021

ausgaben pro Student (in Euro)

Arbeitslosenquote (in Prozent)

Abbildung 2:Aufgabe 10 b)

(4)

(c) Lässt man den Sachsen-Anhalt Datenpunkt weg, so wird die Steigung der Regressionsgeraden negativ (was auch zu einer Änderung des y-Achsenabschnitts führt).

¯

x = 8180

¯

y = 18.36 ˆ

a = −0.0002432905

7000 7500 8000 8500

16.517.017.518.018.519.019.5

ausgaben pro Student (in Euro)

Arbeitslosenquote (in Prozent)

Abbildung 3:Aufgabe 10 c)

Aufgabe 11 (4 Punkte)

(a) Seienx1,y1, . . . ,xn,yn∈R,¯x=1nPn

i=1xiund ¯y=1nPn

i=1yi. Zeigen Sie:

1 n

n

X

i=1

(xi−¯x)2= 1 n

n

X

i=1

xi2−(¯x)2

und

1 n

n

X

i=1

(xi−¯x)·(yi−¯y) = 1 n

n

X

i=1

xi·yi−¯x·¯y.

(b) Berechnen Sie die Korrelation der Daten aus Aufgabe 10.

(c) Was folgt aus b) für die Steigung der zugehörigen Regressionsgeraden ?

(d) Inwieweit ändert sich das Ergebnis aus b), wenn man vor Beginn der Berechnung der Korrelation die Ausgaben pro Student in Dollar und die Arbeitslosenquote in Promille umrechnet? Begründen Sie ihre Antwort.

Lösung:

(5)

(a)

1 n

n

X

i=1

xi−¯x2

= 1 n

n

X

i=1

€xi2−2xix¯+¯x2Š

= 1 n

n

X

i=1

x2i −2¯x1 n

n

X

i=1

xi+1 n

n

X

i=1

¯ x2

= 1 n

n

X

i=1

x2i −2¯x2x2

= 1 n

n

X

i=1

x2i −¯x2 1

n

n

X

i=1

xi−¯x

yi−¯y

= 1 n

n

X

i=1

xiyi−¯x yi−¯y xi+x¯¯y

= 1 n

n

X

i=1

xiyix¯1 n

n

X

i=1

yi−¯y1 n

n

X

i=1

xi+1 n

n

X

i=1

¯ x¯y

= 1 n

n

X

i=1

xiyix¯¯y

(b) Die empirische Korrelation ist definiert als

rx y= sx y sx·sy.

Die Werte vonsx y undsxwurden schon in Aufgabe 10 berechnet. Wegen

s2y≈2.237667

folgt dann

rx y= sx y

Æs2x·s2y ≈0.34564.

(c) Da das Vorzeichen der empirischen Korrelation mit dem Vorzeichen der Steigung der Regressionsgeraden überein- stimmt, ist im vorliegenden Fall die Steigung der Regressionsgeraden positiv, darx y=0.3456429>0.

(d) Das Umrechnen der Einheiten kann man als Multiplikation mit einer positiven Konstanten realisieren. Anstelle der Daten(x1,y1), . . . ,(xn,yn)betrachten wir also die Datenpunkte(z1,w1), . . . ,(zn,wn)mit(zi,wi) = (a xi,b yi)für i=1, . . . ,n. Dann gilt:

¯

z = 1

n

n

X

i=1

zi=1 n

n

X

i=1

a xi=a1 n

n

X

i=1

xi=a·¯x

und genauso

¯

w = b·¯y.

(6)

Damit erhalten wir

szw = 1 n−1

n

X

i=1

(zi−¯z)·(wiw¯)

= 1

n−1

n

X

i=1

(a xia¯x)·(b yib¯y)

= 1

n−1

n

X

i=1

a(xi−¯xb(yi−¯y)

= a bsx y, s2z = 1

n−1

n

X

i=1

(zi−¯z)2

= 1

n−1

n

X

i=1

(a xia¯x)2

= 1

n−1

n

X

i=1

a2(xi−¯x)2

= a2s2x. und

s2w = 1 n−1

n

X

i=1

(wiw¯)2

= 1

n−1

n

X

i=1

(b yib¯y)2

= 1

n−1

n

X

i=1

b2(yi−¯y)2

= b2s2y. Das bedeutet für die empirische Korrelation

rzw= szw

psz2sw2 = a bsx y

Æa2s2xb2s2y =rx y,

d.h. die empirsiche Korrelation ändert sich durch die Umrechnung nicht.

Aufgabe 12 (4 Punkte)

Gegeben sei eine zweidimensionale Messreihe

(x1,y1), . . . ,(xn,yn)

vom Umfangn. Anstelle einer Geraden (wie bei der linearen Regression) könnte man analog auch einen Polynom dritten Grades

y=a+b·x+c·x2+d·x3

durch Minimierung von

F(a,b,c,d):=

n

X

i=1

€yi−(a+b·xi+c·xi2+d·x3i2

(7)

an die Daten anpassen. Zeigen Sie (durch Nullsetzen geeigneter Ableitungen), dass die Wertea,b,c,d, für dieF(a,b,c,d) minimal wird, Lösungen des linearen Gleichungssystems

a+b·1 n

n

X

i=1

xi+c·1 n

n

X

i=1

x2i +d1 n

n

X

i=1

xi3 = 1 n

n

X

i=1

yi

a·1 n

n

X

i=1

xi+b·1 n

n

X

i=1

xi2+c·1 n

n

X

i=1

x3i +d1 n

n

X

i=1

xi4 = 1 n

n

X

i=1

xi·yi

a·1 n

n

X

i=1

x2i +b·1 n

n

X

i=1

xi3+c·1 n

n

X

i=1

x4i +d1 n

n

X

i=1

xi5 = 1 n

n

X

i=1

x2i ·yi

a·1 n

n

X

i=1

x3i +b·1 n

n

X

i=1

xi4+c·1 n

n

X

i=1

x5i +d1 n

n

X

i=1

xi6 = 1 n

n

X

i=1

x3i ·yi

sind.

Lösung: Wie in der Vorlesung müssen wir die partiellen Ableitungen nullsetzen. Dies ergibt

∂aF(a,b,c,d) =

∂bF(a,b,c,d) =

∂cF(a,b,c,d) =

∂dF(a,b,c,d) =0.

Wir berechnen also die partiellen Ableitungen

0=

∂aF(a,b,c,d) =

∂a

n

X

i=1

€(yi−(a+b xi+c x2i +d xi32

!

=

n

X

i=1

∂a

€yi−(a+b xi+c x2i +d x3i2

=

n

X

i=1

yi−(a+b xi+c x2i +d x3i

∂a

€yi−(a+b xi+c xi2+d x3i

= −2

n

X

i=1

€yi−(a+b xi+c x2i +d x3i

= −2

n

X

i=1

yi

n

X

i=1

a

n

X

i=1

b xi

n

X

i=1

c x2i

n

X

i=1

d x3i

!

⇒ 1

n

n

X

i=1

yi=a+b1 n

n

X

i=1

xi+c1 n

n

X

i=1

xi2+d1 n

n

X

i=1

x3i.

0=

∂bF(a,b,c,d) =

∂b

n

X

i=1

€(yi−(a+b xi+c x2i +d x3i2

!

=

n

X

i=1

∂b

€yi−(a+b xi+c xi2+d xi32

=

n

X

i=1

yi−(a+b xi+c x2i +d xi3

∂b

€yi−(a+b xi+c x2i +d xi3

= −2

n

X

i=1

€yi−(a+b xi+c x2i +d x3i

·xi

= −2

n

X

i=1

xiyi

n

X

i=1

a xi

n

X

i=1

b x2i

n

X

i=1

c x3i

n

X

i=1

d x4i

!

⇒ 1

n

n

X

i=1

xiyi=a1 n

n

X

i=1

xi+b1 n

n

X

i=1

x2i +c1 n

n

X

i=1

xi3+d1 n

n

X

i=1

x4i.

(8)

und

0=

∂cF(a,b,c,d) =

∂c

n

X

i=1

€(yi−(a+b xi+c x2i +d x3i2

!

=

n

X

i=1

∂c

€yi−(a+b xi+c x2i +d xi32

=

n

X

i=1

yi−(a+b xi+c x2i +d xi3

∂c

€yi−(a+b xi+c x2i +d xi3

= −2

n

X

i=1

€yi−(a+b xi+c x2i +d xi3

·xi2

= −2

n

X

i=1

xi2yi

n

X

i=1

a x2i

n

X

i=1

b x3i

n

X

i=1

c x4i

n

X

i=1

d x5i

!

⇒ 1

n

n

X

i=1

x2iyi=a1 n

n

X

i=1

x2i +b1 n

n

X

i=1

x3i +c1 n

n

X

i=1

xi4+d1 n

n

X

i=1

x5i.

und

0=

∂dF(a,b,c,d) =

∂d

n

X

i=1

€(yi−(a+b xi+c x2i +d x3i2

!

=

n

X

i=1

∂d

€yi−(a+b xi+c x2i +d x3i2

=

n

X

i=1

yi−(a+b xi+c x2i +d xi3

∂d

€yi−(a+b xi+c x2i +d xi3

= −2

n

X

i=1

€yi−(a+b xi+c x2i +d xi3

·xi3

= −2

n

X

i=1

xi3yi

n

X

i=1

a x3i

n

X

i=1

b xi4

n

X

i=1

c x5i

n

X

i=1

d xi6

!

⇒ 1

n

n

X

i=1

x3iyi=a1 n

n

X

i=1

x3i +b1 n

n

X

i=1

x4i +c1 n

n

X

i=1

xi5+d1 n

n

X

i=1

x6i.

Dies sind die gewünschten Gleichungen.

Anmerkung für Studenten ab dem 3. Semester:Um zu zeigen, dass es sich in der Tat um ein Minimum handelt, muss man jetzt noch nachrechnen, dass die zugehörige Hessematrix positiv definit ist.

Dieses Übungsblatt wird im Rahmen der Übungen am 09. bzw. 10.05.2011 besprochen. Ihre Ausarbeitungen geben Sie am 16. bzw. 17.05.2011 in Ihrere Übungsgruppe ab. Sie erhalten diese am 23. bzw. 24.05.2011 korrigiert zurück.

Referenzen

ÄHNLICHE DOKUMENTE

(a) Erläutern Sie, was man bei einer Umfrage unter dem sampling bias („Verzerrung durch Auswahl“) und dem non- response bias („Verzerrung durch Nicht-Antwort“) versteht..

In den unten stehenden Abbildungen sind Kern- Dichteschätzer (mit Gauß-Kern) angewandt auf die Wohnfläche bei Personen mit einem Nettoeinkommen unter 1500 Euro und mit

Wie groß ist die Wahrscheinlichkeit, dass bei sukzessiver Durchführung von unendlich vielen Prüfungen nur endlich viele der Prüflinge diese Frage nicht richtig beantworten?.

In einer Fernsehshow wird folgendes Glücksspiel angeboten: Versteckt hinter drei Türen befinden sich ein Auto und zwei Ziegen.. Im ersten Schritt deutet der Spieler (in

Aus einer großen Bevölkerung, von der 0.1% Tbc-krank sind, wird nun eine zufällig herausgegriffene Person geröntgt un als Tbc-verdächtig eingestuft. hat das Passwort für

Die zufällige Lebensdauer einer Leuchtstoffröhre hängt nicht von der gesamten Brenndauer, sondern nur von der Anzahl der Ein– und Ausschaltvorgänge ab.. Dabei wird registriert, wann

Dabei erreicht er die Parkaufsicht, bei der er die Gebühr bezahlen muss, erst wieder nach X + 30 Minuten. Wie groß ist im Mittel die Gebühr, die

Fachbereich Mathematik Sommersemester