• Keine Ergebnisse gefunden

Aufgabe 32 (Lineare Regression mit

N/A
N/A
Protected

Academic year: 2021

Aktie "Aufgabe 32 (Lineare Regression mit"

Copied!
5
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Dr. M. Dettling 22.05.2009

Dr. Daniel Haase FS 2009

daniel.haase@math.ethz.ch

Grundlagen der Mathematik II (LVA 401-0622-00 U)

L¨ osung 11

Zur ¨Ubungsstunde vom 22.05.2009

Aufgabe 31 (Einfache lineare Regression)

Angenommen die Zufallsvariablen X(1) und Y unterliegen der linearen Bedingung Y = βX(1) +α f¨ur zwei unbekannte Zahlenα, β∈R, und eine zuf¨allig gezogene Stichprobe ergibt die folgenden Datenpaare:

x 1 1 2 2 3

y 4 5 7 6 8

(a) Berechne die Sch¨atzer ˜αund ˜β f¨ur die Koeffizienten aus der Stichprobe, stelle damit die Geradenglei- chung f¨ur ˜yauf.

(b) Bestimme die Standardabweichung der FehlervariablenE.

(c) Bestimme die Standardabweichungen der Sch¨atzer ˆαund ˆβ.

(d) Bestimme ein 95%-Konfidenzintervall f¨ur die Koeffizientenαundβ.

Hinweis: In der Notation der Kurzanleitung istk= 1,n= 5, x=x(1) undβ(0)=αsowieβ(1)=β.

Es treten zwangsl¨aufig Br¨uche in der Rechnung auf, die aber erst ab Teil (b) gerundet werden sollten, und dann nur bis zur dritten Stelle hinter dem Komma. F¨uhre die Matrix-Rechnungen per Hand aus, und gib den Rechenweg genau an, damit der Korrekteur die Rechnung nachvollziehen kann.

L¨osung

Zu a): Wir stellen die Matrizen auf wie in der Kurzanleitung:

X =

 1 1 1 1 1 2 1 2 1 3

, y =

 4 5 7 6 8

und erhalten mit der Quadrategleichung

βˆ = βˆ(0)

βˆ(1)

= (XTX)−1XTy =

1 1 1 1 1

1 1 2 2 3

·

 1 1 1 1 1 2 1 2 1 3

−1

·

1 1 1 1 1

1 1 2 2 3

·

 4 5 7 6 8

=

5 9 9 19

−1

· 30

59

. Das Invertierungsverfahren ergibt

5 9 | 1 0 9 19 | 0 1

II−95III

−→

5 9 | 1 0 0 145 | −95 1

II·145

−→

5 9 | 1 0 0 1 | −149 145

I−9II

−→

5 0 | 95144514 0 1 | −149 145

I: 5

−→

1 0 | 1914149 0 1 | −149 145

Daraus ergibt sich

βˆ(0) βˆ(1)

= 19

14149

149 145

· 30

59

= 39

1425 14

.

(2)

Die gesch¨atzte Gerade lautet also ˆy= 2514X+3914. Zu Teil b) Der Residuenvektor ist laut Kurzanleitung

R =

 R1

... R5

 = y−Xβˆ =

 4 5 7 6 8

 1 1 1 1 1 2 1 2 1 3

· 39

1425 14

=

 4 5 7 6 8

64 1464 1489 1489 11414

14

=

47

3 7 9 14

145

17

 .

Daraus berechnet sich die gesch¨atzte Varianz der FehlervariablenE zu Var[E] =\ 1

n−k−1

n

X

j=1

R2j ≈ 0.357 und die Standardabweichung (die Wurzel daraus) ¯σ[E]≈0.597.

Zu c): Die Matrix (XTX)−1haben wir schon in Teil (a) berechnet:

(XT ·X)−1 = .

19 14149

149 145

 .

Wir erhalten also durch Ablesen der Diagonaleintr¨age (XT·X)−100 = 19

14 , (XT·X)−111 = 5 14 wobei der

”nullte“ Eintrag zu der Einserspalte inX, und damit zum Abschnittβ(0)geh¨ort. Damit erhalten wir die Varianzen der Sch¨atzer:

Var[β\0] = Var[E]·(X\ T·X)−100 ≈ 0.357·19

14 ≈ 0.4845 , Var[β\1] = Var[E]·(X\ T·X)−111 ≈ 0.357· 5

14 ≈ 0.1275 und damit die Standardabweichungen

¯

σ[β0] ≈ 0.696 , ¯σ[β1] ≈ 0.357. f¨ur die Sch¨atzer.

Zu d): Wir standardisierenβ0auf

B0 =

β¯0−β0

σ[β0] ∼ tn−k−1 = t3

und erhalten die Konfidenzgleichung

P(−a < B0< a) = F(a)−F(−a) = 2F(a)−1 = 0.95! ⇔ a = F−1(0.975) =

Tabelle 3.182.

wobei F die kumulative Verteilungsfunktion der t3-Verteilung ist. R¨uckrechnung auf die unbekannte Variable β0ergibt

0.95 = P(−3.182< B0<3.182) = P

−3.182 <

39 14−β0

0.696 < 3.182

= P(0.571< β0<5.000). Die gleiche Rechnung f¨ur die standardisierte Variable

B1 =

β¯1−β1

σ[β1] ∼ tn−k−1 = t3

ergibt mit dem gleichen Quantila

0.95 = P(−3.182< B1<3.182) = P

−3.182 <

25 14−β0

0.357 < 3.182

= P(0.649< β1<2.921).

(3)

Die 95%-Konfidenzintervalle sind also [0.571,5] f¨ur den Abschnittβ0(eine eher grobe Sch¨atzung), sowie [0.649,2.921]

f¨ur die Steigungβ1(schon etwas genauer). Wir schließen, dass die Stichprobe die Steigung gut wiedergibt, den Abschnitt aber eher nicht.

Aufgabe 32 (Lineare Regression mit

Mathematica)

Auf der Homepage findet sich ein NB-file mit statistischen Daten einer Stichprobe, bei der in jeder Probe 3 Werte (x1, x2, y) gemessen wurden. In dieser Aufgabe sollen mit Hilfe vonMathematicadrei Modelle untersucht werden:

(1) y h¨angt linear vonx1 ab, nicht aber vonx2. (2) y h¨angt linear vonx2 ab, nicht aber vonx1. (3) y h¨angt linear vonx1 undx2 ab.

Erstelle ein NB-File (bitte Ausdruck abgeben) zu den folgenden Teilaufgaben:

(a) Erzeuge ein ModellM1, das die erste Modellannahme simuliert. Bestimme die Regressionsgerade.

(b) Erzeuge ein ModellM2, das die zweite Modellannahme simuliert. Bestimme die Regressionsgerade.

(c) Erzeuge ein ModellM3, das die dritte Modellannahme simuliert. Bestimme die Regressionsebene.

(d) Erstelle zu den drei Modellen jeweils die Parametertabelle, und extrahiere die Residuen. Entscheide anhand der Quadratsumme der Residuen, welches Modell am besten den Versuch beschreibt.

(e) Begr¨unde kurz, warum die beiden ersten Modelle nicht besser sein k¨onnen als das dritte Modell, unabh¨angig von den gegebenen Daten.

Beachte die Mathematica-Anleitung auf der R¨uckseite.

L¨osung

Die von Mathematicaproduzierten Regressionsgeraden (siehe NB-File auf der Homepage) lauten:

M1: Y = 12.127 + 0.237X(1) , M2: Y = 25.626 + 0.616X(2) , M3: Y = 21.085 + 0.079X(1)+ 0.427X(2) Die Parametertabellen und Residuen finden sich im NB-File, die Quadratsummen der Residuen sind

M1 : 160.684 , M2 : 144.150 , M3 : 139.740,

das dritte Modell ist also gemessen an den Residuenquadraten am besten geeignet, um die Daten zu beschreiben.

Das verwundert auch nicht, denn v¨ollig unabh¨angig von den Daten ist M3 mindestens so gut wie M1: Ist M1 : Y = β01X(1) das optimale Modell f¨ur die Annahme der linearen Abh¨angigkeit nur von X(1), so produziertM3: Y =β01X(1)2X(2) mit β2= 0 die gleichen Residuen, d. h. die Approximation ist min- destens so gut wieM1. Durch eine andere Wahl vonβ2wirdM3vielleicht sogar besser. Ebenso istM3mindestens so gut wieM2weil auchβ1= 0 inM3gew¨ahlt werden kann.

Aufgabe 33 (Multiple lineare Regression)

Gegeben sei eine Stichprobe zu jeweils 4 ZufallsvariablenX(1), X(2), X(3), Y, denen eine multiple lineare Abh¨angigkeit der FormY =β01X(1)2X(2)3X(3) unterstellt wird:

Probe x1 x2 x3 y

1 1 2 8 4

2 2 3 -6 7

3 1 4 8 5

4 3 1 -9 8

Sch¨atze die Parameterβ0, . . . , β3 ab mit Hilfe der Matrizengleichung von der Kurzanleitung auf der Homepa- ge. Berechne die Produkte und die Inverse aus der Gleichung mit Mathematica. Verwende dann die Modell- Funktionen aus der letzten Aufgabe, um das Ergebnis zu ¨uberpr¨ufen (als zus¨atzliches LA-Training f¨ur die Klausur kann man die Gleichung auch per Hand rechnen).

(4)

Was f¨allt beim Sch¨atzwert ˆβ3auf, und wie interpretiert man diesen Wert?

L¨osung

Man setzt wie in der Kurzanleitung beschrieben

X =

1 1 2 8

1 2 3 −6

1 1 4 8

1 3 1 −9

, y =

 4 7 5 8

an, und l¨osen die Normalengleichung der kleinste-Quadrate-Methode:

β = (XTX)−1·XTy =

Mathematica

3 2 41 22 1 2

221

 ,

die Rechnung dazu ist die gleiche wie in Aufgabe 31. Dazu geh¨ort die Regressionsgleichung Y = 3

2 +41

22X(1)+1

2X(2)− 1 22X(3).

Der Sch¨atzwert β(3) f¨allt auf, da er im Vergleich zu β(0), β(1), β(2) sehr klein ist (dass er negativ ist spielt keine Rolle). Die Interpretation ist, dassX(3)nur geringen Einfluss aufY hat, ein Blick in die Datentabelle legt die Vermutung nahe, dassX(3) keinerlei Einfluss aufY hat, also eine reine St¨orgr¨oße ist.

Lineare Regression mitMathematica:

• Eine Liste von Stichproben mitkEingabevariablen besteht aus Vektoren der Form{x1,x2,. . .,xk,y}.

• Ein lineares Modell mit NamenMwird angelegt durch den Befehl M=LinearModelFit[Liste,Variablenverwendung,Listenvariablen]

wobei Listenvariablen die Namen der Eingabevariablen definiert und Variablenverwendung ihr Auftreten in der Regressionsgleichung. Beispiele:LinearModelFit[Liste,{x1, x2},{x1, x2}]erzeugt ein Modell mit zwei Eingabevariablenx1 und x2, die in der Reihenfolgey =b0 +b1∗x1 +b2∗x2 auftreten, dagegen erzeugtLinearModelFit[Liste,{x1},{x1, x2}] ein Modell, indem zwarx1 und x2 in der Liste aufgef¨uhrt werden, aber nurx1 an der Geradengleichung beteiligt ist:y =a+b∗x1.

Der Parameterx2 wird ignoriert.

• An die Daten des Modells gelangt man durch Befehle, die dem Modell in Anf¨uhrungsstrichen gegeben werden. Die wichtigsten Beispiele:

– Regressionsgerade aus den Daten sch¨atzen:M[˝BestFit˝] – Vollst¨andige Parametertabelle aufstellen:M[˝ParameterTable˝] – Liste der Residuen berechnen:M[˝FitResiduals˝]

• Die j-te Komponente eines Vektors v bekommt man mit v[[j]], die Quadratsumme eines Vektors mitSum[v[[j]]b2,{j,1,n}], wobeindie Anzahl der Komponenten ist.

Die Daten zu Aufgabe 32 lauten

(5)

Proben={{107.4,18,37},{159.4,42.1,49.5},{94.1,16,34.5},{99.1,13.5,36},{114.2,23.4,43},{96.6,7.7,28}, {107.9,17.3,37},{56.5,3.8,20},{92.9,14.9,33.5},{59,4.3,30.5},{82.8,9.5,38.5},{145.6,35.6,47}}

Die ersten beiden Komponenten eines Eintrags sind die Eingaben x1 und x2, der dritte Eintrag ist der Wert der ZufallsvariablenY, der eine lineare Abh¨angigkeit zu den beiden anderen Variablen unterstellt wird.

Es gibt ein NB-File dazu auf der Homepage.

Referenzen

ÄHNLICHE DOKUMENTE

should be solved at home and delivered at Wednesday, the 7th November, before the beginning of

Achtung: Die Berechnung von 4 × 4-Determinanten funktioniert nicht v¨ ollig analog, hier egeben sich insgesamt 24 Summanden (mit einer nicht ganz so regelm¨ aßigen Struktur) mit je

Kontrolliere, ob diese drei Vektoren linear unabh¨ angig sind.. ~ u zeigt die Projektionsrichtung bei der Projektion auf

Es ergibt sich eine Punktspierale, die gegen den

a.3 Wenn ein lineares Gleichungssystem mit n Gleichungen und n Variablen lösbar ist, dann ist die Lösung eindeutig.. a.4 Ein lineares Gleichungssystem mit mehr Gleichungen als

[r]

Sommersemester 2010 Universität Bielefeld. Pr¨ asenzaufgaben zur Analysis II Blatt X