11. L¨osung weitere ¨ Ubungsaufgaben Statistik II WiSe 2019/2020
1. Aufgabe: Bei 100 Fahrzeugen des gleichen Typs sind neben dem Preis (PREIS) auch die gefahrene Strecke (MEILEN) und die Anzahl der Werkstattbesuche (SERVICE) bekannt. Aus diesen Daten wurde das folgende Modell gesch¨atzt.
1. Modell:
Simple Regression - PREIS vs. MEILEN Dependent variable: PREIS
Independent variable: MEILEN Linear model: Y = a + b*X
Coefficients
Least Squares Standard T
Parameter Estimate Error Statistic P-Value Intercept 6533,38 84,5123 77,3069 0,0000 Slope -0,0311577 0,0023089 -13,4947 0,0000
Analysis of Variance
Source Sum of Squares Df Mean Square F-Ratio P-Value Model 4,18353E6 1 4,18353E6 182,11 0,0000 Residual 2,25136E6 98 22973,1
Total (Corr.) 6,43489E6 99
Correlation Coefficient = -0,806308 R-squared = 65,0132 percent Standard Error of Est. = 151,569
a) Wie lautet die Modellgleichung?
b) Welche Hypothese wurde im 1. Modell in der Tabelle
”Coefficients“ in der Zeile”Slope“ getestet und wie lautet die Testentscheidung beiα = 0,05?
Im folgenden Modell wurde die Anzahl der Werkstattbesuche als weitere Einfluss- gr¨oße mit aufgenommen.
2. Modell: Multiple Regression - PREIS Dependent variable: PREIS Independent variables:
MEILEN SERVICE
Standard T
Parameter Estimate Error Statistic P-Value CONSTANT 6206,13 24,9662 248,581 0,0000 MEILEN -0,0314627 0,000631928 -49,7884 0,0000 SERVICE 135,837 3,90259 34,807 0,0000
Analysis of Variance
Source Sum of Squares Df Mean Square F-Ratio P-Value
Model 6,268E6 2 3,134E6 1821,53 0,0000
Residual 166892, 97 1720,53 Total (Corr.) 6,43489E6 99
R-squared = 97,4065 percent Standard Error of Est. = 41,4793
c) Wie lautet im 2. Modell die gesch¨atzte Regressionsfunktion?
d) Es wird behauptet, dass das 2. Modell dem 1. Modell vorzuziehen ist. Geben Sie daf¨ur zwei Gr¨unde an.
(Ein weiterer Test soll dabei aus Zeitgr¨unden nicht durchgef¨uhrt werden.)
L¨osung:
a) Es wurdenn= 100 Fahrzeuge untersucht. Bei Modell 1 handelt es sich um ein einfaches lineares Regressionsmodell. Die Modellgleichung lautet daf¨ur
Y(xi) =a+bxi+εi, i= 1,2, ..., n Dabei bezeichnet
Y . . .die abh¨angige VariablePreis
xi. . .die unabh¨angigen Variablen Meilen
εi. . .den zuf¨alligen (Mess-)Fehler, εi ∼N(0, σ2) iid b) Es wurde auf das Hypothesenpaar
H0 :b= 0 HA:b6= 0
getestet und damit ob die unabh¨angige Variable einen linearen Einfluss auf die abh¨angige Variable hat. Die Testentscheidung wird mit Hilfe des p-Wertes getroffen. Es gilt
p= 0,0000<0,05 =α=⇒H0 ablehnen
Es konnte also ein signifikanter linearer Einfluss der gefahrenen Meilen auf den Preis des Fahrzeuges nachgewiesen werden.
c) Die gesch¨atzte Regressionsfunktion lautet ˆ
y(x) = 6206,13−0,0314627x1+ 135,837x2
mit
ˆ
a1 = 6206,13; ˆa2 =−0,031462; ˆa3 = 135,837.
Dabei bezeichnet ˆy den durch die Regressionsgerade gesch¨atzten Preis, x1 die unabh¨angige VariableMeilen und x2 die unabh¨angige Variable Service.
d) M¨ogliche Gr¨unde sind:
i. DasBestimmtheitsmaß(R-squared) bei Modell 1 betr¨agtB = 65,0132%
und bei Modell 2 B = 97,4065%. Also l¨asst sich bei Modell 2 ein gr¨oßerer Anteil der Streuung, welche man in den Daten des Preises vorfindet, durch die gesch¨atzte Regressionsfunktion des jeweiligen Modells erkl¨aren. Daher w¨are Modell 2 vorzuziehen.
ii. Diegesch¨atzte Fehler-Standartabweichungσˆ(Standard Error of Est.) betr¨agt bei Modell 1 ˆσ = 151,569 und bei Modell 2 ˆσ = 41,4793. Damit streuen die Daten in Modell 2 weniger stark um die gesch¨atzte Regressi- onsfunktion und darum w¨are dieses vorzuziehen.
iii. Anzahl der signifikanten Parameter: Im Modell 1 sind sowohl der Pa- rameter a(Intercept) als auch der Parameterb(Slope) signifikant f¨ur jedes Signifikanzniveau α >0. (In der TabelleCoefficients betragen die jeweili- gen p-Werte beide 0,000.) Im Modell 2 sind alle drei Parameter signifikant f¨ur jedes Signifikanzniveauα >0. (Auch hier betragen die p-Werte 0,0000.) Man w¨urde damit das Modell 2 vorziehen, weil es einen zus¨atzlichen signi- fikanten Parameter aufweist.
2. Aufgabe: Es soll die Abh¨angigkeit der Bev¨olkerung (in Millionen) der USA von der Jahreszahl Jahr= 1790,1800, . . . ,2000,2010 untersucht werden. Es liegen 23 Stichprobenpaare vor. Ein erstes Modell (Modell A) liefert das folgende Ergebnis:
Simple Regression - Bevölkerung vs. Jahr Dependent variable: Bevölkerung
Independent variable: Jahr Linear model: Y = a + b*X
Coefficients
Least Squares Standard T
Parameter Estimate Error Statistic P-Value Intercept -2479,84 166,974 -14,8517 0,0000 Slope 1,35989 0,0878274 15,4837 0,0000
Analysis of Variance
Source Sum of Squares Df Mean Square F-Ratio P-Value
Model 187150 1 187150 239,74 0,0000
Residual 16393,1 21 780,622 Total (Corr.) 203543 22
a) Wie lautet die gesch¨atzte Regressionsfunktion? L¨osung:
y - Bev¨olkerung x- Jahr
ˆ
y(x) =−2479.84 + 1.35989x b) Bestimmen Sie das Bestimmtheitsmaß.
B = SSE
SST = 187150
203543 = 0.9195
91.95% der Streuung von der Bev¨olkerung (y) werden durch die gesch¨atzte Regressionsfunktion erkl¨art.
c) Was k¨onnen Sie aus der folgenden Grafik ablesen?
L¨osung:
Man erkennt deutlich eine Struktur, n¨amlich eine Parabel, im Residualplot.
Daraus l¨asst sich die Empfehlung ableiten das Modell noch um eine quadrati- sche Komponente zu erweitern.
Ein zweites Modell (Modell B) liefert als Ergebnis:
Multiple Regression - Bevölkerung Dependent variable: Bevölkerung
Independent variables:
Jahr Jahr^2
Standard T
Parameter Estimate Error Statistic P-Value CONSTANT 21913,8 576,209 38,0309 0,0000 Jahr -24,3489 0,607054 -40,1099 0,0000 Jahr^2 0,00676548 0,000159732 42,3552 0,0000
Analysis of Variance
Source Sum of Squares Df Mean Square F-Ratio P-Value
Model 203362 2 101681 11251,47 0,0000
Residual 180,743 20 9,03715 Total (Corr.) 203543 22
R-squared = 99,9112 percent Standard Error of Est. = 3,00618
d) Testen Sie zum Signifikanzniveau α = 0,01, ob das kleinere Modell A ge- gen¨uber dem gr¨oßeren Modell B gen¨ugt, oder ob das gr¨oßere Modell B zu einer signifikanten Verbesserung f¨uhrt.
L¨osung:
F-Test zu Modell¨uberpr¨ufung. n= 23
kleineres Modell A: rk= 2 (2 Parameter) und SSRk= 16393.1 gr¨oßeres Model B: rg = 3 (3 Parameter) und SSRg = 180.743 1.) H0 :
”kleineres Modell A ist gegen¨uber gr¨oßeren Modell B ausreichend.“
HA:
”kleineres Modell A ist gegen¨uber gr¨oßeren Modell B nicht ausreichend.“
2.) α= 0.01 3.)
T = (n−rg)
rk · (SSRk−SSRg) SSRg 4.)
K = {t|t > Frk,n−rg;1−α}
= {t|t > F2,20;0.99 = 5.85}
5.)
t= (23−3)
2 · (16393.1−180.743)
180.743 = 896.98 6.) t= 896.98>5.85 =⇒ t∈K =⇒ H0 wird abgelehnt.
D.h. das gr¨oßere Modell B f¨uhrt zu einer signifikanten Verbesserung gegen¨uber dem kleineren Modell A. Das kleinere Modell A ist gegen¨uber den gr¨oßeren Modell B nicht ausreichend.
3. Aufgabe: F¨ur 29 PKWs wurden die Merkmale Preis Y (in e), gefahrene Kilo- meter X1, LeistungX2 (in P s) undAlter X3 (in Jahren) erfasst. Aus den Daten erh¨alt man das folgende Ergebnis.
Multiple Regression - Preis
Dependent variable: Preis Independent variables:
Kilometer Leistung Alter
Standard T
Parameter Estimate Error Statistic P-Value CONSTANT 16646,2 771,963 21,5635 0,0000 Kilometer -0,0157827 0,00253198 -6,23334 0,0000 Leistung 5,92975 5,19015 1,1425 0,2641 Alter -907,708 44,4003 -20,4437 0,0000 a) Wie lautet die gesch¨atzte Regressionsfunktion?
—————————————————————————————- L¨osung:
ˆ
y(x) = ˆa1−ˆa2x1+ ˆa3x2+ ˆa4x3
= 16646,2−0,0157827x1+ 5,92975x2−907,708x3
—————————————————————————————-
b) Welche der drei Einflussgr¨oßen w¨urden Sie am ehesten aus dem Modell entfernen? Begr¨unden Sie Ihre Entscheidung kurz.
—————————————————————————————- L¨osung:
Egal ob man das Signifikanzniveau α = 0,05 oder α = 0,01 w¨ahlt, man sieht bei den t-Tests f¨ur die einzelenen Parameter immer, dass der Parameter a3 nicht signifikant von 0 verschieden ist und die anderen 3 Parameter hingen schon. Darum kann die Variable Leistung am ehesten aus den Modell entfernt werden.
H0 : a1 = 0 gegen H1 : a1 6= 0 p= 0,0000< α =⇒H0 wird abgelehnt.
H0 : a2 = 0 gegen H1 : a2 6= 0 p= 0,0000< α =⇒H0 wird abgelehnt.
H0 : a3 = 0 gegen H1 : a3 6= 0 p= 0,2641> α =⇒H0 wird angenommen.
H0 : a4 = 0 gegen H1 : a4 6= 0 p= 0,0000< α =⇒H0 wird abgelehnt.
—————————————————————————————-
c) Im Folgenden wurden f¨ur zwei weitere Regressionsmodelle die Ergebnisse mit Statgraphics erstellt.
Modell 1:
Simple Regression - Preis vs. Kilometer
Dependent variable: Preis Independent variable: Kilometer Linear model: Y = a + b*X
Coefficients
Least Squares Standard T
Parameter Estimate Error Statistic P-Value Intercept 15966,7 1626,16 9,81863 0,0000 Slope -0,0460363 0,00863454 -5,33165 0,0000
Analysis of Variance
Source Sum of Squares Df Mean Square F-Ratio P-Value Model 1,93448E8 1 1,93448E8 28,43 0,0000 Residual 1,8374E8 27 6,8052E6
Total (Corr.) 3,77188E8 28
R-squared = 51,2868 percent Standard Error of Est. = 2608,68
Modell 2:
Simple Regression - Preis vs. Alter
Dependent variable: Preis Independent variable: Alter Linear model: Y = a + b*X
Coefficients
Least Squares Standard T
Parameter Estimate Error Statistic P-Value Intercept 15775,4 450,764 34,9971 0,0000 Slope -1071,45 54,8556 -19,5323 0,0000
Analysis of Variance
Source Sum of Squares Df Mean Square F-Ratio P-Value Model 3,52258E8 1 3,52258E8 381,51 0,0000 Residual 2,49299E7 27 923328,
Total (Corr.) 3,77188E8 28
i) Bestimmen Sie f¨ur das Modell 2 das Bestimmtheitsmaß.
—————————————————————————————- L¨osung:
B = SSE
SST = 3,52258·108
3,77188·108 = 0,9339
—————————————————————————————-
ii) Bestimmen Sie f¨ur das Modell 2 die Sch¨atzung f¨ur die Standardabweichung des Fehlers.
—————————————————————————————- L¨osung:
n = 29 und r= 2 Parameter ˆ
σ2 =s2Rest= 1
(n−2)SSR = 1
(29−2)2,49299·107 = 923329,6
=⇒σˆ =sRest= 960,9
—————————————————————————————- iii) Welches der beiden Modelle w¨urden Sie dem anderen Modell vorziehen?
Begr¨unden Sie Ihre Wahl kurz.
—————————————————————————————- L¨osung:
Beide Modelle haben 2 Parameter, welche beide signifikant von 0 verschie- den sind.
Das Modell 2 hat aber das deutlich bessere Bestimmtheitsmaß(0,9339) im Vergleich zum Modell 1 (0,512868). Beim Modell 2 werden 93,39% durch die gesch¨atze Regressionsfunktion erkl¨art und beim Modell 1 nur 51,29%.
Das Modell 2 ist also besser und man w¨urde es den Modell 1 vorziehen.
Dieser Vorteil spiegelt sich auch in der kleineren gesch¨atzten Standard- abweichung des Fehlers wieder. Beim Modell 2 ist diese 960,9 und beim Modell 1 mit 2608,68 deutlich gr¨oßer.
—————————————————————————————-
4. Aufgabe: F¨ur 20 Fahrzeuge eines Typs wurden das Alter, die gefahrenen Kilome- ter und der aktuelle Preis erfasst. Mit diesen Daten wurde folgendes Statgraphics- Ergebnis erstellt.
Multiple Regression - Preis Dependent variable: Preis Independent variables:
Alter Kilometer
Standard T
Parameter Estimate Error Statistic P-Value
CONSTANT 12526,3 574,898 21,7888 0,0000
Alter -827,245 42,2323 -19,588 0,0000
Kilometer -0,00635206 0,00918315 -0,691708 0,4990
Analysis of Variance
Source Sum of Squares Df Mean Square F-Ratio P-Value
Model 4,94745E7 2 2,47372E7 192,35 0,0000
Residual 2,05767E6 16 128604, Total (Corr.) 5,15322E7 18
a) Wie lautet die gesch¨atzte Regressionsfunktion?
b) Bestimmen Sie das BestimmtheitsmaßB.
c) Welchen Verkaufspreis w¨urden Sie mit obigem Modell f¨ur ein 3 Jahre altes Auto, welches nur 15000 Kilometer gefahren ist, prognostizieren?
L¨osung:
y - Preis x1 - Alter x2 - Kilometer
a)
ˆ
y(x) = 12526,3−827,245·x1−0,00635206·x2 b)
B = SSE
SST = 4,94745·107
5,15322·107 = 0,96 c) x=
µ x1 x2
¶
=
µ 3 15000
¶
ˆ
y(x) = 12526,3−827,245·3−0,00635206·15000 = 9949,28
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−