11. L¨osung weitere ¨Ubungsaufgaben Statistik II WiSe 2019/2020

(1)

11. L¨osung weitere ¨ Ubungsaufgaben Statistik II WiSe 2019/2020

1. Aufgabe: Bei 100 Fahrzeugen des gleichen Typs sind neben dem Preis (PREIS) auch die gefahrene Strecke (MEILEN) und die Anzahl der Werkstattbesuche (SERVICE) bekannt. Aus diesen Daten wurde das folgende Modell gesch¨atzt.

1. Modell:

Simple Regression - PREIS vs. MEILEN Dependent variable: PREIS

Independent variable: MEILEN Linear model: Y = a + b*X

Coefficients

Least Squares Standard T

Parameter Estimate Error Statistic P-Value Intercept 6533,38 84,5123 77,3069 0,0000 Slope -0,0311577 0,0023089 -13,4947 0,0000

Analysis of Variance

Source Sum of Squares Df Mean Square F-Ratio P-Value Model 4,18353E6 1 4,18353E6 182,11 0,0000 Residual 2,25136E6 98 22973,1

Total (Corr.) 6,43489E6 99

Correlation Coefficient = -0,806308 R-squared = 65,0132 percent Standard Error of Est. = 151,569

a) Wie lautet die Modellgleichung?

b) Welche Hypothese wurde im 1. Modell in der Tabelle

”Coefficients“ in der Zeile”Slope“ getestet und wie lautet die Testentscheidung beiα = 0,05?

Im folgenden Modell wurde die Anzahl der Werkstattbesuche als weitere Einfluss- gr¨oße mit aufgenommen.

2. Modell: Multiple Regression - PREIS Dependent variable: PREIS Independent variables:

MEILEN SERVICE

Standard T

Parameter Estimate Error Statistic P-Value CONSTANT 6206,13 24,9662 248,581 0,0000 MEILEN -0,0314627 0,000631928 -49,7884 0,0000 SERVICE 135,837 3,90259 34,807 0,0000

Source Sum of Squares Df Mean Square F-Ratio P-Value

Model 6,268E6 2 3,134E6 1821,53 0,0000

Residual 166892, 97 1720,53 Total (Corr.) 6,43489E6 99

R-squared = 97,4065 percent Standard Error of Est. = 41,4793

c) Wie lautet im 2. Modell die gesch¨atzte Regressionsfunktion?

d) Es wird behauptet, dass das 2. Modell dem 1. Modell vorzuziehen ist. Geben Sie daf¨ur zwei Gr¨unde an.

(Ein weiterer Test soll dabei aus Zeitgr¨unden nicht durchgef¨uhrt werden.)

(2)

L¨osung:

a) Es wurdenn= 100 Fahrzeuge untersucht. Bei Modell 1 handelt es sich um ein einfaches lineares Regressionsmodell. Die Modellgleichung lautet daf¨ur

Y(xi) =a+bxi+εi, i= 1,2, ..., n Dabei bezeichnet

Y . . .die abh¨angige VariablePreis

xi. . .die unabh¨angigen Variablen Meilen

εi. . .den zuf¨alligen (Mess-)Fehler, εi ∼N(0, σ²) iid b) Es wurde auf das Hypothesenpaar

H₀ :b= 0 H_A:b6= 0

getestet und damit ob die unabh¨angige Variable einen linearen Einfluss auf die abh¨angige Variable hat. Die Testentscheidung wird mit Hilfe des p-Wertes getroffen. Es gilt

p= 0,0000<0,05 =α=⇒H₀ ablehnen

Es konnte also ein signifikanter linearer Einfluss der gefahrenen Meilen auf den Preis des Fahrzeuges nachgewiesen werden.

c) Die gesch¨atzte Regressionsfunktion lautet ˆ

y(x) = 6206,13−0,0314627x1+ 135,837x2

mit

ˆ

a₁ = 6206,13; ˆa₂ =−0,031462; ˆa₃ = 135,837.

Dabei bezeichnet ˆy den durch die Regressionsgerade geschätzten Preis, x₁ die unabhängige VariableMeilen und x2 die unabhängige Variable Service.

d) M¨ogliche Gr¨unde sind:

i. DasBestimmtheitsmaß(R-squared) bei Modell 1 betr¨agtB = 65,0132%

und bei Modell 2 B = 97,4065%. Also lässt sich bei Modell 2 ein größerer Anteil der Streuung, welche man in den Daten des Preises vorfindet, durch die geschätzte Regressionsfunktion des jeweiligen Modells erklären. Daher wäre Modell 2 vorzuziehen.

ii. Diegeschätzte Fehler-Standartabweichungσˆ(Standard Error of Est.) beträgt bei Modell 1 ˆσ = 151,569 und bei Modell 2 ˆσ = 41,4793. Damit streuen die Daten in Modell 2 weniger stark um die geschätzte Regressi- onsfunktion und darum wäre dieses vorzuziehen.

iii. Anzahl der signifikanten Parameter: Im Modell 1 sind sowohl der Pa- rameter a(Intercept) als auch der Parameterb(Slope) signifikant für jedes Signifikanzniveau α >0. (In der TabelleCoefficients betragen die jeweiligen p-Werte beide 0,000.) Im Modell 2 sind alle drei Parameter signifikant für jedes Signifikanzniveauα >0. (Auch hier betragen die p-Werte 0,0000.) Man würde damit das Modell 2 vorziehen, weil es einen zusätzlichen signifikanten Parameter aufweist.

(3)

2. Aufgabe: Es soll die Abh¨angigkeit der Bev¨olkerung (in Millionen) der USA von der Jahreszahl Jahr= 1790,1800, . . . ,2000,2010 untersucht werden. Es liegen 23 Stichprobenpaare vor. Ein erstes Modell (Modell A) liefert das folgende Ergebnis:

Simple Regression - Bevölkerung vs. Jahr Dependent variable: Bevölkerung

Independent variable: Jahr Linear model: Y = a + b*X

Coefficients

Parameter Estimate Error Statistic P-Value Intercept -2479,84 166,974 -14,8517 0,0000 Slope 1,35989 0,0878274 15,4837 0,0000

Model 187150 1 187150 239,74 0,0000

Residual 16393,1 21 780,622 Total (Corr.) 203543 22

a) Wie lautet die gesch¨atzte Regressionsfunktion? L¨osung:

y - Bev¨olkerung x- Jahr

ˆ

y(x) =−2479.84 + 1.35989x b) Bestimmen Sie das Bestimmtheitsmaß.

B = SSE

SST = 187150

203543 = 0.9195

91.95% der Streuung von der Bevölkerung (y) werden durch die geschätzte Regressionsfunktion erklärt.

c) Was k¨onnen Sie aus der folgenden Grafik ablesen?

L¨osung:

Man erkennt deutlich eine Struktur, n¨amlich eine Parabel, im Residualplot.

Daraus l¨asst sich die Empfehlung ableiten das Modell noch um eine quadrati- sche Komponente zu erweitern.

(4)

Ein zweites Modell (Modell B) liefert als Ergebnis:

Multiple Regression - Bevölkerung Dependent variable: Bevölkerung

Independent variables:

Jahr Jahr^2

Standard T

Parameter Estimate Error Statistic P-Value CONSTANT 21913,8 576,209 38,0309 0,0000 Jahr -24,3489 0,607054 -40,1099 0,0000 Jahr^2 0,00676548 0,000159732 42,3552 0,0000

Model 203362 2 101681 11251,47 0,0000

Residual 180,743 20 9,03715 Total (Corr.) 203543 22

d) Testen Sie zum Signifikanzniveau α = 0,01, ob das kleinere Modell A ge- genüber dem größeren Modell B genügt, oder ob das größere Modell B zu einer signifikanten Verbesserung führt.

L¨osung:

F-Test zu Modell¨uberpr¨ufung. n= 23

kleineres Modell A: rk= 2 (2 Parameter) und SSRk= 16393.1 gr¨oßeres Model B: r_g = 3 (3 Parameter) und SSR_g = 180.743 1.) H₀ :

”kleineres Modell A ist gegen¨uber gr¨oßeren Modell B ausreichend.“

H_A:

”kleineres Modell A ist gegen¨uber gr¨oßeren Modell B nicht ausreichend.“

2.) α= 0.01 3.)

T = (n−r_g)

r_k · (SSR_k−SSRg) SSR_g 4.)

K = {t|t > F_r_k_,n−r_g_;1−α}

= {t|t > F_2,20;0.99 = 5.85}

5.)

t= (23−3)

2 · (16393.1−180.743)

180.743 = 896.98 6.) t= 896.98>5.85 =⇒ t∈K =⇒ H₀ wird abgelehnt.

D.h. das größere Modell B führt zu einer signifikanten Verbesserung gegenüber dem kleineren Modell A. Das kleinere Modell A ist gegenüber den größeren Modell B nicht ausreichend.

(5)

3. Aufgabe: F¨ur 29 PKWs wurden die Merkmale Preis Y (in e), gefahrene Kilo- meter X1, LeistungX2 (in P s) undAlter X3 (in Jahren) erfasst. Aus den Daten erh¨alt man das folgende Ergebnis.

Multiple Regression - Preis

Dependent variable: Preis Independent variables:

Kilometer Leistung Alter

Standard T

Parameter Estimate Error Statistic P-Value CONSTANT 16646,2 771,963 21,5635 0,0000 Kilometer -0,0157827 0,00253198 -6,23334 0,0000 Leistung 5,92975 5,19015 1,1425 0,2641 Alter -907,708 44,4003 -20,4437 0,0000 a) Wie lautet die gesch¨atzte Regressionsfunktion?

—————————————————————————————- L¨osung:

ˆ

y(x) = â1−â2x1+ â3x2+ â4x3

= 16646,2−0,0157827x₁+ 5,92975x₂−907,708x₃

—————————————————————————————-

b) Welche der drei Einflussgrößen würden Sie am ehesten aus dem Modell entfernen? Begründen Sie Ihre Entscheidung kurz.

—————————————————————————————- L¨osung:

Egal ob man das Signifikanzniveau α = 0,05 oder α = 0,01 w¨ahlt, man sieht bei den t-Tests f¨ur die einzelenen Parameter immer, dass der Parameter a₃ nicht signifikant von 0 verschieden ist und die anderen 3 Parameter hingen schon. Darum kann die Variable Leistung am ehesten aus den Modell entfernt werden.

H₀ : a₁ = 0 gegen H₁ : a₁ 6= 0 p= 0,0000< α =⇒H₀ wird abgelehnt.

H₀ : a₂ = 0 gegen H₁ : a₂ 6= 0 p= 0,0000< α =⇒H₀ wird abgelehnt.

H₀ : a₃ = 0 gegen H₁ : a₃ 6= 0 p= 0,2641> α =⇒H₀ wird angenommen.

H₀ : a₄ = 0 gegen H₁ : a₄ 6= 0 p= 0,0000< α =⇒H₀ wird abgelehnt.

—————————————————————————————-

(6)

c) Im Folgenden wurden f¨ur zwei weitere Regressionsmodelle die Ergebnisse mit Statgraphics erstellt.

Modell 1:

Simple Regression - Preis vs. Kilometer

Dependent variable: Preis Independent variable: Kilometer Linear model: Y = a + b*X

Coefficients

Source Sum of Squares Df Mean Square F-Ratio P-Value Model 1,93448E8 1 1,93448E8 28,43 0,0000 Residual 1,8374E8 27 6,8052E6

Total (Corr.) 3,77188E8 28

Modell 2:

Simple Regression - Preis vs. Alter

Dependent variable: Preis Independent variable: Alter Linear model: Y = a + b*X

Coefficients

Source Sum of Squares Df Mean Square F-Ratio P-Value Model 3,52258E8 1 3,52258E8 381,51 0,0000 Residual 2,49299E7 27 923328,

Total (Corr.) 3,77188E8 28

i) Bestimmen Sie f¨ur das Modell 2 das Bestimmtheitsmaß.

—————————————————————————————- L¨osung:

B = SSE

SST = 3,52258·10⁸

3,77188·10⁸ = 0,9339

—————————————————————————————-

(7)

ii) Bestimmen Sie für das Modell 2 die Schätzung für die Standardabweichung des Fehlers.

—————————————————————————————- L¨osung:

n = 29 und r= 2 Parameter ˆ

σ² =s²_Rest= 1

(n−2)SSR = 1

(29−2)2,49299·10⁷ = 923329,6

=⇒σˆ =s_Rest= 960,9

—————————————————————————————- iii) Welches der beiden Modelle w¨urden Sie dem anderen Modell vorziehen?

Begr¨unden Sie Ihre Wahl kurz.

—————————————————————————————- L¨osung:

Beide Modelle haben 2 Parameter, welche beide signifikant von 0 verschieden sind.

Das Modell 2 hat aber das deutlich bessere Bestimmtheitsmaß(0,9339) im Vergleich zum Modell 1 (0,512868). Beim Modell 2 werden 93,39% durch die gesch¨atze Regressionsfunktion erkl¨art und beim Modell 1 nur 51,29%.

Das Modell 2 ist also besser und man w¨urde es den Modell 1 vorziehen.

Dieser Vorteil spiegelt sich auch in der kleineren gesch¨atzten Standard- abweichung des Fehlers wieder. Beim Modell 2 ist diese 960,9 und beim Modell 1 mit 2608,68 deutlich gr¨oßer.

—————————————————————————————-

(8)

4. Aufgabe: F¨ur 20 Fahrzeuge eines Typs wurden das Alter, die gefahrenen Kilome- ter und der aktuelle Preis erfasst. Mit diesen Daten wurde folgendes Statgraphics- Ergebnis erstellt.

Multiple Regression - Preis Dependent variable: Preis Independent variables:

Alter Kilometer

Standard T

Parameter Estimate Error Statistic P-Value

CONSTANT 12526,3 574,898 21,7888 0,0000

Alter -827,245 42,2323 -19,588 0,0000

Kilometer -0,00635206 0,00918315 -0,691708 0,4990

Model 4,94745E7 2 2,47372E7 192,35 0,0000

Residual 2,05767E6 16 128604, Total (Corr.) 5,15322E7 18

a) Wie lautet die gesch¨atzte Regressionsfunktion?

b) Bestimmen Sie das BestimmtheitsmaßB.

c) Welchen Verkaufspreis w¨urden Sie mit obigem Modell f¨ur ein 3 Jahre altes Auto, welches nur 15000 Kilometer gefahren ist, prognostizieren?

L¨osung:

y - Preis x1 - Alter x₂ - Kilometer

a)

ˆ

y(x) = 12526,3−827,245·x₁−0,00635206·x₂ b)

B = SSE

SST = 4,94745·10⁷

5,15322·10⁷ = 0,96 c) x=

µ x₁ x₂

¶

=

µ 3 15000

¶

ˆ

y(x) = 12526,3−827,245·3−0,00635206·15000 = 9949,28

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−