• Keine Ergebnisse gefunden

11. L¨osung weitere ¨Ubungsaufgaben Statistik II WiSe 2019/2020

N/A
N/A
Protected

Academic year: 2021

Aktie "11. L¨osung weitere ¨Ubungsaufgaben Statistik II WiSe 2019/2020"

Copied!
8
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

11. L¨osung weitere ¨ Ubungsaufgaben Statistik II WiSe 2019/2020

1. Aufgabe: Bei 100 Fahrzeugen des gleichen Typs sind neben dem Preis (PREIS) auch die gefahrene Strecke (MEILEN) und die Anzahl der Werkstattbesuche (SERVICE) bekannt. Aus diesen Daten wurde das folgende Modell gesch¨atzt.

1. Modell:

Simple Regression - PREIS vs. MEILEN Dependent variable: PREIS

Independent variable: MEILEN Linear model: Y = a + b*X

Coefficients

Least Squares Standard T

Parameter Estimate Error Statistic P-Value Intercept 6533,38 84,5123 77,3069 0,0000 Slope -0,0311577 0,0023089 -13,4947 0,0000

Analysis of Variance

Source Sum of Squares Df Mean Square F-Ratio P-Value Model 4,18353E6 1 4,18353E6 182,11 0,0000 Residual 2,25136E6 98 22973,1

Total (Corr.) 6,43489E6 99

Correlation Coefficient = -0,806308 R-squared = 65,0132 percent Standard Error of Est. = 151,569

a) Wie lautet die Modellgleichung?

b) Welche Hypothese wurde im 1. Modell in der Tabelle

”Coefficients“ in der Zeile”Slope“ getestet und wie lautet die Testentscheidung beiα = 0,05?

Im folgenden Modell wurde die Anzahl der Werkstattbesuche als weitere Einfluss- gr¨oße mit aufgenommen.

2. Modell: Multiple Regression - PREIS Dependent variable: PREIS Independent variables:

MEILEN SERVICE

Standard T

Parameter Estimate Error Statistic P-Value CONSTANT 6206,13 24,9662 248,581 0,0000 MEILEN -0,0314627 0,000631928 -49,7884 0,0000 SERVICE 135,837 3,90259 34,807 0,0000

Analysis of Variance

Source Sum of Squares Df Mean Square F-Ratio P-Value

Model 6,268E6 2 3,134E6 1821,53 0,0000

Residual 166892, 97 1720,53 Total (Corr.) 6,43489E6 99

R-squared = 97,4065 percent Standard Error of Est. = 41,4793

c) Wie lautet im 2. Modell die gesch¨atzte Regressionsfunktion?

d) Es wird behauptet, dass das 2. Modell dem 1. Modell vorzuziehen ist. Geben Sie daf¨ur zwei Gr¨unde an.

(Ein weiterer Test soll dabei aus Zeitgr¨unden nicht durchgef¨uhrt werden.)

(2)

L¨osung:

a) Es wurdenn= 100 Fahrzeuge untersucht. Bei Modell 1 handelt es sich um ein einfaches lineares Regressionsmodell. Die Modellgleichung lautet daf¨ur

Y(xi) =a+bxi+εi, i= 1,2, ..., n Dabei bezeichnet

Y . . .die abh¨angige VariablePreis

xi. . .die unabh¨angigen Variablen Meilen

εi. . .den zuf¨alligen (Mess-)Fehler, εi ∼N(0, σ2) iid b) Es wurde auf das Hypothesenpaar

H0 :b= 0 HA:b6= 0

getestet und damit ob die unabh¨angige Variable einen linearen Einfluss auf die abh¨angige Variable hat. Die Testentscheidung wird mit Hilfe des p-Wertes getroffen. Es gilt

p= 0,0000<0,05 =α=⇒H0 ablehnen

Es konnte also ein signifikanter linearer Einfluss der gefahrenen Meilen auf den Preis des Fahrzeuges nachgewiesen werden.

c) Die gesch¨atzte Regressionsfunktion lautet ˆ

y(x) = 6206,13−0,0314627x1+ 135,837x2

mit

ˆ

a1 = 6206,13; ˆa2 =−0,031462; ˆa3 = 135,837.

Dabei bezeichnet ˆy den durch die Regressionsgerade gesch¨atzten Preis, x1 die unabh¨angige VariableMeilen und x2 die unabh¨angige Variable Service.

d) M¨ogliche Gr¨unde sind:

i. DasBestimmtheitsmaß(R-squared) bei Modell 1 betr¨agtB = 65,0132%

und bei Modell 2 B = 97,4065%. Also l¨asst sich bei Modell 2 ein gr¨oßerer Anteil der Streuung, welche man in den Daten des Preises vorfindet, durch die gesch¨atzte Regressionsfunktion des jeweiligen Modells erkl¨aren. Daher w¨are Modell 2 vorzuziehen.

ii. Diegesch¨atzte Fehler-Standartabweichungσˆ(Standard Error of Est.) betr¨agt bei Modell 1 ˆσ = 151,569 und bei Modell 2 ˆσ = 41,4793. Damit streuen die Daten in Modell 2 weniger stark um die gesch¨atzte Regressi- onsfunktion und darum w¨are dieses vorzuziehen.

iii. Anzahl der signifikanten Parameter: Im Modell 1 sind sowohl der Pa- rameter a(Intercept) als auch der Parameterb(Slope) signifikant f¨ur jedes Signifikanzniveau α >0. (In der TabelleCoefficients betragen die jeweili- gen p-Werte beide 0,000.) Im Modell 2 sind alle drei Parameter signifikant f¨ur jedes Signifikanzniveauα >0. (Auch hier betragen die p-Werte 0,0000.) Man w¨urde damit das Modell 2 vorziehen, weil es einen zus¨atzlichen signi- fikanten Parameter aufweist.

(3)

2. Aufgabe: Es soll die Abh¨angigkeit der Bev¨olkerung (in Millionen) der USA von der Jahreszahl Jahr= 1790,1800, . . . ,2000,2010 untersucht werden. Es liegen 23 Stichprobenpaare vor. Ein erstes Modell (Modell A) liefert das folgende Ergebnis:

Simple Regression - Bevölkerung vs. Jahr Dependent variable: Bevölkerung

Independent variable: Jahr Linear model: Y = a + b*X

Coefficients

Least Squares Standard T

Parameter Estimate Error Statistic P-Value Intercept -2479,84 166,974 -14,8517 0,0000 Slope 1,35989 0,0878274 15,4837 0,0000

Analysis of Variance

Source Sum of Squares Df Mean Square F-Ratio P-Value

Model 187150 1 187150 239,74 0,0000

Residual 16393,1 21 780,622 Total (Corr.) 203543 22

a) Wie lautet die gesch¨atzte Regressionsfunktion? L¨osung:

y - Bev¨olkerung x- Jahr

ˆ

y(x) =−2479.84 + 1.35989x b) Bestimmen Sie das Bestimmtheitsmaß.

B = SSE

SST = 187150

203543 = 0.9195

91.95% der Streuung von der Bev¨olkerung (y) werden durch die gesch¨atzte Regressionsfunktion erkl¨art.

c) Was k¨onnen Sie aus der folgenden Grafik ablesen?

L¨osung:

Man erkennt deutlich eine Struktur, n¨amlich eine Parabel, im Residualplot.

Daraus l¨asst sich die Empfehlung ableiten das Modell noch um eine quadrati- sche Komponente zu erweitern.

(4)

Ein zweites Modell (Modell B) liefert als Ergebnis:

Multiple Regression - Bevölkerung Dependent variable: Bevölkerung

Independent variables:

Jahr Jahr^2

Standard T

Parameter Estimate Error Statistic P-Value CONSTANT 21913,8 576,209 38,0309 0,0000 Jahr -24,3489 0,607054 -40,1099 0,0000 Jahr^2 0,00676548 0,000159732 42,3552 0,0000

Analysis of Variance

Source Sum of Squares Df Mean Square F-Ratio P-Value

Model 203362 2 101681 11251,47 0,0000

Residual 180,743 20 9,03715 Total (Corr.) 203543 22

R-squared = 99,9112 percent Standard Error of Est. = 3,00618

d) Testen Sie zum Signifikanzniveau α = 0,01, ob das kleinere Modell A ge- gen¨uber dem gr¨oßeren Modell B gen¨ugt, oder ob das gr¨oßere Modell B zu einer signifikanten Verbesserung f¨uhrt.

L¨osung:

F-Test zu Modell¨uberpr¨ufung. n= 23

kleineres Modell A: rk= 2 (2 Parameter) und SSRk= 16393.1 gr¨oßeres Model B: rg = 3 (3 Parameter) und SSRg = 180.743 1.) H0 :

”kleineres Modell A ist gegen¨uber gr¨oßeren Modell B ausreichend.“

HA:

”kleineres Modell A ist gegen¨uber gr¨oßeren Modell B nicht ausreichend.“

2.) α= 0.01 3.)

T = (n−rg)

rk · (SSRk−SSRg) SSRg 4.)

K = {t|t > Frk,n−rg;1−α}

= {t|t > F2,20;0.99 = 5.85}

5.)

t= (233)

2 · (16393.1180.743)

180.743 = 896.98 6.) t= 896.98>5.85 = t∈K = H0 wird abgelehnt.

D.h. das gr¨oßere Modell B f¨uhrt zu einer signifikanten Verbesserung gegen¨uber dem kleineren Modell A. Das kleinere Modell A ist gegen¨uber den gr¨oßeren Modell B nicht ausreichend.

(5)

3. Aufgabe: F¨ur 29 PKWs wurden die Merkmale Preis Y (in e), gefahrene Kilo- meter X1, LeistungX2 (in P s) undAlter X3 (in Jahren) erfasst. Aus den Daten erh¨alt man das folgende Ergebnis.

Multiple Regression - Preis

Dependent variable: Preis Independent variables:

Kilometer Leistung Alter

Standard T

Parameter Estimate Error Statistic P-Value CONSTANT 16646,2 771,963 21,5635 0,0000 Kilometer -0,0157827 0,00253198 -6,23334 0,0000 Leistung 5,92975 5,19015 1,1425 0,2641 Alter -907,708 44,4003 -20,4437 0,0000 a) Wie lautet die gesch¨atzte Regressionsfunktion?

—————————————————————————————- L¨osung:

ˆ

y(x) = ˆa1ˆa2x1+ ˆa3x2+ ˆa4x3

= 16646,20,0157827x1+ 5,92975x2907,708x3

—————————————————————————————-

b) Welche der drei Einflussgr¨oßen w¨urden Sie am ehesten aus dem Modell entfernen? Begr¨unden Sie Ihre Entscheidung kurz.

—————————————————————————————- L¨osung:

Egal ob man das Signifikanzniveau α = 0,05 oder α = 0,01 w¨ahlt, man sieht bei den t-Tests f¨ur die einzelenen Parameter immer, dass der Parameter a3 nicht signifikant von 0 verschieden ist und die anderen 3 Parameter hingen schon. Darum kann die Variable Leistung am ehesten aus den Modell entfernt werden.

H0 : a1 = 0 gegen H1 : a1 6= 0 p= 0,0000< α =⇒H0 wird abgelehnt.

H0 : a2 = 0 gegen H1 : a2 6= 0 p= 0,0000< α =⇒H0 wird abgelehnt.

H0 : a3 = 0 gegen H1 : a3 6= 0 p= 0,2641> α =⇒H0 wird angenommen.

H0 : a4 = 0 gegen H1 : a4 6= 0 p= 0,0000< α =⇒H0 wird abgelehnt.

—————————————————————————————-

(6)

c) Im Folgenden wurden f¨ur zwei weitere Regressionsmodelle die Ergebnisse mit Statgraphics erstellt.

Modell 1:

Simple Regression - Preis vs. Kilometer

Dependent variable: Preis Independent variable: Kilometer Linear model: Y = a + b*X

Coefficients

Least Squares Standard T

Parameter Estimate Error Statistic P-Value Intercept 15966,7 1626,16 9,81863 0,0000 Slope -0,0460363 0,00863454 -5,33165 0,0000

Analysis of Variance

Source Sum of Squares Df Mean Square F-Ratio P-Value Model 1,93448E8 1 1,93448E8 28,43 0,0000 Residual 1,8374E8 27 6,8052E6

Total (Corr.) 3,77188E8 28

R-squared = 51,2868 percent Standard Error of Est. = 2608,68

Modell 2:

Simple Regression - Preis vs. Alter

Dependent variable: Preis Independent variable: Alter Linear model: Y = a + b*X

Coefficients

Least Squares Standard T

Parameter Estimate Error Statistic P-Value Intercept 15775,4 450,764 34,9971 0,0000 Slope -1071,45 54,8556 -19,5323 0,0000

Analysis of Variance

Source Sum of Squares Df Mean Square F-Ratio P-Value Model 3,52258E8 1 3,52258E8 381,51 0,0000 Residual 2,49299E7 27 923328,

Total (Corr.) 3,77188E8 28

i) Bestimmen Sie f¨ur das Modell 2 das Bestimmtheitsmaß.

—————————————————————————————- L¨osung:

B = SSE

SST = 3,52258·108

3,77188·108 = 0,9339

—————————————————————————————-

(7)

ii) Bestimmen Sie f¨ur das Modell 2 die Sch¨atzung f¨ur die Standardabweichung des Fehlers.

—————————————————————————————- L¨osung:

n = 29 und r= 2 Parameter ˆ

σ2 =s2Rest= 1

(n2)SSR = 1

(292)2,49299·107 = 923329,6

=⇒σˆ =sRest= 960,9

—————————————————————————————- iii) Welches der beiden Modelle w¨urden Sie dem anderen Modell vorziehen?

Begr¨unden Sie Ihre Wahl kurz.

—————————————————————————————- L¨osung:

Beide Modelle haben 2 Parameter, welche beide signifikant von 0 verschie- den sind.

Das Modell 2 hat aber das deutlich bessere Bestimmtheitsmaß(0,9339) im Vergleich zum Modell 1 (0,512868). Beim Modell 2 werden 93,39% durch die gesch¨atze Regressionsfunktion erkl¨art und beim Modell 1 nur 51,29%.

Das Modell 2 ist also besser und man w¨urde es den Modell 1 vorziehen.

Dieser Vorteil spiegelt sich auch in der kleineren gesch¨atzten Standard- abweichung des Fehlers wieder. Beim Modell 2 ist diese 960,9 und beim Modell 1 mit 2608,68 deutlich gr¨oßer.

—————————————————————————————-

(8)

4. Aufgabe: F¨ur 20 Fahrzeuge eines Typs wurden das Alter, die gefahrenen Kilome- ter und der aktuelle Preis erfasst. Mit diesen Daten wurde folgendes Statgraphics- Ergebnis erstellt.

Multiple Regression - Preis Dependent variable: Preis Independent variables:

Alter Kilometer

Standard T

Parameter Estimate Error Statistic P-Value

CONSTANT 12526,3 574,898 21,7888 0,0000

Alter -827,245 42,2323 -19,588 0,0000

Kilometer -0,00635206 0,00918315 -0,691708 0,4990

Analysis of Variance

Source Sum of Squares Df Mean Square F-Ratio P-Value

Model 4,94745E7 2 2,47372E7 192,35 0,0000

Residual 2,05767E6 16 128604, Total (Corr.) 5,15322E7 18

a) Wie lautet die gesch¨atzte Regressionsfunktion?

b) Bestimmen Sie das BestimmtheitsmaßB.

c) Welchen Verkaufspreis w¨urden Sie mit obigem Modell f¨ur ein 3 Jahre altes Auto, welches nur 15000 Kilometer gefahren ist, prognostizieren?

L¨osung:

y - Preis x1 - Alter x2 - Kilometer

a)

ˆ

y(x) = 12526,3−827,245·x10,00635206·x2 b)

B = SSE

SST = 4,94745·107

5,15322·107 = 0,96 c) x=

µ x1 x2

=

µ 3 15000

ˆ

y(x) = 12526,3−827,245·30,00635206·15000 = 9949,28

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

Referenzen

ÄHNLICHE DOKUMENTE

Testen Sie zum Niveau α = 0,01, ob die erwarteten Kaloriengehalte der Fetak¨ase der drei Milchsorten gleich sind oder sich signifikant voneinander

1.. Aufgabe: In einer Firma fallen t¨aglich zwei gleiche Aufgaben an. Eine der Aufgaben muss der Angestellte X erledigen und die andere der Angestellte Y. Um zu erfahren welche

Aufgabe: Die durchschnittliche t¨agliche Verweildauer im Internet wurde bei 60 Studierenden (30 M¨anner und 30 Frauen) erfragt. Die Studierenden geh¨oren zu den Studieng¨angen

Aufgabe: F¨ur die 7 gr¨oßten Flugh¨afen (nach Anzahl der abgefertigten Passagiere) wird der Zusammenhang zur Einwohnerzahl der Metropolregion der Stadt unter- sucht. Folgende

Aufgabe: F¨ur die 7 gr¨oßten Flugh¨afen (nach Anzahl der abgefertigten Passagiere) wird der Zusammenhang zur Einwohnerzahl der Metropolregion der Stadt

Testen Sie (unter der Annahme, dass die Merkmale normalverteilt sind) zum Niveau α = 0.05, ob es einen signifikanten linearen Zusammenhang zwischen Blutdruck und

Aufgabe: F¨ur 25 der gr¨oßten Flugh¨afen wurde die Anzahl der abgefertigten Pas- sagiere in den Jahren 2009 und 2012 erfasst.. Aus den Daten (Anzahl der Passagiere in Millionen)

Aufgabe: Bei 100 Fahrzeugen des gleichen Typs sind neben dem Preis (PREIS) auch die gefahrene Strecke (MEILEN) und die Anzahl der Werkstattbesuche (SERVICE) bekannt. Aus diesen