9. L¨osung weitere ¨ Ubungsaufgaben Statistik II WiSe 2019/2020
1. Aufgabe: Eine Versicherung will in der KfZ-Versicherung das Risiko eines Ver- sicherungsnehmers in Abh¨angigkeit von verschiedenen Einflussgr¨oßen modellieren.
Zwei dieser Einflussgr¨oßen sind die j¨ahrliche Fahrleistung (X1) und die Dauer der unfallfreien Fahrt (X2). Als abh¨angige Variable wird die j¨ahrliche vom Versiche- rungsnehmer verursachte Schadenssumme (Y) betrachtet. Aus einer Stichprobe von 63 Versicherungsnehmern wurden die folgenden paarweisen Korrelationskoeffizien- ten gesch¨atzt.
rY,X1 = 0.875, rY,X2 =−0.783 und rX1,X2 =−0.561.
a) Bestimmen Sie daraus die Sch¨atzung des multiplen Korrelationskoeffizienten rY,(X
1,X2).
b) Testen Sie zu einem Niveau α = 0.05, ob der multiple Korrelationskoeffizient ρY,(X
1,X2) signifikant gr¨oßer als Null ist.
—————————————————————————————- L¨osung:
a)
rY,X1 = 0.875, rY,X2 =−0.783 und rX1,X2 =−0.561.
rY,(X1,X2) = vu utrY,X2
1 +r2Y,X
2 −2rY,X1rY.X2rX1,X2 1−r2X
1,X2
= s
0.8752+ (−0.783)2−2·0.875·(−0.783)·(−0.561) 1−(−0.561)2
= 0.9435 b) 1.)
H0 : ρY,(X
1,X2) = 0 gegen HA: ρY,(X
1,X2) >0 2.)
α = 0.05 3.)
T = (n−1−p)
p · rY,(X2
1,X2)
1−r2Y,(X
1,X2)
4.)
K ={t|t > Fp,n−p−1;1−α} n= 63 und p= 2
K ={t|t > F2,60;0.95= 3.15}
5.)
t= 60
2 · 0.94352
1−0.94352 = 243.2 1
6.)
t= 243.2>3.15 =⇒ t∈K H0 wird abgelehnt.
D.h. die multiple Korrelation zwischen der verursachten Schadenssumme (Y) einerseits und der j¨ahrlichen Fahrleistung (X1) und der Dauer der unfallfreien Fahrt (X2) andererseits, ist signifikant von 0 verschieden.
—————————————————————————————-
2. Aufgabe: Bei einer medizinischen Studie mit 103 Personen wurde untersucht, ob es einen Zusammenhang zwischen Blutdruck und Cholesterin-Konzentration im Blut gibt. F¨ur die 3 VariablenX1-Alter,X2-Blutdruck undX3-Cholesterin-Konzentration wurden die folgenden Korrelationskoeffizienten aus der Stichprobe ermittelt:
rX1,X2 = 0.3332, rX1,X3 = 0.5029 und rX2,X3 = 0.2495.
Bestimmen Sie die partielle Korrelation zwischen Blutdruck und Cholesterin- Konzentration bei Partialisierung, d.h. Eliminierung des Alters. Testen Sie (unter der Annahme, dass die Merkmale normalverteilt sind) zum Niveau α= 0.05, ob es einen signifikanten linearen Zusammenhang zwischen Blutdruck und Cholesterin- Konzentration nach Eliminierung des Alters gibt.
—————————————————————————————- L¨osung:
Der Stichprobenumpfang betr¨agt n = 103. Gesucht ist in dieser Aufgabe die parti- elle Korrelation rX
2,X3|X1 zwischen Blutdruck und Cholesterin-Konzentration unter partialisierung des MerkmalsAlters. Die Formel daf¨ur lautet
rX
2,X3|X1 = rX2,X3 −rX2,X1rX3,X1 q(1−r2X
2,X1)(1−rX2
3,X1)
Einsetzen in die Formel ergibt (man beachte dabei, dass hier die Symmetrie- Eigenschaft rX,Y =rY,X gilt)
rX
2,X3|X1 = 0,2495−0,3332·0,5029
p(1−0,33322)(1−0,50292) ≈0,10054 Damit betr¨agt die (empirische) partielle Korrelation 0,10054.
Da rX
2,X3|X1 < rX2,X3 ist das Vorliegen leichten einer Scheinkorelation m¨oglich.
Im folgenden werden die Daten als normalverteilt angenommen. Es folgt der Test auf partielle Unkorreliertheit. Die Durchf¨uhrung folgt dem gewohnten Schema:
1.) Das Hypothesenpaar lautet H0 :ρX
2,X3|X1 = 0
| {z }
partiell unkorreliert
v.s. HA:ρX
2,X3|X1 6= 0
| {z }
partiell korreliert
2
2.) Das Signifikanzniveau betr¨agt hier α= 0,05.
3.) Die Teststatistik lautet
T = rX2,X3|X1 q1−r2X
2,X3|X1
√n−3
4.) Der kritische Bereich lautet
K ={t| |t|> tn−3;1−α2}
Das Quantil l¨asst sich aus Tabelle f¨ur die Quantile der t-Verteilung herauslesen, es gilttn−3;1−α2 =t103−3;1−0,05
2 =t100;0,975= 1,98.
5.) Einsetzen der Werte in die Gleichung f¨ur die Teststatistik ergibt t= 0,10054
p1−0,100542
√103−3≈1,0105
6.) Es gilt|t|= 1,0105<1,98 =⇒t /∈K =⇒H0 wird angenommen.
D.h. die partielle Korrelation zwischen den Merkmalen Blutdruck (X2) und Cholesterin-Konzentration (X3) bei Partialisierung des Alters (X1) ist nicht signifikant von 0 verschieden.
—————————————————————————————- 3. Aufgabe: F¨ur 29 PKWs wurden die Merkmale
X1 - Alter,
X2 - Leistung und Y - Verbrauch erfasst.
Aus der Stichprobe erh¨alt man folgende Sch¨atzung der Korrelationen:
rX1,X2 =−0,18 ; rY,X1 = 0,39 und rY,X2 = 0,51.
a) Sch¨atzen Sie die multiple KorrelationρY,(X1,X2) zwischen dem Verbrauch einer- seits und dem Alter und der Leistung andererseits.
b) Testen Sie (unter der Annahme, dass die Merkmale normalverteilt sind), ob die multiple KorrelationρY,(X
1,X2) signifikant (α = 0,01) gr¨oßer als 0 ist.
c) Sch¨atzen Sie die partielle Korrelation (ρX2,Y|X1) zwischen Leistung und Ver- brauch unter Partialisierung des Alters.
d) Testen Sie (unter der Annahme, dass die Merkmale normalverteilt sind), ob die partielle Korrelation zwischen Leistung und Verbrauch unter Partialisierung des Alter signifikant (α= 0,01) gr¨oßer als 0 ist.
3
—————————————————————————————- L¨osung:
a)
rY,(X1,X2) = vu utr2Y,X
1 +rY,X2
2 −2rY,X1rY,X2rX1,X2 1−rX2
1,X2
= s
0,392+ 0,512−2·0,39·0,51·(−0,18) 1−(−0,18)2
= 0,707 b) H0 : ρY,(X
1,X2) = 0 gegen HA : ρY,(X
1,X2) >0 n= 29, p= 2, α= 0,01
t = rY,(X2
1,X2)·(n−1−p) p·(1−r2Y,(X
1,X2))
= 0,7072 ·(29−1−2) 2·(1−0,7072) = 13
K ={t|t > Fp,n−p−1,1−α}={t|t > F2,26,0.99= 5,53}
t= 13>5,53 ⇒ H0 wird abgelehnt, d.h. die multiple Korrelation zwischen dem Verbrauch einerseits und dem Alter und der Leistung andererseits ist signifikant gr¨oßer als 0.
c)
rX
2,Y|X1 = rX2,Y −rX2,X1rY,X1 q(1−r2X
2,X1)(1−r2Y,X
1)
= 0,51−(−0,18)·0,39
p(1−(−0,18)2)·(1−0,392) = 0,64 d)
H0 : ρX2,Y|X1 ≤0 gegen HA: ρX2,Y|X1 >0.
K = {t|t≥tn−3,1−α} n = 29, α= 0,01 =⇒t26,0.99= 2,48
= {t|t≥2,48}
t = r(X1,Y)|X1 ·√ n−3 q1−r2(X
2,Y)|X1
= 0,64·√ p 26
1−0,642 = 4,25>2,48 t ∈K H0 wird abgelehnt.
D.h. die partielle Korrelation zwischen der LeistungX2 und den VerbrauchY unter Partialisierung des AltersX1 ist signifikant gr¨oßer als 0.
—————————————————————————————-
4