Statistik II f¨ ur Betriebswirte Vorlesung 6
Dr. Andreas W¨ unsche
TU Bergakademie Freiberg Institut f¨ur Stochastik
18. November 2019
6. Korrelationsanalyse
6.1. Zwei normalverteilte Merkmale
I
Mit Hilfe der Korrelationsanalyse sollen statistisch gesicherte Aussagen ¨ uber bestimmte Aspekte des Zusammenhangs von zwei oder einer gr¨ oßeren Anzahl von Merkmalen getroffen werden.
I
Im zugeh¨ origen stochastischen Modell entsprechen den Merkmalen dann z.B. zwei Zufallsgr¨ oßen X und Y , die zu einem
zweidimensionalen Zufallsvektor (X , Y ) (auch zweidimensionale Zufallsvariable genannt) zusammengefasst werden k¨ onnen (analog f¨ ur eine gr¨ oßere Anzahl von Merkmalen).
I
F¨ ur derartige Zufallsvektoren interessieren Wahrscheinlichkeiten daf¨ ur, dass seine Realisierungen in bestimmten geeigneten Mengen liegen, diese Wahrscheinlichkeiten bilden die Verteilung
(Wahrscheinlichkeitsverteilung) des Zufallsvektors.
I
Im Folgenden soll zuerst kurz auf Zufallsvektoren eingegangen
werden, bevor statistische Fragen behandelt werden.
Verteilungsfunktion eines Zufallsvektors
I
Die Verteilung des Zufallsvektors (X , Y ) kann durch die gemeinsame (oder Verbund-)Verteilungsfunktion bestimmt oder definiert werden. F¨ ur x , y ∈ R gilt
F
(X,Y)(x, y) = P({X < x} ∩ {Y < y}) = P (X < x, Y < y) .
I
Diese Verbundverteilungsfunktionen haben ¨ ahnliche Eigenschaften wie die Verteilungsfunktionen reeller Zufallsgr¨ oßen, unter anderem
I
0 ≤ F
(X,Y)(x , y ) ≤ 1 ;
I
lim
x→−∞
F
(X,Y)(x, y) = lim
y→−∞
F
(X,Y)(x, y ) = 0 ;
I
lim
x,y→∞
F
(X,Y)(x, y ) = 1 ;
I
die Funktion F
(X,Y)(x, y) ist bez¨ uglich jeder Variable monoton nicht
fallend .
Verteilungsdichte eines stetigen Zufallsvektors
I
F¨ ur stetige Zufallsvektoren (Zufallsvektoren mit absolut stetiger Verteilung) kann die Verteilung auch durch die Verteilungsdichte f
(X,Y)(s , t), (s , t) ∈ R
2, bestimmt werden:
F
(X,Y)(x, y ) = Z
x−∞
Z
y−∞
f
(X,Y)(s , t) dtds .
I
Dann gilt f¨ ur geeignete Teilmengen B ⊂ R
2: P((X , Y ) ∈ B) =
Z Z
B
f
(X,Y)(s , t) dtds .
I
Verteilungsdichten f¨ ur Zufallsvektoren haben die bestimmenden Eigenschaften von Dichtefunktionen f¨ ur reelle Zufallsgr¨ oßen:
I
f
(X,Y)(s, t) ≥ 0 , (s, t) ∈ R
2;
I
Z
∞−∞
Z
∞−∞
f
(X,Y)(s, t ) dsdt = 1 .
Verbundverteilung und Randverteilungen
I
Die gemeinsame Verteilung des Zufallsvektors (X , Y ) , gegeben z.B.
durch die Verbundverteilungsfunktion oder die gemeinsame Verteilungsdichte, bestimmt eindeutig die Verteilungen der
Komponenten X und Y (die Randverteilungen), wenn diese als einzelne Zufallsgr¨ oßen betrachtet werden.
I
So gelten:
I
F
X(x) = P(X < x) = lim
y→∞
F
(X,Y)(x, y), x ∈ R ;
I
F
Y(y ) = P(Y < y ) = lim
x→∞
F
(X,Y)(x , y ), y ∈ R ;
I
falls die Verteilungsdichte f¨ ur den Zufallsvektor (X , Y ) existiert, existieren auch die Dichtefunktionen f¨ ur X und Y und es gelten f
X(s) =
Z
∞−∞
f
(X,Y)(s, t) dt , s ∈ R , sowie f
Y(t ) =
Z
∞−∞
f
(X,Y)(s, t) ds, t ∈ R .
Unabh¨ angigkeit von Zufallsgr¨ oßen
I
Definition: Zwei Zufallsgr¨ oßen X und Y heißen stochastisch unabh¨ angig, falls f¨ ur beliebige reelle Zahlen x, y gilt:
P ({X < x} ∩ {Y < y}) = P (X < x ) · P (Y < y ) .
I
D.h. die gemeinsame Verteilungsfunktion ist das Produkt der Randverteilungsfunktionen:
F
(X,Y)(x, y ) = F
X(x) · F
Y(y ) , (x, y) ∈ R
2.
I
Damit ist auch die gemeinsame Dichtefunktion das Produkt der Randdichten:
f
(X,Y)(s, t) = f
X(s ) · f
Y(t) , (s, t) ∈ R
2.
Momente von Zufallsvektoren
I
Wichtige von der Verteilung eines Zufallsvektors abgeleitete Kenngr¨ oßen sind die Momente, f¨ ur einen stetigen Zufallsvektor ist f¨ ur nichtnegative ganze Zahlen k, l
E h X
kY
li
= Z
∞−∞
Z
∞−∞
s
kt
lf
(X,Y)(s , t) ds dt
ein (im Allgemeinen gemischtes) Moment der Ordnung k + l (falls es existiert) .
I
Momente erster Ordnung sind EX =
Z
∞−∞
Z
∞−∞
sf
(X,Y)(s , t) ds dt = Z
∞−∞
sf
X(s ) ds ;
EY = Z
∞−∞
Z
∞−∞
tf
(X,Y)(s , t) ds dt = Z
∞−∞
tf
Y(t) dt .
Zweite Momente von Zufallsvektoren
I
Momente 2. Ordnung sind EX
2und EY
2sowie das gemischte zweite Moment
E[XY ] = Z
∞−∞
Z
∞−∞
stf
(X,Y)(s , t) dsdt .
I
Die entsprechenden zentralen zweiten Momente sind VarX = E(X − EX )
2= E
X
2− EX · EX , VarY = E(Y − EY )
2= E
Y
2− EY · EY ,
Cov (X , Y ) = E[(X − EX )(Y − EY )] = E[XY ] − EX · EY .
I
Es gilt:
Var(X + Y ) = VarX + VarY + 2 · Cov (X , Y ) .
Korrelationskoeffizient
I
Gilt f¨ ur X und Y jeweils 0 < VarX < ∞ , 0 < VarY < ∞ , dann definiert man den Korrelationskoeffizient von X und Y als
Corr (X , Y ) = %
X,Y= Cov (X , Y )
√
VarX √ VarY .
I
Der Korrelationskoeffizient liegt immer zwischen -1 und 1 :
−1 ≤ %
X,Y≤ 1.
I
Im Fall |%
X,Y| = 1 besteht ein vollst¨ andiger linearer Zusammenhang zwischen beiden Gr¨ oßen.
I
Zwei Zufallsgr¨ oßen X und Y heißen unkorreliert, falls Cov (X , Y ) = 0
und damit %
X,Y= 0 gilt.
Unabh¨ angigkeit und Unkorreliertheit
I
Sind zwei Zufallsgr¨ oßen X und Y mit endlichen Erwartungswerten stochastisch unabh¨ angig, dann gilt E(X · Y ) = EX · EY .
I
Damit folgt aus der Unabh¨ angigkeit zweier Zufallsgr¨ oßen X und Y deren Unkorreliertheit :
Cov (X , Y ) = E(X · Y ) − EX · EY = 0 .
I
Sind zwei Zufallsgr¨ oßen X und Y stochastisch unabh¨ angig (oder unkorreliert), dann gilt f¨ ur deren Summe:
Var(X + Y ) = VarX + VarY .
I
Achtung:
Aus der Unkorreliertheit folgt i. Allg. nicht die Unabh¨ angigkeit.
I
Bei einer zweidimensionalen Normalverteilung folgt aus der
Unkorreliertheit der Komponenten auch deren Unabh¨ angigkeit .
Beispiel: zweidimensionale Normalverteilung
I
Ein stetiger Zufallsvektor (X , Y ) besitzt eine zweidimensionale Normalverteilung, wenn seine Dichtefunktion lautet
f
(X,Y)(s, t) = c · e
−1 2(1−%2)
(s−µ X)2 σ2
X
−2%(s−µσX)(t−µY)
Xσ Y
+(t−µY)2
σ2 Y
mit c = 1
2πσ
Xσ
Yp
1 − %
2.
I
Dann gelten: EX = µ
X, EY = µ
Y, VarX = σ
X2, VarY = σ
2Y,
%
X,Y= % ∈ (−1, 1) .
I
Die einzelnen Komponenten X und Y des Zufallsvektors sind hier normalverteilte Zufallsgr¨ oßen mit den oben angegebenen
Parametern.
I
In diesem Fall sind X und Y genau dann unabh¨ angig, wenn sie
unkorreliert sind, d.h. %
X,Y= % = 0 gilt.
Dichtefunktionsgrafiken zweidimensionaler Normalverteilungen
Dichtefunktionen von normalverteilten Zufallsvektoren (X , Y ) mit EX = EY = 0 , VarX = VarY = 1 sowie
% = 0 (links), % = −0.5 (Mitte) und % = −0.9 (rechts).
Streudiagramme f¨ ur simulierte Werte
Streudiagramme (Scatterplots) von 1000 simulierten Realisierungen von normalverteilten Zufallsvektoren (X , Y ) mit
EX = EY = 0 , VarX = VarY = 1 sowie
% = −1 (links), % = 0 (Mitte) und % = 1 (rechts).
Streudiagramme f¨ ur simulierte Werte – Fortsetzung
% = ±0.3 (links), % = ±0.5 (Mitte), % = ±0.9 (rechts).
Sch¨ atzung des Korrelationskoeffizienten
I
F¨ ur eine geeignete Stichprobe (X
1, Y
1) , . . . , (X
n, Y
n) ist der Stichprobenkorrelationskoeffizient eine gute Sch¨ atzfunktion f¨ ur den Korrelationskoeffizienten,
ˆ
%
X,Y= R
X,Y:=
n
P
i=1
X
i− X
Y
i− Y s
nP
i=1
X
i− X
2 nP
i=1
Y
i− Y
2.
I
F¨ ur eine konkrete Stichprobe (x
1, y
1) , . . . , (x
n, y
n) erh¨ alt man so den empirischen Korrelationskoeffizienten
r
X,Y:=
n
P
i=1
(x
i− x) (y
i− y) s
nP
i=1
(x
i− x)
2P
n i=1(y
i− y )
2.
Sch¨ atzung des Korrelationskoeffizienten – Fortsetzung
I
Diese Formeln basieren auf der Sch¨ atzung der Kovarianz zwischen X und Y durch die empirische Kovarianz
s
X,Y= 1 n − 1
n
X
i=1
(x
i− x) (y
i− y)
und der Beziehung r
X,Y= s
X,Ys
Xs
Y.
I
M¨ oglich ist die Berechnung von r
X,Yauch durch
r
X,Y=
n
P
i=1
x
iy
i− n · x · y s
nP
i=1
x
i2− nx
2n
P
i=1
y
i2− ny
2.
I
Da auch andere Korrelationskoeffizienten in der Statistik eine Rolle
spielen, wird r
X,Yauch gew¨ ohnlicher oder Bravais-Pearsonscher
Korrelationskoeffizient genannt.
Eigenschaften des gew¨ ohnlichen Korrelationskoeffizienten
I
Es gelten r
X,Y= r
Y,Xund −1 ≤ r
X,Y≤ 1 .
I
Der gew¨ ohnliche Korrelationskoeffizient r
X,Yist ein Maß f¨ ur die St¨ arke und Richtung des linearen Zusammenhanges zwischen den x− und y−Werten der Stichprobenwerte (x
i, y
i), i = 1, . . . , n .
I
r
X,Y> 0 bedeutet, dass großen x−Werten vorwiegend große y−Werte entsprechen und umgekehrt. Man spricht dann von positiver oder gleichsinniger Korrelation .
r
X,Y< 0 bedeutet, dass großen x−Werten vorwiegend kleine y−Werte entsprechen und umgekehrt. Man spricht dann von negativer oder ungleichsinniger Korrelation .
I
Das Quadrat des gew¨ ohnlichen Korrelationskoeffizienten B
X,Y= r
2X,Y
heißt empirisches Bestimmtheitsmaß.
I
Es gilt 0 ≤ B
X,Y≤ 1 .
Beispiel 6.1: Alter und Blutdruck
Alter X und Blutdruck Y von 15 zuf¨ allig ausgew¨ ahlten Frauen
Quelle: J. Hartung : Statistik,
Oldenbourg Verlag 2009, Kap. IX, Abschnitt 1 in Statgraphics:
Describe → Numeric Data → Multiple-Variable Analysis
Beschreiben → Numerische Daten → Analyse mehrerer Variablen
n = 15 ;
x = 47.0 , y = 134.067 ; s
X= 10.5221 , s
Y= 13.5408 ; r
X,Y= 0.9375 .
i x
iy
i1 47 129
2 52 139
3 30 112
4 35 119
5 59 145
6 44 133
7 63 152
8 38 117
9 49 145
10 41 136
11 32 115
12 55 137
13 46 134
14 51 141
15 63 157
Streudiagramm Beispiel 6.1 (Statgraphics)
Test auf Unkorreliertheit f¨ ur normalverteilte Merkmale
I
Voraussetzung: Die Zufallsvektoren (X
1, Y
1), ..., (X
n, Y
n) sind unabh¨ angig und identisch normalverteilt mit Parametern
µ
X, µ
Y, σ
2X
, σ
2Y
, % .
I
Hypothesen: H
0: % = 0 , H
A: % 6= 0 .
I
Bemerkung: Da hier eine Normalverteilung vorausgesetzt wird, ist die Nullhypothese gleichbedeutend mit der Hypothese ¨ uber die stochastische Unabh¨ angigkeit der beiden Zufallsgr¨ oßen X und Y .
I
Testgr¨ oße: T = R
X,Y√ n − 2 q 1 − R
2X,Y
H0
∼ t
n−2.
I
Kritischer Bereich: K = {t ∈ R : |t| > t
n−2;1−α/2} .
I
Einseitige Tests:
F¨ ur H
A: % > 0 gilt K = {t ∈ R : t > t
n−2;1−α} und
f¨ ur H
A: % < 0 gilt K = {t ∈ R : t < −t
n−2;1−α} .
Fortsetzung Beispiel 6.1 Alter und Blutdruck
I
H
0: % = 0 gegen H
A: % 6= 0 ,
I
r
X,Y= 0.9375, n = 15 = ⇒ t = √
0.93751−0.93752
√
13 = 9.71 ,
I
α = 0.05 = ⇒ t
n−2;1−α2
= t
13;0.975= 2.16
I
|t| = 9.71 > 2.16 = t
13;0.975= ⇒ H
0wird abgelehnt.
I
Die Korrelation zwischen Alter und Blutdruck ist signifikant von Null verschieden. Bei Frauen gibt es eine signifikante Abh¨ angigkeit zwischen Alter und Blutdruck.
I
Statgraphics:
CorrelationsAlter Blutdruck
Alter 0,9375
(15) 0,0000 Blutdruck 0,9375
(15) 0,0000 Correlation (Sample Size) P-Value
Test auf festen Wert % 0 6= 0
I
Voraussetzung: Die Zufallsvektoren (X
1, Y
1), ..., (X
n, Y
n) sind unabh¨ angig und identisch normalverteilt mit Parametern
µ
X, µ
Y, σ
2X
, σ
2Y
, % .
I
Hypothesen: H
0: % = %
0(6= 0) , H
A: % 6= %
0.
I
F¨ ur einen exakten Test auf Basis der Testgr¨ oße R
X,Yexistieren Tafeln.
I
Man kann aber auch schon f¨ ur kleine Werte n einen Test nutzen, der die Fishersche Z −Transformation verwendet:
Z = artanh R
X,Y= 1 2 ln
1 + R
X,Y1 − R
X,Y,
z = artanh r
X,Y= 1 2 ln
1 + r
X,Y1 − r
X,Y.
Hyperbeltangens und seine Umkehrfunktion
Hyperbeltangens, Tangens hyperbolicus tanh(x) = e
x− e
−xe
x+ e
−x, f¨ ur x ∈ R .
Dazu Umkehrfunktion (inverse Funktion):
Area Hyperbeltangens, Area Tangens hyper- bolicus
artanh(x) = 1 2 ln
1 + x 1 − x
,
f¨ ur −1 < x < 1 .
Approximativer Test auf festen Wert % 0 6= 0
I
Voraussetzung: Die Zufallsvektoren (X
1, Y
1), ..., (X
n, Y
n) sind unabh¨ angig und identisch normalverteilt mit Parametern
µ
X, µ
Y, σ
X2, σ
2Y, % .
I
Hypothesen: H
0: % = %
0(6= 0) , H
A: % 6= %
0.
I
Testgr¨ oße: T = (Z − z
0) √
n − 3
H∼
0N(0, 1) mit
Z = artanh R
X,Y= 1 2 ln
1 + R
X,Y1 − R
X,Y,
z
0= E
H0[Z ] = 1 2 ln
1 + %
01 − %
0+ %
02(n − 1) .
I
Kritischer Bereich: K = {t ∈ R : |t| > z
1−α/2} .
I
Einseitige Tests:
F¨ ur H
A: % > %
0gilt K = {t ∈ R : t > z
1−α} und
f¨ ur H
A: % < %
0gilt K = {t ∈ R : t < −z
1−α} .
Fortsetzung Beispiel 6.1 Alter und Blutdruck
I
Wir betrachten nun zum Niveau α = 0.05 den Test H
0: % ≤ 0.90 gegen H
A: % > 0.90 .
I
Dann erhalten wir aus
r
X,Y= 0.9375 die Werte z = 1
2 ln
1 + r
X,Y1 − r
X,Y= 1.717
z
0= 1 2 ln
1.90 0.10
+ 0.90
2 · 14 = 1.504 t = (z − z
0) · √
n − 3 = 0.738 < 1.645 = z
0.95,
I
Folglich k¨ onnen wir die Hypothese H
0nicht ablehnen.
I
Zum Niveau 0.05 ist also nicht signifikant gesichert, dass die
Korrelation zwischen Alter und Blutdruck bei Frauen gr¨ oßer als
0.90 ist.
Approximatives Konfidenzintervall im Beispiel 6.1 mit R
I