Statistik II f¨ur Betriebswirte Vorlesung 6

(1)

Statistik II f¨ ur Betriebswirte Vorlesung 6

Dr. Andreas W¨ unsche

TU Bergakademie Freiberg Institut f¨ur Stochastik

18. November 2019

(2)

6. Korrelationsanalyse

6.1. Zwei normalverteilte Merkmale

I

Mit Hilfe der Korrelationsanalyse sollen statistisch gesicherte Aussagen ¨ uber bestimmte Aspekte des Zusammenhangs von zwei oder einer gr¨ oßeren Anzahl von Merkmalen getroffen werden.

I

Im zugeh¨ origen stochastischen Modell entsprechen den Merkmalen dann z.B. zwei Zufallsgr¨ oßen X und Y , die zu einem

zweidimensionalen Zufallsvektor (X , Y ) (auch zweidimensionale Zufallsvariable genannt) zusammengefasst werden k¨ onnen (analog f¨ ur eine gr¨ oßere Anzahl von Merkmalen).

I

F¨ ur derartige Zufallsvektoren interessieren Wahrscheinlichkeiten daf¨ ur, dass seine Realisierungen in bestimmten geeigneten Mengen liegen, diese Wahrscheinlichkeiten bilden die Verteilung

(Wahrscheinlichkeitsverteilung) des Zufallsvektors.

I

Im Folgenden soll zuerst kurz auf Zufallsvektoren eingegangen

werden, bevor statistische Fragen behandelt werden.

(3)

Verteilungsfunktion eines Zufallsvektors

I

Die Verteilung des Zufallsvektors (X , Y ) kann durch die gemeinsame (oder Verbund-)Verteilungsfunktion bestimmt oder definiert werden. F¨ ur x , y ∈ R gilt

F

_(X_,Y₎

(x, y) = P({X < x} ∩ {Y < y}) = P (X < x, Y < y) .

I

Diese Verbundverteilungsfunktionen haben ¨ ahnliche Eigenschaften wie die Verteilungsfunktionen reeller Zufallsgr¨ oßen, unter anderem

I

0 ≤ F

(X,Y)

(x , y ) ≤ 1 ;

I

lim

x→−∞

F

_(X_,Y₎

(x, y) = lim

y→−∞

F

_(X,Y₎

(x, y ) = 0 ;

I

lim

x,y→∞

F

(X,Y)

(x, y ) = 1 ;

I

die Funktion F

_(X_,Y₎

(x, y) ist bez¨ uglich jeder Variable monoton nicht

fallend .

(4)

Verteilungsdichte eines stetigen Zufallsvektors

I

F¨ ur stetige Zufallsvektoren (Zufallsvektoren mit absolut stetiger Verteilung) kann die Verteilung auch durch die Verteilungsdichte f

_(X_,Y₎

(s , t), (s , t) ∈ R

²

, bestimmt werden:

F

_(X_,Y₎

(x, y ) = Z

x

−∞

Z

y

−∞

f

_(X_,Y₎

(s , t) dtds .

I

Dann gilt f¨ ur geeignete Teilmengen B ⊂ R

²

: P((X , Y ) ∈ B) =

Z Z

B

f

_(X_,Y₎

(s , t) dtds .

I

Verteilungsdichten f¨ ur Zufallsvektoren haben die bestimmenden Eigenschaften von Dichtefunktionen f¨ ur reelle Zufallsgr¨ oßen:

I

f

_(X,Y₎

(s, t) ≥ 0 , (s, t) ∈ R

²

;

I

Z

∞

−∞

Z

∞

−∞

f

_(X_,Y₎

(s, t ) dsdt = 1 .

(5)

Verbundverteilung und Randverteilungen

I

Die gemeinsame Verteilung des Zufallsvektors (X , Y ) , gegeben z.B.

durch die Verbundverteilungsfunktion oder die gemeinsame Verteilungsdichte, bestimmt eindeutig die Verteilungen der

Komponenten X und Y (die Randverteilungen), wenn diese als einzelne Zufallsgr¨ oßen betrachtet werden.

I

So gelten:

I

F

X

(x) = P(X < x) = lim

y→∞

F

(X,Y)

(x, y), x ∈ R ;

I

F

_Y

(y ) = P(Y < y ) = lim

x→∞

F

_(X_,Y₎

(x , y ), y ∈ R ;

I

falls die Verteilungsdichte f¨ ur den Zufallsvektor (X , Y ) existiert, existieren auch die Dichtefunktionen f¨ ur X und Y und es gelten f

X

(s) =

Z

∞

−∞

f

(X,Y)

(s, t) dt , s ∈ R , sowie f

_Y

(t ) =

Z

∞

−∞

f

_(X_,Y₎

(s, t) ds, t ∈ R .

(6)

Unabh¨ angigkeit von Zufallsgr¨ oßen

I

Definition: Zwei Zufallsgr¨ oßen X und Y heißen stochastisch unabh¨ angig, falls f¨ ur beliebige reelle Zahlen x, y gilt:

P ({X < x} ∩ {Y < y}) = P (X < x ) · P (Y < y ) .

I

D.h. die gemeinsame Verteilungsfunktion ist das Produkt der Randverteilungsfunktionen:

F

_(X_,Y₎

(x, y ) = F

X

(x) · F

Y

(y ) , (x, y) ∈ R

²

.

I

Damit ist auch die gemeinsame Dichtefunktion das Produkt der Randdichten:

f

_(X_,Y₎

(s, t) = f

_X

(s ) · f

_Y

(t) , (s, t) ∈ R

²

.

(7)

Momente von Zufallsvektoren

I

Wichtige von der Verteilung eines Zufallsvektors abgeleitete Kenngr¨ oßen sind die Momente, f¨ ur einen stetigen Zufallsvektor ist f¨ ur nichtnegative ganze Zahlen k, l

E h X

^k

Y

^l

i

= Z

∞

−∞

Z

∞

−∞

s

^k

t

^l

f

_(X_,Y₎

(s , t) ds dt

ein (im Allgemeinen gemischtes) Moment der Ordnung k + l (falls es existiert) .

I

Momente erster Ordnung sind EX =

Z

∞

−∞

Z

∞

−∞

sf

_(X_,Y₎

(s , t) ds dt = Z

∞

−∞

sf

_X

(s ) ds ;

EY = Z

∞

−∞

Z

∞

−∞

tf

_(X_,Y₎

(s , t) ds dt = Z

∞

−∞

tf

_Y

(t) dt .

(8)

Zweite Momente von Zufallsvektoren

I

Momente 2. Ordnung sind EX

²

und EY

²

sowie das gemischte zweite Moment

E[XY ] = Z

∞

−∞

Z

∞

−∞

stf

_(X_,Y₎

(s , t) dsdt .

I

Die entsprechenden zentralen zweiten Momente sind VarX = E(X − EX )

²

= E

X

²

− EX · EX , VarY = E(Y − EY )

²

= E

Y

²

− EY · EY ,

Cov (X , Y ) = E[(X − EX )(Y − EY )] = E[XY ] − EX · EY .

I

Es gilt:

Var(X + Y ) = VarX + VarY + 2 · Cov (X , Y ) .

(9)

Korrelationskoeffizient

I

Gilt f¨ ur X und Y jeweils 0 < VarX < ∞ , 0 < VarY < ∞ , dann definiert man den Korrelationskoeffizient von X und Y als

Corr (X , Y ) = %

_X_,Y

= Cov (X , Y )

√

VarX √ VarY .

I

Der Korrelationskoeffizient liegt immer zwischen -1 und 1 :

−1 ≤ %

_X,Y

≤ 1.

I

Im Fall |%

_X,Y

| = 1 besteht ein vollst¨ andiger linearer Zusammenhang zwischen beiden Gr¨ oßen.

I

Zwei Zufallsgr¨ oßen X und Y heißen unkorreliert, falls Cov (X , Y ) = 0

und damit %

_X_,Y

= 0 gilt.

(10)

Unabh¨ angigkeit und Unkorreliertheit

I

Sind zwei Zufallsgr¨ oßen X und Y mit endlichen Erwartungswerten stochastisch unabh¨ angig, dann gilt E(X · Y ) = EX · EY .

I

Damit folgt aus der Unabh¨ angigkeit zweier Zufallsgr¨ oßen X und Y deren Unkorreliertheit :

Cov (X , Y ) = E(X · Y ) − EX · EY = 0 .

I

Sind zwei Zufallsgr¨ oßen X und Y stochastisch unabh¨ angig (oder unkorreliert), dann gilt f¨ ur deren Summe:

Var(X + Y ) = VarX + VarY .

I

Achtung:

Aus der Unkorreliertheit folgt i. Allg. nicht die Unabh¨ angigkeit.

I

Bei einer zweidimensionalen Normalverteilung folgt aus der

Unkorreliertheit der Komponenten auch deren Unabh¨ angigkeit .

(11)

Beispiel: zweidimensionale Normalverteilung

I

Ein stetiger Zufallsvektor (X , Y ) besitzt eine zweidimensionale Normalverteilung, wenn seine Dichtefunktion lautet

f

_(X_,Y₎

(s, t) = c · e

⁻

1 2(1−%2)

(s−µ X)2 σ2

X

−2%^(s−µ_σ^X^)(t−µ^Y⁾

Xσ Y

+^(t−µ^Y⁾²

σ2 Y

mit c = 1

2πσ

_X

σ

_Y

p

1 − %

²

.

I

Dann gelten: EX = µ

_X

, EY = µ

_Y

, VarX = σ

_X²

, VarY = σ

²_Y

,

%

_X_,Y

= % ∈ (−1, 1) .

I

Die einzelnen Komponenten X und Y des Zufallsvektors sind hier normalverteilte Zufallsgr¨ oßen mit den oben angegebenen

Parametern.

I

In diesem Fall sind X und Y genau dann unabh¨ angig, wenn sie

unkorreliert sind, d.h. %

_X_,Y

= % = 0 gilt.

(12)

Dichtefunktionsgrafiken zweidimensionaler Normalverteilungen

Dichtefunktionen von normalverteilten Zufallsvektoren (X , Y ) mit EX = EY = 0 , VarX = VarY = 1 sowie

% = 0 (links), % = −0.5 (Mitte) und % = −0.9 (rechts).

(13)

Streudiagramme f¨ ur simulierte Werte

Streudiagramme (Scatterplots) von 1000 simulierten Realisierungen von normalverteilten Zufallsvektoren (X , Y ) mit

EX = EY = 0 , VarX = VarY = 1 sowie

% = −1 (links), % = 0 (Mitte) und % = 1 (rechts).

(14)

Streudiagramme f¨ ur simulierte Werte – Fortsetzung

% = ±0.3 (links), % = ±0.5 (Mitte), % = ±0.9 (rechts).

(15)

Sch¨ atzung des Korrelationskoeffizienten

I

F¨ ur eine geeignete Stichprobe (X

₁

, Y

₁

) , . . . , (X

_n

, Y

_n

) ist der Stichprobenkorrelationskoeffizient eine gute Sch¨ atzfunktion f¨ ur den Korrelationskoeffizienten,

ˆ

%

_X_,Y

= R

_X_,Y

:=

n

P

i=1

X

i

− X

Y

i

− Y s

n

P

i=1

X

i

− X

2 n

P

i=1

Y

i

− Y

2

.

I

F¨ ur eine konkrete Stichprobe (x

₁

, y

₁

) , . . . , (x

_n

, y

_n

) erh¨ alt man so den empirischen Korrelationskoeffizienten

r

_X_,Y

:=

n

P

i=1

(x

_i

− x) (y

_i

− y) s

n

P

i=1

(x

_i

− x)

²

P

n i=1

(y

_i

− y )

²

.

(16)

Sch¨ atzung des Korrelationskoeffizienten – Fortsetzung

I

Diese Formeln basieren auf der Sch¨ atzung der Kovarianz zwischen X und Y durch die empirische Kovarianz

s

_X_,Y

= 1 n − 1

n

X

i=1

(x

i

− x) (y

i

− y)

und der Beziehung r

_X_,Y

= s

_X,Y

s

_X

s

_Y

.

I

M¨ oglich ist die Berechnung von r

_X,Y

auch durch

r

_X,Y

=

n

P

i=1

x

i

y

i

− n · x · y s

_n

P

i=1

x

_i²

− nx

²

n

P

i=1

y

_i²

− ny

²

.

I

Da auch andere Korrelationskoeffizienten in der Statistik eine Rolle

spielen, wird r

_X_,Y

auch gew¨ ohnlicher oder Bravais-Pearsonscher

Korrelationskoeffizient genannt.

(17)

Eigenschaften des gew¨ ohnlichen Korrelationskoeffizienten

I

Es gelten r

_X_,Y

= r

_Y_,X

und −1 ≤ r

_X,Y

≤ 1 .

I

Der gew¨ ohnliche Korrelationskoeffizient r

_X_,Y

ist ein Maß f¨ ur die St¨ arke und Richtung des linearen Zusammenhanges zwischen den x− und y−Werten der Stichprobenwerte (x

_i

, y

_i

), i = 1, . . . , n .

I

r

_X,Y

> 0 bedeutet, dass großen x−Werten vorwiegend große y−Werte entsprechen und umgekehrt. Man spricht dann von positiver oder gleichsinniger Korrelation .

r

_X,Y

< 0 bedeutet, dass großen x−Werten vorwiegend kleine y−Werte entsprechen und umgekehrt. Man spricht dann von negativer oder ungleichsinniger Korrelation .

I

Das Quadrat des gew¨ ohnlichen Korrelationskoeffizienten B

_X,Y

= r

²

X,Y

heißt empirisches Bestimmtheitsmaß.

I

Es gilt 0 ≤ B

_X_,Y

≤ 1 .

(18)

Beispiel 6.1: Alter und Blutdruck

Alter X und Blutdruck Y von 15 zuf¨ allig ausgew¨ ahlten Frauen

Quelle: J. Hartung : Statistik,

Oldenbourg Verlag 2009, Kap. IX, Abschnitt 1 in Statgraphics:

Describe → Numeric Data → Multiple-Variable Analysis

Beschreiben → Numerische Daten → Analyse mehrerer Variablen

n = 15 ;

x = 47.0 , y = 134.067 ; s

_X

= 10.5221 , s

_Y

= 13.5408 ; r

_X,Y

= 0.9375 .

i x

i

y

i

1 47 129

2 52 139

3 30 112

4 35 119

5 59 145

6 44 133

7 63 152

8 38 117

9 49 145

10 41 136

11 32 115

12 55 137

13 46 134

14 51 141

15 63 157

(19)

Streudiagramm Beispiel 6.1 (Statgraphics)

(20)

Test auf Unkorreliertheit f¨ ur normalverteilte Merkmale

I

Voraussetzung: Die Zufallsvektoren (X

1

, Y

1

), ..., (X

n

, Y

n

) sind unabh¨ angig und identisch normalverteilt mit Parametern

µ

_X

, µ

_Y

, σ

²

X

, σ

²

Y

, % .

I

Hypothesen: H

₀

: % = 0 , H

_A

: % 6= 0 .

I

Bemerkung: Da hier eine Normalverteilung vorausgesetzt wird, ist die Nullhypothese gleichbedeutend mit der Hypothese ¨ uber die stochastische Unabh¨ angigkeit der beiden Zufallsgr¨ oßen X und Y .

I

Testgr¨ oße: T = R

_X_,Y

√ n − 2 q 1 − R

²

X,Y

H0

∼ t

n−2

.

I

Kritischer Bereich: K = {t ∈ R : |t| > t

_{n−2;1−α/2}

} .

I

Einseitige Tests:

F¨ ur H

_A

: % > 0 gilt K = {t ∈ R : t > t

n−2;1−α

} und

f¨ ur H

A

: % < 0 gilt K = {t ∈ R : t < −t

_n−2;1−α

} .

(21)

Fortsetzung Beispiel 6.1 Alter und Blutdruck

I

H

0

: % = 0 gegen H

_A

: % 6= 0 ,

I

r

_X,Y

= 0.9375, n = 15 = ⇒ t = √

^0.9375

1−0.9375²

√

13 = 9.71 ,

I

α = 0.05 = ⇒ t

_n−2;1−^α

2

= t

_13;0.975

= 2.16

I

|t| = 9.71 > 2.16 = t

_13;0.975

= ⇒ H

₀

wird abgelehnt.

I

Die Korrelation zwischen Alter und Blutdruck ist signifikant von Null verschieden. Bei Frauen gibt es eine signifikante Abh¨ angigkeit zwischen Alter und Blutdruck.

I

Statgraphics:

Correlations

Alter Blutdruck

Alter 0,9375

(15) 0,0000 Blutdruck 0,9375

(15) 0,0000 Correlation (Sample Size) P-Value

(22)

Test auf festen Wert % 0 6= 0

I

Voraussetzung: Die Zufallsvektoren (X

1

, Y

1

), ..., (X

n

, Y

n

) sind unabh¨ angig und identisch normalverteilt mit Parametern

µ

_X

, µ

_Y

, σ

²

X

, σ

²

Y

, % .

I

Hypothesen: H

₀

: % = %

₀

(6= 0) , H

_A

: % 6= %

₀

.

I

F¨ ur einen exakten Test auf Basis der Testgr¨ oße R

_X_,Y

existieren Tafeln.

I

Man kann aber auch schon f¨ ur kleine Werte n einen Test nutzen, der die Fishersche Z −Transformation verwendet:

Z = artanh R

_X,Y

= 1 2 ln

1 + R

_X,Y

1 − R

_X,Y

,

z = artanh r

_X,Y

= 1 2 ln

1 + r

_X,Y

1 − r

_X,Y

.

(23)

Hyperbeltangens und seine Umkehrfunktion

Hyperbeltangens, Tangens hyperbolicus tanh(x) = e

^x

− e

^−x

e

^x

+ e

^−x

, f¨ ur x ∈ R .

Dazu Umkehrfunktion (inverse Funktion):

Area Hyperbeltangens, Area Tangens hyper- bolicus

artanh(x) = 1 2 ln

1 + x 1 − x

,

f¨ ur −1 < x < 1 .

(24)

Approximativer Test auf festen Wert % 0 6= 0

I

Voraussetzung: Die Zufallsvektoren (X

₁

, Y

₁

), ..., (X

_n

, Y

_n

) sind unabh¨ angig und identisch normalverteilt mit Parametern

µ

_X

, µ

_Y

, σ

_X²

, σ

²_Y

, % .

I

Hypothesen: H

₀

: % = %

₀

(6= 0) , H

_A

: % 6= %

₀

.

I

Testgr¨ oße: T = (Z − z

0

) √

n − 3

^H

∼

⁰

N(0, 1) mit

Z = artanh R

_X_,Y

= 1 2 ln

1 + R

_X_,Y

1 − R

_X_,Y

,

z

₀

= E

_H₀

[Z ] = 1 2 ln

1 + %

0

1 − %

₀

+ %

0

2(n − 1) .

I

Kritischer Bereich: K = {t ∈ R : |t| > z

_1−α/2

} .

I

Einseitige Tests:

F¨ ur H

_A

: % > %

0

gilt K = {t ∈ R : t > z

1−α

} und

f¨ ur H

_A

: % < %

₀

gilt K = {t ∈ R : t < −z

_1−α

} .

(25)

Fortsetzung Beispiel 6.1 Alter und Blutdruck

I

Wir betrachten nun zum Niveau α = 0.05 den Test H

0

: % ≤ 0.90 gegen H

_A

: % > 0.90 .

I

Dann erhalten wir aus

r

_X_,Y

= 0.9375 die Werte z = 1

2 ln

1 + r

_X,Y

1 − r

_X,Y

= 1.717

z

0

= 1 2 ln

1.90 0.10

+ 0.90

2 · 14 = 1.504 t = (z − z

0

) · √

n − 3 = 0.738 < 1.645 = z

0.95

,

I

Folglich k¨ onnen wir die Hypothese H

0

nicht ablehnen.

I

Zum Niveau 0.05 ist also nicht signifikant gesichert, dass die

Korrelation zwischen Alter und Blutdruck bei Frauen gr¨ oßer als

0.90 ist.

(26)

Approximatives Konfidenzintervall im Beispiel 6.1 mit R

I