1. Die Kovarianz und ihre Eigenschaften

(1)

Vorlesung 8a

Kovarianz und Korrelation,

Regressionsgerade

(2)

1. Die Kovarianz und ihre Eigenschaften

(3)

Wir erinnern an die Definition der Kovarianz

F ¨ur reellwertige Zufallsvariable X, Y mit

E

_[_X²_] _< _∞ _und

E

_[_Y ²_] _< _∞ _ist Cov_[_{X, Y} _]:= E^h₍_X ₋ E_X₎₍_Y ₋ E_Y ₎ⁱ

Insbesondere ist also

Cov

_[_{X, X}_{] =}

Var

_[_X_]

(4)

Die Kovarianz ist

- im Fall von zwei gleichen Eintr ¨agen nichtnegativ:

Cov

_{[X, X}_] _≥ ₀

- in den beiden Eintr ¨agen symmetrisch:

Cov

_[_{X, Y} _{] =}

Cov

_[_{Y, X}_]

- bilinear, d.h. in jedem einzelnen Eintrag linear:

(5)

2. Die Kovarianz-Varianz-Ungleichung

(6)

Die “Kovarianz-Varianz-Ungleichung”

|Cov_[_{X, Y} _]_{| ≤} ^√Var_X ^√Var_Y

folgt (mit G := X − µ_X, H := Y − µ_Y ) sofort aus der Cauchy-Schwarz Ungleichung:

F ¨ur reellwertige Zufallsvariable G, H mit

E

_[G²_],

E

_[H²_] _< _∞ ist

(E_[_GH_])² _≤ E_[_G²_] E_[_H²_] _.

(7)

Behauptung: ±E_[_GH_] _≤

r

E_[_G²_]

r

E_[_H²_]

Beweis:

Fall 1: E_[_G²_]_,E_[_H²_] _> _0.

U := G/^q

E

_[_G²_], _V _:= _H/^q

E

_[_H²_] _{erf ¨ullen}

E

_[U²_{] =}

E

_[V ²_{] = 1.}

Aus ±2U V ≤ U² + V ² folgt

±E_[_{U V} _] _≤ ¹

2(

E

_[_U²_{] +}

E

_[_V ²_{] =} ₁_.

± E_[GH_]

qE_[_G²_]^qE_[_H²_] ^≤ ^1.

(8)

Behauptung: ±E_[_GH_] _≤

r

E_[_G²_]

r

E_[_H²_]

Fall 2: E_[G²_{] = 0.}

Dann folgt aus dem

Satz von der Positivit ¨at des Erwartungswertes

P

_(G² _{= 0) = 1,}

also

P

₍_GH _{= 0) = 1} und

(9)

3. Der Korrelationskoeffizient

(10)

Definition.

F ¨ur zwei Zufallsvariable X, Y

mit positiven, endlichen Varianzen ist κ_XY := Cov_{[X, Y} _]

√Var_X^√Var_Y

der Korrelationskoeffizient von X und Y .

Aus der Kovarianz-Varianz-Ungleichung folgt sofort

−1 ≤ κ ≤ 1.

(11)

4. Die Bedeutung des Korrelationskoeffizienten

(12)

F ¨unf prominente Zahlen

zur (teilweisen) Beschreibung der Verteilung eines zuf ¨alligen Paares (X, Y ) in R × R:

µ_X und µ_Y : die Erwartungswerte von X und Y

σ_X und σ_Y : die Standardabweichungen von X und Y

κ_XY : der Korrelationskoeffizient von X und Y

(13)

Wir werden sehen:

κ² ist ein Maß daf ¨ur, um wieviel besser man Y

durch eine affin lineare Funktion von X vorhersagen kann:

Y = β₁X + β₀ + “Fehler”, als durch eine Konstante:

Y = c + “Fehler”.

(Die “G ¨ute der Vorhersage” bezieht sich auf die Kleinheit des erwarteten quadratischen Fehler (mean sqare error).)

(14)

5. Beste konstante Vorhersage

(15)

Um die eben behauptete Eigenschaft von κ² einzusehen, fragen wir erst einmal:

Durch welche Konstante wird die Zufallsvariable Y (im Sinn des erwarteten quadratischen Fehlers)

am besten vorhergesagt?

Durch ihren Erwartungswert E_[Y _] _!

Denn:

(16)

E_[(_Y ₋ _c₎²_{] =}

E

_[(_Y ₋ _µ_Y ₊ _µ_Y ₋ _c₎²_]

=

E

_[(_Y ₋ _µ

Y )²] + 2

E

_[(_Y ₋ _µ

Y )(µ_Y − c)] + (µ_Y − c)²

= σ_Y² + 0 + (µ_Y − c)².

Das wird minimiert von c = µ_Y

und hat den Minimalwert

(17)

6. Beste affin lineare Vorhersage

(18)

Durch welche affin lineare Funktion von X, β₁X + β₀,

wird die Zufallsvariable Y

(wieder im Sinn des erwarteten quadratischen Fehlers) am besten vorhergesagt?

Genauer:

F ¨ur welche Zahlen β₁, β₀ wird

(19)

Wie wir gleich sehen werden, ist die L ¨osung:

β₁ := σ_Y

σ_X κ_XY

und β₀ so, dass µ_Y = β₁µ_X + β₀.

M. a. W.: β₀ so, dass der Punkt (µ_X, µ_Y ) auf der Geraden y = β₁x + β₀ liegt.

Wir nennen diese Gerade

(20)

Wir begr ¨unden jetzt die Behauptung ¨uber β₀ und β₁:

E

_[(Y ₋ _β₁_X ₋ _β₀₎²_]

=

Var

_[Y ₋ _β₁_X ₋ _β₀_{] + (}

E

_[Y ₋ _β₁_X ₋ _β₀_])²

= Var_[_Y ₋ _β₁_X_] ₊ ₍_µ

Y − β₁µ_X − β₀)²

Der zweite Summand ist Null f ¨ur β₀ = µ_Y − β₁µ_X. Damit haben wir schon mal die eine Bedingung gefunden.

F ¨ur welches β₁ wird der erste Summand minimal?

(21)

Var_[_Y ₋ _β₁_X_] ₌

Var

_Y ₋ ₂_β₁

Cov

_[_{X, Y} _{] +} _β²

1

Var

_X

= σ_Y² − 2β₁κ σ_Xσ_Y + β₁²σ_X²

= σ_Y² − σ_Y² κ² + (σ_Y² κ² − 2β₁κ σ_Xσ_Y + β₁²σ_X² )

(22)

Var_[_Y ₋ _β₁_X_] ₌

Var

_Y ₋ ₂_β₁

Cov

_[_{X, Y} _{] +} _β²

1

Var

_X

= σ_Y² − 2β₁κ σ_Xσ_Y + β₁²σ_X²

= σ_Y² − σ_Y² κ² + (σ_Y κ − β₁σ_X)²aaaaa

Der rechte Summand wird Null f ¨ur β₁ = σ_Y

σ_Xκ.

(23)

Damit ist auch der Minimalwert von Var_[_Y ₋ _β₁_X ₋ _β₀ _1]

gleich σ_Y² (1 − κ²).

Der Minimalwert von Var_[_Y ₋ _c _1] _war _σ²

Y .

Die Verbesserung der Approximation (“Vorhersage”) von Y im quadratischen Mittel, wenn man zu den Vielfachen von 1

die Vielfachen von X dazunimmt, betr ¨agt σ_Y² − σ_Y² (1 − κ²) = κ²σ_Y² .

Also ist der Anteil von σ_Y² ,

der von den Vielfachen von X zus ¨atzlich zu

2 2

(24)

Wir halten fest: Die Minimierungsaufgabe

E

_[(_Y ₋ _β₁_X ₋ _β₀₎²_] _{= min}^!

f ¨ur die beste affin lineare Vorhersage von Y auf der Basis von X

(im Sinn des quadratischen Mittels) hat die L ¨osung

β₁ = σ_Y

σ_Xκ, µ_Y = β₁µ_X + β₀

(25)

7. Beispiel:

Gemeinsam normalverteilte Zufallsvariable

(26)

Z₁, Z₂ seien unabh ¨angig und standard-normalverteilt, Wir w ¨ahlen eine Konstante κ ∈ [−1, 1] und setzen

X := Z₁, Y := κZ₁ + ^q1 − κ²Z₂. Damit ergibt sich σ_X² = σ_Y² = 1, Cov[X, Y ] = Cov[Z₁, ρZ₁] = κ.

Somit gilt hier:

κ_XY = κ

(die Bezeichnung der Konstanten war hier also mit Bedacht gew ¨ahlt).

(27)

Die folgenden Bilder

(κ = −0.9, −0.7, . . . , 0.7, 0.9) zeigen jeweils die Realisierungen von

1000 unabh ¨angige Kopien (X_i, Y_i) von (X, Y ), zusammen mit der

Regressionsgeraden f ¨ur Y auf der Basis von X

(28)

Korrelation = - 0.9

(29)

Korrelation = - 0.7

(30)

Korrelation = - 0.5

(31)

Korrelation = - 0.3

(32)

Korrelation = - 0.1

(33)

Korrelation = 0

(34)

Korrelation = 0.1

(35)

Korrelation = 0.3

(36)

Korrelation = 0.5

(37)

Korrelation = 0.7

(38)

Korrelation = 0.9

(39)

8. Beispiel: “Welche Gerade passt am besten?”

(40)

(x₁, y₁), . . . , (x_n, y_n) seien n verschiedene Punkte im R².

(X, Y ) sei eine rein zuf ¨allige Wahl daraus:

P

₍₍_{X, Y} _{) = (}_x_i_{, y}_i_{)) =} ¹

n, i = 1, . . . , n.

(41)

Dann ist

E

_X ₌ ¹ n

X x_i =: ¯x

σ_X² = 1 n

X(x_i − ¯x)²

Cov

_{[X, Y} _{] =} ¹ n

X(x_i − ¯x)(y_i − y)¯

κ := κ_XY =

P(x_i − x)(y¯ _i − y)¯

q (x − x¯)²^q (y − y¯)².

(42)

E

_[(Y ₋ _β₁_X ₋ _β₀₎²_{] =} ¹ n

Xn i=1

(y_i − β₁x_i − β₀)²

wird, wie wir gezeigt haben, minimiert durch β₁ :=σ_Y

σ_Xκ =

P(x_i − x)(y¯ _i − y)¯

P(x_i − ¯x)²

und β₀ so, dass y¯ = β₁x¯ + β₀. Diese Gerade y = β₁x + β₀ heißt die

Regressionsgerade zu den Punkten (x_i, y_i), i = 1, . . . , n.

(oder auch die mit der Methode der kleinsten Quadrate

(43)

Eine anschauliche Illustration des Themas “Korrelation und Regression” finden Sie auf von Brooks Ferebee konzipierten Folien zur Vorlesung “Statistik f ¨ur Biologen”