Korrelation
Korrelation - - Regression Regression
Zusammenhang zwischen Variablen Zusammenhang zwischen Variablen
Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen
Korrelation
Einfaches lineares Regressionsmodell
1. Schritt: Erstellung eines Scatterplots (Streudiagramm)
Alter
80 70
60 50
40 30
20 10
0
Cholesterin
10 9 8 7 6 5 4 3 2 1 0
Scatterplot
Scatterplot
Korrelationsanalyse Korrelationsanalyse
Mit der Korrelationsanalyse werden Maßzahlen berechnet, um die Stärke eines Zusammenhangs zu quantifizieren.
Voraussetzungen:
z Beide Merkmale sind metrisch skaliert und stetig
z Die einzelnen Beobachtungseinheiten sind voneinander unabhängig
Korrelation Korrelation
Korrelationskoeffizient nach Pearson.
z Maß für die Stärke eines linearen Zusammenhangs.
z Liegt zwischen –1 und 1.
z 1 entspricht einem perfekten positiven Zusammenhang.
z -1 entspricht einem perfekten negativen Zusammenhang.
( )( )
( ) ( )
603 ,
70275 0 ,
49 3
, 6326
075 ,
338
2 2
⋅ =
=
−
−
−
= −
∑ ∑ ∑
y y
x x
y y
x r x
i i
i i
Korrelationskoeffizient nach Pearson
Korrelationskoeffizient nach Pearson
rr ≈≈ 11 rr ≈≈ 00..22
r
r ≈≈ 00 rr ≈≈ −−00..44
Korrelationskoeffizient nach Pearson
Korrelationskoeffizient nach Pearson
r = 0.8 ! r = 0.8 !
0.0 5.0 10.0 15.0 20.0
0.0 5.0 10.0 15.0 20.0
0.0 5.0 10.0 15.0 20.0
0.0 5.0 10.0 15.0 20.0
0.0 5.0 10.0 15.0 20.0
0.0 5.0 10.0 15.0 20.0
0.0 5.0 10.0 15.0 20.0
0.0 5.0 10.0 15.0 20.0
Korrelationskoeffizient nach Pearson
Korrelationskoeffizient nach Pearson
Monotoner Zusammenhang Monotoner Zusammenhang
Korrelationskoeffizient nach Spearman
z Maß für monotonen Zusammenhang
„je höher das Alter umso höher das Cholesterin“
z Basiert auf den Rängen der Daten
Rangtransformation Rangtransformation
...
...
42 5,57
42 5,57
39 5,74
36 2,92
33 6,72
33 5,23
30 4,65
29 4,92
21 4,97
Alter Cholesterin
...
...
9 12
8 11
7 13
6 1
5 24
4 10
3 2
2 5
1 6
Rang Alter Rang
Cholesterin
Korrelationskoeffizient nach
Korrelationskoeffizient nach Spearman Spearman
628 ,
30 0 27000
1672 1 6
6 1
312
− =
− ⋅
=
− −
= ∑
=
n n
d r
n
i
i s
n = 30
= Rang Alter – Rang Cholesterin
d
iUnterschied Unterschied
Pearson‘scher Korrelationskoeffizient misst linearen Zusammenhang
z „Liegen die Punkte auf einer Linie?“
z Wird stark beeinflusst von extremen Beobachtungen
z Parametrisch (= die ursprünglich beobachteten Werte werden zur Berechnung herangezogen)
Spearman‘scher Korrelationskoeffizient misst monotonen Zusammenhang
z „Je höher das Alter umso höher ist das Cholesterin“
z Robust gegenüber extremen Beobachtungen
z Nicht-parametrisch (= die rangtransformierten Werte werden zur Berechnung herangezogen)
Beispiel 2 Beispiel 2
Zusammenhang zwischen Geburtsgewicht und Alter
Alter in Jahren
50 40
30 20
10
Geburtsgewicht in g
3400 3300 3200 3100 3000 2900 2800 2700 2600
391 , 0
504 , 0
−
=
−
= r
sr
Beispiel 2 Beispiel 2
Zusammenhang zwischen Geburtsgewicht und Alter
217 , 0
155 , 0
−
=
−
= r
sr
Alter in Jahren
50 40
30 20
10
Geburtsgewicht in g
3400 3300 3200 3100 3000 2900 2800 2700 2600
Konzise Beschreibung eines statistischen Zusammenhangs
Klärung, ob die Wirkung eines Faktors unabhängig von anderen ist
Möglichkeit der Prognose für einen einzelnen Patienten
Lineare Regression
Lineare Regression
Lineare Regression Lineare Regression
weight
100 90 80 70 60 50 40 30 20 10 0
maximal staticexpiratorypressure
200 180 160 140 120 100 80 60 40 20 0
Definitionen Definitionen
Abhängige Variable (Regressand, response, outcome): Diese Variable soll aus der anderen Variable berechnet werden.
Æ y-Achse
Unabhängige Variable(n) (Regressor, Predictor, erklärende Variable(n))
Æ x-Achse
Ziel der Regressionsanalyse: Vorhersage, Prediction
Methode: Die Abweichungsquadrate der beobachteten Werte zur Regressionsgeraden sollen minimiert werden
Methode der Kleinsten Quadrate Methode der Kleinsten Quadrate
... Paare von Messungen metrischer Größen
... unabhängige / erklärende Variable; Regressor
... abhängige Variable; Regressand
Für die Berechnung der abhängigen Variablen soll die Gerade so liegen, dass die Streuung der beobachteten Werte um diese Gerade möglichst klein ist. Diese Gerade ist die
Regressionsgerade.
(
x1, y1) (
, x2, y2) (
,..., xn, yn)
x
iy
iMethode der Kleinsten Quadrate Methode der Kleinsten Quadrate
Für den Zusammenhang zwischen und soll folgendes Modell gelten:
und sind die Regressionskoeffizienten
ist die Konstante (Intercept) in der Regressionsgerade
ist die Steigung der Regressionsgeraden
Die Regressionsgerade verläuft durch den Schwerpunkt β0
β
1β0
β
1( ) x , y
i i
i
x
y = β
0+ β
1+ ε i = 1 , 2 ,..., n
x
iy
iMethode der Kleinsten Quadrate Methode der Kleinsten Quadrate
weight
100 90 80 70 60 50 40 30 20 10 0
maximal staticexpiratorypressure
200 180 160 140 120 100 80 60 40 20 0
Residuum
β0
β1
( )
x, yMethode der Kleinsten Quadrate Methode der Kleinsten Quadrate
( )
1 0, 1
2 1
0
min
β
β
ββ − →
−
= ∑
= n
i
i
i
x
y Q
( )( )
( )
∑ − − −
=
2ˆ
1x x
y y
x x
i i
β
ix
y
1ˆ
0β
β = −
Methode der Kleinsten Quadrate Methode der Kleinsten Quadrate
heißen Residuen der Regression
heißen Prognosewerte der Regression
Beispiel:
(
i)
i i
i
i
y y y x
r = − ˆ = − β ˆ
0+ β ˆ
1i
i
x
y ˆ = β ˆ
0+ β ˆ
1087 ,
ˆ 1
181 , ˆ 66
1 0
=
=
β
β
SPSS- SPSS - output output
Modellzusammenfassung
,879a ,772 ,743 2,954
Modell 1
R R-Quadrat
Korrigiertes R-Quadrat
Standardf ehler des Schätzers Einflußvariablen : (Konstante), Körpergröße in cm
a.
ANOVAb
236,201 1 236,201 27,072 ,001a
69,799 8 8,725
306,000 9
Regression Residuen Gesamt Modell
1
Quadrats
umme df
Mittel der
Quadrate F Signifikanz
Einflußvariablen : (Konstante), Körpergröße in cm a.
Abhängige Variable: Körpergewicht in kg b.
Koeffizientena
-93,243 31,388 -2,971 ,018 -165,624 -20,862
,912 ,175 ,879 5,203 ,001 ,508 1,316
(Konstante) Körpergröße in cm Modell
1
B
Standardf ehler Nicht standardisierte
Koeffizienten
Beta Standardisie
rte Koeffizienten
T Signifikanz Untergrenze Obergrenze 95%-Konfidenzintervall für
B
Abhängige Variable: Körpergewicht in kg a.
Voraussetzungen Voraussetzungen
Die Werte der Outcome-Variablen Y (bei uns „weight“) sollten normalverteilt sein für jeden Wert der erklärenden Variablen X.
Die Variabilität von Y (entspricht der Varianz bzw. der
Standardabweichung) sollte gleich sein für jeden Wert von X.
Æ Varianzhomogenität
Der Zusammenhang zwischen X und Y sollte linear sein.
Ü Ü berpr berpr ü ü fung fung
Visuelle Inspektion des Scatterplots;
Plot der Residuen vs. vorhergesagte Werte – zufällige Verteilung der Daten;
Wenn die Voraussetzungen zutreffen folgen die
Resdiuen einer Normalverteilung - NQQ Plot.
Bestimmtheitsma Bestimmtheitsma ß ß
Maß für die Güte der Anpassung
= Bestimmtheitsmaß
Gibt den Anteil der Varianz der Daten an, welche durch das Modell erklärt wird.
( )
( )
22 ˆ 2
2
2
ˆ
y y i
i
s s y
y
y
R y =
−
= −
∑ ∑
1
0 ≤ R
2≤
Residuenanalyse Residuenanalyse
weight
80 70
60 50
40 30
20 10
UnstandardizedResidual
60
40
20
0
-20
-40
-60
Konfidenzb
Konfidenzb ä ä nder nder
Die Berechnung der Regressionsgerade beruht auf den Daten
Die berechneten Werte gelten nur für den Bereich, in welchem Beobachtungen vorhanden sind.
Natürlich muss auch auf die Qualität der Daten geachtet werden.
Konfidenzb
Konfidenzb ä ä nder nder
100 90 80 70 60 50 40 30 20 10 0 200 180 160 140 120 100 80 60 40 20
maximal staticexpiratorypressure 0
weight
Unterschied Korrelation
Unterschied Korrelation - - Regression Regression
Korrelation beschreibt die Stärke eines
linearen oder monotonen Zusammenhangs
Regression beschreibt eine Ursache-
Wirkungs-Beziehung
Multiple lineare Regression Multiple lineare Regression
Es gibt mehrere unabhängige Variablen
k k