Zusammenhang zwischen Variablen Zusammenhang zwischen Variablen

(1)

Korrelation

Korrelation - - Regression Regression

(2)

Zusammenhang zwischen Variablen Zusammenhang zwischen Variablen

Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen

Korrelation

Einfaches lineares Regressionsmodell

1. Schritt: Erstellung eines Scatterplots (Streudiagramm)

(3)

Alter

80 70

60 50

40 30

20 10

0

Cholesterin

10 9 8 7 6 5 4 3 2 1 0

Scatterplot

(4)

Korrelationsanalyse Korrelationsanalyse

Mit der Korrelationsanalyse werden Maßzahlen berechnet, um die Stärke eines Zusammenhangs zu quantifizieren.

Voraussetzungen:

z Beide Merkmale sind metrisch skaliert und stetig

z Die einzelnen Beobachtungseinheiten sind voneinander unabhängig

(5)

Korrelation Korrelation

Korrelationskoeffizient nach Pearson.

z Maß für die Stärke eines linearen Zusammenhangs.

z Liegt zwischen –1 und 1.

z 1 entspricht einem perfekten positiven Zusammenhang.

z -1 entspricht einem perfekten negativen Zusammenhang.

(6)

( )( )

( ) ( )

603 ,

70275 0 ,

49 3

, 6326

075 ,

338

2 2

⋅ =

=

−

= −

∑ ∑ ∑

y y

x x

y y

x r x

i i

Korrelationskoeffizient nach Pearson

(7)

rr ≈≈ 11 rr ≈≈ 00..22

r

r ≈≈ 00 rr ≈≈ −−00..44

Korrelationskoeffizient nach Pearson

(8)

r = 0.8 ! r = 0.8 !

0.0 5.0 10.0 15.0 20.0

Korrelationskoeffizient nach Pearson

(9)

Monotoner Zusammenhang Monotoner Zusammenhang

Korrelationskoeffizient nach Spearman

z Maß für monotonen Zusammenhang

„je höher das Alter umso höher das Cholesterin“

z Basiert auf den Rängen der Daten

(10)

Rangtransformation Rangtransformation

...

42 5,57

39 5,74

36 2,92

33 6,72

33 5,23

30 4,65

29 4,92

21 4,97

Alter Cholesterin

...

9 12

8 11

7 13

6 1

5 24

4 10

3 2

2 5

1 6

Rang Alter Rang

Cholesterin

(11)

Korrelationskoeffizient nach

Korrelationskoeffizient nach Spearman Spearman

628 ,

30 0 27000

1672 1 6

6 1

₃¹

2

− =

− ⋅

=

− −

= ∑

=

n n

d r

n

i

i s

n = 30

= Rang Alter – Rang Cholesterin

d

i

(12)

Unterschied Unterschied

Pearson‘scher Korrelationskoeffizient misst linearen Zusammenhang

z „Liegen die Punkte auf einer Linie?“

z Wird stark beeinflusst von extremen Beobachtungen

z Parametrisch (= die ursprünglich beobachteten Werte werden zur Berechnung herangezogen)

Spearman‘scher Korrelationskoeffizient misst monotonen Zusammenhang

z „Je höher das Alter umso höher ist das Cholesterin“

z Robust gegenüber extremen Beobachtungen

z Nicht-parametrisch (= die rangtransformierten Werte werden zur Berechnung herangezogen)

(13)

Beispiel 2 Beispiel 2

Zusammenhang zwischen Geburtsgewicht und Alter

Alter in Jahren

50 40

30 20

10

Geburtsgewicht in g

3400 3300 3200 3100 3000 2900 2800 2700 2600

391 , 0

504 , 0

−

=

−

= r

s

r

(14)

Beispiel 2 Beispiel 2

Zusammenhang zwischen Geburtsgewicht und Alter

217 , 0

155 , 0

−

=

−

= r

s

r

Alter in Jahren

50 40

30 20

10

Geburtsgewicht in g

3400 3300 3200 3100 3000 2900 2800 2700 2600

(15)

Konzise Beschreibung eines statistischen Zusammenhangs

Klärung, ob die Wirkung eines Faktors unabhängig von anderen ist

Möglichkeit der Prognose für einen einzelnen Patienten

Lineare Regression

(16)

Lineare Regression Lineare Regression

weight

100 90 80 70 60 50 40 30 20 10 0

maximal staticexpiratorypressure

200 180 160 140 120 100 80 60 40 20 0

(17)

Definitionen Definitionen

Abhängige Variable (Regressand, response, outcome): Diese Variable soll aus der anderen Variable berechnet werden.

Æ y-Achse

Unabhängige Variable(n) (Regressor, Predictor, erklärende Variable(n))

Æ x-Achse

Ziel der Regressionsanalyse: Vorhersage, Prediction

Methode: Die Abweichungsquadrate der beobachteten Werte zur Regressionsgeraden sollen minimiert werden

(18)

Methode der Kleinsten Quadrate Methode der Kleinsten Quadrate

... Paare von Messungen metrischer Größen

... unabhängige / erklärende Variable; Regressor

... abhängige Variable; Regressand

Für die Berechnung der abhängigen Variablen soll die Gerade so liegen, dass die Streuung der beobachteten Werte um diese Gerade möglichst klein ist. Diese Gerade ist die

Regressionsgerade.

(

^x₁^, ^y₁

) (

^, ^x₂^, ^y₂

) (

^,..., ^x_n^, ^y_n

)

x

i

y

i

(19)

Methode der Kleinsten Quadrate Methode der Kleinsten Quadrate

Für den Zusammenhang zwischen und soll folgendes Modell gelten:

und sind die Regressionskoeffizienten

ist die Konstante (Intercept) in der Regressionsgerade

ist die Steigung der Regressionsgeraden

Die Regressionsgerade verläuft durch den Schwerpunkt β0

β

₁

β0

β

1

( ) ^x ^, ^y

i i

i

x

y = β

₀

+ β

₁

+ ε i = 1 , 2 ,..., n

x

i

y

_i

(20)

Methode der Kleinsten Quadrate Methode der Kleinsten Quadrate

weight

100 90 80 70 60 50 40 30 20 10 0

maximal staticexpiratorypressure

200 180 160 140 120 100 80 60 40 20 0

Residuum

β0

β1

( )

^x^, ^y

(21)

Methode der Kleinsten Quadrate Methode der Kleinsten Quadrate

( )

1 0, 1

2 1

0

min

β

β − →

−

= ∑

= n

i

x

y Q

( )( )

( )

∑ ⁻ ⁻ ⁻

=

₂

ˆ

1

x x

y y

x x

i i

β

i

x

y

₁

ˆ

0

β

β = −

(22)

Methode der Kleinsten Quadrate Methode der Kleinsten Quadrate

heißen Residuen der Regression

heißen Prognosewerte der Regression

Beispiel:

(

i

)

i i

i

y y y x

r = − ˆ = − β ˆ

₀

+ β ˆ

₁

i

x

y ˆ = β ˆ

₀

+ β ˆ

₁

087 ,

ˆ 1

181 , ˆ 66

1 0

=

β

(23)

SPSS- SPSS - output output

Modellzusammenfassung

,879^a ,772 ,743 2,954

Modell 1

R R-Quadrat

Korrigiertes R-Quadrat

Standardf ehler des Schätzers Einflußvariablen : (Konstante), Körpergröße in cm

a.

ANOVA^b

236,201 1 236,201 27,072 ,001^a

69,799 8 8,725

306,000 9

Regression Residuen Gesamt Modell

1

Quadrats

umme df

Mittel der

Quadrate F Signifikanz

Einflußvariablen : (Konstante), Körpergröße in cm a.

Abhängige Variable: Körpergewicht in kg b.

Koeffizienten^a

-93,243 31,388 -2,971 ,018 -165,624 -20,862

,912 ,175 ,879 5,203 ,001 ,508 1,316

(Konstante) Körpergröße in cm Modell

1

B

Standardf ehler Nicht standardisierte

Koeffizienten

Beta Standardisie

rte Koeffizienten

T Signifikanz Untergrenze Obergrenze 95%-Konfidenzintervall für

B

Abhängige Variable: Körpergewicht in kg a.

(24)

Voraussetzungen Voraussetzungen

Die Werte der Outcome-Variablen Y (bei uns „weight“) sollten normalverteilt sein für jeden Wert der erklärenden Variablen X.

Die Variabilität von Y (entspricht der Varianz bzw. der

Standardabweichung) sollte gleich sein für jeden Wert von X.

Æ Varianzhomogenität

Der Zusammenhang zwischen X und Y sollte linear sein.

(25)

Ü Ü berpr berpr ü ü fung fung

Visuelle Inspektion des Scatterplots;

Plot der Residuen vs. vorhergesagte Werte – zufällige Verteilung der Daten;

Wenn die Voraussetzungen zutreffen folgen die

Resdiuen einer Normalverteilung - NQQ Plot.

(26)

Bestimmtheitsma Bestimmtheitsma ß ß

Maß für die Güte der Anpassung

= Bestimmtheitsmaß

Gibt den Anteil der Varianz der Daten an, welche durch das Modell erklärt wird.

( )

²

2 ˆ 2

2

ˆ

y y i

i

s s y

y

R y =

−

= −

∑ ∑

1 0 ≤ R

²

≤

(27)

Residuenanalyse Residuenanalyse

weight

80 70

60 50

40 30

20 10

UnstandardizedResidual

60

40

20

0

-20

-40

-60

(28)

Konfidenzb

Konfidenzb ä ä nder nder

Die Berechnung der Regressionsgerade beruht auf den Daten

Die berechneten Werte gelten nur für den Bereich, in welchem Beobachtungen vorhanden sind.

Natürlich muss auch auf die Qualität der Daten geachtet werden.

(29)

Konfidenzb

Konfidenzb ä ä nder nder

100 90 80 70 60 50 40 30 20 10 0 200 180 160 140 120 100 80 60 40 20

maximal staticexpiratorypressure 0

weight

(30)

Unterschied Korrelation

Unterschied Korrelation - - Regression Regression

Korrelation beschreibt die Stärke eines

linearen oder monotonen Zusammenhangs

Regression beschreibt eine Ursache-

Wirkungs-Beziehung

(31)

Multiple lineare Regression Multiple lineare Regression

Es gibt mehrere unabhängige Variablen

k k

x x

x

y = β

₀

+ β

₁ ₁

+ β

₂ ₂

+ ... + β