• Keine Ergebnisse gefunden

Zusammenhang zwischen Variablen Zusammenhang zwischen Variablen

N/A
N/A
Protected

Academic year: 2021

Aktie "Zusammenhang zwischen Variablen Zusammenhang zwischen Variablen"

Copied!
31
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Korrelation

Korrelation - - Regression Regression

(2)

Zusammenhang zwischen Variablen Zusammenhang zwischen Variablen

Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen

ƒ Korrelation

ƒ Einfaches lineares Regressionsmodell

1. Schritt: Erstellung eines Scatterplots (Streudiagramm)

(3)

Alter

80 70

60 50

40 30

20 10

0

Cholesterin

10 9 8 7 6 5 4 3 2 1 0

Scatterplot

Scatterplot

(4)

Korrelationsanalyse Korrelationsanalyse

ƒ Mit der Korrelationsanalyse werden Maßzahlen berechnet, um die Stärke eines Zusammenhangs zu quantifizieren.

ƒ Voraussetzungen:

z Beide Merkmale sind metrisch skaliert und stetig

z Die einzelnen Beobachtungseinheiten sind voneinander unabhängig

(5)

Korrelation Korrelation

ƒ Korrelationskoeffizient nach Pearson.

z Maß für die Stärke eines linearen Zusammenhangs.

z Liegt zwischen –1 und 1.

z 1 entspricht einem perfekten positiven Zusammenhang.

z -1 entspricht einem perfekten negativen Zusammenhang.

(6)

( )( )

( ) ( )

603 ,

70275 0 ,

49 3

, 6326

075 ,

338

2 2

⋅ =

=

= −

∑ ∑ ∑

y y

x x

y y

x r x

i i

i i

Korrelationskoeffizient nach Pearson

Korrelationskoeffizient nach Pearson

(7)

rr 11 rr 00..22

r

r 00 rr 00..44

Korrelationskoeffizient nach Pearson

Korrelationskoeffizient nach Pearson

(8)

r = 0.8 ! r = 0.8 !

0.0 5.0 10.0 15.0 20.0

0.0 5.0 10.0 15.0 20.0

0.0 5.0 10.0 15.0 20.0

0.0 5.0 10.0 15.0 20.0

0.0 5.0 10.0 15.0 20.0

0.0 5.0 10.0 15.0 20.0

0.0 5.0 10.0 15.0 20.0

0.0 5.0 10.0 15.0 20.0

Korrelationskoeffizient nach Pearson

Korrelationskoeffizient nach Pearson

(9)

Monotoner Zusammenhang Monotoner Zusammenhang

ƒ Korrelationskoeffizient nach Spearman

z Maß für monotonen Zusammenhang

„je höher das Alter umso höher das Cholesterin“

z Basiert auf den Rängen der Daten

(10)

Rangtransformation Rangtransformation

...

...

42 5,57

42 5,57

39 5,74

36 2,92

33 6,72

33 5,23

30 4,65

29 4,92

21 4,97

Alter Cholesterin

...

...

9 12

8 11

7 13

6 1

5 24

4 10

3 2

2 5

1 6

Rang Alter Rang

Cholesterin

(11)

Korrelationskoeffizient nach

Korrelationskoeffizient nach Spearman Spearman

628 ,

30 0 27000

1672 1 6

6 1

31

2

− =

− ⋅

=

− −

= ∑

=

n n

d r

n

i

i s

n = 30

= Rang Alter – Rang Cholesterin

d

i

(12)

Unterschied Unterschied

ƒ Pearson‘scher Korrelationskoeffizient misst linearen Zusammenhang

z „Liegen die Punkte auf einer Linie?“

z Wird stark beeinflusst von extremen Beobachtungen

z Parametrisch (= die ursprünglich beobachteten Werte werden zur Berechnung herangezogen)

ƒ Spearman‘scher Korrelationskoeffizient misst monotonen Zusammenhang

z „Je höher das Alter umso höher ist das Cholesterin“

z Robust gegenüber extremen Beobachtungen

z Nicht-parametrisch (= die rangtransformierten Werte werden zur Berechnung herangezogen)

(13)

Beispiel 2 Beispiel 2

ƒ Zusammenhang zwischen Geburtsgewicht und Alter

Alter in Jahren

50 40

30 20

10

Geburtsgewicht in g

3400 3300 3200 3100 3000 2900 2800 2700 2600

391 , 0

504 , 0

=

= r

s

r

(14)

Beispiel 2 Beispiel 2

ƒ Zusammenhang zwischen Geburtsgewicht und Alter

217 , 0

155 , 0

=

= r

s

r

Alter in Jahren

50 40

30 20

10

Geburtsgewicht in g

3400 3300 3200 3100 3000 2900 2800 2700 2600

(15)

ƒ Konzise Beschreibung eines statistischen Zusammenhangs

ƒ Klärung, ob die Wirkung eines Faktors unabhängig von anderen ist

ƒ Möglichkeit der Prognose für einen einzelnen Patienten

Lineare Regression

Lineare Regression

(16)

Lineare Regression Lineare Regression

weight

100 90 80 70 60 50 40 30 20 10 0

maximal staticexpiratorypressure

200 180 160 140 120 100 80 60 40 20 0

(17)

Definitionen Definitionen

ƒ Abhängige Variable (Regressand, response, outcome): Diese Variable soll aus der anderen Variable berechnet werden.

Æ y-Achse

ƒ Unabhängige Variable(n) (Regressor, Predictor, erklärende Variable(n))

Æ x-Achse

ƒ Ziel der Regressionsanalyse: Vorhersage, Prediction

ƒ Methode: Die Abweichungsquadrate der beobachteten Werte zur Regressionsgeraden sollen minimiert werden

(18)

Methode der Kleinsten Quadrate Methode der Kleinsten Quadrate

ƒ

... Paare von Messungen metrischer Größen

ƒ ... unabhängige / erklärende Variable; Regressor

ƒ ... abhängige Variable; Regressand

ƒ Für die Berechnung der abhängigen Variablen soll die Gerade so liegen, dass die Streuung der beobachteten Werte um diese Gerade möglichst klein ist. Diese Gerade ist die

Regressionsgerade.

(

x1, y1

) (

, x2, y2

) (

,..., xn, yn

)

x

i

y

i

(19)

Methode der Kleinsten Quadrate Methode der Kleinsten Quadrate

ƒ Für den Zusammenhang zwischen und soll folgendes Modell gelten:

ƒ und sind die Regressionskoeffizienten

ƒ ist die Konstante (Intercept) in der Regressionsgerade

ƒ ist die Steigung der Regressionsgeraden

ƒ Die Regressionsgerade verläuft durch den Schwerpunkt β0

β

1

β0

β

1

( ) x , y

i i

i

x

y = β

0

+ β

1

+ ε i = 1 , 2 ,..., n

x

i

y

i

(20)

Methode der Kleinsten Quadrate Methode der Kleinsten Quadrate

weight

100 90 80 70 60 50 40 30 20 10 0

maximal staticexpiratorypressure

200 180 160 140 120 100 80 60 40 20 0

Residuum

β0

β1

( )

x, y

(21)

Methode der Kleinsten Quadrate Methode der Kleinsten Quadrate

( )

1 0, 1

2 1

0

min

β

β

β

β − →

= ∑

= n

i

i

i

x

y Q

( )( )

( )

=

2

ˆ

1

x x

y y

x x

i i

β

i

x

y

1

ˆ

0

β

β = −

(22)

Methode der Kleinsten Quadrate Methode der Kleinsten Quadrate

ƒ heißen Residuen der Regression

ƒ heißen Prognosewerte der Regression

ƒ Beispiel:

(

i

)

i i

i

i

y y y x

r = − ˆ = − β ˆ

0

+ β ˆ

1

i

i

x

y ˆ = β ˆ

0

+ β ˆ

1

087 ,

ˆ 1

181 , ˆ 66

1 0

=

=

β

β

(23)

SPSS- SPSS - output output

Modellzusammenfassung

,879a ,772 ,743 2,954

Modell 1

R R-Quadrat

Korrigiertes R-Quadrat

Standardf ehler des Schätzers Einflußvariablen : (Konstante), Körpergröße in cm

a.

ANOVAb

236,201 1 236,201 27,072 ,001a

69,799 8 8,725

306,000 9

Regression Residuen Gesamt Modell

1

Quadrats

umme df

Mittel der

Quadrate F Signifikanz

Einflußvariablen : (Konstante), Körpergröße in cm a.

Abhängige Variable: Körpergewicht in kg b.

Koeffizientena

-93,243 31,388 -2,971 ,018 -165,624 -20,862

,912 ,175 ,879 5,203 ,001 ,508 1,316

(Konstante) Körpergröße in cm Modell

1

B

Standardf ehler Nicht standardisierte

Koeffizienten

Beta Standardisie

rte Koeffizienten

T Signifikanz Untergrenze Obergrenze 95%-Konfidenzintervall für

B

Abhängige Variable: Körpergewicht in kg a.

(24)

Voraussetzungen Voraussetzungen

ƒ Die Werte der Outcome-Variablen Y (bei uns „weight“) sollten normalverteilt sein für jeden Wert der erklärenden Variablen X.

ƒ Die Variabilität von Y (entspricht der Varianz bzw. der

Standardabweichung) sollte gleich sein für jeden Wert von X.

Æ Varianzhomogenität

ƒ Der Zusammenhang zwischen X und Y sollte linear sein.

(25)

Ü Ü berpr berpr ü ü fung fung

ƒ Visuelle Inspektion des Scatterplots;

ƒ Plot der Residuen vs. vorhergesagte Werte – zufällige Verteilung der Daten;

ƒ Wenn die Voraussetzungen zutreffen folgen die

Resdiuen einer Normalverteilung - NQQ Plot.

(26)

Bestimmtheitsma Bestimmtheitsma ß ß

ƒ Maß für die Güte der Anpassung

= Bestimmtheitsmaß

ƒ Gibt den Anteil der Varianz der Daten an, welche durch das Modell erklärt wird.

( )

( )

2

2 ˆ 2

2

2

ˆ

y y i

i

s s y

y

y

R y =

= −

∑ ∑

1

0 ≤ R

2

(27)

Residuenanalyse Residuenanalyse

weight

80 70

60 50

40 30

20 10

UnstandardizedResidual

60

40

20

0

-20

-40

-60

(28)

Konfidenzb

Konfidenzb ä ä nder nder

ƒ Die Berechnung der Regressionsgerade beruht auf den Daten

ƒ Die berechneten Werte gelten nur für den Bereich, in welchem Beobachtungen vorhanden sind.

ƒ Natürlich muss auch auf die Qualität der Daten geachtet werden.

(29)

Konfidenzb

Konfidenzb ä ä nder nder

100 90 80 70 60 50 40 30 20 10 0 200 180 160 140 120 100 80 60 40 20

maximal staticexpiratorypressure 0

weight

(30)

Unterschied Korrelation

Unterschied Korrelation - - Regression Regression

ƒ Korrelation beschreibt die Stärke eines

linearen oder monotonen Zusammenhangs

ƒ Regression beschreibt eine Ursache-

Wirkungs-Beziehung

(31)

Multiple lineare Regression Multiple lineare Regression

ƒ Es gibt mehrere unabhängige Variablen

k k

x x

x

y = β

0

+ β

1 1

+ β

2 2

+ ... + β

Referenzen

ÄHNLICHE DOKUMENTE

metische Mittel im Sinne der Ausgleichsrechnung und daher nicht als Beweis für · die Zurückführung der Methode der kleinsten Quadrate auf das arithmetische Mittel

v erbess erungen in d en v erschie denartigen V erb esserun gs gl eichungen tunlichst auf gleiche Höhe zu brin gen, was b ei Seitengl eichungen durch Multiplikation mit

verfahren in der Methode der kleinsten Q uadrate. Gappi.ller1 in l�cichenherg.. · der ·Bedingungsgleichungen deren G-ewl:chte. Gewichte Eins seien. '''d)ie$e

Die allgcmei11c Form einer linearen Vermittlungsgleichung zwischen den Unbekannten x, y, z,.. vor Anstellung der Beobachtungen

Zur Dreiecksausgleichung nach der Methode der kleinsten

Bestimmung einiger Objecte, welche von mehreren Dreiecks- punkten beobachtet wurden, nach der Methode der kleinsten Quadrate.. Sind verschiedene Richtungen oder Winkel unabhängig

Field Upgrade Kits are required to modify the 8510, 8512 and 8515 units for operation with a Variable Density Disk Drive Controller9. These kits consist of the PWB assemblies,

Bei der L¨ osung linearer Ausgleichsprobleme kAx − bk 2 ergibt sich h¨ aufig das Problem, neue Mess- daten in eine schon vorhandene Reihe von Daten aufzunehmen, oder gewisse