De nihilo nihil
Statistische Modellbildung
Kausalitätsbeziehungen
Zielgröße Blutdruck
Störgröße Körpergewicht Störgröße
Nikotinkonsum
Einflussgröße Koffeinkonsum
ursächlich assoziiert
Statistische Modellbildung
Zielgrößen bzw. abhängigen Variablen und Einflussgrößen bzw. unabhängigen Variablen,
einschließlich der Adjustierung für unkontrollierbare Störgrößen.
... beinhaltet die Analyse des
funktionellen Zusammenhangs zwischen
experimentelle Modellbildung
experimentelle Bewertung des Einflusses gegebener Einflussgrößen auf eine Zielgröße, einschließlich
Randomisierung bzw. Matching ("Kontrolle") für
bekannte Störgrößen (z.B. Temperatur und Feuchtigkeit als Determinanten der Klebkraft von Zahnprothesen)
beobachtende Modellbildung
auf Beobachtungen basierende Analyse des
Zusammenhangs zwischen einer Zielgröße und
mehreren Einfluss- und Störgrößen (z.B. Geburtsgewicht und -zeitpunkt, mütterliches Alter)
grundlegende Ansätze
Statistische Modellbildung
Y: Zielgröße
X
1,...,X
k: Einflussgrößen
Ε : Zufallsfehler
Ε + +
+ +
+
= a b
1x
1b
2x
2... b
kx
kY
Lineare Modelle
Multiple lineare (und andere) Modelle erlauben die Schätzung der Regressionskoeffizienten bi unter Berücksichtigung von
Störgrößen ("Adjustierung").
Für Ε wird im Allgemeinen eine N(0,σ2)-Verteilung mit unbekanntem σ2 unterstellt.
0 E(Y)
ypräd=a+b1x1+...+bkxk
Ε
YLineare Modelle
Körpergröße (Zoll)
62 64 66 68 70 72
Körpergewicht (Pfund)
90 100 110 120 130 140 150
y: Körpergewicht (Pfund), x1: Körpergröße (Zoll)
ypräd=-111.29+3.44⋅x1 Miss America 1984 - 2002
1. Datenexploration: isolierte Bewertung der möglichen Relevanz jeder einzelnen Einflussgröße
2. Modellformulierung: mathematische Modellierung des vielschichtigen Zusammenhangs zwischen Einfluss-
und Zielgrößen unter Berücksichtigung der wissenschaftlichen Plausibilität
3. Modellauswahl: Parameterschätzung ("Regression"), Hypothesentests (z.B. Likelihood-Quotient, p-Wert, Bestimmtheitsmaß)
4. Modellprüfung: Vergleich der Modellvorhersagen mit den Beobachtungen ("Residuendiagnostik")
Statistische Modellbildung
Vorgehensweise
Vorhersage des Körperfettanteils
Der prozentuale Fettanteil des menschlichen Körpers lässt sich relativ genau mit Hilfe der "dual energy X-ray
absorptiometry (DXA)" ermitteln. Das Verfahren ist jedoch zeitaufwändig und teuer. Messungen von Trizeps-
Hautfaltendicke, Oberschenkel- und Oberarmumfang sind zwar weniger genau, dafür aber schneller und billiger.
Quelle: J. Neter, W. Wasserman, M.H. Kutner (1997) Applied Linear Statistical Models
Vorhersage des Körperfettanteils
Einflussgröße Hautfalte Zielgröße
Körperfettanteil
Einflussgröße Oberschenkel
Einflussgröße Oberarm
Quelle: J. Neter, W. Wasserman, M.H. Kutner (1997) Applied Linear Statistical Models
Y, X1,...,X3 wurden gleichzeitig an 20 Individuen gemessen.
Vorhersage des Körperfettanteils
Körperfett (%)
Y
Hautfalte (mm)
X1
Oberschenkel (cm)
X2
Oberarm (cm)
X3
11.9 19.5 43.1 29.1
22.8 24.7 49.8 28.2
18.7 30.7 51.9 37.0
20.1 29.8 54.3 31.1
12.9 19.1 42.2 30.9
21.7 25.6 53.9 23.7
27.1 31.4 58.5 27.6
...
Quelle: J. Neter, W. Wasserman, M.H. Kutner (1997) Applied Linear Statistical Models
Multiple Lineare Regression
paarweise Pearson-Korrelationskoeffizienten r (oben rechts) und zweiseitige p-Werte für r=0 (unten links)
Datenexploration
Y X1 X2 X3
Y X1 X2 X3
0.843 0.878 0.142
<0.001 0.924 0.458
<0.001 <0.001 0.085 0.549 0.042 0.723
^
Hautfaltendicke (mm)
10 15 20 25 30 35
Körperfettanteil (%)
10 15 20 25 30
y: Körperfettanteil (%) x1: Hautfaltendicke (mm)
ypräd=-1.496+0.857⋅x1
R2=0.711
Multiple Lineare Regression
Datenexploration
Oberschenkelumfang (cm)
40 45 50 55 60
Körperfettanteil (%)
10 15 20 25 30
y: Körperfettanteil (%) x2: Oberschenkelumfang (cm)
ypräd=-23.634+0.857⋅x2
R2=0.771
Multiple Lineare Regression
Datenexploration
Oberarmumfang (cm)
20 25 30 35 40
Körperfettanteil (%)
10 15 20 25 30
y: Körperfettanteil (%) x3: Oberarmumfang (cm)
ypräd=14.687+0.199⋅x3
R2=0.020
Multiple Lineare Regression
Datenexploration
Ε + +
+ +
= a b
1x
1b
2x
2b
3x
3Y
lineares Modell mit normalverteiltem Fehler Ε
Multiple Lineare Regression
Modellformulierung
"Rückwärtsselektion": schrittweise
Reduzierung der Anzahl der Einflussgrößen, ausgehend vom "vollen" Modell
"Vorwärtsselektion": schrittweise
Hinzunahme von Einflussgrößen, ausgehend von der besten Einflussgröße (z.B. der mit dem kleinsten p-Wert)
Modellauswahl
Parameterschätzung aus den Modellgleichungen mit Hilfe des Maximum-Likelihood- oder Kleinste-Quadrate-Prinzips
20 20,3
3 20,2
2 20,1
1 20
2 2,3
3 2,2
2 2,1
1 2
1 1,3
3 1,2
2 1,1
1 1
x b x
b x
b a
y
x b x
b x
b a
y
x b x
b x
b a
y
ε + +
+ +
=
ε + +
+ +
=
ε + +
+ +
= M
Multiple Lineare Regression
Modellauswahl (Rückwärtsselektion)
a (Achsenabschnitt) 117.085 99.782 b1 (Hautfalte) 4.334 3.016 b2 (Oberschenkel) -2.857 2.582 b3 (Oberarm) -2.186 1.595
Term Schätzung s.e.
ypräd=117.085+4.334⋅x1-2.857⋅x2 -2.186⋅x3 R2= 0.895
Multiple Lineare Regression
volles Modell
s.e.: Standardfehler
Für jeden Regressionskoeffizienten bi wird die
Nullhypothese Hi,0: bi=0 gegen die Alternativhypothese Hi,A: bi≠0 getestet, z.B. mit dem Wald-Test.
) b ˆ .(
e . s
b ˆ W
i i
i
=
Da Wi∼N(0,1) unter Hi,0, verwerfe Hi,0 wenn |Wi |> z1-α/2.
Multiple Lineare Regression
Modellauswahl (Rückwärtsselektion)
a (Achsenabschnitt) 1.173 0.258 b1 (Hautfalte) 1.437 0.170 b2 (Oberschenkel) -1.106 0.285 b3 (Oberarm) -1.370 0.190
Term W p
Multiple Lineare Regression
Modellauswahl (Rückwärtsselektion)
a (Achsenabschnitt) 6.792 4.488 b1 (Hautfalte) 1.001 0.128 b3 (Oberarm) -0.431 0.177
Term Schätzung s.e.
ypräd=6.792+1.001⋅x1 -0.431⋅x3 R2= 0.887
Multiple Lineare Regression
endgültiges Modell
s.e.: Standardfehler
a (Achsenabschnitt) 1.513 0.149 b1 (Hautfalte) 7.803 <0.001 b3 (Oberarm) -2.442 0.026
Term W p
Multiple Lineare Regression
endgültiges Modell
Körperfettanteil (%)
10 15 20 25 30
standardisiertes Residuum
-2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0
ypräd
y
i präd, i
i
s
y y
−
= − ε
Prüfung, ob der (zufällige) Fehler
Ε
einer N(0,σ2)-Verteilung folgt
"standardisierte Residuen"
Multiple Lineare Regression
Modellprüfung
Multiple Lineare Regression
Modellprüfung
Zielgröße
Residuum
0
Zielgröße
Residuum
0
Residuum
0
Zielgröße
Zielgröße
Residuum
0 (a)
(b)
(c)
(d)
Varianzanalyse (ANOVA)
Die Einflussgrößen sind entweder qualitativ oder quantitativ diskret.
Kovarianzanalyse (ANCOVA)
Einige Einflussgrößen sind stetig, einige sind diskret (multiple Regression).
Weitere (Normale) Lineare Modelle
Y: Zielgröße
X
1,...,X
k: Einflussgrößen
Ε : N(0, σ
2) mit unbekanntem σ
Ε + +
+ +
+
= a b
1x
1b
2x
2... b
kx
kY
Lineare Modelle
k k
2 2
1
1
x b x ... b x
b a
) Y
E( = + + + +
) ( E x
b ...
x b x
b a
E(Y) = +
1 1+
2 2+ +
k k+ Ε
Y: Zielgrößen
X
1,...,X
k: Einflussgrößen G: Link-Funktion
k k
2 2
1
1
x b x ... b x
b a
(Y)]
E
G[ = + + + +
Verallgemeinerte Lineare Modelle
für eine dichotome Zielgröße Y gilt:
E(Y) = 0 ⋅ P(Y=0)+1 ⋅ P(Y=1) = P(Y=1) = π
π
0,0 0,2 0,4 0,6 0,8 1,0
logit(π)
-6 -4 -2 0 2 4 6
k k 2
2 1
1
x b x ... b x
b a
)
logit( π = + + + +
Verallgemeinertes Lineares Modell mit "logit" als Link-Funktion
Logistische Regression
) )
logit(
π
−
= π
π ln(1
Logistische Regression
Sei X1 eine dichotome Einflussgröße (z.B. 1:"exponiert", 0:"nicht exponiert")
) b exp(
OR =
1k k 2
2 1
e) a b 1 b x ... b x
logit(π = + ⋅ + + +
k k 2
2 1
n) a b 0 b x ... b x
logit(π = + ⋅ + + +
1 ) ln(
1 ) ln(
) logit(
- ) ( it log b
n n e
e n
e
1 − π
− π π
−
= π π
π
=
) OR 1 ln(
1 / ln
n n e
e =
π
− π π
−
= π
adjustierte Odds-Ratio
Die Evans-County-Herzstudie
Im Jahre 1960 wurde die gesamte über 40 Jahre alte Bevölkerung von Evans County, Georgia, einer kompletten kardiovaskulären Untersuchung unterzogen. Anschließend wurden 609 weiße Männer
über einen Zeitraum von 9 Jahren nachverfolgt und ihr Zustand in Bezug auf koronare Herzkrankheiten (KHK) ermittelt.
Hames C (1971) Arch Intern Med 128: 883-886.
Y: KHK-Status (dichotom) 0:"nein", 1:"ja"
x1: Katecholaminspiegel (CAT; dichotom) 0:"niedrig", 1:"hoch"
x2: Alter (Jahre)
x3: Cholesterin (CHL; mg/dL) x4: Raucherstatus (dichotom)
0:"niemals", 1:"jemals"
x5: Bluthochdruck (dichotom) 0:"nein", 1:"ja"
x6: EKG-Abnormalitäten (dichotom) 0:"nein", 1:"ja"
Quelle: Kleinbaum DG (1994) Logistic Regression - A Self-Learning Text.
Springer, New York
Die Evans-County-Herzstudie
CAT (%) 95 (18%) 27 (38%) <0.001
Alter 53 ± 9 57 ± 10 0.002
CHL 210 ± 39 222 ±39 0.021
Raucher (%) 333 (62%) 54 (76%) 0.025
Bluthochdruck (%) 212 (39%) 43 (60%) <0.001
EKG (%) 137 (26%) 29 (41%) 0.010
Einflussgröße nein (n=538) ja (n=71) p KHK
Datenexploration
Logistische Regression
Absolutzahlen und prozentuale Anteile, oder
Mittelwert ± s.e., mit p-Werten aus χ2-Test bzw. t-Test
unadjustierte Odds-Ratios Die Evans-County-Herzstudie
44
niedrig 443
27
hoch 95
KHK ∅ KHK
17
nein 205
54
ja 333
KHK ∅ KHK
28
nein 326
43
ja 212
KHK ∅ KHK
42
nein 401
29
ja 137
KHK ∅ KHK
CAT Raucher
Bluthochdruck EKG-Abnormalitäten OR=27⋅443/95⋅44=2.86 OR=54⋅205/333⋅17=1.96
OR=43⋅326/212⋅28=2.36 OR=29⋅401/137⋅42=2.02
6 6 2
2 1
1
x b x ... b x
b a
)
logit( π = + + + +
logistisches Modell,
π =E(Y): 9-Jahres-Inzidenzanteil (oder "9-Jahres-Risiko") für KHK
Modellformulierung
Logistische Regression
a (Achsenabschnitt) b1 (CAT)
b2 (Alter) b3 (CHL)
b4 (Raucher)
b5 (Bluthochdruck) b6 (EKG)
Term Schätzung s.e.
-6.772 0.598 0.032 0.009 0.834 0.439 0.369
1.140 0.352 0.015 0.003 0.305 0.291 0.294 volles Modell
Logistische Regression
adjustierte
vs
unadjustierte Odds-Ratiosb1 (CAT)
b4 (Raucher)
b5 (Bluthochdruck) b6 (EKG)
Term Schätzung
0.598 0.834 0.439 0.369
Odds-Ratio
adjustiert unadjustiert 1.82
2.30 1.55 1.49
2.86 1.96 2.36 2.02 Die Evans-County-Herzstudie
a (Achsenabschnitt) b1 (CAT)
b2 (Alter) b3 (CHL)
b4 (Raucher)
b5 (Bluthochdruck) b6 (EKG)
Term W p
-5.940 1.698 2.123 2.680 2.734 1.509 1.258
<0.001 0.089 0.034 0.007 0.006 0.131 0.208
Logistische Regression
Modellauswahl (Rückwärtsselektion)
a (Achsenabschnitt) b2 (Alter)
b3 (CHL)
b4 (Raucher)
Term Schätzung s.e.
-7.027 0.051 0.007 0.851
1.107 0.014 0.003 0.301
logit(π) = -7.027+0.051⋅x2+0.007⋅x3+0.851⋅x4
ORRaucher unadjustiert: 1.96, adjustiert: 2.34
endgültiges Modell
Logistische Regression
x
-10 -5 0 5 10
logit-1 (x)
0.0 0.2 0.4 0.6 0.8 1.0
Logistische Funktion (logit
-1)
) x exp(
1 x 1
−
= + ) ( logit-1
) x b ...
x b x
b exp(-a
1
1
k k 2
2 1
1 − − −
−
= + π
Wie groß ist das 9-Jahres-KHK-Risiko eines 45-jährigen Rauchers mit einem Cholesterinspiegel von 260 mg/dL?
x
2=45, x
3=260, x
4=1
) 1 851 .
0 260
007 .
0 45
051 .
0 027
. 7 exp(
1
1
⋅
−
⋅
−
⋅
−
= + π
113 .
) 0 061 .
2 exp(
1
1 =
= +
Die Evans-County-Herzstudie
Screening-Test
Der Vergleich des individuellen Risikos π mit einem festen Schwellenwert ρ liefert einen
Screening-Test für die Erkrankung.
π
> ρ ≤ρ
test positiv
test negativ
Logistische Regression
1-Sensitivität
0 1
1
Spezifität
0.61
0.32
ρ: 0.11
Sensitivität: 0.68 Spezifität: 0.61
Youden-Index: 0.29 Basisrisiko:
71/(71+538)=0.12 PPW: 0.19
NPW: 0.93 AUC: 0.68
Logistische Regression
Screening-Test (ROC-Kurve)
Der Triple-Test wird zwischen der 16. und 18. SSW durchgeführt. Er misst drei Substanzen, oder Marker, die vom Föten und der Plazenta in den mütterlichen Blutkreislauf abgegeben werden: AFP, humanes
Choriongonadotropin und unkonjugiertes Estriol. [...]
Es wurde eine Methode entwickelt, um die Resultate der drei Tests mit dem mütterlichen Alter zu kombinieren und so
Frauen mit einem erhöhten Risiko für ein Kind mit Down-Syndrom zu identifizieren. Seitdem hat eine Reihe von Studien ergeben, dass mit dem Triple-Test ca. 60% bis 70% der Fälle von Down-Syndrom
entdeckt werden können. Da es sich hierbei um einen Screening-Test handelt, identifiziert der Triple-Test lediglich Schwangerschaften mit einem erhöhten Risiko für Down-Syndrom. Ein positives Testergebnis bedeutet also nicht notwendigerweise, dass das Kind betroffen ist, sondern indiziert lediglich weitere Tests.
"Triple-Test" für Down-Syndrom
American Society of Clinical Pathology (www.ascp.org)
Zusammenfassung
- Statistische Modellbildung ist die Analyse des funktionellen Zusammenhangs zwischen Ziel- und Einflussgrößen.
- Die experimentelle Modellbildung basiert auf prospektiven Studien, die Einflussgrößen kontrollieren. Die beobachtende Modellbildung verwendet unkontrollierte Beobachtungsdaten.
- Statistische Modellbildung vollzieht sich in mehreren Schritten und umfasst Datenexploration, Modellformulierung,
Modellauswahl und Modellprüfung.
- Die am häufigsten verwandte Klasse statistischer Modelle sind verallgemeinerte lineare Modelle, zu denen neben der
(multiplen) linearen Regression auch die Varianzanalyse und die logistische Regression gehören.
- Multiple Modelle "adjustieren" die Effekte von Einflussgrößen für den durch Störgrößen verursachten Bias.