1
7 M u lt iv a ri a te R e g re s s io n
7 .1 D a s M o d e ll
aThemaRegression:
WiehängenZielgrössen
Y
vonEingangsgrössenX
ab?WichtigstesThemaderangewandtenStatistik!
bBeispielFossilien:WiehängenFormenderCocolithen(
Y
(j)) vonMeeres-„Klima"(X
(k))ab?126
1517192123
1.3 1.4 1.5 1.6 1.7 1.8
SST+
+ +
++ + +
+++
+++ +
+ + ++ + ++
+
0.20.40.60.81.0
1.3 1.4 1.5 1.6 1.7 1.8
l.Chlorophyll
+
+ +
++ + +
+++
+++ +
+ + +
+ + +
+
+
35.435.836.236.6
1.3 1.4 1.5 1.6 1.7 1.8
Salinity
+
+ +++ + +
+ + +
+ +
+ +
+ + +
+ + +
+
+
−0.18−0.12−0.060.00
1.3 1.4 1.5 1.6 1.7 1.8
OxUtil
l.Angle
+
+ +++ + +
+++
+++ +
+ + ++ + +
+
+
1517192123
0.45 0.50 0.55 0.60 0.65
++ +
+ ++ +
++ +
++ + ++ +
+ + + +
++
0.20.40.60.81.0
0.45 0.50 0.55 0.60 0.65
+
+ +
+ +
+ +
++ +
++ + +
+ + +++ +
++
35.435.836.236.6
0.45 0.50 0.55 0.60 0.65
+
+ +
+ +
+ +
++ +
++ + +
+ + +
+ +
+
++
−0.18−0.12−0.060.00
0.45 0.50 0.55 0.60 0.65
l.Length
+
+ +
+ +
+ +
++ +
++ + +
+ + + + +
+
++
1517192123
0.79 0.81 0.83 0.85
++ +
+ ++ +
+ +
++
+ ++++ + ++ ++ +
0.20.40.60.81.0
0.79 0.81 0.83 0.85
+
+ +
+ ++ +
+ +
++
+ ++
+
+ + ++ +
+ +
35.435.836.236.6
0.79 0.81 0.83 0.85
+
+ ++ ++ +
+ +++
+ ++++ + ++ +
+ +
−0.18−0.12−0.060.00
0.79 0.81 0.83 0.85
rWidth
+
+ ++ ++ +
+ +
++
+ ++
+
+ + ++ +
+ +
17.1
cEineZielgrösse.(Repetition(?))
Y
i= β
0+ P
k
β
kx
(k)i+ E
i,E
i∼ N 0 , σ
2X
(k):Regressoren,=•
kontinuierlicheEingangsgrössen,•
transformierteEingangsgrössen(z.B.log-transformiert),•
binäreEingangsgrössen(vorhanden/nichtvorhanden),•
„dummy"Variable,diezu„Faktor"gehören(=nominale,kategorielleVariable–Region,Farbe,...)
•
Wechselwirkungs-Terme:z.B.X
(k)· X
(ℓ).128
Regressorenmüssennicht(stochastisch)unabhängigsein!
(Aberstarkkorrel.RegressorenerschwereneinekorrekteInterpretation!)
IrreführendeBegriffe:
„unabhängige"Variable(
X
(k))undabhängige(Y
).„erklärende"Variable.TöntnachUrsache!
− →
„Eingangsvariable"(input)1
MehrereZielgrössen.
Y
(j)i= β
(j)0+ X
k
β
(j)kx
(k)i+ E
(j)iMatrizen:
Y = X β + E .
eZufallsabweichungen
E
(j)i .E
i= [ E
(1)i, ... , E
(m)i]
T∼ N
mh 0 ,
|Σ i E
ifürverschiedeneBeobachtungeni
unabhängig.fMANOVA.
Varianzanalyse(mitfestenEffekten)istSpezialfallderRegression.
130
7 .2 S c h ä tz u n g e n u n d T e s ts
aSchätzungderKoeffizienten.KleinsteQuadratefürjedeZielgrösse
− → b β = ( X
TX )
−1X
TY
− →
AngepassteWerteY b = X β b
− →
Residuen-MatrixR = Y − Y b
. SchätzungderKovarianzmatrix:b
|Σ =
1n−pR
TR
bVerteilungdergeschätztenKoeffizienten.
Erwartungstreu,multivariatnormalverteilt!
c o v h b β
(j)h, b β
(ℓ)ki = (( X
TX )
−1)
hk |Σ
jℓ.1
cBeispielFossilien:
l.Anglel.LengthrWidth
coefp-valuecoefp-valuecoefp-value
(Intercept)447.7870.3471.65900.4710.592650.283
SST-0.7210.800-0.01020.463-0.004930.147l.Chlorophyll-19.2020.155-0.07650.2380.002080.890
Salinity-10.7560.452-0.02420.7260.008880.590
OxUtil-23.7700.6620.04330.869-0.043680.489
R
20.2850.2600.25710.1980.248890.2551327.2
dGemeinsameTests.
HateineEingangsgrösse(Regressor)
X
(k)einenEinflussaufY
? Nullhypothese:β
(1)k= 0 , β
(2)k= 0 , ... , β
(m)k= 0
.− →
einF-Test!HateinFaktoreinenEinflussauf
Y
?Nullhypothese:
β
(1)k= 0 , β
(2)k= 0 , ... , β
(m)k= 0
fürmehrere
k
.Allgemeiner:geschachtelteModelle!− →
einF-Test!MehrereVarianten!17.2
eBeispielFossilien.
DfWilksapproxFnumDfdenDfpvalue
SST10.5645.4052140.0182l.Chlorophyll10.8860.9052140.4271Salinity10.8471.2672140.3122OxUtil10.8900.8632140.4431.total.40.4171.9228280.0961Residuals15
fBedeutungdermultivariatenRegression.
SchätzungundVertrauensintervallfürein
β
(j)k :univariat!Multivariatergibtzusätzlich:
•
KorrelationenderZufallsabweichungen− →
PartielleKorrelation•
gemeinsameTestsfüralleZielgrössen.1347.2
gResiduen-Analyse.IMMER!
1.351.451.551.65
−0.1 0.0 0.1 0.2 0.3
l.Angle
angepasste Y
Residuen
0.480.520.56
−0.10 0.00 0.05 0.10
l.Length
angepasste Y 0.8100.8200.8300.840
−0.02 0.00 0.01 0.02
rWidth
angepasste Y
0.100.200.300.400.50
−0.1 0.0 0.1 0.2 0.3
l.Angle
leverage
Residuen
0.100.200.300.400.50
−0.10 0.00 0.05 0.10
l.Length
leverage 0.100.200.300.400.50
−0.02 0.00 0.01 0.02
rWidth
leverage
1
1517192123
−0.1 0.0 0.1 0.2 0.3
SST+
+ +
++ ++
+ ++ +
+ + +
+ + ++ + ++
+
0.20.40.60.81.0
−0.1 0.0 0.1 0.2 0.3
l.Chlorophyll
+
+ +
++ ++
+ ++ +
+ + +
+ + +
+ + +
+
+
35.435.836.236.6
−0.1 0.0 0.1 0.2 0.3
Salinity
+
+ +
++ ++
+ ++ ++ + +
+ + +
+ + +
+
+
−0.18−0.12−0.060.00
−0.1 0.0 0.1 0.2 0.3
OxUtil
Residuen v. l.Angle
+
+ +
++ ++
+ ++ +
+ + +
+ + ++ + +
+
+
1517192123
−0.10 −0.05 0.00 0.05 0.10
++ +
+ ++ +
+++ +
+ + +
+ +
+ + + +
+
+
0.20.40.60.81.0
−0.10 −0.05 0.00 0.05 0.10
+
+ +
+ +
+ +
+++ +
+ + +
+ + + ++ +
+
+
35.435.836.236.6
−0.10 −0.05 0.00 0.05 0.10
+
+ +
+ +
+ +
+++ +
+ + +
+ + +
+ +
+
+
+
−0.18−0.12−0.060.00
−0.10 −0.05 0.00 0.05 0.10
Residuen v. l.Length
+
+ +
+ +
+ +
+++ +
+ + +
+ + + + +
+
+
+
1517192123
−0.02 0.00 0.01 0.02
++ +
+
+ +
+
+ +
+ +
+ +
+
++ + ++ ++ +
0.20.40.60.81.0
−0.02 0.00 0.01 0.02
+
+ +
+
++ +
+ +
+ +
+ +
+
+
+ + ++ +
+ +
35.435.836.236.6
−0.02 0.00 0.01 0.02
+
+ ++
++ +
+ ++ +
+ +
++
+ +
++
+
+ +
−0.18−0.12−0.060.00
−0.02 0.00 0.01 0.02
Residuen v. rWidth
+
+ ++
++ +
+ +
+ +
+ +
+
+
+ + ++
+
+ +
136
−0.15−0.050.050.150.25
−0.10 −0.05 0.00 0.05 0.10
Residuen v. l.Angle
+
+ +
+ +
+ +
+++ +
+ + +
+ + + ++ +
+
+
−0.10−0.050.000.050.10
−0.10 −0.05 0.00 0.05 0.10
Residuen v. l.Length
Residuen v. l.Length
Residuen v. l.Length
−0.15−0.050.050.150.25
−0.02 −0.01 0.00 0.01 0.02
+
+ +
+
+ + +
+ ++ +
+ +
+
+
+ + ++ +
+ +
−0.10−0.050.000.050.10
−0.02 −0.01 0.00 0.01 0.02
Residuen v. rWidth
+
+ +
+
+ + +
+ ++ +
+ +
+
+
+ +
++
+
+ +
1
0.51.01.52.02.53.0
1.0 1.5 2.0 2.5
sqrt(Chisq.quantiles)
Mahal.oulyingness
+ + + + + + + + ++ + + ++ ++ + + + ++ +
0.51.01.52.02.53.0
1.0 1.5 2.0 2.5
Mahalanobis-Distanzen:
d
2h X
i, b µ ; b
|Σ i = ( X
i− b µ )
Tb
|Σ
−1( X
i− b µ ) ≈ ∼ χ
2m138
7 .3 * In v e rs e R e g re s s io n , K a lib ra tio n
aProblemstellung:Regressionwirdgebraucht,umvon„neuem"
x
0auf
Y
0zuschliessen.InverseR.:VonY
0aufx
0schliessen!EinfacheRegression...
b„KontrollierteKalibration".
x
0festeWerte.Modell:(multivariate)Regres-sion.
3Fälle:
cGleichvieleZielgrössenwieEingangsgrössen.InvertierediegeschätzteRegressionsfunktion.
VertrauensbereichedurchFehlerrechnung.
137.3
dWenigerZielgrössenalsEingangsgrössen.
Resultatistnichteindeutig
− →
Unterraumder„gleichplausiblen"x
0.eMehrZielgrössenalsAusgangsgrössen.
x =
Konzentrationeinerchem.Substanz,Y
:Spektrum.UmkehrfunktionderRegressionsfunktionexistiertnicht.
x
0istüberbestimm„Ausgleichsrechnung"=formaleAnwendungderRegression.
VerallgemeinerteKleinsteQuadrate:
b x
0= ( β b b
|Σ
−1β b
T)
−1β b b
|Σ
−1Y
0140
Schwierigkeit:VoraussetzungenfürdieneuenBeobachtungen
stimmenevtl.nichtübereinmitdenenfürTrainingsdaten
Bsp:neuesSpektrumpasstnichtzudenalten,istnichtMischung
JeschlimmerdieAbweichung,destoweniger
x
0-WertepassenzuY
0− →
Vertrauensbereichekleiner− →
Resultaterscheintgenauer!fKalibrationmitzufälligen„wahrenWerten"Annahme:
X
undY
beidezu-fällig.− →
VorhersagevonX
ausY
viaRegressionvonX
aufY
.Gehtauchfür
m < p
!Problem?–SieheeinfacheRegression!
1
M e rk p u n k te M u lt iv a ri a te R e g re s s io
•
RegressionmitmehrerenZielgrössen–vielesistsehrähnlichwiebeieinerZielgrösse
Y = X β + E
,E
i∼ N
mh 0 ,
|Σ i
Zusätzlich:
•
KorrelationenzwischenE
(j),− →
Streudiagramm-Matrixansehen!•
gemeinsameTestsfürEinflüssevonAusgangsgrössenaufirgendeineZielgrösse