7 M u lt iv a ri a te R e g re s s io n

(1)

1

7 M u lt iv a ri a te R e g re s s io n

7 .1 D a s M o d e ll

aThemaRegression:

WiehängenZielgrössen

Y

vonEingangsgrössen

X

ab?

WichtigstesThemaderangewandtenStatistik!

bBeispielFossilien:WiehängenFormenderCocolithen(

Y

(j)) vonMeeres-„Klima"(

X

(k))ab?

(2)

126

1517192123

1.3 1.4 1.5 1.6 1.7 1.8

SST+

+ +

++ + +

+++

+++ +

+ + ++ + ++

+

0.20.40.60.81.0

1.3 1.4 1.5 1.6 1.7 1.8

l.Chlorophyll

+

+ +

++ + +

+++

+++ +

+ + +

+

35.435.836.236.6

1.3 1.4 1.5 1.6 1.7 1.8

Salinity

+

+ +++ + +

+ + +

+ +

+ + +

+

−0.18−0.12−0.060.00

1.3 1.4 1.5 1.6 1.7 1.8

OxUtil

l.Angle

+

+ +++ + +

+++

+++ +

+ + ++ + +

+

1517192123

0.45 0.50 0.55 0.60 0.65

++ +

+ ++ +

++ +

++ + ++ +

+ + + +

++

0.20.40.60.81.0

0.45 0.50 0.55 0.60 0.65

+

+ +

++ +

++ + +

+ + +++ +

++

35.435.836.236.6

0.45 0.50 0.55 0.60 0.65

+

+ +

++ +

++ + +

+ + +

+ +

+

++

−0.18−0.12−0.060.00

0.45 0.50 0.55 0.60 0.65

l.Length

+

+ +

++ +

++ + +

+ + + + +

+

++

1517192123

0.79 0.81 0.83 0.85

++ +

+ ++ +

+ +

++

+ ++++ + ++ ++ +

0.20.40.60.81.0

0.79 0.81 0.83 0.85

+

+ +

+ ++ +

+ +

++

+ ++

+

+ + ++ +

+ +

35.435.836.236.6

0.79 0.81 0.83 0.85

+

+ ++ ++ +

+ +++

+ ++++ + ++ +

+ +

−0.18−0.12−0.060.00

0.79 0.81 0.83 0.85

rWidth

+

+ ++ ++ +

+ +

++

+ ++

+

+ + ++ +

+ +

(3)

17.1

cEineZielgrösse.(Repetition(?))

Y

i

= β

0

+ P

k

β

k

x

(k)i

+ E

i,

E

i

∼ N 0 , σ

2

X

(k):Regressoren,=

•

kontinuierlicheEingangsgrössen,

•

transformierteEingangsgrössen(z.B.log-transformiert),

•

binäreEingangsgrössen(vorhanden/nichtvorhanden),

•

„dummy"Variable,diezu„Faktor"gehören

(=nominale,kategorielleVariable–Region,Farbe,...)

•

Wechselwirkungs-Terme:z.B.

X

(k)

· X

(ℓ).

(4)

128

Regressorenmüssennicht(stochastisch)unabhängigsein!

(Aberstarkkorrel.RegressorenerschwereneinekorrekteInterpretation!)

IrreführendeBegriffe:

„unabhängige"Variable(

X

(k))undabhängige(

Y

).

„erklärende"Variable.TöntnachUrsache!

− →

„Eingangsvariable"(input)

(5)

1

MehrereZielgrössen.

Y

(j)i

= β

(j)0

+ X

k

β

(j)k

x

(k)i

+ E

(j)i

Matrizen:

Y = X β + E .

eZufallsabweichungen

E

(j)i .

E

i

= [ E

(1)i

, ... , E

(m)i

]

T

∼ N

m

h 0 ,

|

Σ i E

ifürverschiedeneBeobachtungen

i

unabhängig.

fMANOVA.

Varianzanalyse(mitfestenEffekten)istSpezialfallderRegression.

(6)

130

7 .2 S c h ä tz u n g e n u n d T e s ts

aSchätzungderKoeffizienten.KleinsteQuadratefürjedeZielgrösse

− → b β = ( X

T

X )

−1

X

T

Y

− →

AngepassteWerte

Y b = X β b

− →

Residuen-Matrix

R = Y − Y b

. SchätzungderKovarianzmatrix:

b

|

Σ =

1n−p

R

T

R

bVerteilungdergeschätztenKoeffizienten.

Erwartungstreu,multivariatnormalverteilt!

c o v h b β

(j)h

, b β

(ℓ)k

i = (( X

T

X )

−1

)

hk |

Σ

jℓ.

(7)

1

cBeispielFossilien:

l.Anglel.LengthrWidth

coefp-valuecoefp-valuecoefp-value

(Intercept)447.7870.3471.65900.4710.592650.283

SST-0.7210.800-0.01020.463-0.004930.147l.Chlorophyll-19.2020.155-0.07650.2380.002080.890

Salinity-10.7560.452-0.02420.7260.008880.590

OxUtil-23.7700.6620.04330.869-0.043680.489

R

20.2850.2600.25710.1980.248890.255

(8)

1327.2

dGemeinsameTests.

HateineEingangsgrösse(Regressor)

X

(k)einenEinflussauf

Y

? Nullhypothese:

β

(1)k

= 0 , β

(2)k

= 0 , ... , β

(m)k

= 0

.

− →

einF-Test!

HateinFaktoreinenEinflussauf

Y

?

Nullhypothese:

β

(1)k

= 0 , β

(2)k

= 0 , ... , β

(m)k

= 0

fürmehrere

k

.Allgemeiner:geschachtelteModelle!

− →

einF-Test!MehrereVarianten!

(9)

17.2

eBeispielFossilien.

DfWilksapproxFnumDfdenDfpvalue

SST10.5645.4052140.0182l.Chlorophyll10.8860.9052140.4271Salinity10.8471.2672140.3122OxUtil10.8900.8632140.4431.total.40.4171.9228280.0961Residuals15

fBedeutungdermultivariatenRegression.

SchätzungundVertrauensintervallfürein

β

(j)k :univariat!

Multivariatergibtzusätzlich:

•

KorrelationenderZufallsabweichungen

− →

PartielleKorrelation

•

gemeinsameTestsfüralleZielgrössen.

(10)

1347.2

gResiduen-Analyse.IMMER!

1.351.451.551.65

−0.1 0.0 0.1 0.2 0.3

l.Angle

angepasste Y

Residuen

0.480.520.56

−0.10 0.00 0.05 0.10

l.Length

angepasste Y 0.8100.8200.8300.840

−0.02 0.00 0.01 0.02

rWidth

angepasste Y

0.100.200.300.400.50

−0.1 0.0 0.1 0.2 0.3

l.Angle

leverage

Residuen

0.100.200.300.400.50

−0.10 0.00 0.05 0.10

l.Length

leverage 0.100.200.300.400.50

−0.02 0.00 0.01 0.02

rWidth

leverage

(11)

1

1517192123

−0.1 0.0 0.1 0.2 0.3

SST+

+ +

++ ++

+ ++ +

+ + +

+ + ++ + ++

+

0.20.40.60.81.0

−0.1 0.0 0.1 0.2 0.3

l.Chlorophyll

+

+ +

++ ++

+ ++ +

+ + +

+

35.435.836.236.6

−0.1 0.0 0.1 0.2 0.3

Salinity

+

+ +

++ ++

+ ++ ++ + +

+ + +

+

−0.18−0.12−0.060.00

−0.1 0.0 0.1 0.2 0.3

OxUtil

Residuen v. l.Angle

+

+ +

++ ++

+ ++ +

+ + +

+ + ++ + +

+

1517192123

−0.10 −0.05 0.00 0.05 0.10

++ +

+ ++ +

+++ +

+ + +

+ +

+ + + +

+

0.20.40.60.81.0

−0.10 −0.05 0.00 0.05 0.10

+

+ +

+++ +

+ + +

+ + + ++ +

+

35.435.836.236.6

−0.10 −0.05 0.00 0.05 0.10

+

+ +

+++ +

+ + +

+ +

+

−0.18−0.12−0.060.00

−0.10 −0.05 0.00 0.05 0.10

Residuen v. l.Length

+

+ +

+++ +

+ + +

+ + + + +

+

1517192123

−0.02 0.00 0.01 0.02

++ +

+

+ +

+

+ +

+

++ + ++ ++ +

0.20.40.60.81.0

−0.02 0.00 0.01 0.02

+

+ +

+

++ +

+ +

+

+ + ++ +

+ +

35.435.836.236.6

−0.02 0.00 0.01 0.02

+

+ ++

++ +

+ ++ +

+ +

++

+ +

++

+

+ +

−0.18−0.12−0.060.00

−0.02 0.00 0.01 0.02

Residuen v. rWidth

+

+ ++

++ +

+ +

+

+ + ++

+

+ +

(12)

136

−0.15−0.050.050.150.25

−0.10 −0.05 0.00 0.05 0.10

Residuen v. l.Angle

+

+ +

+++ +

+ + +

+ + + ++ +

+

−0.10−0.050.000.050.10

−0.10 −0.05 0.00 0.05 0.10

Residuen v. l.Length

−0.15−0.050.050.150.25

−0.02 −0.01 0.00 0.01 0.02

+

+ +

+

+ + +

+ ++ +

+ +

+

+ + ++ +

+ +

−0.10−0.050.000.050.10

−0.02 −0.01 0.00 0.01 0.02

Residuen v. rWidth

+

+ +

+

+ + +

+ ++ +

+ +

+

+ +

++

+

+ +

(13)

1

0.51.01.52.02.53.0

1.0 1.5 2.0 2.5

sqrt(Chisq.quantiles)

Mahal.oulyingness

+ + + + + + + + ++ + + ++ ++ + + + ++ +

0.51.01.52.02.53.0

1.0 1.5 2.0 2.5

Mahalanobis-Distanzen:

d

2

h X

i

, b µ ; b

|

Σ i = ( X

i

− b µ )

T

b

|

Σ

−1

( X

i

− b µ ) ≈ ∼ χ

2m

(14)

138

7 .3 * In v e rs e R e g re s s io n , K a lib ra tio n

aProblemstellung:Regressionwirdgebraucht,umvon„neuem"

x

0

auf

Y

0zuschliessen.InverseR.:Von

Y

0auf

x

0schliessen!

EinfacheRegression...

b„KontrollierteKalibration".

x

0festeWerte.Modell:(multivariate)Regres-

sion.

3Fälle:

cGleichvieleZielgrössenwieEingangsgrössen.InvertierediegeschätzteRegressionsfunktion.

VertrauensbereichedurchFehlerrechnung.

(15)

137.3

dWenigerZielgrössenalsEingangsgrössen.

Resultatistnichteindeutig

− →

Unterraumder„gleichplausiblen"

x

0.

eMehrZielgrössenalsAusgangsgrössen.

x =

Konzentrationeinerchem.Substanz,

Y

:Spektrum.

UmkehrfunktionderRegressionsfunktionexistiertnicht.

x

0istüberbestimm

„Ausgleichsrechnung"=formaleAnwendungderRegression.

VerallgemeinerteKleinsteQuadrate:

b x

0

= ( β b b

|

Σ

−1

β b

T

)

−1

β b b

|

Σ

−1

Y

0

(16)

140

Schwierigkeit:VoraussetzungenfürdieneuenBeobachtungen

stimmenevtl.nichtübereinmitdenenfürTrainingsdaten

Bsp:neuesSpektrumpasstnichtzudenalten,istnichtMischung

JeschlimmerdieAbweichung,destoweniger

x

0-Wertepassenzu

Y

0

− →

Vertrauensbereichekleiner

− →

Resultaterscheintgenauer!

fKalibrationmitzufälligen„wahrenWerten"Annahme:

X

und

Y

beidezu-fällig.

− →

Vorhersagevon

X

aus

Y

viaRegressionvon

X

auf

Y

.

Gehtauchfür

m < p

!

Problem?–SieheeinfacheRegression!

(17)

1

M e rk p u n k te M u lt iv a ri a te R e g re s s io

•

RegressionmitmehrerenZielgrössen–

vielesistsehrähnlichwiebeieinerZielgrösse

Y = X β + E

,

E

i

∼ N

m

h 0 ,

|

Σ i

Zusätzlich:

•

Korrelationenzwischen

E

(j),

− →

Streudiagramm-Matrixansehen!

•

gemeinsameTestsfürEinflüssevonAusgangsgrössen

aufirgendeineZielgrösse