derm ultivariaten

(1)

0

!!!Vgl.

sl-mult-intro

=neuer!

1 Einleitung

1.1 Fragen

derm ultivariaten

Statistik

^kmale) ^le(Mer âriab ^vieleV Êinigebis â

(j

X

)

j

i

, =1 2,..., m

fürjede Beobachtungseinheit

,

i i , =1

2,...,

.

n

MultipleReg ression:Eine

Var iable

alsZielg rösse.

Multivar iateSt.:

mehrereV ariab

lev ongleichr

angigemInteresse

Körper masse

Patienten:

Blutdruc k,Puls

,Blutzuc ker

,...

Psychologie:Punktezahlen inv

ersch.F ragen einesT

ests

(2)

1

chemischeReaktion: Konz.

mehrererSubstanz en

Kunden:

Mengenv oneingekauften

Waren

Texte:

Häufigkeiten von

Wor tkategorien

(3)

2

1.1

Univar e

iateStatistik umfasst:

EineStichprobe:

•

Schätzung,T est,V

ertr auensintervall

Zwei

•

Stichproben:T est

Var

•

ianzanalyse,(m ultiple)Reg

ression(

=m ultivar

iat?)

Zeitreihen

•

Dasalles jetztfür

mehreregleichr angigeV

ariab le

Var ianzanalyse,Reg

ression:Mehrere Zielgrössen

(kurz)

Zeitreihen:Später einw

enig

NeueF ragestellungen:

Diskriminanz-, Clusteranalyse

,Hauptk omponenten

(4)

3

1.2 Beispiele

Iris-Daten. a

DreiAr ten.

Längeund Breitev

onSepal-Blätter nund

Petal-Blätter n.

Könnendie Arten

aufGr unddieser

Merkmale unterschiedenw

erden?

Diskriminanz-Analyse ,eingeführ

tv .R.A.

Fisher1936 mitdiesem

Beispiel.

(5)

4

4.5 5.0

5.5 6.0

6.5 7.0

7.5 8.0

2.02.53.03.54.0

Länge

Breite

setosa versicolor virginica

(6)

5

1.2 b

05101520

4 4.5

5 5.5

6 6.5

7 7.5

8

setosa virginica vesicolor

05101520

2.5 3

3.5 4

4.5

Breite

(7)

6

1.2

Ader-Verengung c

Diagnostikin derMedizin...

−0.4

−0.3

−0.2

−0.1 0.0

0.1 0.2

0.3 0.4

0.5 0.6

−0.4−0.20.00.20.40.6

log(Vol)

log(Rate)

verengt gesund

(8)

7

1.2

Fossilien d

Morphologische Merkmale

Umwelt

← −

Probenv onheute

Modell

− →

↑

Morph.

M.in tieferer

Schicht

⇒ =

Umwelt von

damals

(9)

8

(10)

9

1.2

Abstimmungen e

−40

−30

−20

−10 0

10 20

−30−20−1001020

1. Hauptkomponente

2. Hauptkomponente

ZH

BE

LU

SZ UR OW NW

GL ZG

FR SO

BS

BL

SH AR

AI SG

AG GR

TG

TI VD

VS

NE

GE

JU

(11)

10

1.2

NIR-Spektren f

Spektrum einesGemisches

=lin.

Superposition derSpektren

derSubst.

(j

X

=

)

X

k (k)

s

(j

C

) k

(j

C

)

:Intensität k

desSpektr umsder

„Reinsubstanz"

fürW

k

ellenlänge ,

j

(

s

) k

:Anteil derSubstanz

ander

k

Mischung.

NIR:K eineschmalen

Peaks!

Kannman ausden

Spektrenfür mehrerev

erschiedeneGemische

dieSpektren derReinsubstanz

en

undihre Konz

entrationen feststellen?

Oderw enigstensdie

Änderung derK

onzentr ationen?

(12)

11

1200 1400

1600 1800

2000 2200

2400

0123

Wellenlänge

Energie

Spektrum

1 13 25 37 49 61 73 85 97 109 121

(13)

12

0 20

40 60

80 100

120

0.00.20.40.60.81.0

Zeit

scores, standardisiert

score 1 score 2 score 3 score 4

A B

C D

E F

G

(14)

13

Allgemein: LineareEntmischung.

Mu-2a,hier

− →

einerster Schritt.

Anwendung fürErf

orschungv onReaktionsmechanismen,

Prozess-Monitor ing,Überw

achungv ongelager

tenSubstanz en.

(15)

14

1.2

Kunden-Management g

Schuldner:Schlechte

•

Schuldnerfrühz eitiger

kennen.

Diskriminanzanalyse

− →

Ertr

•

agv orhersagenaus

bekanntenDaten Regression

− →

Kunden

•

in„homogene Gruppen"

einteilen Cluster-Analyse

− →

Kunden einerGr

uppe(eines Clusters)gleich

behandeln.

(16)

15

1.3 Fragestellung

en

a Graphische

Darstellung

b Zusammenhänge

Korrelation,

− →

Modell:Normalv erteilung

c Unterschiedezwischen

Klassentesten

d Beobachtungseinheitenzu

Klassenzuordnen Diskriminanz-

− →

Analyse

e Einteilungv

onBeobachtungen inGr

uppen Clusteranalyse

− →

,Mu-

2b

f Ähnlichkeiten

von Beobachtungen(Objekten)

oderv onV

ariab

− →

len

Mu-2b

g Dimensionreduzieren

h Einflussv

onk ontinuier

lichenoder diskretener

klärendenV ariab

len

aufmehrere Zielgrössen

Multivar

− →

itateV arianzanalyse

undReg r.

(17)

16

1.3

Datamining. j

Bestimmung

•

allerK undenmit

bestimmtenMer kmalen

(Datenbank-Abfrage und-Mangement),

übersichtlicheDarstellung

•

derK undendaten(Beschreib

ung),

Zuordnung

•

derK undenzu

bestimmtenGr uppen(Diskr

iminanz-Analyse),

Einteilungin

•

Gruppen (Cluster-Analyse),

Vorhersage

•

von Zielgrössen

wieUmsatz desK

unden

ausbekannten erklärenden

Var iablen

(Regression),

[Kennen

•

Siew eitere?]

(18)

17

1.3

Kategorielle l

undk ontinuier

licheDaten.

Multivar iateStatistik

meintmeistens kontin

uierliche Daten

(ausserGr uppierungs-V

.und erkl.

V .)

Mehrerediskrete Var

iable log-lineareModelle

− →

,Rg-2b

Geordnete,diskrete Var

iable oftals

− →

kontin uierlich

behandelt.

(19)

18

1.3

Zusammenhangmit m

anderenGebieten derStatistik

Multivar iateNormalv

erteilung.Wird auchgebr

auchtfür

Zeitreihen,räumliche

•

Statistik.

Var

•

ianzanalysemit Zufallseff

ekten.

Ver

•

teilungenv onSchätzungen

inallen Gebietender

Statistik.

(20)

19

1.3

Geometrie n

.

Für

≤ m

:Punkte

3

,Ger aden,Ebenen,

Winkel, senkrecht...

Vorstellungen oft,aber

nichtimmer auf

m>>

übertr

3

agbar.

Fluchder Dimension

(21)

20

1.4 Software

Diegängigen a

Statistikpakete enthaltenklassische

mult.

Verf ahren.

R/

S-Plus:Matr ix-Orientier

ung

(22)

21

Datamining d

:Spezialsoftw are,die

gutmit

•

riesigen Datenbanken

umgehenkann

einfach

•

istin derBenützung

nebenden

•

wichtigstenklassischen Verf

ahren

einigead-hoc-V erfahren

(besserAlgor ithmen)

mitgutem Marketing

enthält.

Clementine,V erbindungmit

SPSS

SASData miner

S-Plus:Insightful Miner

(23)

22

2 Beschreibende

Statistik

2.1 Grafische

Darstellung en

Streudiagramm. a

„Funktioniert"

nichtimmer!

0.60 0.64

0.68 0.72

0.76 0.80

0.350.400.450.500.550.600.65

log(Länge)

log(Breite)

0.60 0.64

0.68 0.72

0.76 0.80

0.350.400.450.500.550.600.65

log(Länge)

log(Breite)

(24)

23

2.1

DreiDimensionen b

:Echtz eit-Drehung

MehrereV c

ariab lein

zwei Dimensionen:

inkl.Aesthetik:

•

E.T ufte(1983,

1990,1997).

W.Cle

•

veland:

„trellis"-Grafik.

S library(trellis) >

R library(lattice) >

Streudiagramm-Matr d

ix.

pairs >

(25)

24

Sepal.Length

2.0 2.5 3.0 3.5 4.0 0.5

1.0 1.5 2.0 2.5

4.55.05.56.06.57.07.58.0 2.02.53.03.54.0

Sepal.Width Petal.Length

1234567

4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0

0.51.01.52.02.5

1 2 3 4 5 6 7

Petal.Width

(26)

25

2.1 e

coplot >

2.03.04.0

4.5 5.5 6.5 7.5 4.5

5.5 6.5 7.5 4.5

5.5 6.5 7.5

2.03.04.0

4.5 5.5 6.5 7.5

2.03.04.0

4.5 5.5 6.5 7.5 4.5

5.5 6.5 7.5

Sepal.Length

Sepal.Width

1 2

3 4

5 6

Given : Petal.Length

setosa

versicolor

virginica

Given : Species

(27)

26

2.2 Dynamische

Grafik

Dynamischeg a

rafische Elemente.

Darstellungen„be

•

wegen"

Interaktionen:

•

identifyS >

brush >

Linked b

Views . brushing

wirkt sichin

versch.

Fenster naus

(28)

27

2.3 Kennzahlen

Mittelwer a

t

= x

1 n n

P

=1 i (j

x

) i

(empirische) Var

ianz

c ^var h

(j

X i

)

s =

=

2

1 − n 1 X

n

=1 i

(j

x

)

−

i (j

x

) 2

Kov b

arianz

d ^cov h

(j

X ,X

) (k

i

)

1 =

− n 1 X

n

=1 i (j

(x

)

−

i (j

x

)(x

) (k

)

−

i (k

x

)

.

Korrelation

b ^ρ h

(j

X ,X

) (k

i

)

d ^cov = h

(

X

) j (

,X

) k

i ^X ^h c ^var i

) (j

^X ^h c ^var p

i

(k)

.

(29)

28

2.3

Mittelwer c

t,V arianz,

Kov arianz,

Korrelation math.einf

− →

acheResultate

aber nichtrob

ust gegenA

usreisser!

Robuste

− →

Methoden,Rg-2d

Rangkorrelation. d

(30)

29

2.4 Matrix-Notation

Daten-Matrix b

= x



 



(1)

x x

1

(2)

..

1

.

(m)

x

1

(1)

x x

2

(2)

..

2

.

(m)

x

2 . . . .

(1)

x x

n

(2) n

..

.

(

x

) m n



 



Sepal-Blätter Länge Nr.

Breite

1 5.1

3.5 4.9 2

3.0 4.7 3

3.2 4.6 4

3.1

(31)

30

2.4

Var c

iable:

Spalte ,

j

Vektor

(j

x

=

)



 



(1)

x

1 (1)

x

. . . 2 (1)

x

n



  , 

(2)

x

=



 3.5 3 0 . 3.2 3.1





Beobachtung:Zeile

i x

=

i



 



(1)

x

i (2)

x

i

..

.

(

x

) m i



  ,  x

=

3

4 h 7 . 3.

2 i

T

x

=[

i (1)

x

,x

i (2)

,.

i

..

(

,x

) m

]

i

,

T

x

=[4

3

7 . 3 , 2] .

(Tfür

„transponier t")

(32)

31

2.4

Mittelwer d

P

t.

x

i (j )

=1

i

x

T (j

, ) T

1 , =[1 1,..., 1]

(j

x

=

) 1

1

n

x

T (j )

T

x

1

= 1

n

x

T 1

=

[1

4

, 1, 1, 1]



 5.1

3.5 9 . 4

. 3

0 3.2 3.1 4.7 4.6



=[4  .825,

3.2]

(33)

32

2.4

Zentrier e

teDaten.

x

=

c

− x x 1

.

T

x

=

c



 . 5 1 . 3

5 . 3 9 . 4

0 3.2 3.1 4.7 4.6



− 



 1 1 1 1

 [4.  825,

3.2]

=



 5.1

3.5 4.9

3.0 7 . 4

. 3

2 . 3 6 . 4

1 

− 



 .825 4

.2 3 3 .825 4

.2 3 825 . 4

2 . . 3 825 . 4

2 



=



 . 0

275 . 0

3 . 0 − 075 . 0

2 0 0. − 0.125 0.225 − −

1 

. 

(34)

33

2.4

Kov f

arianz

d ^cov h

(j

X ,X

) (k

i

) 1

=

− n

x

1 j (

) c

x

T k (

) c

d ^cov h

(1)

X

(2)

,X i

1

=

− n

[0

1

275 . 0 ,

075 .

− , . 0 , 125

− . 0 225]



 0.3 − . 0

2 0 0.1 −





= . 0

03

1

− n

x

1 T c

x

c

=



  c ^var

h

(1)

X d ^cov i

h

(1)

X

(2)

,X i d ^cov ...

h

(1)

X

(m)

,X

i

_(m)

,X

(2)

^X ^h d ^cov ... i

(2)

^X ^h c ^var i

₍₁₎

,X

(2)

^X ^h d ^cov

i

^{. . .} ^{. . .}

. . .

...

d ^cov h

(m

X ,X

)

i

(1)

d ^cov h

(m)

X

(2)

,X i c ^var ...

h

(m)

X i



 

c ^var = h i X b =

|

Σ

c ^var h i X b =

|

Σ

:V arianz-

Kov arianz-Matr

ix

(35)

34

|

b Σ

1

=

− n 1

0.275 h .075 0

− 0.125

−

0.225 − 0 0.2 − 0.3

.1 0

 i 0 

275 . . 0

3 0. − 0.075

2 0.125 −

0 . 0 − 225 . 0 −

1 



= 0 h

0492 . . 0

0300 .0467 0 0.0300

i .

Kov arianzmatr

ixist symmetrisch

var >

b ^ρ

g

h

(

X

j

,X

)

i

(k)

b ^ρ =

=

jk

| c

Σ

jk ^jj | c

Σ

q

| c

Σ

kk

Korrelationsmatr

− →

ix

cor >

Sepal.Length

1 0.743 Sepal.Width

1 0.178 0.267 Petal.Length

1 0.332 0.233 0.278 Petal.Width

1

Sepal.Length Sepal.Width

Petal.Length Petal.Width

(36)

35

2.4

Einfachste h

Kov arianzmatr

ix=

Einheitsmatrix

= I



 1 ... 0

0 ... 1 0

0

^{. . .}

. . .

0 ... 0

1 



Var ianzen

=1, unkorrelier

t.

(37)

36

2.5 LineareT

ransformationen undPr

ojektionen

Linearkombinationen a

von Var

iablen.

BeispielIr is:

log(Blattfläche)= Konstante

+log(Länge) +log(Breite)

„For m"=log(Breite)

-log(Länge)

= Y + a

b X

1

+

(1)

b X

2

oder (2)

y

=

i

+ a b x

1 (1)

+

i

b x

2 (2)

. i

y

=

i

a b +

x

T i

y

=

3

− 0.1+

[1, 1]

4 h

7 . 3.2

i

.8 =7

(38)

37

2.5

Mittelwer b

tv on

?

Y y a =

b + x

T

Var c

ianzv on

?

Y c ^var

h i Y

=

b =

2 1

c ^var h

(1)

X i b +2

b

1

d ^cov

2

h

(1)

X

(2)

,X i b +

2 2

c ^var h

(2)

X i

= b [

,b

1

]

2

c ^var h

(1)

X d ^cov i

h

(1)

X

(2)

X

i i

(2)

^X ^h c ^var i

₍₂₎

X

(1)

^X ^h d ^cov

b h

1

b

2

i b =

b

T

|

Σ b

Nachrechnen:

c ^var h i Y

1

=

− n 1

X (

i

y

−

i

) y

2

1

=

− n 1

X

i

+ a b x

1 (1)

+

i

b x

2 (2)

−

i

a ( b +

x

1

+

(1)

b x

2

)

(2)

2

(39)

38

1

=

− n 1

X

i

b (x

1 (1)

−

i (1)

x

b )+

(x

2 (2)

−

i (2)

x

)

2

1

=

− n 1

2

b

1

X (x

i (1)

−

i (1)

x

2

) b +2

b

1 2

X (x

i (1)

−

i (1)

x

(2)

)(x

−

i (2)

x

)

b +

2 2

X (

i (2)

x

−

i (2)

x

2

)

b =

2 1

c ^var h

(1)

X i b +2

b

1

d ^cov

2

h

(1)

X

(2)

,X i b +

2 2

c ^var h

(2)

X

i

(40)

39

2.5

*Projektion d

Cosinus-Satz fürein

bel.Dreiec k:

Skalarprodukt

T

b x

=Seitenlänge i

Seitenlänge

×

cos(Zw.wink

×

el)

T

b x

=

i

k kk b x k

i

h cos b,x i

i

,

k

(

k c

:Länge desV

ektors

=W

c

urzel

k

aus

k c p =

T

c

)

c

1

b

ⁱ

x

1

e ^x

i

ⁱ

b,x h ∠

HH HH HH HH HH

HH

B B B B B B B B B

(41)

40

1

b

ⁱ

x

1

e ^x

i

_i

ⁱ

^b,x _h ∠

HH HH HH

B B B B B B B B B

e ^x

=„Projektion" i

von

x

aufRichtung i

von

b

Länge

k x k

i

h cos b,x i

i

b = x

T

/

i

k k b

Wähle so,dass

b

k k b

.Dann

=1

ist

y

=

i T

b

x

=Längen i

derProjektionen der

x

auf i

.

b

Für

=2 m

:

= b cos h

h

i i β β h sin

i

(42)

41

2.5

LineareT e

ransf ormation.

= Y + a

X B

=

− h 0 0.1 i

+ 1 h

1 1 −

1 i X

Mittelwer f

ts-Vektor

= y + a

x B

.

Var ianzen

der

(k)

Y

:er ledigt.K

ovar ianz?

d ^cov h

(1)

Y

(2)

,Y i b =

T 1

|

Σ b

. 2

c ^var h i Y

= c ^var B

h i X

T

B

= 1 h

1 1 −

1 0 ih

0492 . . 0

0300 0.0467 .0300 0

1 ih

−

1 1 1

i

= 0.0208 h

0.0128 0128 . 0

. 0 0751

i .

T

B

transponier teMatr

ix .

B

(43)

42

2.5

Herleitung g

eleganter:

= y a 1

+

T T

xB

=



 1 1 1 1

 [  0]+ a,



 5.1

3.5 9 . 4

. 3

0 . 3 7 . 4

2 3.1 4.6

 h 

− 1

1 1 1

i

T

y

1

= 1

n

y

T 1

=

1

n

1

T T

a

1

+ 1

n

xB

T

=

T 1

na

n

+

T T

x

T

B

y a =

+ x B

=

− h 0.

1 0 i

+ 1 h

1 1 −

1 4.825 ih

. 3 2 i

= 7.925 − h

. 1 625

i .

c

y

=

− y y 1

=1

T T

a

+

T

xB

− a 1(

+

T T

x

T

B )=

(

− x x 1

)

T T

B

= x

B

c T

c ^var h i Y

1

=

− n

y

1 T c c

y

1

=

− n

Bx

1 T c

x B

c

=

T

c ^var B h i X

T

B

muss

B

nichtquadr atischsein.

Spezialfall

= B

T

b

(44)

43

2.5

Zwei h

Transf ormationen.

∗

Y a =

+

∗

B X,

∗∗

Y a =

+

∗∗

B

∗

Y

∗∗

Y a =

+

∗∗

B

∗

a B +

B

∗∗

X

∗

e ^a = B +

X e

c ^var h

∗∗

Y i B =

c ^var

∗∗

h

∗

Y i

∗∗

B

=

T

∗∗

B

∗

B c ^var h i X

∗

B B

T

∗∗

T

= e B

c ^var h i X e B .

T

Mansieht:

e B

=(

T

∗∗

B

∗

B

T

)

=

∗

B B

T T ∗∗

wieaus Lin.Alg.bekannt.

(45)

44

DieIdentität. i

Transf ormation,

diegar nichtsv

erändert?

= X



 0 0

. . .

0  + 



 1 ... 0

0 ... 1 0

0

^{. . .}

. . .

0 ... 0

1 





 

(1)

X

(2)

X

. . .

(

X

) m



 

=0 +

X. I

(46)

45

2.5

Rücktr j

ansfor mation,in

verse Matrix.

X

=

−

B (Y

1

− a )=

"

2

1 1 −

2 ²

1

²

1 #

(1)

Y

(2)

Y

h − a 0 i ,

−

B

Inverse 1

von ,

B

−

B B

1

= I

Inverse kannes

nur zuquadr

atischenMatr izen

geben,

abernicht allequadr

atischenMatr izen

habeneine Inverse

.

reguläre

− →

oder inver tierbare

Matriz envs

. singuläre

(47)

46

2.5

Standardisierung. k

Univar iateStatistik:

Stichprobestandardisieren,

z

=(

i

x

−

i

) x b ^σ /

.

Multivar iat:

gegeben,

x

− →

,

x

|

b Σ

Gesuchtlineare Transf

ormation zu

,so

z

dass

=0 z c ^var

und

h i Z

=

.

I

=0 z

einfach zuerreichen:

z

=

i

x

−

i

.

x

c ^var

Für

h i Z

=

brauchen

I

wirein Resultatder

lin.Alg.:

|

b Σ

istsymmetr ischund

positivsemidefinit

⇔

T

b

|

b Σ

≥ b

fürbel.

0

.

b

Satz:Es gibt

,so

B

dass

T

BB b =

|

Σ

–sogar viele!

∞

(48)

47

Cholesky-Zerlegung liefer

teine davon,

eineDreiec ksmatrix

= B 0.222 h

0 0.168 0.135

i

0 h .222

0 .168 0 .135 0

0.222 ih

.135 0 0 0

.168 i

= 0 h

.0492

0.0300 .0300 0

0.0467 i .

Setze

= z ( C

− x b ^µ

,

)

= C

−

B

,und 1

prüfe!

z

=

i

( C x

−

i

)= x

− x C

+ x C

i

z

= (x C

− x )=

0 c ^var h i Z

= b C

|

Σ

T

C

= CB

T

B

T

C

=

−

CC (

1

−

C )

1

C

T

=

T

. I

Zielerreicht!

...falls inver

C

tierbarist

b ⇔

|

Σ

nichtsingulär

= C 4 h

51 .

0 5.94 3.62 −

i ,

= z x C

c

=

T



 . 1

240 . 0

785 . 1 − 338 . 0

459 0.453 0.221 .564 .015 0 1 − −





(49)

48

2.5

Rotation,or l

thogonaleT ransf ormation.

Drehungen und

Spiegelungen lassen

dieLängen von

Strecken unddie

„For men"v

onFiguren unveränder

t.

Drehungenum denNullpunkt

ohneoder mitSpiegelung

anv ert.

Achse:

= B cos h

h i β

− h sin

i β

h sin i β h cos

i β i

resp.

=

− h h cos

i β h sin

i β

h sin i β h cos

i β i

−2

−1 0

1 2

3 4

5 6

7

01234

(50)

49

2.5

Transf m

ormation rückgängig

machen!Drehung

−

um

.

β ⁱ ^β ^h− ^sin ⁻ ⁱ ^β ^h− ^cos h

h− sin i β h− cos

i β i

= cos h

h i β h sin

i β β h cos i β h sin −

i i

=

T

B .

T

B

=

−

B

,oder 1 T

B

= B . I

Auch fürSpiegelungen.

„orthogonale

− →

Matriz en"und

Transf ormationen.

Längenv onV

ektoren

k y k

i

=

2 T

y

i

=

i T

x

B

i

B

T

x

=

i T

x

I

i

x

=

i T

x

i

=

i

k x k

i

.

2

Anmerkung. Drehungenmit

Verschieb ungebenso

.

(51)

50

*

n

Lösungenv on

T

BB b =

|

Σ

?

Wenn

B

eineLösung c

ist,dann auch

B B

c

mitor o

thog.

B

,denn o

B B

c

(

o

B B

c

)

o

=

T

B B

c

B

o T o T

B

=

c

B IB

c T c

= B B

c T c

b =

|

Σ

.

Umgekehr t:Zw

eiLösungen unterscheidensich

immerum eineor

thog.Mx.

Anschaulich:Standardisier teDaten

mitor thogonalerMatr

ixtr ansfor

mieren

bleiben

− →

standardisiert.

(Standardis.-T .,dann orthogonale)

=wieder eineStandardis

.-T.

Basis-Transf o

ormation.

StattDrehung allerPunkte

um Drehungdes

β

Koordinatenkreuz

−

esum

β

beideV orstellungenführen

zuden gleichen„neuen

Koordinaten"

y

. i

(52)

51

2.6 Projektion

Pursuit

Grundidee a

. Explorativ

em ultivar

iateStatistik sollinteressante

Strukturen

inden Datenfinden.

Werden evtl.

sichtbarbei geeigneterV

eränderung desK

oordinatensystems

Suchenach

„Richtungenim Raum",die

interessanteStr ukurenz

eigen.

Manuelle b

Suche.

InteressanteProjektionen c

mit numer ischerOptimier

ung eines

„Interessantheits-Masses"einer Projektion,

Projektionsindex

Q

*

d

h Q + a i by

Q = h i y

Genaueressiehe Block

Mu-2b.

(53)

52

Merkpunkte Beschreibende

Statistik

Grafische

•

Methodener laubenauch

dieDarstellung

von mehrerenV

ariab lenmit

Symbolen,F arben,etc.

Dynamischeund

•

interaktiv eGr

afikbietet zusätxlicheMöglichk

eiten.

WichtigsteK

•

ennzahlen:Mittelw ertsv

ektorund Kov

arianzmatr ix;

Korrelationsmatr ix

LineareT

•

ransf ormation

führtzu einfachen

Regeln:

= y + a

x B c ^var

,

h i Y B =

c ^var h i X

T

B

.

Standardisierung:

• z

=

i

( C x

−

i

) x

,

= C

−

B

, 1 T

BB

b =

|

Σ

Orthogonale Transf

ormation (resp.Matr

ix):

T

BB

= I

Basis-Transf ormation

äquivalent zu(nicht-sing.)

linearerT .

(54)

53

3 Modelle

3.1 Vektorielle

Zufallsvariab

le

Stichproben. ^leund ^ariab ^Zufallsv ^a

ZurEr innerung:

Beobachtung modelliertdurch

i

Zufallsv ariab

le

X

∼F

i

∼N

,oft

h

2

µ,σ i

Daten Beobachtungen

Haeufigkeit

−1 0 1 2 3 4 5 6 7 8 9

012345678910

Modell X

−1 0 1 2 3 4 5 6 7 8 9

0.000.100.200.30Dichte

(55)

54

jetztm ultivar

iat!

0.60 0.64

0.68 0.72

0.76 0.80

0.350.400.450.500.550.600.65 log(Breite) 0.60

0.64 0.68

0.72 0.76

0.80

0.350.400.450.500.550.600.65 log(Breite)

(56)

55

3.1

Zufallsv b

ektor.

= X



 

(1)

X

(2)

X

. . .

(m

X

)



  ,

Ver teilung=

gemeinsameV erteilung

der

(1)

X

(2)

,X ,...,

(

X

) m

.

Stichprobev onZuf

allsvektoren

X

mitgleicher i

Ver teilung,

unabhängigv oneinander

.

AlleDaten derStichprobe

Datenmatrix

− →

= X

"

T

X

1

..

.

T

X

n

#

=



 



(1)

X X

1

(2)

..

1

.

(m)

X

1

(1)

X X

2

(2)

..

2

.

(m)

X

2 . . . .

. . .

(1) n

X

(2) n

X ..

.

(

X

) m n



  . 

X

Spaltenvektoren, i

obwohl sieZeilen

derDatenmatr ix

sind.

X

(57)

56

3.1

Mittelwer c

1 te

n

... P

1 ,

− n 1

... P

Erwar

− →

tungsw erte

= µ Eh i X

=



  Eh

(1)

X

i

₍₂₎

X Eh

i

^{. . .}

Eh

(m

X i

)



 

Var

− →

ianz Kov

arianzmatr

|

Σ

ix

=va h r

i X

=



  h var

(1)

X i h cov

(1)

X

(2)

,X i cov ...

h

(1)

X

(

,X

) m

i

h cov

(2)

X

(1)

,X i h var

(2)

X i ...

h cov

(2)

X

(

,X

) m

i

^{. . .} ^{. . .}

. . .

...

h cov

(

X

) m (1)

,X

i h cov

(

X

) m (2)

,X

i var ...

h

(

X

) m

i



 

(58)

57

3.1

Kov d

arianzmatr ixals

Erwar tungsw

ert.

Füreinf acheZv

.:

h var i X E =

(X

−

2

µ)

= Eh

2

X i−

2

µ

.

h var i X E =

D

− X µ

− X µ E

T

Eh =

T

XX i−

T

µµ .

X (

− )( µ

− X ) µ

isteine T

× m

-Matrix!

m

LineareT e

ransf ormationen.

= Y + a

X B

.

Eh i Y

a = + Eh B

i X

h var i Y

= var B

h i X

T

B

(59)

58

3.1

Summenv f

onunabhängigen Zufallsv

ektoren.

Eh X +

1

X i

2

Eh = X i

1

Eh + X i

2

h var X +

1

X i

2

= h var

X i

1

+va h r

X i

2

Mittelwer t

= X

1 n

P

n

X

i=1

. i

Wenn

= µ Eh X i

i

|

Σ ,

=va h r

X i

i

:

Eh i X

1

=

n

X

n

Eh

i=1

X i

i

µ =

h var i X

1

=

n

X

2 n

var

i=1

h X i

i 1

=

|

Σ

n

(60)

59

3.2 Diemehr

dimensionaleNormalver teilung

MehrdimensionaleV a

erteilung.

Kum ulative

Ver teilungsfunktion

h F i x P =

h

≤ X i x

.–

Mehrdim.:

h F i x P =

h

≤ X i x P =

h

(1)

X

≤

(1)

x

(2)

,X

≤

(2)

x ,...,

(m)

X

≤

(m)

x i .

Dichte:

h f i x

=Ab leitungv

on

=

F

m

∂ F

(1)

∂x

(2)

∂x ...∂x

. (m)

Ereignis: :

A

∈A X

Wsch.durch Integration

derDichte:

hAi P R =

∈A u

h f i u

(1)

du ...du

. (m)

h F i x P =

h

(1)

X

≤

(1)

x ,...,

(m)

X

≤

(m)

x i

= Z

(1) u

≤

(1) x ,...,u

≤ (m) (m) x

h f i u

(1)

du ...du

m (

.

)

(61)

60

3.2

MehrdimensionaleStandard-Normalv b

erteilung.

∼ Z Φ

⇐ ⇒

m (j

Z

∼

)

Φ ,

1

unabhängig

.

h f i z Y =

m j

=1

1 √ exp 2π

h

(j

z /2

)2

i π =(2

−

) exp

m/2

hk k z /

2

i 2 e ^f =

hk k z i

2

.

−2 0

2

−202

(62)

61

3.2

Lineartr c

ansfor mierter

Zufallsv ektor.

Linearkombination

X b =

Z

T

− →

∼N h

P 0, b

j 2 j

i Nh =

k 0, k b i

2

Lin.tr ansf.

,

Z X µ =

+ Z B

− → Eh

i X µ, =

h var i X

=

T

BB

Multivar d

iateNormalv erteilung.

=Vt.

von

X µ =

+ Z B

!

− →

∼N X h

m

µ, i B

Problem: Sei

orthogonal.

B

Dannist

X

= Z B

standard-nv.

Verschiedene Par

ameter und

B

mitgleicher

I

Ver teilung

Par

− →

ameternicht identifizierbar.

GeeigneteP arameter

:Erw .wer

t und

µ

Kov arianzmatr

|

Σ

ix .

Zwei Matriz

en und

B

0

B

mitgleichem

|

Σ

,also

T

BB

=

0

B B

T 0

− → X

µ = + Z B

und

X µ =

+

0

B

gleichv

Z

ert.,

∼N X h

m

|

Σ µ, i

Welche e

Matriz ensind

|

Σ

als brauchbar?

Alle

× m

-Matriz

m

endie symmetrisch

und„positiv semidefinit"sind,

denndann existier

t mit

B

T

BB

|

Σ =

.

(63)

62

Dichte. f

Falls

|

Σ

nichtsingulär ist,ist

Dichte

h f i x c =

· h exp

x (

− ) µ

|

Σ

T

−

(

1

− x ) µ 2 / i

=(2 c ) π

m/

det

2

h

|

Σ

1

i

/2

Dichtek onstantfür

− (x

T

µ)

|

Σ

−

(x

1

−

=K

µ)

onstante.

Ellipsoid.

−2 0

2

−202

−2 0

2 4

6

−2024

(64)

63

3.2

Schätzungder g

Par ameter:

b ^µ X =

b

,

|

Σ

.

0.60 0.62

0.64 0.66

0.68 0.70

0.72 0.74

0.76 0.78

0.80

0.350.400.450.500.550.600.65

log(Länge)

log(Breite)

(65)

64

3.2

LineareT h

ransf ormation.

∼N X h

m

|

Σ µ, i

− →

= Y + a

X B

∼N h

m

+ a µ, B

|

Σ B

T

B i

Standardisierter i

Zufallsv ektor.

= Z

−

B (

1

− X ) µ

mit

T

BB

|

Σ = .

Wenn normalverteilt,

X

dann standard-normalverteilt.

Z

(66)

65

3.2

Chiquadrat-V j

erteilung

=Vt.

derSumme von

unabh.,quadr

m

ierten standard-normalv

et.

(j

Z

, )

U X =

m

=1 j (

Z

j

=

)2

k k Z ,

2

∼ Z Φ .

m

Dichte

f h

m

i u

1

=

m/2 2 h Γ i m/2

·

m/2

u

−

e

1

−

. u/2

:Gamma-Funktion

Γ

Mahalanobis-Distanz. k

∼N X h

|

Σ µ, i

2

d h X,

; µ

|

Σ i k =

k Z

=

2 T

Z

=( Z

− X ) µ C

T

C

T

X (

− ) µ

= X (

− ) µ

|

Σ

T

−

(

1

− X ) µ

=quadr ierte

„Mahalanobis-Distanz"v on

zu

X

.

µ

2

d h x,µ

|

Σ ; i

konstant:

=

gleicheDichte .

2

d

∼

2

χ

, m

Freiheitsg

m

rade

(67)

66

3.2

Q-Q-Diagramm. l

0.0 0.5

1.0 1.5

2.0 2.5

3.0 3.5

0123

theoretische Quantile

geordnete Mahalanobis−Distanzen

(68)

67

3.2

Randver m

teilungen.

Gem.Vt.

von

− → X

Vt.v on

(j

X

: )

Randver teilung

Auch

„mehrdimensionaleRänder"!

= a a

[1]

[2]

a

=



 



(1)

a ...

(p)

a

(p

a

+1)

...

(m)

a



 

