• Keine Ergebnisse gefunden

derm ultivariaten

N/A
N/A
Protected

Academic year: 2021

Aktie "derm ultivariaten"

Copied!
140
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

0

!!!Vgl.

sl-mult-intro

=neuer!

1 Einleitung

1.1 Fragen

derm ultivariaten

Statistik

kmale) le(Mer ariab vieleV Einigebis a

(j

X

)

j

i

, =1 2,..., m

fürjede Beobachtungseinheit

,

i i , =1

2,...,

.

n

MultipleReg ression:Eine

Var iable

alsZielg rösse.

Multivar iateSt.:

mehrereV ariab

lev ongleichr

angigemInteresse

Körper masse

Patienten:

Blutdruc k,Puls

,Blutzuc ker

,...

Psychologie:Punktezahlen inv

ersch.F ragen einesT

ests

(2)

1

chemischeReaktion: Konz.

mehrererSubstanz en

Kunden:

Mengenv oneingekauften

Waren

Texte:

Häufigkeiten von

Wor tkategorien

(3)

2

1.1

Univar e

iateStatistik umfasst:

EineStichprobe:

Schätzung,T est,V

ertr auensintervall

Zwei

Stichproben:T est

Var

ianzanalyse,(m ultiple)Reg

ression(

=m ultivar

iat?)

Zeitreihen

Dasalles jetztfür

mehreregleichr angigeV

ariab le

Var ianzanalyse,Reg

ression:Mehrere Zielgrössen

(kurz)

Zeitreihen:Später einw

enig

NeueF ragestellungen:

Diskriminanz-, Clusteranalyse

,Hauptk omponenten

(4)

3

1.2 Beispiele

Iris-Daten. a

DreiAr ten.

Längeund Breitev

onSepal-Blätter nund

Petal-Blätter n.

Könnendie Arten

aufGr unddieser

Merkmale unterschiedenw

erden?

Diskriminanz-Analyse ,eingeführ

tv .R.A.

Fisher1936 mitdiesem

Beispiel.

(5)

4

4.5 5.0

5.5 6.0

6.5 7.0

7.5 8.0

2.02.53.03.54.0

Länge

Breite

setosa versicolor virginica

(6)

5

1.2 b

05101520

4 4.5

5 5.5

6 6.5

7 7.5

8

setosa virginica vesicolor

05101520

2.5 3

3.5 4

4.5

Breite

(7)

6

1.2

Ader-Verengung c

Diagnostikin derMedizin...

−0.4

−0.3

−0.2

−0.1 0.0

0.1 0.2

0.3 0.4

0.5 0.6

−0.4−0.20.00.20.40.6

log(Vol)

log(Rate)

verengt gesund

(8)

7

1.2

Fossilien d

Morphologische Merkmale

Umwelt

← −

Probenv onheute

Modell

− →

Morph.

M.in tieferer

Schicht

⇒ =

Umwelt von

damals

(9)

8

(10)

9

1.2

Abstimmungen e

−40

−30

−20

−10 0

10 20

−30−20−1001020

1. Hauptkomponente

2. Hauptkomponente

ZH

BE

LU

SZ UR OW NW

GL ZG

FR SO

BS

BL

SH AR

AI SG

AG GR

TG

TI VD

VS

NE

GE

JU

(11)

10

1.2

NIR-Spektren f

Spektrum einesGemisches

=lin.

Superposition derSpektren

derSubst.

(j

X

=

)

X

k (k)

s

(j

C

) k

(j

C

)

:Intensität k

desSpektr umsder

„Reinsubstanz"

fürW

k

ellenlänge ,

j

(

s

) k

:Anteil derSubstanz

ander

k

Mischung.

NIR:K eineschmalen

Peaks!

Kannman ausden

Spektrenfür mehrerev

erschiedeneGemische

dieSpektren derReinsubstanz

en

undihre Konz

entrationen feststellen?

Oderw enigstensdie

Änderung derK

onzentr ationen?

(12)

11

1200 1400

1600 1800

2000 2200

2400

0123

Wellenlänge

Energie

Spektrum

1 13 25 37 49 61 73 85 97 109 121

(13)

12

0 20

40 60

80 100

120

0.00.20.40.60.81.0

Zeit

scores, standardisiert

score 1 score 2 score 3 score 4

A B

C D

E F

G

(14)

13

Allgemein: LineareEntmischung.

Mu-2a,hier

− →

einerster Schritt.

Anwendung fürErf

orschungv onReaktionsmechanismen,

Prozess-Monitor ing,Überw

achungv ongelager

tenSubstanz en.

(15)

14

1.2

Kunden-Management g

Schuldner:Schlechte

Schuldnerfrühz eitiger

kennen.

Diskriminanzanalyse

− →

Ertr

agv orhersagenaus

bekanntenDaten Regression

− →

Kunden

in„homogene Gruppen"

einteilen Cluster-Analyse

− →

Kunden einerGr

uppe(eines Clusters)gleich

behandeln.

(16)

15

1.3 Fragestellung

en

a Graphische

Darstellung

b Zusammenhänge

Korrelation,

− →

Modell:Normalv erteilung

c Unterschiedezwischen

Klassentesten

d Beobachtungseinheitenzu

Klassenzuordnen Diskriminanz-

− →

Analyse

e Einteilungv

onBeobachtungen inGr

uppen Clusteranalyse

− →

,Mu-

2b

f Ähnlichkeiten

von Beobachtungen(Objekten)

oderv onV

ariab

− →

len

Mu-2b

g Dimensionreduzieren

h Einflussv

onk ontinuier

lichenoder diskretener

klärendenV ariab

len

aufmehrere Zielgrössen

Multivar

− →

itateV arianzanalyse

undReg r.

(17)

16

1.3

Datamining. j

Bestimmung

allerK undenmit

bestimmtenMer kmalen

(Datenbank-Abfrage und-Mangement),

übersichtlicheDarstellung

derK undendaten(Beschreib

ung),

Zuordnung

derK undenzu

bestimmtenGr uppen(Diskr

iminanz-Analyse),

Einteilungin

Gruppen (Cluster-Analyse),

Vorhersage

von Zielgrössen

wieUmsatz desK

unden

ausbekannten erklärenden

Var iablen

(Regression),

[Kennen

Siew eitere?]

(18)

17

1.3

Kategorielle l

undk ontinuier

licheDaten.

Multivar iateStatistik

meintmeistens kontin

uierliche Daten

(ausserGr uppierungs-V

.und erkl.

V .)

Mehrerediskrete Var

iable log-lineareModelle

− →

,Rg-2b

Geordnete,diskrete Var

iable oftals

− →

kontin uierlich

behandelt.

(19)

18

1.3

Zusammenhangmit m

anderenGebieten derStatistik

Multivar iateNormalv

erteilung.Wird auchgebr

auchtfür

Zeitreihen,räumliche

Statistik.

Var

ianzanalysemit Zufallseff

ekten.

Ver

teilungenv onSchätzungen

inallen Gebietender

Statistik.

(20)

19

1.3

Geometrie n

.

Für

≤ m

:Punkte

3

,Ger aden,Ebenen,

Winkel, senkrecht...

Vorstellungen oft,aber

nichtimmer auf

m>>

übertr

3

agbar.

Fluchder Dimension

(21)

20

1.4 Software

Diegängigen a

Statistikpakete enthaltenklassische

mult.

Verf ahren.

R/

S-Plus:Matr ix-Orientier

ung

(22)

21

Datamining d

:Spezialsoftw are,die

gutmit

riesigen Datenbanken

umgehenkann

einfach

istin derBenützung

nebenden

wichtigstenklassischen Verf

ahren

einigead-hoc-V erfahren

(besserAlgor ithmen)

mitgutem Marketing

enthält.

Clementine,V erbindungmit

SPSS

SASData miner

S-Plus:Insightful Miner

(23)

22

2 Beschreibende

Statistik

2.1 Grafische

Darstellung en

Streudiagramm. a

„Funktioniert"

nichtimmer!

0.60 0.64

0.68 0.72

0.76 0.80

0.350.400.450.500.550.600.65

log(Länge)

log(Breite)

0.60 0.64

0.68 0.72

0.76 0.80

0.350.400.450.500.550.600.65

log(Länge)

log(Breite)

(24)

23

2.1

DreiDimensionen b

:Echtz eit-Drehung

MehrereV c

ariab lein

zwei Dimensionen:

inkl.Aesthetik:

E.T ufte(1983,

1990,1997).

W.Cle

veland:

„trellis"-Grafik.

S library(trellis) >

R library(lattice) >

Streudiagramm-Matr d

ix.

pairs >

(25)

24

Sepal.Length

2.0 2.5 3.0 3.5 4.0 0.5

1.0 1.5 2.0 2.5

4.55.05.56.06.57.07.58.0 2.02.53.03.54.0

Sepal.Width Petal.Length

1234567

4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0

0.51.01.52.02.5

1 2 3 4 5 6 7

Petal.Width

(26)

25

2.1 e

coplot >

2.03.04.0

4.5 5.5 6.5 7.5 4.5

5.5 6.5 7.5 4.5

5.5 6.5 7.5

2.03.04.0

4.5 5.5 6.5 7.5

2.03.04.0

4.5 5.5 6.5 7.5 4.5

5.5 6.5 7.5

Sepal.Length

Sepal.Width

1 2

3 4

5 6

Given : Petal.Length

setosa

versicolor

virginica

Given : Species

(27)

26

2.2 Dynamische

Grafik

Dynamischeg a

rafische Elemente.

Darstellungen„be

wegen"

Interaktionen:

identifyS >

brush >

Linked b

Views . brushing

wirkt sichin

versch.

Fenster naus

(28)

27

2.3 Kennzahlen

Mittelwer a

t

= x

1 n n

P

=1 i (j

x

) i

(empirische) Var

ianz

c var h

(j

X i

)

s =

=

2

1

− n 1 X

n

=1 i

(j

x

)

i (j

x

) 2

Kov b

arianz

d cov h

(j

X ,X

) (k

i

)

1 =

− n 1 X

n

=1 i (j

(x

)

i (j

x

)(x

) (k

)

i (k

x

)

)

.

Korrelation

b ρ h

(j

X ,X

) (k

i

)

d cov = h

(

X

) j (

,X

) k

i X h c var i

) (j

X h c var p

i

(k)

.

(29)

28

2.3

Mittelwer c

t,V arianz,

Kov arianz,

Korrelation math.einf

− →

acheResultate

aber nichtrob

ust gegenA

usreisser!

Robuste

− →

Methoden,Rg-2d

Rangkorrelation. d

(30)

29

2.4 Matrix-Notation

Daten-Matrix b

= x

 

(1)

x x

1

(2)

..

1

.

(m)

x

1

(1)

x x

2

(2)

..

2

.

(m)

x

2 . . . .

(1)

x x

n

(2) n

..

.

(

x

) m n

 

Sepal-Blätter Länge Nr.

Breite

1 5.1

3.5 4.9 2

3.0 4.7 3

3.2 4.6 4

3.1

(31)

30

2.4

Var c

iable:

Spalte ,

j

Vektor

(j

x

=

)

 

(1)

x

1 (1)

x

. . . 2 (1)

x

n

  , 

(2)

x

=

 3.5 3 0 . 3.2 3.1

Beobachtung:Zeile

i x

=

i

 

(1)

x

i (2)

x

i

..

.

(

x

) m i

  ,  x

=

3

4 h 7 . 3.

2 i

T

x

=[

i (1)

x

,x

i (2)

,.

i

..

(

,x

) m

]

i

,

T

x

=[4

3

7 . 3 , 2] .

(Tfür

„transponier t")

(32)

31

2.4

Mittelwer d

P

t.

x

i (j )

=1

i

x

T (j

, ) T

1

, =[1 1,..., 1]

(j

x

=

) 1

1

n

x

T (j )

T

x

1

= 1

n

x

T 1

=

[1

4

, 1, 1, 1]

 5.1

3.5 9 . 4

. 3

0 3.2 3.1 4.7 4.6

=[4  .825,

3.2]

(33)

32

2.4

Zentrier e

teDaten.

x

=

c

− x x 1

.

T

x

=

c

 . 5 1 . 3

5 . 3 9 . 4

0 3.2 3.1 4.7 4.6

− 

 1 1 1 1

 [4.  825,

3.2]

=

 5.1

3.5 4.9

3.0 7 . 4

. 3

2 . 3 6 . 4

1

− 

 .825 4

.2 3 3 .825 4

.2 3 825 . 4

2 . . 3 825 . 4

2

=

 . 0

275 . 0

3 . 0 − 075 . 0

2 0 0. − 0.125 0.225 − −

1

. 

(34)

33

2.4

Kov f

arianz

d cov h

(j

X ,X

) (k

i

) 1

=

n

x

1 j (

) c

x

T k (

) c

d cov h

(1)

X

(2)

,X i

1

=

n

[0

1

275 . 0 ,

075 .

− , . 0 , 125

− . 0 225]

 0.3 − . 0

2 0 0.1 −

= . 0

03

1

n

x

1 T c

x

c

=

  c var

h

(1)

X d cov i

h

(1)

X

(2)

,X i d cov ...

h

(1)

X

(m)

,X

i

(m)

,X

(2)

X h d cov ... i

(2)

X h c var i

(1)

,X

(2)

X h d cov

i

. . . . . .

. . .

...

d cov h

(m

X ,X

)

i

(1)

d cov h

(m)

X

(2)

,X i c var ...

h

(m)

X i

 

c var = h i X b =

|

Σ

c var h i X b =

|

Σ

:V arianz-

Kov arianz-Matr

ix

(35)

34

|

b Σ

1

=

n 1

0.275 h .075 0

− 0.125

0.225 − 0 0.2 − 0.3

.1 0

 i 0 

275 . . 0

3 0. − 0.075

2 0.125 −

0 . 0 − 225 . 0 −

1

= 0 h

0492 . . 0

0300 .0467 0 0.0300

i .

Kov arianzmatr

ixist symmetrisch

var >

b ρ

g

h

(

X

j

,X

)

i

(k)

b ρ =

=

jk

| c

Σ

jk jj | c

Σ

q

| c

Σ

kk

Korrelationsmatr

− →

ix

cor >

Sepal.Length

1 0.743 Sepal.Width

1 0.178 0.267 Petal.Length

1 0.332 0.233 0.278 Petal.Width

1

Sepal.Length Sepal.Width

Petal.Length Petal.Width

(36)

35

2.4

Einfachste h

Kov arianzmatr

ix=

Einheitsmatrix

= I

 1 ... 0

0 ... 1 0

0

. . .

. . .

0 ... 0

1

Var ianzen

=1, unkorrelier

t.

(37)

36

2.5 LineareT

ransformationen undPr

ojektionen

Linearkombinationen a

von Var

iablen.

BeispielIr is:

log(Blattfläche)= Konstante

+log(Länge) +log(Breite)

„For m"=log(Breite)

-log(Länge)

= Y + a

b X

1

+

(1)

b X

2

oder (2)

y

=

i

+ a b x

1 (1)

+

i

b x

2 (2)

. i

y

=

i

a b +

x

T i

y

=

3

− 0.1+

[1, 1]

4 h

7 . 3.2

i

.8 =7

(38)

37

2.5

Mittelwer b

tv on

?

Y y a =

b + x

T

Var c

ianzv on

?

Y c var

h i Y

=

b =

2 1

c var h

(1)

X i b +2

b

1

d cov

2

h

(1)

X

(2)

,X i b +

2 2

c var h

(2)

X i

= b [

,b

1

]

2

c var h

(1)

X d cov i

h

(1)

X

(2)

X

i i

(2)

X h c var i

(2)

X

(1)

X h d cov

b h

1

b

2

i b =

b

T

|

Σ b

Nachrechnen:

c var h i Y

1

=

n 1

X (

i

y

i

) y

2

1

=

n 1

X

i

+ a b x

1 (1)

+

i

b x

2 (2)

i

a ( b +

x

1

+

(1)

b x

2

)

(2)

2

(39)

38

1

=

n 1

X

i

b (x

1 (1)

i (1)

x

b )+

(x

2 (2)

i (2)

x

)

2

1

=

n 1

2

b

1

X (x

i (1)

i (1)

x

2

) b +2

b

1 2

X (x

i (1)

i (1)

x

(2)

)(x

i (2)

x

)

b +

2 2

X (

i (2)

x

i (2)

x

2

)

b =

2 1

c var h

(1)

X i b +2

b

1

d cov

2

h

(1)

X

(2)

,X i b +

2 2

c var h

(2)

X

i

(40)

39

2.5

*Projektion d

Cosinus-Satz fürein

bel.Dreiec k:

Skalarprodukt

T

b x

=Seitenlänge i

Seitenlänge

×

cos(Zw.wink

×

el)

T

b x

=

i

k kk b x k

i

h cos b,x i

i

,

k

(

k c

:Länge desV

ektors

=W

c

urzel

k

aus

k c p =

T

c

)

c

1

b

i

x

1

e x

i

i

i

b,x h ∠

HH HH HH HH HH

HH

B B B B B B B B B

(41)

40

1

b

i

x

1

e x

i

i

i

b,x h

HH HH HH

HH HH HH

B B B B B B B B B

e x

=„Projektion" i

von

x

aufRichtung i

von

b

Länge

k x k

i

h cos b,x i

i

b = x

T

/

i

k k b

Wähle so,dass

b

k k b

.Dann

=1

ist

y

=

i T

b

x

=Längen i

derProjektionen der

x

auf i

.

b

Für

=2 m

:

= b cos h

h

i i β β h sin

i

(42)

41

2.5

LineareT e

ransf ormation.

= Y + a

X B

=

− h 0 0.1 i

+ 1 h

1 1 −

1 i X

Mittelwer f

ts-Vektor

= y + a

x B

.

Var ianzen

der

(k)

Y

:er ledigt.K

ovar ianz?

d cov h

(1)

Y

(2)

,Y i b =

T 1

|

Σ b

. 2

c var h i Y

= c var B

h i X

T

B

= 1 h

1 1 −

1 0 ih

0492 . . 0

0300 0.0467 .0300 0

1 ih

1 1 1

i

= 0.0208 h

0.0128 0128 . 0

. 0 0751

i .

T

B

transponier teMatr

ix .

B

(43)

42

2.5

Herleitung g

eleganter:

= y a 1

+

T T

xB

=

 1 1 1 1

 [  0]+ a,

 5.1

3.5 9 . 4

. 3

0 . 3 7 . 4

2 3.1 4.6

 h 

− 1

1 1 1

i

T

y

1

= 1

n

y

T 1

=

1

n

1

T T

a

1

+ 1

n

xB

T

=

T 1

na

n

+

T T

x

T

B

y a =

+ x B

=

− h 0.

1 0 i

+ 1 h

1 1 −

1 4.825 ih

. 3 2 i

= 7.925 − h

. 1 625

i .

c

y

=

− y y 1

=1

T T

a

+

T

xB

− a 1(

+

T T

x

T

B )=

(

− x x 1

)

T T

B

= x

B

c T

c var h i Y

1

=

n

y

1 T c c

y

1

=

n

Bx

1 T c

x B

c

=

T

c var B h i X

T

B

muss

B

nichtquadr atischsein.

Spezialfall

= B

T

b

(44)

43

2.5

Zwei h

Transf ormationen.

Y a =

+

B X,

∗∗

Y a =

+

∗∗

∗∗

B

Y

∗∗

Y a =

+

∗∗

∗∗

B

a B +

B

∗∗

X

e a = B +

X e

c var h

∗∗

Y i B =

c var

∗∗

h

Y i

∗∗

B

=

T

∗∗

B

B c var h i X

B B

T

∗∗

T

= e B

c var h i X e B .

T

Mansieht:

e B

=(

T

∗∗

B

B

T

)

=

B B

T T ∗∗

wieaus Lin.Alg.bekannt.

(45)

44

DieIdentität. i

Transf ormation,

diegar nichtsv

erändert?

= X

 0 0

. . .

0

 + 

 1 ... 0

0 ... 1 0

0

. . .

. . .

0 ... 0

1

 

(1)

X

(2)

X

. . .

(

X

) m

 

=0 +

X. I

(46)

45

2.5

Rücktr j

ansfor mation,in

verse Matrix.

X

=

B (Y

1

− a )=

"

2

1 1 −

2 2

1

2

1

#

(1)

Y

(2)

Y

h − a 0 i ,

B

Inverse 1

von ,

B

B B

1

= I

Inverse kannes

nur zuquadr

atischenMatr izen

geben,

abernicht allequadr

atischenMatr izen

habeneine Inverse

.

reguläre

− →

oder inver tierbare

Matriz envs

. singuläre

(47)

46

2.5

Standardisierung. k

Univar iateStatistik:

Stichprobestandardisieren,

z

=(

i

x

i

) x b σ /

.

Multivar iat:

gegeben,

x

− →

,

x

|

b Σ

Gesuchtlineare Transf

ormation zu

,so

z

dass

=0 z c var

und

h i Z

=

.

I

=0 z

einfach zuerreichen:

z

=

i

x

i

.

x

c var

Für

h i Z

=

brauchen

I

wirein Resultatder

lin.Alg.:

|

b Σ

istsymmetr ischund

positivsemidefinit

T

b

|

b Σ

≥ b

fürbel.

0

.

b

Satz:Es gibt

,so

B

dass

T

BB b =

|

Σ

–sogar viele!

(48)

47

Cholesky-Zerlegung liefer

teine davon,

eineDreiec ksmatrix

= B 0.222 h

0 0.168 0.135

i

0 h .222

0 .168 0 .135 0

0.222 ih

.135 0 0 0

.168 i

= 0 h

.0492

0.0300 .0300 0

0.0467 i .

Setze

= z ( C

− x b µ

,

)

= C

B

,und 1

prüfe!

z

=

i

( C x

i

)= x

− x C

+ x C

i

z

= (x C

− x )=

0

c var h i Z

= b C

|

Σ

T

C

= CB

T

B

T

C

=

CC (

1

C )

1

C

T

=

T

. I

Zielerreicht!

...falls inver

C

tierbarist

b ⇔

|

Σ

nichtsingulär

= C 4 h

51 .

0 5.94 3.62 −

i ,

= z x C

c

=

T

 . 1

240 . 0

785 . 1 − 338 . 0

459 0.453 0.221 .564 .015 0 1 − −

(49)

48

2.5

Rotation,or l

thogonaleT ransf ormation.

Drehungen und

Spiegelungen lassen

dieLängen von

Strecken unddie

„For men"v

onFiguren unveränder

t.

Drehungenum denNullpunkt

ohneoder mitSpiegelung

anv ert.

Achse:

= B cos h

h i β

− h sin

i β

h sin i β h cos

i β i

resp.

=

− h h cos

i β h sin

i β

h sin i β h cos

i β i

−2

−1 0

1 2

3 4

5 6

7

01234

(50)

49

2.5

Transf m

ormation rückgängig

machen!Drehung

um

.

β i β h− sin i β h− cos h

h− sin i β h− cos

i β i

= cos h

h i β h sin

i β β h cos i β h sin −

i i

=

T

B .

T

B

=

B

,oder 1 T

B

= B . I

Auch fürSpiegelungen.

„orthogonale

− →

Matriz en"und

Transf ormationen.

Längenv onV

ektoren

k y k

i

=

2 T

y

y

i

=

i T

x

B

i

B

T

x

=

i T

x

I

i

x

=

i T

x

x

i

=

i

k x k

i

.

2

Anmerkung. Drehungenmit

Verschieb ungebenso

.

(51)

50

*

n

Lösungenv on

T

BB b =

|

Σ

?

Wenn

B

eineLösung c

ist,dann auch

B B

c

mitor o

thog.

B

,denn o

B B

c

(

o

B B

c

)

o

=

T

B B

c

B

o T o T

B

=

c

B IB

c T c

= B B

c T c

b =

|

Σ

.

Umgekehr t:Zw

eiLösungen unterscheidensich

immerum eineor

thog.Mx.

Anschaulich:Standardisier teDaten

mitor thogonalerMatr

ixtr ansfor

mieren

bleiben

− →

standardisiert.

(Standardis.-T .,dann orthogonale)

=wieder eineStandardis

.-T.

Basis-Transf o

ormation.

StattDrehung allerPunkte

um Drehungdes

β

Koordinatenkreuz

esum

β

beideV orstellungenführen

zuden gleichen„neuen

Koordinaten"

y

. i

(52)

51

2.6 Projektion

Pursuit

Grundidee a

. Explorativ

em ultivar

iateStatistik sollinteressante

Strukturen

inden Datenfinden.

Werden evtl.

sichtbarbei geeigneterV

eränderung desK

oordinatensystems

Suchenach

„Richtungenim Raum",die

interessanteStr ukurenz

eigen.

Manuelle b

Suche.

InteressanteProjektionen c

mit numer ischerOptimier

ung eines

„Interessantheits-Masses"einer Projektion,

Projektionsindex

Q

*

d

h Q + a i by

Q = h i y

Genaueressiehe Block

Mu-2b.

(53)

52

Merkpunkte Beschreibende

Statistik

Grafische

Methodener laubenauch

dieDarstellung

von mehrerenV

ariab lenmit

Symbolen,F arben,etc.

Dynamischeund

interaktiv eGr

afikbietet zusätxlicheMöglichk

eiten.

WichtigsteK

ennzahlen:Mittelw ertsv

ektorund Kov

arianzmatr ix;

Korrelationsmatr ix

LineareT

ransf ormation

führtzu einfachen

Regeln:

= y + a

x B c var

,

h i Y B =

c var h i X

T

B

.

Standardisierung:

• z

=

i

( C x

i

) x

,

= C

B

, 1 T

BB

b =

|

Σ

Orthogonale Transf

ormation (resp.Matr

ix):

T

BB

= I

Basis-Transf ormation

äquivalent zu(nicht-sing.)

linearerT .

(54)

53

3 Modelle

3.1 Vektorielle

Zufallsvariab

le

Stichproben. leund ariab Zufallsv a

ZurEr innerung:

Beobachtung modelliertdurch

i

Zufallsv ariab

le

X

∼F

i

∼N

,oft

h

2

µ,σ i

Daten Beobachtungen

Haeufigkeit

−1 0 1 2 3 4 5 6 7 8 9

012345678910

Modell X

−1 0 1 2 3 4 5 6 7 8 9

0.000.100.200.30Dichte

(55)

54

jetztm ultivar

iat!

0.60 0.64

0.68 0.72

0.76 0.80

0.350.400.450.500.550.600.65 log(Breite) 0.60

0.64 0.68

0.72 0.76

0.80

0.350.400.450.500.550.600.65 log(Breite)

(56)

55

3.1

Zufallsv b

ektor.

= X

 

(1)

X

(2)

X

. . .

(m

X

)

  ,

Ver teilung=

gemeinsameV erteilung

der

(1)

X

(2)

,X ,...,

(

X

) m

.

Stichprobev onZuf

allsvektoren

X

mitgleicher i

Ver teilung,

unabhängigv oneinander

.

AlleDaten derStichprobe

Datenmatrix

− →

= X

"

T

X

1

..

.

T

X

n

#

=

 

(1)

X X

1

(2)

..

1

.

(m)

X

1

(1)

X X

2

(2)

..

2

.

(m)

X

2 . . . .

. . .

(1) n

X

(2) n

X ..

.

(

X

) m n

  . 

X

Spaltenvektoren, i

obwohl sieZeilen

derDatenmatr ix

sind.

X

(57)

56

3.1

Mittelwer c

1 te

n

... P

1 ,

n 1

... P

Erwar

− →

tungsw erte

= µ Eh i X

=

  Eh

(1)

X

i

(2)

X Eh

i

. . .

Eh

(m

X i

)

 

Var

− →

ianz Kov

arianzmatr

|

Σ

ix

=va h r

i X

=

=

  h var

(1)

X i h cov

(1)

X

(2)

,X i cov ...

h

(1)

X

(

,X

) m

i

h cov

(2)

X

(1)

,X i h var

(2)

X i ...

h cov

(2)

X

(

,X

) m

i

. . . . . .

. . .

...

h cov

(

X

) m (1)

,X

i h cov

(

X

) m (2)

,X

i var ...

h

(

X

) m

i

 

(58)

57

3.1

Kov d

arianzmatr ixals

Erwar tungsw

ert.

Füreinf acheZv

.:

h var i X E =

(X

2

µ)

= Eh

2

X i−

2

µ

.

h var i X E =

D

− X µ

− X µ E

T

Eh =

T

XX i−

T

µµ .

X (

− )( µ

− X ) µ

isteine T

× m

-Matrix!

m

LineareT e

ransf ormationen.

= Y + a

X B

.

Eh i Y

a = + Eh B

i X

h var i Y

= var B

h i X

T

B

(59)

58

3.1

Summenv f

onunabhängigen Zufallsv

ektoren.

Eh X +

1

X i

2

Eh = X i

1

Eh + X i

2

h var X +

1

X i

2

= h var

X i

1

+va h r

X i

2

Mittelwer t

= X

1 n

P

n

X

i=1

. i

Wenn

= µ Eh X i

i

|

Σ ,

=va h r

X i

i

:

Eh i X

1

=

n

X

n

Eh

i=1

X i

i

µ =

h var i X

1

=

n

X

2 n

var

i=1

h X i

i 1

=

|

Σ

n

(60)

59

3.2 Diemehr

dimensionaleNormalver teilung

MehrdimensionaleV a

erteilung.

Kum ulative

Ver teilungsfunktion

h F i x P =

h

≤ X i x

.–

Mehrdim.:

h F i x P =

h

≤ X i x P =

h

(1)

X

(1)

x

(2)

,X

(2)

x ,...,

(m)

X

(m)

x i .

Dichte:

h f i x

=Ab leitungv

on

=

F

m

∂ F

(1)

∂x

(2)

∂x ...∂x

. (m)

Ereignis: :

A

∈A X

Wsch.durch Integration

derDichte:

hAi P R =

∈A u

h f i u

(1)

du ...du

. (m)

h F i x P =

h

(1)

X

(1)

x ,...,

(m)

X

(m)

x i

= Z

(1) u

(1) x ,...,u

(m) (m) x

h f i u

(1)

du ...du

m (

.

)

(61)

60

3.2

MehrdimensionaleStandard-Normalv b

erteilung.

∼ Z Φ

⇐ ⇒

m (j

Z

)

Φ ,

1

unabhängig

.

h f i z Y =

m j

=1

1 √ exp 2π

h

(j

z /2

)2

i π =(2

) exp

m/2

hk k z /

2

i 2 e f =

hk k z i

2

.

−2 0

2

−202

(62)

61

3.2

Lineartr c

ansfor mierter

Zufallsv ektor.

Linearkombination

X b =

Z

T

− →

∼N h

P 0, b

j 2 j

i Nh =

k 0, k b i

2

Lin.tr ansf.

,

Z X µ =

+ Z B

− → Eh

i X µ, =

h var i X

=

T

BB

Multivar d

iateNormalv erteilung.

=Vt.

von

X µ =

+ Z B

!

− →

∼N X h

m

µ, i B

Problem: Sei

orthogonal.

B

Dannist

X

= Z B

standard-nv.

Verschiedene Par

ameter und

B

mitgleicher

I

Ver teilung

Par

− →

ameternicht identifizierbar.

GeeigneteP arameter

:Erw .wer

t und

µ

Kov arianzmatr

|

Σ

ix .

Zwei Matriz

en und

B

0

B

mitgleichem

|

Σ

,also

T

BB

=

0

B B

T 0

− → X

µ = + Z B

und

X µ =

+

0

B

gleichv

Z

ert.,

∼N X h

m

|

Σ µ, i

Welche e

Matriz ensind

|

Σ

als brauchbar?

Alle

× m

-Matriz

m

endie symmetrisch

und„positiv semidefinit"sind,

denndann existier

t mit

B

T

BB

|

Σ =

.

(63)

62

Dichte. f

Falls

|

Σ

nichtsingulär ist,ist

Dichte

h f i x c =

· h exp

x (

− ) µ

|

Σ

T

(

1

− x ) µ 2 / i

=(2 c ) π

m/

det

2

h

|

Σ

1

i

/2

Dichtek onstantfür

− (x

T

µ)

|

Σ

(x

1

=K

µ)

onstante.

Ellipsoid.

−2 0

2

−202

−2 0

2 4

6

−2024

(64)

63

3.2

Schätzungder g

Par ameter:

b µ X =

b

,

|

Σ

.

0.60 0.62

0.64 0.66

0.68 0.70

0.72 0.74

0.76 0.78

0.80

0.350.400.450.500.550.600.65

log(Länge)

log(Breite)

(65)

64

3.2

LineareT h

ransf ormation.

∼N X h

m

|

Σ µ, i

− →

= Y + a

X B

∼N h

m

+ a µ, B

|

Σ B

T

B i

Standardisierter i

Zufallsv ektor.

= Z

B (

1

− X ) µ

mit

T

BB

|

Σ = .

Wenn normalverteilt,

X

dann standard-normalverteilt.

Z

(66)

65

3.2

Chiquadrat-V j

erteilung

=Vt.

derSumme von

unabh.,quadr

m

ierten standard-normalv

et.

(j

Z

, )

U X =

m

=1 j (

Z

j

=

)2

k k Z ,

2

∼ Z Φ .

m

Dichte

f h

m

i u

1

=

m/2 2 h Γ i m/2

·

m/2

u

e

1

. u/2

:Gamma-Funktion

Γ

Mahalanobis-Distanz. k

∼N X h

|

Σ µ, i

2

d h X,

; µ

|

Σ i k =

k Z

=

2 T

Z

=( Z

− X ) µ C

T

C

T

X (

− ) µ

= X (

− ) µ

|

Σ

T

(

1

− X ) µ

=quadr ierte

„Mahalanobis-Distanz"v on

zu

X

.

µ

2

d h x,µ

|

Σ ; i

konstant:

=

gleicheDichte .

2

d

2

χ

, m

Freiheitsg

m

rade

(67)

66

3.2

Q-Q-Diagramm. l

0.0 0.5

1.0 1.5

2.0 2.5

3.0 3.5

0123

theoretische Quantile

geordnete Mahalanobis−Distanzen

(68)

67

3.2

Randver m

teilungen.

Gem.Vt.

von

− → X

Vt.v on

(j

X

: )

Randver teilung

Auch

„mehrdimensionaleRänder"!

= a a

[1]

[2]

a

=

 

 

(1)

a ...

(p)

a

(p

a

+1)

...

(m)

a

 

 

Referenzen

ÄHNLICHE DOKUMENTE

Suche aus den Wortkarten das richtige Wort aus und vergleiche... Schneide sie auseinander und los

Für die Abschätzung des Einflusses der externen Faktoren wurden die Entwicklungsszenarien zu den entsprechenden unternehmerischen Bezugsebenen nach den folgenden Umfeldern

In München, wo sich Sabi- ne Lessig seit Mai 1986 mit Ehemann und Sohn nieder- gelassen hat, macht sie nun einen neuen Anfang, ver- sucht sich unter erschwerten

Background: Certain drugs are classified as potentially inappropriate medications (PIM) for the elderly because they carry an increased risk of adverse drug events in this

© 2019 PHILIPP GmbH, 63741 Aschaffenburg • Technische Änderungen sowie Irrtümer vorbehalten • August 20192. Der

Bei Böden, die maschinell her- - 1 gestellt werden, werden die Mann- } { löcher gleich mit eingepreßt, wo- bei dann die Randkrempe gleich- Fig. zeitig eine wirksame Versteifung

Abstract: The objectives of the international workshop DERM 2014, as part of the INFORMATIK 2014 conference in Stuttgart (Germany) is concerned with the transition of

Freisetzung einer Reihe von Zytokinen und Entzündungs-Mediatoren (Mayer, Bieger, 2003). Sowohl nach dem Modell der neurogenen als auch der chemischen Entzündung ist die