0
!!!Vgl.
sl-mult-intro
=neuer!
1 Einleitung
1.1 Fragen
derm ultivariaten
Statistik
kmale) le(Mer ariab vieleV Einigebis a(j
X
)
j
i, =1 2,..., m
fürjede Beobachtungseinheit
,
i i , =1
2,...,
.
n
MultipleReg ression:Eine
Var iable
alsZielg rösse.
Multivar iateSt.:
mehrereV ariab
lev ongleichr
angigemInteresse
Körper masse
Patienten:
Blutdruc k,Puls
,Blutzuc ker
,...
Psychologie:Punktezahlen inv
ersch.F ragen einesT
ests
1
chemischeReaktion: Konz.
mehrererSubstanz en
Kunden:
Mengenv oneingekauften
Waren
Texte:
Häufigkeiten von
Wor tkategorien
2
1.1
Univar e
iateStatistik umfasst:
EineStichprobe:
•
Schätzung,T est,V
ertr auensintervall
Zwei
•
Stichproben:T est
Var
•
ianzanalyse,(m ultiple)Reg
ression(
=m ultivar
iat?)
Zeitreihen
•
Dasalles jetztfür
mehreregleichr angigeV
ariab le
Var ianzanalyse,Reg
ression:Mehrere Zielgrössen
(kurz)
Zeitreihen:Später einw
enig
NeueF ragestellungen:
Diskriminanz-, Clusteranalyse
,Hauptk omponenten
3
1.2 Beispiele
Iris-Daten. a
DreiAr ten.
Längeund Breitev
onSepal-Blätter nund
Petal-Blätter n.
Könnendie Arten
aufGr unddieser
Merkmale unterschiedenw
erden?
Diskriminanz-Analyse ,eingeführ
tv .R.A.
Fisher1936 mitdiesem
Beispiel.
4
4.5 5.0
5.5 6.0
6.5 7.0
7.5 8.0
2.02.53.03.54.0
Länge
Breite
setosa versicolor virginica
5
1.2 b
05101520
4 4.5
5 5.5
6 6.5
7 7.5
8
setosa virginica vesicolor
05101520
2.5 3
3.5 4
4.5
Breite
6
1.2
Ader-Verengung c
Diagnostikin derMedizin...
−0.4
−0.3
−0.2
−0.1 0.0
0.1 0.2
0.3 0.4
0.5 0.6
−0.4−0.20.00.20.40.6
log(Vol)
log(Rate)
verengt gesund
7
1.2
Fossilien d
Morphologische Merkmale
Umwelt
← −
Probenv onheute
Modell
− →
↑
Morph.
M.in tieferer
Schicht
⇒ =
Umwelt von
damals
8
9
1.2
Abstimmungen e
−40
−30
−20
−10 0
10 20
−30−20−1001020
1. Hauptkomponente
2. Hauptkomponente
ZH
BE
LU
SZ UR OW NW
GL ZG
FR SO
BS
BL
SH AR
AI SG
AG GR
TG
TI VD
VS
NE
GE
JU
10
1.2
NIR-Spektren f
Spektrum einesGemisches
=lin.
Superposition derSpektren
derSubst.
(j
X
=
)X
k (k)
s
(j
C
) k
(j
C
)
:Intensität k
desSpektr umsder
„Reinsubstanz"
fürW
k
ellenlänge ,
j
(
s
) k
:Anteil derSubstanz
ander
k
Mischung.
NIR:K eineschmalen
Peaks!
Kannman ausden
Spektrenfür mehrerev
erschiedeneGemische
dieSpektren derReinsubstanz
en
undihre Konz
entrationen feststellen?
Oderw enigstensdie
Änderung derK
onzentr ationen?
11
1200 1400
1600 1800
2000 2200
2400
0123
Wellenlänge
Energie
Spektrum
1 13 25 37 49 61 73 85 97 109 121
12
0 20
40 60
80 100
120
0.00.20.40.60.81.0
Zeit
scores, standardisiert
score 1 score 2 score 3 score 4
A B
C D
E F
G
13
Allgemein: LineareEntmischung.
Mu-2a,hier
− →
einerster Schritt.
Anwendung fürErf
orschungv onReaktionsmechanismen,
Prozess-Monitor ing,Überw
achungv ongelager
tenSubstanz en.
14
1.2
Kunden-Management g
Schuldner:Schlechte
•
Schuldnerfrühz eitiger
kennen.
Diskriminanzanalyse
− →
Ertr
•
agv orhersagenaus
bekanntenDaten Regression
− →
Kunden
•
in„homogene Gruppen"
einteilen Cluster-Analyse
− →
Kunden einerGr
uppe(eines Clusters)gleich
behandeln.
15
1.3 Fragestellung
en
a Graphische
Darstellung
b Zusammenhänge
Korrelation,
− →
Modell:Normalv erteilung
c Unterschiedezwischen
Klassentesten
d Beobachtungseinheitenzu
Klassenzuordnen Diskriminanz-
− →
Analyse
e Einteilungv
onBeobachtungen inGr
uppen Clusteranalyse
− →
,Mu-
2b
f Ähnlichkeiten
von Beobachtungen(Objekten)
oderv onV
ariab
− →
lenMu-2b
g Dimensionreduzieren
h Einflussv
onk ontinuier
lichenoder diskretener
klärendenV ariab
len
aufmehrere Zielgrössen
Multivar
− →
itateV arianzanalyse
undReg r.
16
1.3
Datamining. j
Bestimmung
•
allerK undenmit
bestimmtenMer kmalen
(Datenbank-Abfrage und-Mangement),
übersichtlicheDarstellung
•
derK undendaten(Beschreib
ung),
Zuordnung
•
derK undenzu
bestimmtenGr uppen(Diskr
iminanz-Analyse),
Einteilungin
•
Gruppen (Cluster-Analyse),
Vorhersage
•
von Zielgrössen
wieUmsatz desK
unden
ausbekannten erklärenden
Var iablen
(Regression),
[Kennen
•
Siew eitere?]
17
1.3
Kategorielle l
undk ontinuier
licheDaten.
Multivar iateStatistik
meintmeistens kontin
uierliche Daten
(ausserGr uppierungs-V
.und erkl.
V .)
Mehrerediskrete Var
iable log-lineareModelle
− →
,Rg-2b
Geordnete,diskrete Var
iable oftals
− →
kontin uierlich
behandelt.
18
1.3
Zusammenhangmit m
anderenGebieten derStatistik
Multivar iateNormalv
erteilung.Wird auchgebr
auchtfür
Zeitreihen,räumliche
•
Statistik.
Var
•
ianzanalysemit Zufallseff
ekten.
Ver
•
teilungenv onSchätzungen
inallen Gebietender
Statistik.
19
1.3
Geometrie n
.
Für
≤ m
:Punkte
3
,Ger aden,Ebenen,
Winkel, senkrecht...
Vorstellungen oft,aber
nichtimmer auf
m>>
übertr
3
agbar.
Fluchder Dimension
20
1.4 Software
Diegängigen a
Statistikpakete enthaltenklassische
mult.
Verf ahren.
R/
S-Plus:Matr ix-Orientier
ung
21
Datamining d
:Spezialsoftw are,die
gutmit
•
riesigen Datenbanken
umgehenkann
einfach
•
istin derBenützung
nebenden
•
wichtigstenklassischen Verf
ahren
einigead-hoc-V erfahren
(besserAlgor ithmen)
mitgutem Marketing
enthält.
Clementine,V erbindungmit
SPSS
SASData miner
S-Plus:Insightful Miner
22
2 Beschreibende
Statistik
2.1 Grafische
Darstellung en
Streudiagramm. a
„Funktioniert"
nichtimmer!
0.60 0.64
0.68 0.72
0.76 0.80
0.350.400.450.500.550.600.65
log(Länge)
log(Breite)
0.60 0.64
0.68 0.72
0.76 0.80
0.350.400.450.500.550.600.65
log(Länge)
log(Breite)
23
2.1
DreiDimensionen b
:Echtz eit-Drehung
MehrereV c
ariab lein
zwei Dimensionen:
inkl.Aesthetik:
•
E.T ufte(1983,
1990,1997).
W.Cle
•
veland:
„trellis"-Grafik.
S library(trellis) >
R library(lattice) >
Streudiagramm-Matr d
ix.
pairs >
24
Sepal.Length
2.0 2.5 3.0 3.5 4.0 0.5
1.0 1.5 2.0 2.5
4.55.05.56.06.57.07.58.0 2.02.53.03.54.0
Sepal.Width Petal.Length
1234567
4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0
0.51.01.52.02.5
1 2 3 4 5 6 7
Petal.Width
25
2.1 e
coplot >
2.03.04.0
4.5 5.5 6.5 7.5 4.5
5.5 6.5 7.5 4.5
5.5 6.5 7.5
2.03.04.0
4.5 5.5 6.5 7.5
2.03.04.0
4.5 5.5 6.5 7.5 4.5
5.5 6.5 7.5
Sepal.Length
Sepal.Width
1 2
3 4
5 6
Given : Petal.Length
setosa
versicolor
virginica
Given : Species
26
2.2 Dynamische
Grafik
Dynamischeg a
rafische Elemente.
Darstellungen„be
•
wegen"
Interaktionen:
•
identifyS >
brush >
Linked b
Views . brushing
wirkt sichin
versch.
Fenster naus
27
2.3 Kennzahlen
Mittelwer a
t
= x
1 n n
P
=1 i (j
x
) i
(empirische) Var
ianz
c var h
(j
X i
)s =
=
21
− n 1 X
n
=1 i
(j
x
)
−
i (jx
) 2Kov b
arianz
d cov h
(j
X ,X
) (ki
)1 =
− n 1 X
n
=1 i (j
(x
)
−
i (jx
)(x
) (k)
−
i (kx
)
).
Korrelation
b ρ h
(j
X ,X
) (ki
)d cov = h
(
X
) j (
,X
) k
i X h c var i
) (jX h c var p
i
(k).
28
2.3
Mittelwer c
t,V arianz,
Kov arianz,
Korrelation math.einf
− →
acheResultate
aber nichtrob
ust gegenA
usreisser!
Robuste
− →
Methoden,Rg-2d
Rangkorrelation. d
29
2.4 Matrix-Notation
Daten-Matrix b
= x
(1)
x x
1(2)
..
1.
(m)
x
1
(1)
x x
2(2)
..
2.
(m)
x
2 . . . .
(1)
x x
n(2) n
..
.
(
x
) m n
Sepal-Blätter Länge Nr.
Breite
1 5.1
3.5 4.9 2
3.0 4.7 3
3.2 4.6 4
3.1
30
2.4
Var c
iable:
Spalte ,
j
Vektor
(j
x
=
)
(1)
x
1 (1)
x
. . . 2 (1)
x
n
,
(2)
x
=
3.5 3 0 . 3.2 3.1
Beobachtung:Zeile
i x
=
i
(1)
x
i (2)
x
i
..
.
(
x
) m i
, x
=
34 h 7 . 3.
2 i
T
x
=[
i (1)x
,x
i (2),.
i..
(
,x
) m
]
i,
T
x
=[4
37 . 3 , 2] .
(Tfür
„transponier t")
31
2.4
Mittelwer d
P
t.x
i (j )=1
ix
T (j, ) T
1
, =[1 1,..., 1]
(j
x
=
) 11
nx
T (j )T
x
1
= 1
nx
T 1=
[1
4, 1, 1, 1]
5.1
3.5 9 . 4
. 3
0 3.2 3.1 4.7 4.6
=[4 .825,
3.2]
32
2.4
Zentrier e
teDaten.
x
=
c− x x 1
.
Tx
=
c
. 5 1 . 3
5 . 3 9 . 4
0 3.2 3.1 4.7 4.6
−
1 1 1 1
[4. 825,
3.2]
=
5.1
3.5 4.9
3.0 7 . 4
. 3
2 . 3 6 . 4
1
−
.825 4
.2 3 3 .825 4
.2 3 825 . 4
2 . . 3 825 . 4
2
=
. 0
275 . 0
3 . 0 − 075 . 0
2 0 0. − 0.125 0.225 − −
1
.
33
2.4
Kov f
arianz
d cov h
(j
X ,X
) (ki
) 1=
− n
x
1 j () c
x
T k () c
d cov h
(1)
X
(2)
,X i
1
=
− n
[0
1275 . 0 ,
075 .
− , . 0 , 125
− . 0 225]
0.3 − . 0
2 0 0.1 −
= . 0
03
1
− n
x
1 T cx
c
=
c var
h
(1)
X d cov i
h
(1)
X
(2)
,X i d cov ...
h
(1)
X
(m)
,X
i
(m),X
(2)X h d cov ... i
(2)X h c var i
(1),X
(2)X h d cov
i
. . . . . .. . .
...
d cov h
(m
X ,X
)i
(1)d cov h
(m)
X
(2)
,X i c var ...
h
(m)
X i
c var = h i X b =
|
Σ
c var h i X b =
|
Σ
:V arianz-
Kov arianz-Matr
ix
34
|
b Σ
1
=
− n 1
0.275 h .075 0
− 0.125
−
0.225 − 0 0.2 − 0.3
.1 0
i 0
275 . . 0
3 0. − 0.075
2 0.125 −
0 . 0 − 225 . 0 −
1
= 0 h
0492 . . 0
0300 .0467 0 0.0300
i .
Kov arianzmatr
ixist symmetrisch
var >
b ρ
gh
(
X
j
,X
)i
(k)b ρ =
=
jk| c
Σ
jk jj | c
Σ
q| c
Σ
kk
Korrelationsmatr
− →
ix
cor >
Sepal.Length
1 0.743 Sepal.Width
1 0.178 0.267 Petal.Length
1 0.332 0.233 0.278 Petal.Width
1
Sepal.Length Sepal.Width
Petal.Length Petal.Width
35
2.4
Einfachste h
Kov arianzmatr
ix=
Einheitsmatrix
= I
1 ... 0
0 ... 1 0
0
. . .. . .
0 ... 0
1
Var ianzen
=1, unkorrelier
t.
36
2.5 LineareT
ransformationen undPr
ojektionen
Linearkombinationen a
von Var
iablen.
BeispielIr is:
log(Blattfläche)= Konstante
+log(Länge) +log(Breite)
„For m"=log(Breite)
-log(Länge)
= Y + a
b X
1+
(1)b X
2oder (2)
y
=
i+ a b x
1 (1)+
ib x
2 (2). i
y
=
ia b +
x
T iy
=
3− 0.1+
[1, 1]
4 h
7 . 3.2
i
.8 =7
37
2.5
Mittelwer b
tv on
?
Y y a =
b + x
TVar c
ianzv on
?
Y c var
h i Y
=
b =
2 1
c var h
(1)
X i b +2
b
1d cov
2h
(1)
X
(2)
,X i b +
2 2
c var h
(2)
X i
= b [
,b
1]
2c var h
(1)
X d cov i
h
(1)
X
(2)
X
i i
(2)X h c var i
(2)X
(1)X h d cov
b h
1
b
2
i b =
b
T|
Σ b
Nachrechnen:
c var h i Y
1
=
− n 1
X (
iy
−
i) y
2
1
=
− n 1
X
i
+ a b x
1 (1)+
ib x
2 (2)−
ia ( b +
x
1+
(1)b x
2)
(2)2
38
1
=
− n 1
X
i
b (x
1 (1)−
i (1)x
b )+
(x
2 (2)−
i (2)x
)
2
1
=
− n 1
2
b
1
X (x
i (1)−
i (1)x
2
) b +2
b
1 2X (x
i (1)−
i (1)x
(2)
)(x
−
i (2)x
)
b +
2 2
X (
i (2)x
−
i (2)x
2
)
b =
2 1
c var h
(1)
X i b +2
b
1d cov
2h
(1)
X
(2)
,X i b +
2 2
c var h
(2)
X
i
39
2.5
*Projektion d
Cosinus-Satz fürein
bel.Dreiec k:
Skalarprodukt
T
b x
=Seitenlänge i
Seitenlänge
×
cos(Zw.wink
×
el)
T
b x
=
ik kk b x k
ih cos b,x i
i,
k
(k c
:Länge desV
ektors
=W
c
urzel
k
ausk c p =
T
c
)
c
1
b
i
x
1
e x
i
i
ib,x h ∠
HH HH HH HH HH
HH
B B B B B B B B B
40
1
b
i
x
1
e x
i
i
ib,x h ∠
HH HH HH
HH HH HH
B B B B B B B B B
e x
=„Projektion" i
von
x
aufRichtung i
von
b
Länge
k x k
ih cos b,x i
ib = x
T/
ik k b
Wähle so,dass
b
k k b
.Dann
=1
ist
y
=
i Tb
x
=Längen i
derProjektionen der
x
auf i
.
b
Für
=2 m
:
= b cos h
h
i i β β h sin
i
41
2.5
LineareT e
ransf ormation.
= Y + a
X B
=
− h 0 0.1 i
+ 1 h
1 1 −
1 i X
Mittelwer f
ts-Vektor
= y + a
x B
.
Var ianzen
der
(k)
Y
:er ledigt.K
ovar ianz?
d cov h
(1)
Y
(2)
,Y i b =
T 1
|
Σ b
. 2
c var h i Y
= c var B
h i X
T
B
= 1 h
1 1 −
1 0 ih
0492 . . 0
0300 0.0467 .0300 0
1 ih
−
1 1 1
i
= 0.0208 h
0.0128 0128 . 0
. 0 0751
i .
T
B
transponier teMatr
ix .
B
42
2.5
Herleitung g
eleganter:
= y a 1
+
T TxB
=
1 1 1 1
[ 0]+ a,
5.1
3.5 9 . 4
. 3
0 . 3 7 . 4
2 3.1 4.6
h
− 1
1 1 1
i
T
y
1
= 1
ny
T 1=
1
n1
T Ta
1
+ 1
nxB
T=
T 1na
n+
T Tx
T
B
y a =
+ x B
=
− h 0.
1 0 i
+ 1 h
1 1 −
1 4.825 ih
. 3 2 i
= 7.925 − h
. 1 625
i .
c
y
=
− y y 1
=1
T Ta
+
T
xB
− a 1(
+
T Tx
T
B )=
(
− x x 1
)
T TB
= x
B
c Tc var h i Y
1
=
− n
y
1 T c cy
1
=
− n
Bx
1 T cx B
c=
Tc var B h i X
T
B
muss
B
nichtquadr atischsein.
Spezialfall
= B
T
b
43
2.5
Zwei h
Transf ormationen.
∗
Y a =
+
∗∗
B X,
∗∗
Y a =
+
∗∗∗∗
B
∗
Y
∗∗
Y a =
+
∗∗∗∗
B
∗
a B +
B
∗∗X
∗e a = B +
X e
c var h
∗∗
Y i B =
c var
∗∗h
∗
Y i
∗∗
B
=
T∗∗
B
∗
B c var h i X
∗
B B
T∗∗
T
= e B
c var h i X e B .
TMansieht:
e B
=(
T∗∗
B
∗
B
T
)
=
∗
B B
T T ∗∗wieaus Lin.Alg.bekannt.
44
DieIdentität. i
Transf ormation,
diegar nichtsv
erändert?
= X
0 0
. . .
0
+
1 ... 0
0 ... 1 0
0
. . .. . .
0 ... 0
1
(1)
X
(2)
X
. . .
(
X
) m
=0 +
X. I
45
2.5
Rücktr j
ansfor mation,in
verse Matrix.
X
=
−
B (Y
1− a )=
"
2
1 1 −
2 2
1
21
#
(1)
Y
(2)
Y
h − a 0 i ,
−
B
Inverse 1
von ,
B
−
B B
1= I
Inverse kannes
nur zuquadr
atischenMatr izen
geben,
abernicht allequadr
atischenMatr izen
habeneine Inverse
.
reguläre
− →
oder inver tierbare
Matriz envs
. singuläre
46
2.5
Standardisierung. k
Univar iateStatistik:
Stichprobestandardisieren,
z
=(
ix
−
i) x b σ /
.
Multivar iat:
gegeben,
x
− →
,
x
|
b Σ
Gesuchtlineare Transf
ormation zu
,so
z
dass
=0 z c var
undh i Z
=
.
I
=0 z
einfach zuerreichen:
z
=
ix
−
i.
x
c var
Fürh i Z
=
brauchen
I
wirein Resultatder
lin.Alg.:
|
b Σ
istsymmetr ischund
positivsemidefinit
⇔
T
b
|
b Σ
≥ b
fürbel.
0
.
b
Satz:Es gibt
,so
B
dass
T
BB b =
|
Σ
–sogar viele!
∞
47
Cholesky-Zerlegung liefer
teine davon,
eineDreiec ksmatrix
= B 0.222 h
0 0.168 0.135
i
0 h .222
0 .168 0 .135 0
0.222 ih
.135 0 0 0
.168 i
= 0 h
.0492
0.0300 .0300 0
0.0467 i .
Setze
= z ( C
− x b µ
,
)
= C
−
B
,und 1
prüfe!
z
=
i( C x
−
i)= x
− x C
+ x C
i
z
= (x C
− x )=
0
c var h i Z
= b C
|
Σ
T
C
= CB
T
B
T
C
=
−
CC (
1−
C )
1C
T=
T. I
Zielerreicht!
...falls inver
C
tierbarist
b ⇔
|
Σ
nichtsingulär
= C 4 h
51 .
0 5.94 3.62 −
i ,
= z x C
c=
T
. 1
240 . 0
785 . 1 − 338 . 0
459 0.453 0.221 .564 .015 0 1 − −
48
2.5
Rotation,or l
thogonaleT ransf ormation.
Drehungen und
Spiegelungen lassen
dieLängen von
Strecken unddie
„For men"v
onFiguren unveränder
t.
Drehungenum denNullpunkt
ohneoder mitSpiegelung
anv ert.
Achse:
= B cos h
h i β
− h sin
i β
h sin i β h cos
i β i
resp.
=
− h h cos
i β h sin
i β
h sin i β h cos
i β i
−2
−1 0
1 2
3 4
5 6
7
01234
49
2.5
Transf m
ormation rückgängig
machen!Drehung
−
um.
β i β h− sin − i β h− cos h
h− sin i β h− cos
i β i
= cos h
h i β h sin
i β β h cos i β h sin −
i i
=
T
B .
T
B
=
−
B
,oder 1 T
B
= B . I
Auch fürSpiegelungen.
„orthogonale
− →
Matriz en"und
Transf ormationen.
Längenv onV
ektoren
k y k
i=
2 Ty
y
i=
i Tx
B
iB
Tx
=
i Tx
I
ix
=
i Tx
x
i=
ik x k
i.
2Anmerkung. Drehungenmit
Verschieb ungebenso
.
50
*
nLösungenv on
T
BB b =
|
Σ
?
Wenn
B
eineLösung c
ist,dann auch
B B
cmitor o
thog.
B
,denn o
B B
c(
oB B
c)
o=
TB B
cB
o T o TB
=
cB IB
c T c= B B
c T cb =
|
Σ
.
Umgekehr t:Zw
eiLösungen unterscheidensich
immerum eineor
thog.Mx.
Anschaulich:Standardisier teDaten
mitor thogonalerMatr
ixtr ansfor
mieren
bleiben
− →
standardisiert.
(Standardis.-T .,dann orthogonale)
=wieder eineStandardis
.-T.
Basis-Transf o
ormation.
StattDrehung allerPunkte
um Drehungdes
β
Koordinatenkreuz
−
esumβ
beideV orstellungenführen
zuden gleichen„neuen
Koordinaten"
y
. i
51
2.6 Projektion
Pursuit
Grundidee a
. Explorativ
em ultivar
iateStatistik sollinteressante
Strukturen
inden Datenfinden.
Werden evtl.
sichtbarbei geeigneterV
eränderung desK
oordinatensystems
Suchenach
„Richtungenim Raum",die
interessanteStr ukurenz
eigen.
Manuelle b
Suche.
InteressanteProjektionen c
mit numer ischerOptimier
ung eines
„Interessantheits-Masses"einer Projektion,
Projektionsindex
Q
*
dh Q + a i by
Q = h i y
Genaueressiehe Block
Mu-2b.
52
Merkpunkte Beschreibende
Statistik
Grafische
•
Methodener laubenauch
dieDarstellung
von mehrerenV
ariab lenmit
Symbolen,F arben,etc.
Dynamischeund
•
interaktiv eGr
afikbietet zusätxlicheMöglichk
eiten.
WichtigsteK
•
ennzahlen:Mittelw ertsv
ektorund Kov
arianzmatr ix;
Korrelationsmatr ix
LineareT
•
ransf ormation
führtzu einfachen
Regeln:
= y + a
x B c var
,h i Y B =
c var h i X
T
B
.
Standardisierung:
• z
=
i( C x
−
i) x
,
= C
−
B
, 1 T
BB
b =
|
Σ
Orthogonale Transf
ormation (resp.Matr
ix):
T
BB
= I
Basis-Transf ormation
äquivalent zu(nicht-sing.)
linearerT .
53
3 Modelle
3.1 Vektorielle
Zufallsvariab
le
Stichproben. leund ariab Zufallsv aZurEr innerung:
Beobachtung modelliertdurch
i
Zufallsv ariab
le
X
∼F
i∼N
,ofth
2
µ,σ i
Daten Beobachtungen
Haeufigkeit
−1 0 1 2 3 4 5 6 7 8 9
012345678910
Modell X
−1 0 1 2 3 4 5 6 7 8 9
0.000.100.200.30Dichte
54
jetztm ultivar
iat!
0.60 0.64
0.68 0.72
0.76 0.80
0.350.400.450.500.550.600.65 log(Breite) 0.60
0.64 0.68
0.72 0.76
0.80
0.350.400.450.500.550.600.65 log(Breite)
55
3.1
Zufallsv b
ektor.
= X
(1)
X
(2)
X
. . .
(m
X
)
,
Ver teilung=
gemeinsameV erteilung
der
(1)
X
(2)
,X ,...,
(
X
) m
.
Stichprobev onZuf
allsvektoren
X
mitgleicher i
Ver teilung,
unabhängigv oneinander
.
AlleDaten derStichprobe
Datenmatrix
− →
= X
"
T
X
1
..
.
T
X
n
#
=
(1)
X X
1(2)
..
1.
(m)
X
1
(1)
X X
2(2)
..
2.
(m)
X
2 . . . .
. . .
(1) n
X
(2) n
X ..
.
(
X
) m n
.
X
Spaltenvektoren, i
obwohl sieZeilen
derDatenmatr ix
sind.
X
56
3.1
Mittelwer c
1 te
n
... P
1 ,
− n 1
... P
Erwar
− →
tungsw erte
= µ Eh i X
=
Eh
(1)
X
i
(2)X Eh
i
. . .Eh
(m
X i
)
Var
− →
ianz Kovarianzmatr
|
Σ
ix=va h r
i X
=
=
h var
(1)
X i h cov
(1)
X
(2)
,X i cov ...
h
(1)
X
(
,X
) m
i
h cov
(2)
X
(1)
,X i h var
(2)
X i ...
h cov
(2)
X
(
,X
) m
i
. . . . . .. . .
...
h cov
(
X
) m (1)
,X
i h cov
(
X
) m (2)
,X
i var ...
h
(
X
) m
i
57
3.1
Kov d
arianzmatr ixals
Erwar tungsw
ert.
Füreinf acheZv
.:
h var i X E =
(X
−
2
µ)
= Eh
2
X i−
2
µ
.
h var i X E =
D
− X µ
− X µ E
TEh =
T
XX i−
T
µµ .
X (
− )( µ
− X ) µ
isteine T
× m
-Matrix!
m
LineareT e
ransf ormationen.
= Y + a
X B
.
Eh i Y
a = + Eh B
i X
h var i Y
= var B
h i X
T
B
58
3.1
Summenv f
onunabhängigen Zufallsv
ektoren.
Eh X +
1X i
2Eh = X i
1Eh + X i
2h var X +
1X i
2= h var
X i
1+va h r
X i
2Mittelwer t
= X
1 n
P
n
X
i=1. i
Wenn
= µ Eh X i
i|
Σ ,
=va h r
X i
i:
Eh i X
1
=
n
X
n
Eh
i=1X i
iµ =
h var i X
1
=
n
X
2 nvar
i=1h X i
i 1=
|
Σ
n59
3.2 Diemehr
dimensionaleNormalver teilung
MehrdimensionaleV a
erteilung.
Kum ulative
Ver teilungsfunktion
h F i x P =
h
≤ X i x
.–
Mehrdim.:
h F i x P =
h
≤ X i x P =
h
(1)
X
≤
(1)
x
(2)
,X
≤
(2)
x ,...,
(m)
X
≤
(m)
x i .
Dichte:
h f i x
=Ab leitungv
on
=
F
m
∂ F
(1)
∂x
(2)
∂x ...∂x
. (m)
Ereignis: :
A
∈A X
Wsch.durch Integration
derDichte:
hAi P R =
∈A u
h f i u
(1)
du ...du
. (m)
h F i x P =
h
(1)
X
≤
(1)
x ,...,
(m)
X
≤
(m)
x i
= Z
(1) u
≤
(1) x ,...,u
≤ (m) (m) x
h f i u
(1)
du ...du
m (
.
)60
3.2
MehrdimensionaleStandard-Normalv b
erteilung.
∼ Z Φ
⇐ ⇒
m (jZ
∼
)Φ ,
1unabhängig
.
h f i z Y =
m j
=1
1 √ exp 2π
h
(j
z /2
)2i π =(2
−
) exp
m/2hk k z /
2i 2 e f =
hk k z i
2.
−2 0
2
−202
61
3.2
Lineartr c
ansfor mierter
Zufallsv ektor.
Linearkombination
X b =
Z
T− →
∼N h
P 0, b
j 2 ji Nh =
k 0, k b i
2Lin.tr ansf.
,
Z X µ =
+ Z B
− → Eh
i X µ, =
h var i X
=
T
BB
Multivar d
iateNormalv erteilung.
=Vt.
von
X µ =
+ Z B
!
− →
∼N X h
mµ, i B
Problem: Sei
orthogonal.
B
Dannist
X
= Z B
standard-nv.
Verschiedene Par
ameter und
B
mitgleicher
I
Ver teilung
Par
− →
ameternicht identifizierbar.
GeeigneteP arameter
:Erw .wer
t und
µ
Kov arianzmatr
|
Σ
ix .Zwei Matriz
en und
B
0
B
mitgleichem
|
Σ
,also
T
BB
=
0
B B
T 0
− → X
µ = + Z B
und
X µ =
+
0
B
gleichv
Z
ert.,
∼N X h
m|
Σ µ, i
Welche e
Matriz ensind
|
Σ
als brauchbar?Alle
× m
-Matriz
m
endie symmetrisch
und„positiv semidefinit"sind,
denndann existier
t mit
B
T
BB
|
Σ =
.
62
Dichte. f
Falls
|
Σ
nichtsingulär ist,ist
Dichte
h f i x c =
· h exp
x (
− ) µ
|
Σ
T−
(
1− x ) µ 2 / i
=(2 c ) π
m/
det
2h
|
Σ
1
i
/2
Dichtek onstantfür
− (x
T
µ)
|
Σ
−
(x
1−
=K
µ)
onstante.
Ellipsoid.
−2 0
2
−202
−2 0
2 4
6
−2024
63
3.2
Schätzungder g
Par ameter:
b µ X =
b
,|
Σ
.
0.60 0.62
0.64 0.66
0.68 0.70
0.72 0.74
0.76 0.78
0.80
0.350.400.450.500.550.600.65
log(Länge)
log(Breite)
64
3.2
LineareT h
ransf ormation.
∼N X h
m|
Σ µ, i
− →
= Y + a
X B
∼N h
m+ a µ, B
|
Σ B
T
B i
Standardisierter i
Zufallsv ektor.
= Z
−
B (
1− X ) µ
mit
T
BB
|
Σ = .
Wenn normalverteilt,
X
dann standard-normalverteilt.
Z
65
3.2
Chiquadrat-V j
erteilung
=Vt.
derSumme von
unabh.,quadr
m
ierten standard-normalv
et.
(j
Z
, )
U X =
m
=1 j (
Z
j
=
)2k k Z ,
2∼ Z Φ .
mDichte
f h
mi u
1
=
m/2 2 h Γ i m/2
·
m/2
u
−
e
1−
. u/2
:Gamma-Funktion
Γ
Mahalanobis-Distanz. k
∼N X h
|
Σ µ, i
2
d h X,
; µ
|
Σ i k =
k Z
=
2 TZ
=( Z
− X ) µ C
TC
TX (
− ) µ
= X (
− ) µ
|
Σ
T−
(
1− X ) µ
=quadr ierte
„Mahalanobis-Distanz"v on
zu
X
.
µ
2
d h x,µ
|
Σ ; i
konstant:
=
gleicheDichte .
2
d
∼
2
χ
, m
Freiheitsg
m
rade
66
3.2
Q-Q-Diagramm. l
0.0 0.5
1.0 1.5
2.0 2.5
3.0 3.5
0123
theoretische Quantile
geordnete Mahalanobis−Distanzen
67
3.2
Randver m
teilungen.
Gem.Vt.
von
− → X
Vt.v on
(j
X
: )
Randver teilung
Auch
„mehrdimensionaleRänder"!
= a a
[1]
[2]
a
=
(1)
a ...
(p)
a
(p
a
+1)
...
(m)