1 Einleitung
1.1 Fragen
derm ultivariaten
Statistik
Einigebis a vieleV
ariab le(Mer
kmale)
(j
X
) i
=1 j 2,..., ,
m
fürjede Beobachtungseinheit
,
i
=1 i 2,..., ,
.
n
MultipleReg ression:Eine
Var iable
alsZielg rösse.
Multivar iateSt.:
mehrereV ariab lev
ongleichr angigemInteresse
Körper masse
Patienten:
Blutdruc k,Puls ,Blutzuc
ker ,...
Psychologie:Punktezahlen inv
ersch.F ragen einesT
ests
chemischeReaktion: Konz.
mehrererSubstanz en
Kunden:
Mengenv oneingekauften Waren
Texte:
Häufigkeiten von
Wor tkategorien
Univar e iateStatistik
umfasst:
EineStichprobe:
•
Schätzung,T est,V
ertr auensintervall
Zwei
•
Stichproben:T est
Var
•
ianzanalyse,(m ultiple)Reg
ression(
=m ultivar
iat?)
Zeitreihen
•
Dasalles jetztfür
mehreregleichr angigeV
ariab le
Var ianzanalyse,Reg
ression:Mehrere Zielgrössen
(kurz)
Zeitreihen:Später einw
enig
NeueF ragestellungen:
Diskriminanz-, Clusteranalyse
,Hauptk omponenten
1.2 Beispiele
Iris-Daten. a DreiAr
ten.
Längeund Breitev
onSepal-Blätter nund
Petal-Blätter n.
Könnendie Arten
aufGr unddieser
Merkmale unterschiedenw
erden?
Diskriminanz-Analyse ,eingeführ
tv .R.A.
Fisher1936 mitdiesem
Beispiel.
4.5 5.0
5.5 6.0
6.5 7.0
7.5 8.0
2.02.53.03.54.0
Länge
Breite
setosa versicolor virginica
1.2 b
05101520
Länge
4 4.5
5 5.5
6 6.5
7 7.5
8
05101520
2 2.25 2.75
3 3.25 3.75
4 4.25
Breite
Ader-Verengung c Diagnostikin
derMedizin...
−0.4
−0.3
−0.2
−0.1 0.0
0.1 0.2
0.3 0.4
0.5 0.6
−0.4−0.20.00.20.40.6
log(Vol)
log(Rate)
verengt gesund
1.2 Fossilien d Morphologische
Merkmale Umwelt
← −
Probenv onheute Modell
− →
↑
Morph.
M.in tieferer
Schicht
⇒ =
Umwelt von damals
1.2 Abstimmungen e
−40
−30
−20
−10 0
10 20
−30−20−1001020
1. Hauptkomponente
2. Hauptkomponente
ZH
BE
LU
UR SZ
OW NW
GL ZG
FR SO
BS
BL
SH AR
AI SG
AG GR
TG
TI VD
VS
NE
GE
JU
NIR-Spektren f Spektrum
einesGemisches
=lin.
Superposition derSpektren
derSubst.
(j
X
=
)X
k (k
s C
) (j) k
(j
C
) k
:Intensität desSpektr
umsder
„Reinsubstanz"
fürW
k
ellenlänge ,
j
(k)
s
:Anteil derSubstanz
ander
k
Mischung.
NIR:K eineschmalen
Peaks!
Kannman ausden
Spektrenfür mehrerev
erschiedeneGemische
dieSpektren derReinsubstanz
en
undihre Konz
entrationen feststellen?
Oderw enigstensdie
Änderung derK
onzentr ationen?
1200 1400
1600 1800
2000 2200
2400
0123
Wellenlänge
Energie
Spektrum
1 13 25 37 49 61 73 85 97 109 121
0 20
40 60
80 100
120
0.00.20.40.60.81.0
Zeit
scores, standardisiert
score 1 score 2 score 3 score 4
Allgemein: LineareEntmischung.
Mu-2a,hier
− →
einerster Schritt.
Anwendung fürErf
orschungv onReaktionsmechanismen,
Prozess-Monitor ing,Überw
achungv ongelager tenSubstanz
en.
Kunden-Management g Schuldner:Schlechte
•
Schuldnerfrühz eitiger
kennen.
Diskriminanzanalyse
− →
Ertr
•
agv orhersagenaus
bekanntenDaten Regression
− →
Kunden
•
in„homogene Gruppen"
einteilen Cluster-Analyse
− →
Kunden einerGr
uppe(eines Clusters)gleich
behandeln.
1.3 Fragestellung
en
a Graphische
Darstellung
b Zusammenhänge
Korrelation,
− →
Modell:Normalv erteilung
c Unterschiedezwischen
Klassentesten
d Beobachtungseinheitenzu
Klassenzuordnen Diskriminanz-Analyse
− →
e Einteilungv
onBeobachtungen inGr
uppen Clusteranalyse
− →
,Mu-2b
f Ähnlichkeiten
von Beobachtungen(Objekten)
oderv onV ariab
− →
lenMu-2b
g Dimensionreduzieren
h Einflussv
onk ontinuier
lichenoder diskretener
klärendenV ariab len
aufmehrere Zielgrössen
Multivar
− →
itateV arianzanalyse undReg
r.
Datamining. j Bestimmung
•
allerK undenmit
bestimmtenMer kmalen
(Datenbank-Abfrage und-Mangement),
übersichtlicheDarstellung
•
derK undendaten(Beschreib
ung),
Zuordnung
•
derK undenzu
bestimmtenGr uppen(Diskr
iminanz-Analyse),
Einteilungin
•
Gruppen (Cluster-Analyse),
Vorhersage
•
von Zielgrössen
wieUmsatz desK
unden
ausbekannten erklärenden
Var iablen
(Regression),
[Kennen
•
Siew eitere?]
1.3 Kategorielle l undk
ontinuier licheDaten.
Multivar iateStatistik
meintmeistens kontin
uierliche Daten
(ausserGr uppierungs-V
.und erkl.
V .)
Mehrerediskrete Var
iable log-lineareModelle
− →
,Rg-2b
Geordnete,diskrete Var
iable oftals
− →
kontin uierlich
behandelt.
Zusammenhangmit m anderenGebieten
derStatistik
Multivar iateNormalv
erteilung.Wird auchgebr
auchtfür
Zeitreihen,räumliche
•
Statistik.
Var
•
ianzanalysemit Zufallseff
ekten.
Ver
•
teilungenv onSchätzungen inallen
Gebietender Statistik.
1.3 Geometrie n .
Für
≤ m
:Punkte
3
,Ger aden,Ebenen,
Winkel, senkrecht...
Vorstellungen oft,aber
nichtimmer auf
m>>
übertr
3
agbar.
Fluchder Dimension
1.4 Software
Diegängigen a Statistikpakete
enthaltenklassische mult.
Verf ahren.
R/
S-Plus:Matr ix-Orientier
ung
Datamining d :Spezialsoftw
are,die
gutmit
•
riesigen Datenbanken
umgehenkann
einfach
•
istin derBenützung
nebenden
•
wichtigstenklassischen Verf
ahren
einigead-hoc-V erfahren
(besserAlgor ithmen)
mitgutem Marketing
enthält.
Clementine,V erbindungmit
SPSS
SASData miner
S-Plus:Insightful Miner