Statistische Analyseverfahren Abschnitt 5: Hauptkomponentenanalyse
Dr. Andreas W¨ unsche
TU Bergakademie Freiberg Institut f¨ur Stochastik
Dezember 2019
5 Hauptkomponentenanalyse 5.1 Einf¨ uhrung
I
Bei der Diskriminanzanalyse und der Clusteranalyse gilt das Hauptinteresse den Objekten, bei der Hauptkomponenten- und Faktorenanalyse gilt es dagegen den Merkmalen.
I
Die Hauptkomponentenanalyse (HKA, engl. ”principal component analysis”, ”PCA”) nutzt ein Vorgehen, welches bei vielen ganz unterschiedlichen angewandten und theoretischen mathematischen Problemstellungen zum Tragen kommt und f¨ ur welches verschiedene Bezeichnungen (z.B.
” Hauptachsentransformation“) genutzt werden.
I
Fragestellungen, die zur Haupkomponentenanalyse f¨ uhren, sind z.B.:
(i) Welche Linearkombination der Merkmale reagiert besonders sensibel, hat eine maximale Varianz?
(ii) Welche wenigen Linearkombinationen der Merkmale erkl¨ aren den
Großteil der Variabilit¨ at der Daten?
Grundlegende Zielstellung
I
Ein Ausgangspunkt der ¨ Uberlegungen ist, dass die beobachteten Merkmale meist entsprechend der M¨ oglichkeit ihrer Beobachtung ausgew¨ ahlt werden. Welche Merkmale tats¨ achlich einen statistischen (oder stochastischen) Sachverhalt gut beschreiben, wird im
Allgemeinen nicht bekannt sein bzw. diese sind nicht beobachtbar.
I
Bei der Hauptkomponentenanalyse spielen erste und zweite
Momente bzw. deren statistische Entsprechungen die Hauptrolle und man nutzt lineare Transformationen. Im Prinzip nutzt man eine orthogonale lineare Koordinatentransformation, um Zufallsgr¨ oßen bzw. Daten so darzustellen, dass Eigenschaften m¨ oglichst gut zu ermitteln sind bzw. weitere Rechnungen m¨ oglichst einfach werden.
I
Die Hauptkomponentenanalyse kann in stochastischen Modellen auf Zufallsvektoren oder aber auf statistische Daten angewandt werden.
I
Die mathematische Grundlage der Hauptkomponentenanalyse ist die
Spektraldarstellung reeller symmetrischer Matrizen.
Spektraldarstellung reeller symmetrischer Matrizen
Satz 5.1
Ist b eine reelle symmetrische p × p−Matrix, dann existieren p reelle Eigenwerte λ
iund dazugeh¨ orige Eigenvektoren γ
i
, i = 1, . . . , p , die man als orthogonale Einheitsvektoren w¨ ahlen kann (d.h. b γ
i= λ
iγ
i, γ
Tiγ
j= 0 falls i 6= j und γ
Tiγ
i= 1), so dass gilt
b = Γ Λ Γ
T=
p
X
i=1
λ
iγ
iγ
Ti, Γ
Tb Γ = Λ .
Dabei ist Λ die Diagonalmatrix der Eigenwerte von b und Γ die
zugeh¨ orige orthogonale Matrix (d.h. Γ Γ
T= Γ
TΓ = I
p) , deren Spalten
die normierten Eigenvektoren enthalten. Ist die Matrix b positiv
semidefinit, dann sind alle Eigenwerte nichtnegativ. Die Eigenwerte
k¨ onnen der Gr¨ oße nach monoton fallend geordnet werden, so dass wir in
diesem Fall λ
1≥ λ
2≥ . . . ≥ λ
p≥ 0 annehmen werden. Ein Vektor γ
ikann bei Bedarf unter Beibehaltung aller Eigenschaften auch durch −γ
ersetzt werden.
i5.2 Populationshauptkomponenten
Def. 5.2
Geg. p−dimensionaler Zufallsvektor X mit E X = µ , C ovX = Σ (ist positiv semidefinit) mit Spektraldarstellung Σ = Γ Λ Γ
Taus Satz 5.1, d.h. auch Λ = Γ
TΣ Γ . Die Transformation
X 7→ Z := Γ
TX − µ
heißt Hauptkomponententransformation. Die i −te Komponente Z
ivon Z heißt i −te Hauptkomponente von X (oder auch theoretische Hauptkomponente, Populationshauptkomponente) . F¨ ur sie gilt
Z
i= γ
TiX − µ , dabei wird γ
i
als i −ter Vektor von Hauptkomponentenladungen
bezeichnet.
Eigenschaften der Hauptkomponenten
I
Def. 5.3
F¨ ur einen Zufallsvektor X = (X
1, . . . , X
p)
Tund a = (a
1, . . . , a
p)
Theißt eine Linearkombination a
TX = P
pj=1
a
jX
jder Komponenten eine standardisierte Linearkombination von X , falls P
pj=1
a
2j= 1.
I
Satz 5.4
Es gelten mit den Bezeichnungen aus Definitionen 5.2, 5.3 :
(i) Alle Hauptkomponenten sind standardisierte Linearkombinationen von X − µ .
(ii) E Z = 0
p, C ovZ = Λ , d.h. V arZ
j= λ
j, C ov[Z
i, Z
j] = 0 , i 6= j . (iii) V arZ
1= λ
1≥ V arZ
2= λ
2≥ . . . ≥ V arZ
p= λ
p.
(iv) Keine standardisierte Linearkombination von X − µ hat eine gr¨ oßere Varianz als die erste Hauptkomponente und eine kleinere Varianz als die letzte Hauptkomponente.
(v) Die i−te Hauptkomponente mit i > 1 ist eine zu Z
1, . . . , Z
i−1unkorrelierte standardisierte Linearkombination von X − µ mit
gr¨ oßter Varianz.
Eigenvektor-Basisdarstellung
I
Nutzt man die r¨ aumliche orthonormale Basis (γ
i; i = 1, . . . , p) zur Basisdarstellung des Zufallsvektors X − µ , erh¨ alt man f¨ ur die zuf¨ alligen Koordinaten ˜ Z
i:
X − µ =
p
X
j=1
Z ˜
jγ
j, Z ˜
i= γ
Ti(X − µ) = Z
i, i = 1, . . . , p .
Dies zeigt, dass man die Hauptkomponenten Z
ials die Koordinaten des Vektors X in dem kartesischen Koordinatensystem betrachten kann, dessen Koordinatenursprung mit dem Erwartungswertvektor
¨ ubereinstimmt und die Eigenschaft hat, dass die Komponenten Z
iunkorreliert mit fallender Varianz f¨ ur wachsende i sind.
I
Nutzt man unkorrelierte Zufallsgr¨ oßen Y
imit Z
i= √
λ
iY
izur Basisdarstellung, so bilden diese die Karhunen-Lo` eve-Basis f¨ ur den gegebenen Zufallsvektor X und es gilt X = µ + P
pj=1
p λ
jY
jγ
j.
Dimensionsreduktion
I
Aus dieser Basisdarstellung folgt E kX − µk
2=
p
X
j=1
λ
j.
I
Sind einige Eigenwerte und damit Varianzen der Hauptkomponenten klein, kann man die Dimension des Problems reduzieren, indem man die Hauptkomponenten mit kleinen Varianzen nicht ber¨ ucksicht.
I
Ber¨ ucksichtigt man nur die ersten m < p Hauptkomponenten, arbeitet man mit der N¨ aherung
X
(m):= µ +
m
X
j=1
p λ
jY
jγ
jmit E kX − X
(m)k
2=
p
X
j=m+1
λ
jf¨ ur den dadurch zugelassenen Fehler. Der Zufallsvektor X
(m)− µ liegt in einem m−dimensionalen Teilraum des R
p. Der Anteil der mit X
(m)ber¨ ucksichtigten Varianz betr¨ agt
P
m j=1λ
jP
pj=1
λ
j.
Korrelationsstruktur
I
Mit Z = Γ
T(X − µ) erh¨ alt man C ov[X, Z] = E
h
(X − E X)(Z − E Z)
Ti
= E
(X − E X)
Γ
T(X − µ)
T= E h
(X − EX)(X − EX)
TΓ i
= Σ Γ = Γ Γ
TΣ Γ = Γ Λ
I
Damit gelten f¨ ur i , j = 1, . . . , p , C ov[X
i, Z
j] = γ
ijλ
jund mit V arX
i= σ
ii, V arZ
j= λ
jauch
C orr[X
i, Z
j] =: %
ij= γ
ijλ
jp σ
iiλ
j= γ
ijs λ
jσ
ii.
Bestimmtheitsmaß
I
Die Gr¨ oße
%
2ij= γ
ij2λ
jσ
iimisst den Anteil der Variation des Merkmals X
i, der durch die j −te Hauptkomponente
” erkl¨ art“ wird. Dabei gilt f¨ ur den Nenner wegen Σ = Γ Λ Γ
Tauch σ
ii=
p
X
j=1
λ
jγ
ij2.
I
Analog beschreibt f¨ ur eine Teilmenge g ⊂ {1, . . . , p} die Gr¨ oße
%
2ig:= X
j∈g
%
2ij= P
j∈g
λ
jγ
ij2σ
iiden Anteil der Variation des Merkmals X
i, der durch die j −ten Hauptkomponenten mit j ∈ g
” erkl¨ art“ wird.
Beispiel
Bsp. 5.5
Sei X = (X
1, X
2)
Tein Zufallsvektor mit zweidimensionaler Normalverteilung mit Parametern
E X = 0
2und C ovX =
1 −0.9
−0.9 1
. Dann erh¨ alt man
Γ =
√2 2
√2
2
−
√ 2 2
√ 2 2
!
, Λ =
1.9 0 0 0.1
.
Dichtefunktion dieser Verteilung.
Fehlende Skaleninvarianz
I
Die Hauptkomponenten sind nicht skaleninvariant, deshalb spielt z.B. die Wahl der Maßeinheiten eine große Rolle. Deshalb standardisiert (oder autoskaliert) man auch bei Bedarf die Komponenten des Zufallsvektors vor Anwendung der Hauptkomponententransformation und arbeitet mit der Korrelationsmatrix (statt der Kovarianzmatrix).
I
Bsp. 5.6
Andert man z.B. im Beispiel 5.5 die Varianz von ¨ X
1auf
VarX
1= 100 und bleibt bei demselben Korrelationkoeffizienten, dann gilt C ovX =
100 −9
−9 1
. In diesem Fall erh¨ alt man
Γ =
0.9959593 0.0898056
−0.0898056 0.9959593
, Λ =
100.81153 0
0 0.18847
,
insbesondere ¨ andern sich also auch die Achsenrichtungen.
p = 2 standardisierte Merkmale
I
X = X
1X
2, Erwartungswert µ = E X =
E X
1E X
2= µ
1µ
2,
Kovarianzmatrix Σ = C ovX =
V arX
1C ov[X
1, X
2] C ov[X
1, X
2] V arX
2.
I
Standardisierte Zufallsgr¨ oßen ˜ X
1= X
1− E X
1√ VarX
1, ˜ X
2= X
2− E X
2√ VarX
2,
E X ˜
1= E X ˜
2= 0 , Var X ˜
1= Var X ˜
2= 1 , Cov h X ˜
1, X ˜
2i
= ρ
X1,X2= ρ .
I
Die Kovarianzmatrix der standardisierten Zufallsgr¨ oßen ist die Korrelationsmatrix der nicht standardisierten Zufallsgr¨ oßen.
I
Die Eigenwerte der symmetrischen Matrix
1 ρ
ρ 1
sind 1 + ρ und 1 − ρ , der Gr¨ oße nach geordnet: λ
1= 1 + |ρ| ≥ λ
2= 1 − |ρ| .
I
F¨ ur die Hauptkomponenten der standardisierten Gr¨ oßen gilt:
V ar Z ˜
1= 1 + |ρ| und V ar Z ˜
2= 1 − |ρ| .
Fortsetzung p = 2 standardisierte Merkmale
I
ρ = 0 : Hier sind die Zufallsgr¨ oßen X
1und X
2schon unkorreliert und eine Hauptkomponentenanalyse ist nicht notwendig.
I
0 < ρ < 1 : Die Zufallsgr¨ oßen X
1und X
2sind positiv korreliert, λ
1= 1 + ρ > 1 − ρ = λ
2. Orthonormierte Eigenvektoren sind γ
1=
√ 2
√2 2 2
! , γ
2=
√ 2 2
−
√2 2
! .
I
ρ = 1/ − 1 : Zwischen X
1und X
2gibt es einen positiven/negativen linearen Zusammenhang, die gesamte
Variabilit¨ at kann durch die erste Hauptkomponente erkl¨ art werden.
I
−1 < ρ < 0 : Die Zufallsgr¨ oßen X
1und X
2sind negativ
korreliert, λ
1= 1 − ρ > 1 + ρ = λ
2. Orthonormierte Eigenvektoren sind γ
1
=
√2 2
−
√ 2 2
! , γ
2
=
√2
√2 2 2
!
.
5.3 Stichprobenhauptkomponenten
I
Stichprobenhauptkomponenten werden analog zu den theoretischen Hauptkomponenten definiert, statt µ und Σ m¨ ussen allerdings Sch¨ atzungen verwendet werden.
I
F¨ ur eine n × p−Datenmatrix x = (x
1, . . . , x
n)
Tist die empirische p × p−Kovarianzmatrix
s
x:= 1 n − 1
n
X
j=1
x
j− x
x
j− x
T= 1
n − 1 x
Th x mit h := I
n−
1n1
n1
Tnund x =
1nx
T1
n.
I
Man rechnet oft auch mit s
∗x=
1nx
Th x =
n−1ns
x.
I
F¨ ur x und s
xm¨ ussen (p
2+ 3p)/2 Werte gesch¨ atzt werden, dehalb sollte n hinreichend groß sein!
p 1 2 3 4 5 6 7 8 9 10
(p
2+ 3p)/2 2 5 9 14 20 27 35 44 54 65
Spektralzerlegung der empirischen Kovarianzmatrix
Es existiert die Spektralzerlegung
s
x= g ` g
Tmit einer orthogonalen p × p−Matrix (der Eigenvektormatrix) g = (g
1, . . . , g
p)
und einer p × p−Diagonalmatrix (der Matrix der Eigenwerte)
` = diag(`
1, . . . , `
p) mit `
1≥ . . . ≥ `
p≥ 0 . Es gilt damit auch
` = g
Ts
xg . Bei der Modellierung werden s
x
, g , ` bzw. ` = (`
1, . . . , `
p)
Tals
Realisierungen entsprechender Zufallsmatrizen S
X, G , L bzw. L
angesehen.
Stichproben-Hauptkomponententransformation
Def. 5.7
Die Transformation
x 7→ z :=
x − 1
nx
Tg heißt Stichproben-Hauptkomponententransformation.
Die j −te Spalte von z z
•j=
x − 1
nx
Tg
j, j = 1, . . . , p ,
ist die j −te Stichproben-Hauptkomponente, deren Komponente f¨ ur das r −te Objekt ist z
rj= g
Tj
(x
r− x) = (x
r− x)
Tg
j
, r = 1, . . . , n , d.h. der transformierte r−te Merkmalsvektor ist z
r= (x
r− x)
Tg = g
T(x
r− x) . Der j −te Vektor von Hauptkomponentenladungen ist die j -te Spalte g
jvon g . Die Matrix z wird auch als Matrix der Faktorenwerte
bezeichnet.
Eigenschaften
I
Satz 5.8
Es gilt f¨ ur die transformierte Datenmatrix z : z := 1
n z
T1
n= 0
n, s
z:= 1 n − 1
n
X
j=1
z
jz
Tj= 1
n − 1 z
Tz = ` .
I
Auch in diesem Fall sind die Hauptkomponenten nicht skaleninvariant. Wird jeweils die j −te Variable bei einer Umskalierung durch d
j> 0 geteilt, erh¨ alt man f¨ ur die neue Stichprobenkovarianzmatrix diag(d
j−1) s
xdiag(d
j−1) mit im Allgemeinen anderen Eigenvektoren. Deshalb sollte man z.B.
(i) wenn alle Merkmale vom gleichen Typ sind (z.B. L¨ angen), alle mit der gleichen Maßeinheit messen oder
(ii) alle Merkmale vorher standardisieren (autoskalieren) und mit der
Stichproben-Korrelationsmatrix rechnen.
Beispiel 5.9
I
Hauptkomponentenanalyse des Datensatzes zu ”open/closed book examinations”; erzielte Punkte von 100 m¨ oglichen, 2 F¨ acher (Mechanics ("mec"), Vectors ("vec")) ”open book”, 3 F¨ acher (Algebra ("alg"), Analysis ("ana"), Statistics ("sta")) ”closed book” (n = 88, p = 5).
I
Daten aus: K.V. Mardia, J.T. Kent, J.M. Bibby , Multivariate Analysis, Academic Press 1979; die Daten sind auch im R-Paket
”bootstrap” zu finden (Datensatz "scor").
I
Gerundete Werte der erwartungstreuen Sch¨ atzungen x = (38.95 50.59 50.60 46.68 42.31)
T;
s
x=
305.77 127.22 101.58 106.27 117.40 127.22 172.84 85.16 94.67 99.01 101.58 85.16 112.89 112.11 121.87 106.27 94.67 112.11 220.38 155.54 117.40 99.01 121.87 155.54 297.76
.
Fortsetzung Beispiel 5.9
I
Gerundete Eigenwerte von s
x:
`
1= 686.99 , `
2= 202.11 , `
3= 103.75 , `
4= 84.63 , `
5= 32.15 .
I
Gerundete Eigenvektoren (spaltenweise) von s
x
:
g =
0.51 −0.75 0.30 −0.30 0.08 0.37 −0.21 −0.42 0.78 0.19 0.35 0.08 −0.15 0.00 −0.92 0.45 0.30 −0.60 −0.52 0.29 0.53 0.55 0.60 0.18 0.15
.
I
In R k¨ onnen z.B. die Befehle prcomp und princomp genutzt werden. Dabei nutzt prcomp die erwartungstreue Sch¨ atzung s
x
,
princomp jedoch als Sch¨ atzung s
∗x.
Erste Hauptkomponente Beispiel 5.9
I
Werte der 1. Hauptkomponente f¨ ur das r−te Objekt (r = 1, . . . , n) z
r1= 0.51(x
r1− 38.95) + 0.37(x
r2− 50.59) + 0.35(x
r3− 50.60)
+ 0.45(x
r4− 46.68) + 0.53(x
r5− 42.31)
I
” Mittelung“ der zentrierten Punkte der 5 Pr¨ ufungen (gewichtetes Mittel).
I
Hat man in allen 5 Pr¨ ufungen viele Punkte erzielt, dann hat die erste Hauptkomponente einen hohen Wert und umgekehrt.
I
Die erste Hauptkomponente k¨ onnte so f¨ ur ein Ranking der 88
Studierenden dienen.
Zweite Hauptkomponente Beispiel 5.9
I
Werte der 2. Hauptkomponente f¨ ur das r−te Objekt (r = 1, . . . , n) z
r2= −0.75(x
r1− 38.95) − 0.21(x
r2− 50.59) + 0.08(x
r3− 50.60)
+ 0.30(x
r4− 46.68) + 0.55(x
r5− 42.31)
I
Kontrast zwischen open book (X
3, X
4, X
5) und closed book (X
1, X
2) Pr¨ ufungen.
I
Ein Student mit vielen Punkten in den open book F¨ achern (X
3, X
4, X
5) und wenig Punkten in den closed book F¨ achern
(X
1, X
2) erh¨ alt einen großen Wert in der zweiten Hauptkomponente
und umgekehrt.
Weitere Hauptkomponenten Beispiel 5.9
Werte der 3.-5. Hauptkomponenten f¨ ur das r−te Objekt (r = 1, . . . , n) z
r3= 0.30(x
r1− 38.95) − 0.42(x
r2− 50.59) − 0.15(x
r3− 50.60)
− 0.60(x
r4− 46.68) + 0.60(x
r5− 42.31)
z
r4= −0.30(x
r1− 38.95) + 0.78(x
r2− 50.59) + 0.00(x
r3− 50.60)
− 0.52(x
r4− 46.68) + 0.18(x
r5− 42.31)
z
r5= 0.08(x
r1− 38.95) + 0.19(x
r2− 50.59) − 0.92(x
r3− 50.60)
+ 0.29(x
r4− 46.68) + 0.15(x
r5− 42.31)
Fortsetzung Beispiel 5.9
I
Wegen der fehlenden Skaleninvarianz der Hauptkomponentenanalyse k¨ onnte man auch standardisierte Merkmale nutzen.
I
In diesem Beispiel ist durch die gleichartigen Merkmale auf einer Absolutskala dies aber nicht notwendig bzw. w¨ unschenswert.
I
Eine formale Anwendung liefert folgende gerundete Eigenwerte und Eigenvektoren.
`
1= 3.18 , `
2= 0.74 , `
3= 0.44 , `
4= 0.39 , `
5= 0.25;
g =
0.40 0.65 −0.62 0.15 0.13 0.43 0.44 0.71 −0.30 0.18 0.50 −0.13 0.04 0.11 −0.85 0.46 −0.39 0.14 0.67 0.42 0.44 −0.47 −0.31 −0.66 0.23
.
5.4 Erkl¨ arungsanteile der Hauptkomponenten
I
F¨ ur einen p−dimensionalen Zufallsvektor X mit EX = µ ,
CovX = Σ mit Spektraldarstellung Σ = Γ Λ Γ
Taus Satz 5.1. kann
E kX − µk
2=
p
X
i=1
E (X
i− µ
i)
2=
p
X
i=1
σ
ii= sp Σ = sp Λ =
p
X
j=1
λ
jals Gesamtvarianz des Zufallsvektors angesehen werden.
I
Der Anteil der Varianz λ
ider i−ten Hauptkomponente Z
i(i ∈ {1, . . . , p}) kann dann als Erkl¨ arungsanteil der i−ten Hauptkomponente angesehen werden:
λ
iP
pj=1
λ
j= λ
isp Σ .
Erkl¨ arungsanteile der Stichproben-Hauptkomponenten
I
Analog ist f¨ ur eine n × p−Datenmatrix x = (x
1, . . . , x
n)
Tmit empirischer p × p−Kovarianzmatrix s
xmit Spektralzerlegung s
x= g ` g
Tder Anteil der Totalvariation (Gesamtvarianz), der durch die i−te Stichproben-Hauptkomponente erkl¨ art wird (i ∈ {1, . . . , p})
`
isp s
x
= `
iP
pj=1
`
j.
I
F¨ ur eine Teilmenge g ⊂ {1, . . . , p} ist P
i∈g
`
isp s
x
= P
i∈g
`
iP
p j=1`
jden Anteil der Totalvariation, der durch die i −ten Stichproben-Hauptkomponenten mit i ∈ g
” erkl¨ art“ wird.
Erkl¨ arungsanteile im Beispiel 5.9
I
Im Beispiel 5.9 gilt mit den Eigenwerten von s
x`
1= 686.99 , `
2= 202.11 , `
3= 103.75 , `
4= 84.63 , `
5= 32.15 :
I
`
1P
5j=1
`
j≈ 0.6191 , d.h. 61.91% der Totalvariation werden durch die erste Stichproben-Hauptkomponente erkl¨ art.
I
`
2P
5j=1
`
j≈ 0.1821 , d.h. 18.21% der Totalvariation werden durch die zweite Stichproben-Hauptkomponente erkl¨ art.
I
`
1+ `
2+ `
3P
5j=1
`
j≈ 0.89481 , d.h. 89.48% der Totalvariation werden
durch die ersten drei Stichproben-Hauptkomponenten erkl¨ art.
Erkl¨ arungsanteile bei standardisierten Daten
I
Bei Nutzung von standardisierten Daten ist die Totalvariation (Gesamtvarianz) immer gleich
`
1+ . . . + `
p= p .
I
Im Beispiel 5.9 mit standardisierten Daten erh¨ alt man f¨ ur die Erkl¨ arungsanteile an der Totalvariation f¨ ur die entsprechenden Stichproben-Hauptkomponenten:
I
1. Hauptkomponente 3.18
5 ≈ 0.6362 ˆ = 63.62% .
I
2. Hauptkomponente 0.74
5 ≈ 0.1479 ˆ = 14.79% .
I
3. Hauptkomponente 0.44
5 ≈ 0.0890 ˆ = 8.90% .
I
4. Hauptkomponente 0.39
5 ≈ 0.0776 ˆ = 7.76% .
I
5. Hauptkomponente 0.25
5 ≈ 0.0493 ˆ = 4.93% .
Erkl¨ arungsanteile bezogen auf die Merkmale
I
Analoga der Formeln f¨ ur die Anteile der Variation eines Merkmals, der durch eine oder eine Gruppe von Hauptkomponenten erkl¨ art wird, erh¨ alt man durch das Ersetzen von
λ
jdurch `
j, γ
ijdurch g
ij, σ
iidurch s
ii(s
iiist die empirische Varianz des i−ten Merkmals).
I
Das Analogon zum Bestimmheitsmaß %
2ijist die Gr¨ oße r
ij2= g
ij2`
js
ii.
Dies ist der Anteil der empirischen Varianz des i−ten Merkmals, der durch die j −te Stichproben-Hauptkomponente
” erkl¨ art“ wird.
I
F¨ ur eine Teilmenge g ⊂ {1, . . . , p} beschreibt die Gr¨ oße r
ig2:= X
j∈g
r
ij2= P
j∈g
g
ij2`
js
iiden Anteil der Variation des Merkmals X
i, der durch die j −ten Stichproben-Hauptkomponenten mit j ∈ g
” erkl¨ art“ wird.
Erkl¨ arungsanteile f¨ ur Merkmale im Beispiel 5.9
I
Im Beispiel 5.9 (nicht standardisiert) werden 18.21% der Totalvariation durch die zweite Stichproben-Hauptkomponente erkl¨ art.
I
Bezogen auf die einzelnen Merkmale werden die folgenden Anteile durch die zweite Stichproben-Hauptkomponente erkl¨ art.
I
Merkmal X
1: r
122= g
122`
2s
11≈ (−0.75)
2· 202.11
305.77 ≈ 0.371 .
I
Merkmal X
2: r
222= g
222`
2s
22≈ (−0.21)
2· 202.11
172.84 ≈ 0.050 .
I
Merkmal X
3: r
322= g
322`
2s
33≈ 0.08
2· 202.11
112.89 ≈ 0.010 .
I
Merkmal X
4: r
422= g
422`
2s
44≈ 0.30
2· 202.11
220.38 ≈ 0.083 .
I
Merkmal X
5: r
522= g
522`
2s
55≈ 0.55
2· 202.11
297.76 ≈ 0.204 .
Fortsetzung Erkl¨ arungsanteile f¨ ur Merkmale Bsp. 5.9
Die Anteile auch der anderen Stichproben-Hauptkomponenten sind zusammengefasst in der folgenden Tabelle zu finden. In den Zeilen stehen die Daten f¨ ur die einzelnen Merkmale, in den Spalten die f¨ ur die
jeweiligen Hauptkomponenten.
r
ij1 2 3 4 5 P
1 0.574 0.371 0.030 0.024 0.001 1
2 0.539 0.050 0.104 0.300 0.007 1
3 0.727 0.010 0.019 0.000 0.243 1
4 0.634 0.083 0.168 0.103 0.012 1
5 0.660 0.204 0.126 0.009 0.002 1
Auswertung zum Beispiel 5.9
I
Die erste Stichproben-Hauptkomponente
” erkl¨ art“ rund 62% der Totalvariation.
I
Die ersten drei Stichproben-Hauptkomponenten
” erkl¨ aren“ fast 90%
der Totalvariation.
I
Betrachtet man nur die ersten drei Hauptkomponenten, dann werden rund 10% der Totalvariation nicht
” erkl¨ art“.
I
Es werden aber beim 2. Merkmal 30.7% (30%+0.7%) nicht
” erkl¨ art“
und beim 3. Merkmal werden 24.3% (0%+24.3%) nicht
” erkl¨ art“.
I
Nutzt man standardisierte Daten sind die Rechnungen analog, sie werden noch etwas einfacher, da die empirische Varianz der einzelnen standardisierten Merkmale immer gleich 1 ist.
I
Bsp. 5.9, standardisierte Werte, 3. Merkmal, 2. Hauptkomponente:
r
322= g
322· `
21 ≈ (−0.13)
2· 0.74 ≈ 0.012 , d.h. ungef¨ ahr 1.2% der
empirischen Varianz von X
3wird (sch¨ atzungsweise) durch die zweite
Stichproben-Hauptkomponente erkl¨ art“.
Anzahl genutzter Hauptkomponenten
I
Bei Nutzung standardisierter Daten kann zum Beispiel das Kaiser -Kriterium zur Bestimmung der Anzahl zu nutzender Hauptkomponenten angewandt werden:
Man nehme genau so viele Hauptkomponenten, wie es Eigenwerte
`
igr¨ oßer (gleich) 1 gibt, d.h. falls `
i≥ 1 f¨ ur i = 1, . . . , k und
`
k+1< 1 , nutze man k Hauptkomponenten.
I
Im Beispiel 5.9 mit standardisierten Werten gilt `
1= 3.18 ,
`
2= 0.74 . Hier ist k = 1 und man w¨ ahle eine
Stichproben-Hauptkomponente.
Scree-Plots
Bei nicht standardisierten Werten kann zum Beispiel ein Ger¨ olldiagramm (Scree-Plot) genutzt werden. Dazu verbindet man die Punkte (i , `
i) , i = 1, . . . , p , in einem kartesischen Koordinatensystem durch
Geradenst¨ ucken. Oft entsteht ein deutlicher Knick und es werden nur die
Hauptkomponenten bis zum Knick (oder vor dem Knick) gew¨ ahlt.
Nutzung des Erkl¨ arungsanteils zur Dimensionsreduktion
I
Eine weitere M¨ oglichkeit, die Anzahl der Hauptkomponenten zu w¨ ahlen, besteht darin, den Erkl¨ arungsanteil zu nutzen. Hier kann man sich z.B. vorgeben, dass die gew¨ ahlten Hauptkomponenten mindestens 70% oder 90% der Totalvariabilit¨ at
” erkl¨ aren“.
I
Da die Erkl¨ arungsanteile nur Sch¨ atzungen darstellen, ist hier auch
die Nutzung von geeigneten Signifikanztests angebracht.
Test auf den Anteil der ersten k Hauptkomponenten an der Totalvariation f¨ ur normalverteilte Daten
I
Sei Ψ
k(λ) = P
ki=1
λ
iP
pi=1
λ
i, λ = (λ
1, . . . , λ
p)
T.
I
0 < ψ
0< 1 sei ein hypothetischer Wert f¨ ur Ψ
k(λ) .
I
Hypothesen:
(1) H
0: Ψ
k(λ) = ψ
0, H
A: Ψ
k(λ) 6= ψ
0oder (2) H
0: Ψ
k(λ) ≤ ψ
0, H
A: Ψ
k(λ) > ψ
0oder (3) H
0: Ψ
k(λ) ≥ ψ
0, H
A: Ψ
k(λ) < ψ
0.
I
Testgr¨ oße: T = Ψ
k(L) − ψ
0τ (L) mit
I
τ
2(L) = 2 n − 1
sp S
2(sp S)
2Ψ
2k(L) − 2α
kΨ
k(L) + α
k,
I
α
k= P
ki=1
L
2iP
pi=1
L
2i, L = (L
1, . . . , L
p)
T.
Fortsetzung Test
I
Bem.
sp S =
p
X
i=1
L
i= L
1+ . . . + L
p, sp S
2=
p
X
i=1
L
2i= L
21+ . . . + L
2p,
bei der Berechnung der Testgr¨ oße m¨ ussen die empirischen Werte, d.h. `
1, . . . , `
p, genutzt werden.
I
Kritischer Bereich (asymptotisch)
(1) K = {t : |t| > z
1−α/2} ;
(2) K = {t : t > z
1−α} ;
(3) K = {t : t < −z
1−α} .
Beispieltest f¨ ur Daten Beispiel 5.9
1. H
0: Ψ
1(λ) = ψ
0:= 0.65 (1. HK erkl¨ art 65% der Totalvariation) , H
A: Ψ
1(λ) 6= ψ
0= 0.65 (Erkl¨ arungsanteil der 1. HK ist 6= 65%).
2. α = 0.05 (Signifikanzniveau).
3. T = Ψ
1(L) − ψ
0τ (L) (Testgr¨ oße).
4. K = {t : |t| > z
0.975= 1.96} (kritischer Bereich).
5. Berechnungen zum Wert der Testgr¨ oße sp s =
5
X
i=1
`
i= 1109.632 ; sp s
2=
5
X
i=1
`
2i= 531 763.5 ;
α
1= `
21sp s
2= 0.8875 ; Ψ
1(`) = `
1sp s = 0.6191 ; n = 88 ; τ
2(`) = 0.0017 ⇒ t = −0.75
6. |t| = 0.75 6> 1.96 ⇒ t 6∈ K , H
0wird angenommen; der
Erkl¨ arungsanteil der 1. HK ist nicht signifikant von 65% verschieden.
Bemerkungen
I
Ber¨ ucksichtigt man nur die ersten k < p Hauptkomponenten, arbeitet man mit der transformierten n × k −Datenmatrix
z
(k):=
x − 1
nx
Tg
(k)(und mit nur k
” neuen“ Merkmalen), wobei die Matrix g
(k)aus den ersten k Spalten der Eigenvektormatrix g besteht.
I