• Keine Ergebnisse gefunden

Statistische Analyseverfahren Abschnitt 5: Hauptkomponentenanalyse

N/A
N/A
Protected

Academic year: 2021

Aktie "Statistische Analyseverfahren Abschnitt 5: Hauptkomponentenanalyse"

Copied!
39
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Statistische Analyseverfahren Abschnitt 5: Hauptkomponentenanalyse

Dr. Andreas W¨ unsche

TU Bergakademie Freiberg Institut f¨ur Stochastik

Dezember 2019

(2)

5 Hauptkomponentenanalyse 5.1 Einf¨ uhrung

I

Bei der Diskriminanzanalyse und der Clusteranalyse gilt das Hauptinteresse den Objekten, bei der Hauptkomponenten- und Faktorenanalyse gilt es dagegen den Merkmalen.

I

Die Hauptkomponentenanalyse (HKA, engl. ”principal component analysis”, ”PCA”) nutzt ein Vorgehen, welches bei vielen ganz unterschiedlichen angewandten und theoretischen mathematischen Problemstellungen zum Tragen kommt und f¨ ur welches verschiedene Bezeichnungen (z.B.

” Hauptachsentransformation“) genutzt werden.

I

Fragestellungen, die zur Haupkomponentenanalyse f¨ uhren, sind z.B.:

(i) Welche Linearkombination der Merkmale reagiert besonders sensibel, hat eine maximale Varianz?

(ii) Welche wenigen Linearkombinationen der Merkmale erkl¨ aren den

Großteil der Variabilit¨ at der Daten?

(3)

Grundlegende Zielstellung

I

Ein Ausgangspunkt der ¨ Uberlegungen ist, dass die beobachteten Merkmale meist entsprechend der M¨ oglichkeit ihrer Beobachtung ausgew¨ ahlt werden. Welche Merkmale tats¨ achlich einen statistischen (oder stochastischen) Sachverhalt gut beschreiben, wird im

Allgemeinen nicht bekannt sein bzw. diese sind nicht beobachtbar.

I

Bei der Hauptkomponentenanalyse spielen erste und zweite

Momente bzw. deren statistische Entsprechungen die Hauptrolle und man nutzt lineare Transformationen. Im Prinzip nutzt man eine orthogonale lineare Koordinatentransformation, um Zufallsgr¨ oßen bzw. Daten so darzustellen, dass Eigenschaften m¨ oglichst gut zu ermitteln sind bzw. weitere Rechnungen m¨ oglichst einfach werden.

I

Die Hauptkomponentenanalyse kann in stochastischen Modellen auf Zufallsvektoren oder aber auf statistische Daten angewandt werden.

I

Die mathematische Grundlage der Hauptkomponentenanalyse ist die

Spektraldarstellung reeller symmetrischer Matrizen.

(4)

Spektraldarstellung reeller symmetrischer Matrizen

Satz 5.1

Ist b eine reelle symmetrische p × p−Matrix, dann existieren p reelle Eigenwerte λ

i

und dazugeh¨ orige Eigenvektoren γ

i

, i = 1, . . . , p , die man als orthogonale Einheitsvektoren w¨ ahlen kann (d.h. b γ

i

= λ

i

γ

i

, γ

Ti

γ

j

= 0 falls i 6= j und γ

Ti

γ

i

= 1), so dass gilt

b = Γ Λ Γ

T

=

p

X

i=1

λ

i

γ

i

γ

Ti

, Γ

T

b Γ = Λ .

Dabei ist Λ die Diagonalmatrix der Eigenwerte von b und Γ die

zugeh¨ orige orthogonale Matrix (d.h. Γ Γ

T

= Γ

T

Γ = I

p

) , deren Spalten

die normierten Eigenvektoren enthalten. Ist die Matrix b positiv

semidefinit, dann sind alle Eigenwerte nichtnegativ. Die Eigenwerte

k¨ onnen der Gr¨ oße nach monoton fallend geordnet werden, so dass wir in

diesem Fall λ

1

≥ λ

2

≥ . . . ≥ λ

p

≥ 0 annehmen werden. Ein Vektor γ

i

kann bei Bedarf unter Beibehaltung aller Eigenschaften auch durch −γ

ersetzt werden.

i

(5)

5.2 Populationshauptkomponenten

Def. 5.2

Geg. p−dimensionaler Zufallsvektor X mit E X = µ , C ovX = Σ (ist positiv semidefinit) mit Spektraldarstellung Σ = Γ Λ Γ

T

aus Satz 5.1, d.h. auch Λ = Γ

T

Σ Γ . Die Transformation

X 7→ Z := Γ

T

X − µ

heißt Hauptkomponententransformation. Die i −te Komponente Z

i

von Z heißt i −te Hauptkomponente von X (oder auch theoretische Hauptkomponente, Populationshauptkomponente) . F¨ ur sie gilt

Z

i

= γ

Ti

X − µ , dabei wird γ

i

als i −ter Vektor von Hauptkomponentenladungen

bezeichnet.

(6)

Eigenschaften der Hauptkomponenten

I

Def. 5.3

F¨ ur einen Zufallsvektor X = (X

1

, . . . , X

p

)

T

und a = (a

1

, . . . , a

p

)

T

heißt eine Linearkombination a

T

X = P

p

j=1

a

j

X

j

der Komponenten eine standardisierte Linearkombination von X , falls P

p

j=1

a

2j

= 1.

I

Satz 5.4

Es gelten mit den Bezeichnungen aus Definitionen 5.2, 5.3 :

(i) Alle Hauptkomponenten sind standardisierte Linearkombinationen von X − µ .

(ii) E Z = 0

p

, C ovZ = Λ , d.h. V arZ

j

= λ

j

, C ov[Z

i

, Z

j

] = 0 , i 6= j . (iii) V arZ

1

= λ

1

≥ V arZ

2

= λ

2

≥ . . . ≥ V arZ

p

= λ

p

.

(iv) Keine standardisierte Linearkombination von X − µ hat eine gr¨ oßere Varianz als die erste Hauptkomponente und eine kleinere Varianz als die letzte Hauptkomponente.

(v) Die i−te Hauptkomponente mit i > 1 ist eine zu Z

1

, . . . , Z

i−1

unkorrelierte standardisierte Linearkombination von X − µ mit

gr¨ oßter Varianz.

(7)

Eigenvektor-Basisdarstellung

I

Nutzt man die r¨ aumliche orthonormale Basis (γ

i

; i = 1, . . . , p) zur Basisdarstellung des Zufallsvektors X − µ , erh¨ alt man f¨ ur die zuf¨ alligen Koordinaten ˜ Z

i

:

X − µ =

p

X

j=1

Z ˜

j

γ

j

, Z ˜

i

= γ

Ti

(X − µ) = Z

i

, i = 1, . . . , p .

Dies zeigt, dass man die Hauptkomponenten Z

i

als die Koordinaten des Vektors X in dem kartesischen Koordinatensystem betrachten kann, dessen Koordinatenursprung mit dem Erwartungswertvektor

¨ ubereinstimmt und die Eigenschaft hat, dass die Komponenten Z

i

unkorreliert mit fallender Varianz f¨ ur wachsende i sind.

I

Nutzt man unkorrelierte Zufallsgr¨ oßen Y

i

mit Z

i

= √

λ

i

Y

i

zur Basisdarstellung, so bilden diese die Karhunen-Lo` eve-Basis f¨ ur den gegebenen Zufallsvektor X und es gilt X = µ + P

p

j=1

p λ

j

Y

j

γ

j

.

(8)

Dimensionsreduktion

I

Aus dieser Basisdarstellung folgt E kX − µk

2

=

p

X

j=1

λ

j

.

I

Sind einige Eigenwerte und damit Varianzen der Hauptkomponenten klein, kann man die Dimension des Problems reduzieren, indem man die Hauptkomponenten mit kleinen Varianzen nicht ber¨ ucksicht.

I

Ber¨ ucksichtigt man nur die ersten m < p Hauptkomponenten, arbeitet man mit der N¨ aherung

X

(m)

:= µ +

m

X

j=1

p λ

j

Y

j

γ

j

mit E kX − X

(m)

k

2

=

p

X

j=m+1

λ

j

f¨ ur den dadurch zugelassenen Fehler. Der Zufallsvektor X

(m)

− µ liegt in einem m−dimensionalen Teilraum des R

p

. Der Anteil der mit X

(m)

ber¨ ucksichtigten Varianz betr¨ agt

P

m j=1

λ

j

P

p

j=1

λ

j

.

(9)

Korrelationsstruktur

I

Mit Z = Γ

T

(X − µ) erh¨ alt man C ov[X, Z] = E

h

(X − E X)(Z − E Z)

T

i

= E

(X − E X)

Γ

T

(X − µ)

T

= E h

(X − EX)(X − EX)

T

Γ i

= Σ Γ = Γ Γ

T

Σ Γ = Γ Λ

I

Damit gelten f¨ ur i , j = 1, . . . , p , C ov[X

i

, Z

j

] = γ

ij

λ

j

und mit V arX

i

= σ

ii

, V arZ

j

= λ

j

auch

C orr[X

i

, Z

j

] =: %

ij

= γ

ij

λ

j

p σ

ii

λ

j

= γ

ij

s λ

j

σ

ii

.

(10)

Bestimmtheitsmaß

I

Die Gr¨ oße

%

2ij

= γ

ij2

λ

j

σ

ii

misst den Anteil der Variation des Merkmals X

i

, der durch die j −te Hauptkomponente

” erkl¨ art“ wird. Dabei gilt f¨ ur den Nenner wegen Σ = Γ Λ Γ

T

auch σ

ii

=

p

X

j=1

λ

j

γ

ij2

.

I

Analog beschreibt f¨ ur eine Teilmenge g ⊂ {1, . . . , p} die Gr¨ oße

%

2ig

:= X

j∈g

%

2ij

= P

j∈g

λ

j

γ

ij2

σ

ii

den Anteil der Variation des Merkmals X

i

, der durch die j −ten Hauptkomponenten mit j ∈ g

” erkl¨ art“ wird.

(11)

Beispiel

Bsp. 5.5

Sei X = (X

1

, X

2

)

T

ein Zufallsvektor mit zweidimensionaler Normalverteilung mit Parametern

E X = 0

2

und C ovX =

1 −0.9

−0.9 1

. Dann erh¨ alt man

Γ =

√2 2

√2

2

√ 2 2

√ 2 2

!

, Λ =

1.9 0 0 0.1

.

Dichtefunktion dieser Verteilung.

(12)

Fehlende Skaleninvarianz

I

Die Hauptkomponenten sind nicht skaleninvariant, deshalb spielt z.B. die Wahl der Maßeinheiten eine große Rolle. Deshalb standardisiert (oder autoskaliert) man auch bei Bedarf die Komponenten des Zufallsvektors vor Anwendung der Hauptkomponententransformation und arbeitet mit der Korrelationsmatrix (statt der Kovarianzmatrix).

I

Bsp. 5.6

Andert man z.B. im Beispiel 5.5 die Varianz von ¨ X

1

auf

VarX

1

= 100 und bleibt bei demselben Korrelationkoeffizienten, dann gilt C ovX =

100 −9

−9 1

. In diesem Fall erh¨ alt man

Γ =

0.9959593 0.0898056

−0.0898056 0.9959593

, Λ =

100.81153 0

0 0.18847

,

insbesondere ¨ andern sich also auch die Achsenrichtungen.

(13)

p = 2 standardisierte Merkmale

I

X = X

1

X

2

, Erwartungswert µ = E X =

E X

1

E X

2

= µ

1

µ

2

,

Kovarianzmatrix Σ = C ovX =

V arX

1

C ov[X

1

, X

2

] C ov[X

1

, X

2

] V arX

2

.

I

Standardisierte Zufallsgr¨ oßen ˜ X

1

= X

1

− E X

1

√ VarX

1

, ˜ X

2

= X

2

− E X

2

√ VarX

2

,

E X ˜

1

= E X ˜

2

= 0 , Var X ˜

1

= Var X ˜

2

= 1 , Cov h X ˜

1

, X ˜

2

i

= ρ

X1,X2

= ρ .

I

Die Kovarianzmatrix der standardisierten Zufallsgr¨ oßen ist die Korrelationsmatrix der nicht standardisierten Zufallsgr¨ oßen.

I

Die Eigenwerte der symmetrischen Matrix

1 ρ

ρ 1

sind 1 + ρ und 1 − ρ , der Gr¨ oße nach geordnet: λ

1

= 1 + |ρ| ≥ λ

2

= 1 − |ρ| .

I

F¨ ur die Hauptkomponenten der standardisierten Gr¨ oßen gilt:

V ar Z ˜

1

= 1 + |ρ| und V ar Z ˜

2

= 1 − |ρ| .

(14)

Fortsetzung p = 2 standardisierte Merkmale

I

ρ = 0 : Hier sind die Zufallsgr¨ oßen X

1

und X

2

schon unkorreliert und eine Hauptkomponentenanalyse ist nicht notwendig.

I

0 < ρ < 1 : Die Zufallsgr¨ oßen X

1

und X

2

sind positiv korreliert, λ

1

= 1 + ρ > 1 − ρ = λ

2

. Orthonormierte Eigenvektoren sind γ

1

=

√ 2

√2 2 2

! , γ

2

=

√ 2 2

√2 2

! .

I

ρ = 1/ − 1 : Zwischen X

1

und X

2

gibt es einen positiven/negativen linearen Zusammenhang, die gesamte

Variabilit¨ at kann durch die erste Hauptkomponente erkl¨ art werden.

I

−1 < ρ < 0 : Die Zufallsgr¨ oßen X

1

und X

2

sind negativ

korreliert, λ

1

= 1 − ρ > 1 + ρ = λ

2

. Orthonormierte Eigenvektoren sind γ

1

=

√2 2

√ 2 2

! , γ

2

=

√2

√2 2 2

!

.

(15)

5.3 Stichprobenhauptkomponenten

I

Stichprobenhauptkomponenten werden analog zu den theoretischen Hauptkomponenten definiert, statt µ und Σ m¨ ussen allerdings Sch¨ atzungen verwendet werden.

I

F¨ ur eine n × p−Datenmatrix x = (x

1

, . . . , x

n

)

T

ist die empirische p × p−Kovarianzmatrix

s

x

:= 1 n − 1

n

X

j=1

x

j

− x

x

j

− x

T

= 1

n − 1 x

T

h x mit h := I

n

1n

1

n

1

Tn

und x =

1n

x

T

1

n

.

I

Man rechnet oft auch mit s

x

=

1n

x

T

h x =

n−1n

s

x

.

I

F¨ ur x und s

x

m¨ ussen (p

2

+ 3p)/2 Werte gesch¨ atzt werden, dehalb sollte n hinreichend groß sein!

p 1 2 3 4 5 6 7 8 9 10

(p

2

+ 3p)/2 2 5 9 14 20 27 35 44 54 65

(16)

Spektralzerlegung der empirischen Kovarianzmatrix

Es existiert die Spektralzerlegung

s

x

= g ` g

T

mit einer orthogonalen p × p−Matrix (der Eigenvektormatrix) g = (g

1

, . . . , g

p

)

und einer p × p−Diagonalmatrix (der Matrix der Eigenwerte)

` = diag(`

1

, . . . , `

p

) mit `

1

≥ . . . ≥ `

p

≥ 0 . Es gilt damit auch

` = g

T

s

x

g . Bei der Modellierung werden s

x

, g , ` bzw. ` = (`

1

, . . . , `

p

)

T

als

Realisierungen entsprechender Zufallsmatrizen S

X

, G , L bzw. L

angesehen.

(17)

Stichproben-Hauptkomponententransformation

Def. 5.7

Die Transformation

x 7→ z :=

x − 1

n

x

T

g heißt Stichproben-Hauptkomponententransformation.

Die j −te Spalte von z z

•j

=

x − 1

n

x

T

g

j

, j = 1, . . . , p ,

ist die j −te Stichproben-Hauptkomponente, deren Komponente f¨ ur das r −te Objekt ist z

rj

= g

T

j

(x

r

− x) = (x

r

− x)

T

g

j

, r = 1, . . . , n , d.h. der transformierte r−te Merkmalsvektor ist z

r

= (x

r

− x)

T

g = g

T

(x

r

− x) . Der j −te Vektor von Hauptkomponentenladungen ist die j -te Spalte g

j

von g . Die Matrix z wird auch als Matrix der Faktorenwerte

bezeichnet.

(18)

Eigenschaften

I

Satz 5.8

Es gilt f¨ ur die transformierte Datenmatrix z : z := 1

n z

T

1

n

= 0

n

, s

z

:= 1 n − 1

n

X

j=1

z

j

z

Tj

= 1

n − 1 z

T

z = ` .

I

Auch in diesem Fall sind die Hauptkomponenten nicht skaleninvariant. Wird jeweils die j −te Variable bei einer Umskalierung durch d

j

> 0 geteilt, erh¨ alt man f¨ ur die neue Stichprobenkovarianzmatrix diag(d

j−1

) s

x

diag(d

j−1

) mit im Allgemeinen anderen Eigenvektoren. Deshalb sollte man z.B.

(i) wenn alle Merkmale vom gleichen Typ sind (z.B. L¨ angen), alle mit der gleichen Maßeinheit messen oder

(ii) alle Merkmale vorher standardisieren (autoskalieren) und mit der

Stichproben-Korrelationsmatrix rechnen.

(19)

Beispiel 5.9

I

Hauptkomponentenanalyse des Datensatzes zu ”open/closed book examinations”; erzielte Punkte von 100 m¨ oglichen, 2 F¨ acher (Mechanics ("mec"), Vectors ("vec")) ”open book”, 3 F¨ acher (Algebra ("alg"), Analysis ("ana"), Statistics ("sta")) ”closed book” (n = 88, p = 5).

I

Daten aus: K.V. Mardia, J.T. Kent, J.M. Bibby , Multivariate Analysis, Academic Press 1979; die Daten sind auch im R-Paket

”bootstrap” zu finden (Datensatz "scor").

I

Gerundete Werte der erwartungstreuen Sch¨ atzungen x = (38.95 50.59 50.60 46.68 42.31)

T

;

s

x

=

305.77 127.22 101.58 106.27 117.40 127.22 172.84 85.16 94.67 99.01 101.58 85.16 112.89 112.11 121.87 106.27 94.67 112.11 220.38 155.54 117.40 99.01 121.87 155.54 297.76

.

(20)

Fortsetzung Beispiel 5.9

I

Gerundete Eigenwerte von s

x

:

`

1

= 686.99 , `

2

= 202.11 , `

3

= 103.75 , `

4

= 84.63 , `

5

= 32.15 .

I

Gerundete Eigenvektoren (spaltenweise) von s

x

:

g =

0.51 −0.75 0.30 −0.30 0.08 0.37 −0.21 −0.42 0.78 0.19 0.35 0.08 −0.15 0.00 −0.92 0.45 0.30 −0.60 −0.52 0.29 0.53 0.55 0.60 0.18 0.15

 .

I

In R k¨ onnen z.B. die Befehle prcomp und princomp genutzt werden. Dabei nutzt prcomp die erwartungstreue Sch¨ atzung s

x

,

princomp jedoch als Sch¨ atzung s

x

.

(21)

Erste Hauptkomponente Beispiel 5.9

I

Werte der 1. Hauptkomponente f¨ ur das r−te Objekt (r = 1, . . . , n) z

r1

= 0.51(x

r1

− 38.95) + 0.37(x

r2

− 50.59) + 0.35(x

r3

− 50.60)

+ 0.45(x

r4

− 46.68) + 0.53(x

r5

− 42.31)

I

” Mittelung“ der zentrierten Punkte der 5 Pr¨ ufungen (gewichtetes Mittel).

I

Hat man in allen 5 Pr¨ ufungen viele Punkte erzielt, dann hat die erste Hauptkomponente einen hohen Wert und umgekehrt.

I

Die erste Hauptkomponente k¨ onnte so f¨ ur ein Ranking der 88

Studierenden dienen.

(22)

Zweite Hauptkomponente Beispiel 5.9

I

Werte der 2. Hauptkomponente f¨ ur das r−te Objekt (r = 1, . . . , n) z

r2

= −0.75(x

r1

− 38.95) − 0.21(x

r2

− 50.59) + 0.08(x

r3

− 50.60)

+ 0.30(x

r4

− 46.68) + 0.55(x

r5

− 42.31)

I

Kontrast zwischen open book (X

3

, X

4

, X

5

) und closed book (X

1

, X

2

) Pr¨ ufungen.

I

Ein Student mit vielen Punkten in den open book F¨ achern (X

3

, X

4

, X

5

) und wenig Punkten in den closed book F¨ achern

(X

1

, X

2

) erh¨ alt einen großen Wert in der zweiten Hauptkomponente

und umgekehrt.

(23)

Weitere Hauptkomponenten Beispiel 5.9

Werte der 3.-5. Hauptkomponenten f¨ ur das r−te Objekt (r = 1, . . . , n) z

r3

= 0.30(x

r1

− 38.95) − 0.42(x

r2

− 50.59) − 0.15(x

r3

− 50.60)

− 0.60(x

r4

− 46.68) + 0.60(x

r5

− 42.31)

z

r4

= −0.30(x

r1

− 38.95) + 0.78(x

r2

− 50.59) + 0.00(x

r3

− 50.60)

− 0.52(x

r4

− 46.68) + 0.18(x

r5

− 42.31)

z

r5

= 0.08(x

r1

− 38.95) + 0.19(x

r2

− 50.59) − 0.92(x

r3

− 50.60)

+ 0.29(x

r4

− 46.68) + 0.15(x

r5

− 42.31)

(24)

Fortsetzung Beispiel 5.9

I

Wegen der fehlenden Skaleninvarianz der Hauptkomponentenanalyse k¨ onnte man auch standardisierte Merkmale nutzen.

I

In diesem Beispiel ist durch die gleichartigen Merkmale auf einer Absolutskala dies aber nicht notwendig bzw. w¨ unschenswert.

I

Eine formale Anwendung liefert folgende gerundete Eigenwerte und Eigenvektoren.

`

1

= 3.18 , `

2

= 0.74 , `

3

= 0.44 , `

4

= 0.39 , `

5

= 0.25;

g =

0.40 0.65 −0.62 0.15 0.13 0.43 0.44 0.71 −0.30 0.18 0.50 −0.13 0.04 0.11 −0.85 0.46 −0.39 0.14 0.67 0.42 0.44 −0.47 −0.31 −0.66 0.23

.

(25)

5.4 Erkl¨ arungsanteile der Hauptkomponenten

I

F¨ ur einen p−dimensionalen Zufallsvektor X mit EX = µ ,

CovX = Σ mit Spektraldarstellung Σ = Γ Λ Γ

T

aus Satz 5.1. kann

E kX − µk

2

=

p

X

i=1

E (X

i

− µ

i

)

2

=

p

X

i=1

σ

ii

= sp Σ = sp Λ =

p

X

j=1

λ

j

als Gesamtvarianz des Zufallsvektors angesehen werden.

I

Der Anteil der Varianz λ

i

der i−ten Hauptkomponente Z

i

(i ∈ {1, . . . , p}) kann dann als Erkl¨ arungsanteil der i−ten Hauptkomponente angesehen werden:

λ

i

P

p

j=1

λ

j

= λ

i

sp Σ .

(26)

Erkl¨ arungsanteile der Stichproben-Hauptkomponenten

I

Analog ist f¨ ur eine n × p−Datenmatrix x = (x

1

, . . . , x

n

)

T

mit empirischer p × p−Kovarianzmatrix s

x

mit Spektralzerlegung s

x

= g ` g

T

der Anteil der Totalvariation (Gesamtvarianz), der durch die i−te Stichproben-Hauptkomponente erkl¨ art wird (i ∈ {1, . . . , p})

`

i

sp s

x

= `

i

P

p

j=1

`

j

.

I

F¨ ur eine Teilmenge g ⊂ {1, . . . , p} ist P

i∈g

`

i

sp s

x

= P

i∈g

`

i

P

p j=1

`

j

den Anteil der Totalvariation, der durch die i −ten Stichproben-Hauptkomponenten mit i ∈ g

” erkl¨ art“ wird.

(27)

Erkl¨ arungsanteile im Beispiel 5.9

I

Im Beispiel 5.9 gilt mit den Eigenwerten von s

x

`

1

= 686.99 , `

2

= 202.11 , `

3

= 103.75 , `

4

= 84.63 , `

5

= 32.15 :

I

`

1

P

5

j=1

`

j

≈ 0.6191 , d.h. 61.91% der Totalvariation werden durch die erste Stichproben-Hauptkomponente erkl¨ art.

I

`

2

P

5

j=1

`

j

≈ 0.1821 , d.h. 18.21% der Totalvariation werden durch die zweite Stichproben-Hauptkomponente erkl¨ art.

I

`

1

+ `

2

+ `

3

P

5

j=1

`

j

≈ 0.89481 , d.h. 89.48% der Totalvariation werden

durch die ersten drei Stichproben-Hauptkomponenten erkl¨ art.

(28)

Erkl¨ arungsanteile bei standardisierten Daten

I

Bei Nutzung von standardisierten Daten ist die Totalvariation (Gesamtvarianz) immer gleich

`

1

+ . . . + `

p

= p .

I

Im Beispiel 5.9 mit standardisierten Daten erh¨ alt man f¨ ur die Erkl¨ arungsanteile an der Totalvariation f¨ ur die entsprechenden Stichproben-Hauptkomponenten:

I

1. Hauptkomponente 3.18

5 ≈ 0.6362 ˆ = 63.62% .

I

2. Hauptkomponente 0.74

5 ≈ 0.1479 ˆ = 14.79% .

I

3. Hauptkomponente 0.44

5 ≈ 0.0890 ˆ = 8.90% .

I

4. Hauptkomponente 0.39

5 ≈ 0.0776 ˆ = 7.76% .

I

5. Hauptkomponente 0.25

5 ≈ 0.0493 ˆ = 4.93% .

(29)

Erkl¨ arungsanteile bezogen auf die Merkmale

I

Analoga der Formeln f¨ ur die Anteile der Variation eines Merkmals, der durch eine oder eine Gruppe von Hauptkomponenten erkl¨ art wird, erh¨ alt man durch das Ersetzen von

λ

j

durch `

j

, γ

ij

durch g

ij

, σ

ii

durch s

ii

(s

ii

ist die empirische Varianz des i−ten Merkmals).

I

Das Analogon zum Bestimmheitsmaß %

2ij

ist die Gr¨ oße r

ij2

= g

ij2

`

j

s

ii

.

Dies ist der Anteil der empirischen Varianz des i−ten Merkmals, der durch die j −te Stichproben-Hauptkomponente

” erkl¨ art“ wird.

I

F¨ ur eine Teilmenge g ⊂ {1, . . . , p} beschreibt die Gr¨ oße r

ig2

:= X

j∈g

r

ij2

= P

j∈g

g

ij2

`

j

s

ii

den Anteil der Variation des Merkmals X

i

, der durch die j −ten Stichproben-Hauptkomponenten mit j ∈ g

” erkl¨ art“ wird.

(30)

Erkl¨ arungsanteile f¨ ur Merkmale im Beispiel 5.9

I

Im Beispiel 5.9 (nicht standardisiert) werden 18.21% der Totalvariation durch die zweite Stichproben-Hauptkomponente erkl¨ art.

I

Bezogen auf die einzelnen Merkmale werden die folgenden Anteile durch die zweite Stichproben-Hauptkomponente erkl¨ art.

I

Merkmal X

1

: r

122

= g

122

`

2

s

11

≈ (−0.75)

2

· 202.11

305.77 ≈ 0.371 .

I

Merkmal X

2

: r

222

= g

222

`

2

s

22

≈ (−0.21)

2

· 202.11

172.84 ≈ 0.050 .

I

Merkmal X

3

: r

322

= g

322

`

2

s

33

≈ 0.08

2

· 202.11

112.89 ≈ 0.010 .

I

Merkmal X

4

: r

422

= g

422

`

2

s

44

≈ 0.30

2

· 202.11

220.38 ≈ 0.083 .

I

Merkmal X

5

: r

522

= g

522

`

2

s

55

≈ 0.55

2

· 202.11

297.76 ≈ 0.204 .

(31)

Fortsetzung Erkl¨ arungsanteile f¨ ur Merkmale Bsp. 5.9

Die Anteile auch der anderen Stichproben-Hauptkomponenten sind zusammengefasst in der folgenden Tabelle zu finden. In den Zeilen stehen die Daten f¨ ur die einzelnen Merkmale, in den Spalten die f¨ ur die

jeweiligen Hauptkomponenten.

r

ij

1 2 3 4 5 P

1 0.574 0.371 0.030 0.024 0.001 1

2 0.539 0.050 0.104 0.300 0.007 1

3 0.727 0.010 0.019 0.000 0.243 1

4 0.634 0.083 0.168 0.103 0.012 1

5 0.660 0.204 0.126 0.009 0.002 1

(32)

Auswertung zum Beispiel 5.9

I

Die erste Stichproben-Hauptkomponente

” erkl¨ art“ rund 62% der Totalvariation.

I

Die ersten drei Stichproben-Hauptkomponenten

” erkl¨ aren“ fast 90%

der Totalvariation.

I

Betrachtet man nur die ersten drei Hauptkomponenten, dann werden rund 10% der Totalvariation nicht

” erkl¨ art“.

I

Es werden aber beim 2. Merkmal 30.7% (30%+0.7%) nicht

” erkl¨ art“

und beim 3. Merkmal werden 24.3% (0%+24.3%) nicht

” erkl¨ art“.

I

Nutzt man standardisierte Daten sind die Rechnungen analog, sie werden noch etwas einfacher, da die empirische Varianz der einzelnen standardisierten Merkmale immer gleich 1 ist.

I

Bsp. 5.9, standardisierte Werte, 3. Merkmal, 2. Hauptkomponente:

r

322

= g

322

· `

2

1 ≈ (−0.13)

2

· 0.74 ≈ 0.012 , d.h. ungef¨ ahr 1.2% der

empirischen Varianz von X

3

wird (sch¨ atzungsweise) durch die zweite

Stichproben-Hauptkomponente erkl¨ art“.

(33)

Anzahl genutzter Hauptkomponenten

I

Bei Nutzung standardisierter Daten kann zum Beispiel das Kaiser -Kriterium zur Bestimmung der Anzahl zu nutzender Hauptkomponenten angewandt werden:

Man nehme genau so viele Hauptkomponenten, wie es Eigenwerte

`

i

gr¨ oßer (gleich) 1 gibt, d.h. falls `

i

≥ 1 f¨ ur i = 1, . . . , k und

`

k+1

< 1 , nutze man k Hauptkomponenten.

I

Im Beispiel 5.9 mit standardisierten Werten gilt `

1

= 3.18 ,

`

2

= 0.74 . Hier ist k = 1 und man w¨ ahle eine

Stichproben-Hauptkomponente.

(34)

Scree-Plots

Bei nicht standardisierten Werten kann zum Beispiel ein Ger¨ olldiagramm (Scree-Plot) genutzt werden. Dazu verbindet man die Punkte (i , `

i

) , i = 1, . . . , p , in einem kartesischen Koordinatensystem durch

Geradenst¨ ucken. Oft entsteht ein deutlicher Knick und es werden nur die

Hauptkomponenten bis zum Knick (oder vor dem Knick) gew¨ ahlt.

(35)

Nutzung des Erkl¨ arungsanteils zur Dimensionsreduktion

I

Eine weitere M¨ oglichkeit, die Anzahl der Hauptkomponenten zu w¨ ahlen, besteht darin, den Erkl¨ arungsanteil zu nutzen. Hier kann man sich z.B. vorgeben, dass die gew¨ ahlten Hauptkomponenten mindestens 70% oder 90% der Totalvariabilit¨ at

” erkl¨ aren“.

I

Da die Erkl¨ arungsanteile nur Sch¨ atzungen darstellen, ist hier auch

die Nutzung von geeigneten Signifikanztests angebracht.

(36)

Test auf den Anteil der ersten k Hauptkomponenten an der Totalvariation f¨ ur normalverteilte Daten

I

Sei Ψ

k

(λ) = P

k

i=1

λ

i

P

p

i=1

λ

i

, λ = (λ

1

, . . . , λ

p

)

T

.

I

0 < ψ

0

< 1 sei ein hypothetischer Wert f¨ ur Ψ

k

(λ) .

I

Hypothesen:

(1) H

0

: Ψ

k

(λ) = ψ

0

, H

A

: Ψ

k

(λ) 6= ψ

0

oder (2) H

0

: Ψ

k

(λ) ≤ ψ

0

, H

A

: Ψ

k

(λ) > ψ

0

oder (3) H

0

: Ψ

k

(λ) ≥ ψ

0

, H

A

: Ψ

k

(λ) < ψ

0

.

I

Testgr¨ oße: T = Ψ

k

(L) − ψ

0

τ (L) mit

I

τ

2

(L) = 2 n − 1

sp S

2

(sp S)

2

Ψ

2k

(L) − 2α

k

Ψ

k

(L) + α

k

,

I

α

k

= P

k

i=1

L

2i

P

p

i=1

L

2i

, L = (L

1

, . . . , L

p

)

T

.

(37)

Fortsetzung Test

I

Bem.

sp S =

p

X

i=1

L

i

= L

1

+ . . . + L

p

, sp S

2

=

p

X

i=1

L

2i

= L

21

+ . . . + L

2p

,

bei der Berechnung der Testgr¨ oße m¨ ussen die empirischen Werte, d.h. `

1

, . . . , `

p

, genutzt werden.

I

Kritischer Bereich (asymptotisch)

(1) K = {t : |t| > z

1−α/2

} ;

(2) K = {t : t > z

1−α

} ;

(3) K = {t : t < −z

1−α

} .

(38)

Beispieltest f¨ ur Daten Beispiel 5.9

1. H

0

: Ψ

1

(λ) = ψ

0

:= 0.65 (1. HK erkl¨ art 65% der Totalvariation) , H

A

: Ψ

1

(λ) 6= ψ

0

= 0.65 (Erkl¨ arungsanteil der 1. HK ist 6= 65%).

2. α = 0.05 (Signifikanzniveau).

3. T = Ψ

1

(L) − ψ

0

τ (L) (Testgr¨ oße).

4. K = {t : |t| > z

0.975

= 1.96} (kritischer Bereich).

5. Berechnungen zum Wert der Testgr¨ oße sp s =

5

X

i=1

`

i

= 1109.632 ; sp s

2

=

5

X

i=1

`

2i

= 531 763.5 ;

α

1

= `

21

sp s

2

= 0.8875 ; Ψ

1

(`) = `

1

sp s = 0.6191 ; n = 88 ; τ

2

(`) = 0.0017 ⇒ t = −0.75

6. |t| = 0.75 6> 1.96 ⇒ t 6∈ K , H

0

wird angenommen; der

Erkl¨ arungsanteil der 1. HK ist nicht signifikant von 65% verschieden.

(39)

Bemerkungen

I

Ber¨ ucksichtigt man nur die ersten k < p Hauptkomponenten, arbeitet man mit der transformierten n × k −Datenmatrix

z

(k)

:=

x − 1

n

x

T

g

(k)

(und mit nur k

” neuen“ Merkmalen), wobei die Matrix g

(k)

aus den ersten k Spalten der Eigenvektormatrix g besteht.

I

Mit dieser geringeren Anzahl von

” neuen“ Merkmalen kann man

versuchen, andere Aufgabenstellungen der multivariaten Statistik,

wie z.B. eine Clusteranalyse oder eine multivariate Regression, mit

geringerem Aufwand durchzuf¨ uhren.

Referenzen

ÄHNLICHE DOKUMENTE

zunächst für Geraden (Ausgleichsgerade oder lineare Regression), aber mit numerischen Minimierungsalgorithmen (z.B. MINUIT in ROOT) auf beliebige Funktionen und

Bei der Hauptkomponentenanalyse sucht man nach einer linearen Transformation der Koordinaten X (Transformationsmatrix P) in neue Koordinaten T (XP = T), so dass ein möglichst

Voraussetzung für diese Führungsmodelle ist natürlich, dass bei Stellenausschreibungen entsprechend den Richtlinien zur Chancengleichheit von Frauen und Männern im

Entropie: Extensives Maß für Energie, die nicht für Arbeit verfügbar ist; für die Unordnung und die Multiplizität eines Systems..

Seppälainen „A Course on Large Deviations with an Introduction to Gibbs Measures“, Lecture Notes, 2011.

Wir analysieren nun damit den DNA-Datensatz von Beispiel 3. Aus molekularbiolo- gischen Gru¨nden wird oft eine bina¨re Sequenz gebildet. Alle in diesem Kapitel gemachten U ¨

Die Empfehlung von Kaiser (1960) ist ein gängiges Kriterium, an dem sich bei der Entschei- dung orientiert wird, wie viele der möglichen Faktoren tatsächlich genutzt werden: Es sind

Introduction to Modern Statistical Mechanics Oxford University Press (New York, 1987)..