• Keine Ergebnisse gefunden

Statistische Analyseverfahren Abschnitt 6: Faktoranalyse (Faktorenanalyse)

N/A
N/A
Protected

Academic year: 2021

Aktie "Statistische Analyseverfahren Abschnitt 6: Faktoranalyse (Faktorenanalyse)"

Copied!
36
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Statistische Analyseverfahren

Abschnitt 6: Faktoranalyse (Faktorenanalyse)

Dr. Andreas W¨ unsche

TU Bergakademie Freiberg Institut f¨ur Stochastik

Dezember 2019/Januar 2020

(2)

6 Faktoranalyse (Faktorenanalyse)

I

Die Faktoranalyse ist ein mathematisches Verfahren, welches (im Gegensatz zur Hauptkomponentenanalyse) auf die Erkl¨ arung der Korrelationen zwischen vielen messbaren (beobachtbaren bzw.

beobachteten) Merkmalen haupts¨ achlich durch wenige zugrundeliegende (nichtbeobachtbare bzw. nicht beobachtete,

” latente“) sogenannte allgemeine Faktoren abzielt.

I

Insbesondere hohe Korrelationen zwischen den Merkmalen k¨ onnen darauf hindeuten, dass diese von einer oder von mehreren latenten Gr¨ oßen beeinflusst werden.

I

Zum Beispiel sind K¨ orpergr¨ oße und Gewicht (oder Schuhgr¨ oße) korreliert und beschreiben in etwa den latenten Faktor

” Statur“).

I

Die Merkmale und Faktoren sind durch lineare Beziehungen verkn¨ upft und aus mathematischer Sicht kann man die Faktoranalyse als Strukturanalyse von Kovarianz- bzw.

Korrelationsmatrizen ansehen.

(3)

Weitere einf¨ uhrende Bemerkungen

I

Die Faktoranalyse wurde zuerst von Psychologen entwickelt, sp¨ ater erfolgten statistische Begr¨ undungen, mathematische

Untersuchungen und die Entwicklung weiterer Verfahren.

I

Bei der Hauptkomponentenanalyse waren die Hauptkomponenten Linearkombinationen der Merkmale (und auch umgekehrt). Bei der Faktoranalyse werden umgekehrt die Merkmale als

Linearkombinationen der Faktoren dargestellt.

I

Ziel der Faktoranalyse ist die Extraktion der latenten Faktoren.

I

Insbesondere wird untersucht, wie viele und welche Faktoren die Zusammenh¨ ange m¨ oglichst gut

” erkl¨ aren“.

I

Die Faktoren sollten m¨ oglichst gut interpretierbar sein.

I

Ein typisches Beispiel besteht in der Extraktion von Faktoren wie

Kreditw¨ urdigkeit oder Grad der Existenzgef¨ ahrdung einer Firma aus

Realisierungen von Bilanzmerkmalen X

1

, . . . , X

p

.

(4)

6.1 Das k -Faktor-Modell

I

Def. 6.1.1

Sei X ein p−dimensionaler Zufallsvektor mit E X = µ , C ovX = Σ . X gen¨ ugt einem k -Faktor-Modell (k ∈ N, k < p), falls gilt

X = λ F + U + µ (1)

(Bezeichnung: X ∼ F (k , λ, ψ)) mit

(i) F , ein k −dimensionaler Zufallsvektor mit E F = 0

k

, C ovF = I

k

, der Vektor der allgemeinen Faktoren,

(ii) λ , die deterministische p × k −Matrix der Faktorladungen,

(iii) U , ein p−dimensionaler Zufallsvektor der spezifischen Faktoren mit E U = 0

p

, C ovU = diag(ψ

1

, . . . , ψ

p

) =: ψ , C ov[F, U] = 0

k×p

. (iv) µ , der p−dimensionale deterministische Erwartungswertvektor des

Merkmalszufallsvektors X .

I

Bem. Die p Komponenten des Zufallsvektors X werden durch

k + p andere Zufallsgr¨ oßen beschrieben.

(5)

Komponentenweise Modellgleichungen

Bem. 6.1.2

I

Die Modellgleichung (1) komponentenweise lautet X

i

=

k

X

j=1

λ

ij

F

j

+ U

i

+ µ

i

, i = 1, . . . , p ,

mit der Interpretation: wenige (k) allgemeine Faktoren F

1

, . . . , F

k

und jeweils ein spezieller oder spezifischer Faktor U

i

” erkl¨ aren“ das Merkmal X

i

(d.h. insgesamt k + 1 Zufallsgr¨ oßen).

I

λ

ij

wird als Ladung des j −ten Faktors beim i−ten Merkmal bezeichnet (und gibt damit den Einfluss des j −ten allgemeinen Faktors auf das i −te Merkmal an).

I

Die allgemeinen Faktoren besitzen die Varianz 1 und sie sind unkorreliert.

I

Die spezifischen Faktoren sind untereinander unkorreliert und

unkorreliert zu den allgemeinen Faktoren, der i−te spezifische

Faktor besitzt die Varianz ψ

i

.

(6)

Fundamentaltheorem der Faktoranalyse

I

Satz 6.1.3

F¨ ur ein k-Faktor-Modell gem¨ aß Def. 6.1.1 gelten

CovX = Σ = λ λ

T

+ ψ = λ λ

T

+ diag(ψ

1

, . . . , ψ

p

) ; (2)

V arX

i

= σ

ii

=

k

X

j=1

λ

2ij

+ ψ

i

= h

i2

+ ψ

i

, i = 1, . . . , p . (3)

Bem. 6.1.4

I

Bei gegebenen k < p und ψ sind notwendig und hinreichend f¨ ur die Existenz einer solchen Kovarianzstruktur: der Rang der Matrix Σ − ψ ist kleiner oder gleich k und Σ − ψ ist positiv semidefinit.

I

h

i2

= P

k

j=1

λ

2ij

wird allgemeine Varianz oder Kommunalit¨ at des i−ten Merkmals genannt, sie misst den Teil der Varianz, der durch die allgemeinen Faktoren erkl¨ art wird.

I

ψ

i

ist die spezifische Varianz des i−ten Merkmals.

(7)

Skaleninvarianz

Bem. 6.1.5

Ein k-Faktor-Modell ist (im Gegensatz zur Hauptkomponentenanalyse) skaleninvariant im folgenden Sinn.

(i) Es gelte X ∼ F (k, λ, ψ) und C = diag(c

1

, . . . , c

p

) sei eine Skalierungsmatrix mit positiven Elementen auf der Hauptdiagonale.

Dann gilt f¨ ur den skalierten Zufallsvektor

Y := C X ∼ F (k, C λ, C ψ C) .

(ii) Insbesondere kann c

i

= 1

√ σ

ii

, i = 1, . . . , p , gew¨ ahlt werden, so dass man mit standardisierten Zufallsgr¨ oßen und der zugeh¨ origen Kovarianzmatrix, d.h. mit der Korrelationsmatrix des Zufallsvektors X arbeiten kann. In diesem Fall sind die Faktorladungen

Korrelationskoeffizienten der Merkmale mit den allgemeinen

Faktoren und so insbesondere betragsm¨ aßig kleiner (oder gleich) 1.

(8)

Nicht-Eindeutigkeit der Faktorladungen

Bem. 6.1.6

(i) In einem k-Faktor-Modell ist die Matrix der Faktorladungen f¨ ur einen gegebenen Zufallsvekor X nicht eindeutig bestimmt. Ist g eine orthogonale k × k−Matrix, dann gilt mit

X = λ F + U + µ auch X = (λ g)(g

T

F) + U + µ , also die Definitionsbeziehung f¨ ur ein k−Faktor-Modell mit der Matrix der Faktorladungen λ g und dem Vektor der allgemeinen Faktoren g

T

F . Man spricht in diesem Zusammenhang von einer Rotation der Faktoren.

(ii) Durch zus¨ atzliche formale Nebenbedingungen, z.B. λ

T

ψ

−1

λ ist

diagonal oder λ

T

diag(σ

11

, . . . , σ

pp

)

−1

λ ist diagonal, kann λ im

Wesentlichen eindeutig bestimmt werden (bis auf Vorzeichenwechsel

in den Spalten), so dass das Fundamentaltheorem der Faktoranalyse

erf¨ ullt ist.

(9)

Parameteranzahl

Bem. 6.1.7

(i) Die Matrix Σ ohne zus¨ atzliche Struktur enth¨ alt

12

p(p + 1) Parameter, mit der Struktur eines k-Faktor-Modells pk + p Parameter und mit einer zus¨ atzlichen Nebenbedingung wie in 6.1.6 (ii) pk + p −

12

k (k − 1) Parameter. Da die Faktoranalyse nur sinnvoll ist, wenn dadurch die Anzahl der unbekannten Parameter verringert wird, fordert man im Allgemeinen

p(p + 1)

2 −

pk + p − k (k − 1) 2

= (p − k)

2

− p − k

2 := s > 0.

(ii) Diese Bedingung ergibt als maximale Anzahlen k von allgemeinen Faktoren in Abh¨ angigkeit von der Anzahl p der Variablen

p 3 4 5 6 7 8 9 10 11 12

max k f¨ ur s > 0 1 2 2 3 4 5 5 6 7

max k f¨ ur s ≥ 0 1 1 2 3 3 4 5 6 6 7

(10)

Fortsetzung Parameteranzahl

(iii) Bei Nutzung standardisierter Zufallsgr¨ oßen enth¨ alt deren Kovarianzmatrix (also ggf. die Korrelationsmatrix der

Ausgangszufallsgr¨ oßen)

12

p(p − 1) Parameter. Die Bedingung f¨ ur eine geringere Parameteranzahl in einem k-Faktor-Modell mit einer zus¨ atzlichen Nebenbedingung wie in 6.1.6 (ii) ist dann

p (p − 1)

2 −

pk + p − k(k − 1) 2

= (p − k)

2

− 3p − k

2 := s > 0.

(iv) Diese Bedingung ergibt als maximale Anzahlen k von allgemeinen Faktoren in Abh¨ angigkeit von der Anzahl p der Variablen

p 3 4 5 6 7 8 9 10 11 12

max k f¨ ur s > 0 1 2 2 3 4 4 5

max k f¨ ur s ≥ 0 1 1 2 2 3 4 4 5

(v) Das Auffinden von allgemeinen Faktoren kann aber auch so

inhaltlich von Nutzen sein.

(11)

Beispiel 1-Faktor-Modell

Bsp. 6.1.8

I

Es seien p = 3 und k = 1 , dann lautet das 1-Faktor-Modell

 X

1

X

2

X

3

 =

 λ

1

λ

2

λ

3

 · F +

 U

1

U

2

U

3

 +

 µ

1

µ

2

µ

3

 .

I

F¨ ur (2) erh¨ alt man mit σ

ii

= σ

2i

> 0 , i = 1, 2, 3 ,

σ

21

ρ

12

σ

1

σ

2

ρ

13

σ

1

σ

3

ρ

12

σ

1

σ

2

σ

22

ρ

23

σ

2

σ

3

ρ

13

σ

1

σ

3

ρ

23

σ

2

σ

3

σ

32

=

λ

21

λ

1

λ

2

λ

1

λ

3

λ

1

λ

2

λ

22

λ

2

λ

3

λ

1

λ

3

λ

2

λ

3

λ

23

+

ψ

1

0 0

0 ψ

2

0 0 0 ψ

3

.

(12)

Fortsetzung Beispiel 1-Faktor-Modell

I

Falls ρ

ij

6= 0, i , j = 1, 2, 3 (i 6= j ) und 0 ≤ ρ

12

ρ

13

ρ

23

≤ 1 , 0 ≤ ρ

12

ρ

23

ρ

13

≤ 1 , 0 ≤ ρ

13

ρ

23

ρ

12

≤ 1 existiert eine eindeutige L¨ osung (bis auf die Vorzeichen der λ

i

)

λ

21

= ρ

12

ρ

13

ρ

23

σ

12

, λ

22

= ρ

12

ρ

23

ρ

13

σ

22

, λ

23

= ρ

13

ρ

23

ρ

12

σ

23

, ψ

1

= σ

21

− λ

21

, ψ

2

= σ

22

− λ

22

, ψ

3

= σ

23

− λ

23

.

I

Nutzt man standardisierte Merkmalszufallsgr¨ oßen kann man mit der Korrelationsmatrix rechnen und obige Formeln gelten mit

σ

1

= σ

2

= σ

3

= 1 .

I

Dieses Verfahren kann auch f¨ ur Zufallsvektoren mit p > 3 Komponenten angewandt werden. Ist die erste Zeile der

Korrelationsmatrix gleich (1, ρ

12

, ρ

13

, . . . , ρ

1p

) , muss z.B. f¨ ur die

zweite Zeile eine Konstante c existieren, so dass diese lautet

12

, 1, c ρ

13

, . . . , c ρ

1p

), analog f¨ ur die anderen Zeilen.

(13)

6.2 Sch¨ atzung von λ und ψ

Bem. 6.2.1

(i) Seien x eine Datenmatrix, sowie µ ˆ = x und ˆ Σ = s

x

mit Diagonalelementen s

11

, . . . , s

pp

Sch¨ atzer der Parameter.

(ii) Aufgrund der Skaleninvarianz kann man mit der standardisierten Datenmatrix y := (I

p

1n

1

n

1

T

)x d

−1

mit d = diag(s

11

, . . . , s

pp

) arbeiten. Die empirische Kovarianzmatrix zu y ist die empirische Korrelationsmatrix zur Datenmatrix x , also r

x

= r .

(iii) Hier wird die Datenmatrix im Folgenden weiter mit x und die zugeh¨ orige empirische Korrelationsmatrix mit r bezeichnet.

(iv) Dann sind f¨ ur festes k eine Matrix der Faktorladungen ` und die Diagonalmatrix der spezifischen Varianzen ψ gesucht, so dass gilt

r = ` `

T

+ ψ bzw. r − ψ = ` `

T

.

Dabei sollten die spezifischen Varianzen m¨ oglichst klein sein.

(14)

Spezialfall 1-Faktor-Modell

Bsp. 6.2.2

I

Im Fall eines 1-Faktor-Modells (z.B. mit p = 3 und standardisierten Merkmalen) k¨ onnen (falls r

ij

6= 0 , i , j = 1, 2, 3) die theoretischen Formeln von Beispiel 6.1.8 auf die empirischen Sch¨ atzwerte der Korrelationskoeffizienten angewandt werden, um Sch¨ atzwerte f¨ ur die Faktorladungen und Varianzen der spezifischen Faktoren zu erhalten:

ˆ λ

21

= `

21

= r

12

r

13

r

23

, λ ˆ

22

= `

22

= r

12

r

23

r

13

, λ ˆ

23

= `

23

= r

13

r

23

r

12

, ψ ˆ

1

= 1 − ˆ λ

21

, ψ ˆ

2

= 1 − ˆ λ

22

, ψ ˆ

3

= 1 − λ ˆ

23

.

I

Gilt dabei ˆ λ

2i

< 0 oder ˆ ψ

i

< 0 f¨ ur ein i ∈ {1, 2, 3} , dann kann

kein 1-Faktor-Modell gefunden werden. Man nennt dies auch einen

Heywood -Fall.

(15)

Klassisches Beispiel von Spearman (1904)

Bsp. 6.2.3 ( Spearman 1904)

I

Untersuchungen von Pr¨ ufungsergebnissen von Kindern in

Altphilologie (”classics”, X

1

), Franz¨ osisch (X

2

) und Englisch (X

3

) . Die Auswertung ergab die folgende Stichproben-Korrelationsmatrix

r =

1 0.83 0.78 1 0.67 1

 .

I

Diese Matrix hat vollen Rang, besitzt jedoch die Darstellung

r ≈

 0.983 0.844 0.793

 (0.983 0.844 0.793) +

0.034 0 0

0 0.287 0

0 0 0.370

= ` · `

T

+ ψ .

(16)

Fortsetzung Beispiel 6.2.3

I

Die Ladungsmatrix ist ` = (0.983 0.844 0.793)

T

. Bei allen drei Merkmalen hat der eine allgemeine Faktor eine hohe Ladung.

I

Den einen allgemeinen Faktor F in X = λF + U + µ k¨ onnte man als ” Sprachbegabtheit“ oder “Sprachtalent“ interpretieren.

I

Da V arX

1

= 0.983

2

und ψ

1

= 1 − 0.983

2

= 0.034 ist das Merkmal X

1

(

” Altphilologie“) fast identisch mit dem allgemeinen Faktor.

I

Das dritte Merkmal (

” Englisch“) l¨ asst sich am wenigsten (aber immerhin zu ≈ 63 %) durch den allgemeinen Faktor

” Sprachtalent“

erkl¨ aren.

(17)

Verschiedene Sch¨ atzmethoden

Bem. 6.2.4

Es existieren verschiedene Sch¨ atzmethoden, z.B.

(i) die Hauptfaktorenanalyse (engl. ”principal factor analysis”), dabei wird die Spektralzerlegung symmetrischer Matrizen in einem iterativen Verfahren genutzt;

(ii) die Maximum-Likelihood-Faktor-Analyse unter der Voraussetzung, dass die Daten normalverteilt sind,

X ∼ N(µ, Σ = λ λ

T

+ ψ) ,

λ und ψ werden in einem iterativen Verfahren gesch¨ atzt;

(iii) die Zentroid-Methode ( Thurstone , 1931), die relativ einfach, aber auch mit viel Willk¨ ur verbunden ist; oder

(iv) die kanonische Faktoranalyse ( Rao , 1955), bei der ein Anliegen ist, dass die Korrelation zwischen den p Merkmalen und den zu

bestimmenden k allgemeinen Faktoren so groß wie m¨ oglich sein soll.

(18)

Algorithmus f¨ ur die Hauptfaktorenanalyse

Algorithmus 6.2.5

(Quelle: Handl, Kuhlenkasper , Multivariate Analysemethoden, Springer 2017, Kap. 9)

1. Mit dem Bestimmtheitsmaß b

2i

einer Regression von X

i

auf die restlichen Variablen sei ˆ ψ

i

= 1 − b

2i

der Sch¨ atzer der i −ten spezifischen Varianz (i = 1, . . . , p).

2. Aufstellen von ˆ ψ = diag( ˆ ψ

1

, . . . , ψ ˆ

p

) . 3. Berechnung von r − ψ ˆ .

4. Spektralzerlegung von r − ψ ˆ zur Bestimmung von ˆ λ .

5. Neue Diagonalmatrix ˆ ψ mit den Hauptdiagonalelementen von r − λ ˆ λ ˆ

T

auf der Hauptdiagonalen.

6. Wiederholung der Schritte 3., 4. und 5. so lange, bis aufeinander

folgende Paare von ˆ ψ und ˆ λ in einer vorgegebenen Genauigkeit

identisch sind.

(19)

Beispiel f¨ ur die Hauptfaktorenanalyse

Bsp. 6.2.6 (Quelle: Handl, Kuhlenkasper , Multivariate Analysemethoden, Springer 2017, Kap. 9, Bsp. 40)

I

Empirische Korrelationsmatrix und deren Inverse.

r =

1.000 0.223 0.133 0.625 0.506 0.500 0.223 1.000 0.544 0.365 0.320 0.361 0.133 0.544 1.000 0.248 0.179 0.288 0.625 0.365 0.248 1.000 0.624 0.630 0.506 0.320 0.179 0.624 1.000 0.625 0.500 0.361 0.288 0.630 0.625 1.000

r

−1

=

1.731 0.040 0.060 −0.810 −0.250 −0.231 0.040 1.578 −0.740 −0.234 −0.170 −0.123 0.060 −0.740 1.451 −0.070 0.124 −0.215

−0.810 −0.234 −0.070 2.365 −0.600 −0.605

−0.250 −0.170 0.124 −0.600 1.974 −0.705

−0.231 −0.123 −0.215 −0.605 −0.705 2.043

(20)

Bsp. 6.2.6 Sch¨ atzung der Kommunalit¨ aten

I

Es gilt r − ψ ˆ = ˆ λ λ ˆ

T

. Die Matrizen r und r − ψ ˆ unterscheiden sich nur auf der Hauptdiagonalen, auf der rechten Seite stehen dort die Sch¨ atzungen der Kommunalit¨ aten ˆ h

2i

, i = 1, . . . , p . Diesen Sch¨ atzwert erh¨ alt man, indem man die i−te Variable auf die anderen Variablen regressiert, der Wert ist das Bestimmtheitsmaß b

i2

, f¨ ur welches gilt b

i2

= 1 − 1

r

ii

, wobei r

ii

das i−te Element der Hauptdiagonale von r

−1

ist.

I

So erh¨ alt man die Sch¨ atzungen

h ˆ

12

= 0.422 , h ˆ

22

= 0.366 , ˆ h

23

= 0.311 ,

h ˆ

42

= 0.577 , h ˆ

25

= 0.493 , ˆ h

26

= 0.511 .

(21)

Bsp. 6.2.6 Spektralzerlegung

I

Mit diesen Sch¨ atzern gilt

r − ψ ˆ =

0.422 0.223 0.133 0.625 0.506 0.500 0.223 0.366 0.544 0.365 0.320 0.361 0.133 0.544 0.311 0.248 0.179 0.288 0.625 0.365 0.248 0.577 0.624 0.630 0.506 0.320 0.179 0.624 0.493 0.625 0.500 0.361 0.288 0.630 0.625 0.511

I

Die Spektralzerlegung ergibt

r − ψ ˆ = v d v

T

mit einer Diagonalmatrix d , deren Diagonalelemente im

Allgemeinen nicht alle nichtnegativ sind.

(22)

Bsp. 6.2.6 Approximation von ˆ λ

I

Sei v

1

die Matrix mit den normierten Eigenvektoren zu den k gr¨ oßten Eigenwerten, wobei vorausgesetzt wird, dass diese positiv sind, d

1

sei die Diagonalmatrix mit diesen Eigenwerten.

I

Eine neue Approximation von r − ψ ˆ ist r − ψ ˆ ≈ v

1

d

1/2

1

(v

1

d

1/2

1

)

T

=: ˆ λ

1

λ ˆ

T

1

.

Diese Sch¨ atzung kann in die Ausgangsgleichung in 5. eingesetzt und

damit die Iterationen fortgesetzt werden.

(23)

Fortsetzung Beispiel 6.2.6

I

Im Beispiel gibt es zwei positive Eigenwerte d

1

= 2.606 , d

2

= 0.573 mit zugeh¨ origen Eigenvektoren

v

1

= (0.403 , 0.322 , 0.248 , 0.497 , 0.452 , 0.470)

T

v

2

= (0.316 , −0.602 , −0.669 , 0.191 , 0.219 , 0.081)

T

I

Durch Multiplikation von v

1

mit √

d

1

= 1.614 und von v

2

mit

√ d

2

= 0.757 erhalten wir die Spalten der Matrix ˆ λ

1

λ ˆ

1

=

0.650 0.519 0.400 0.803 0.730 0.759 0.239 −0.455 −0.506 0.145 0.165 0.061

T

.

(24)

Fortsetzung Beispiel 6.2.6

I

Man erh¨ alt

λ ˆ

1

λ ˆ

T

1

=

0.480 0.229 0.139 0.557 0.514 0.508 0.229 0.477 0.438 0.351 0.304 0.366 0.139 0.438 0.416 0.248 0.208 0.272 0.557 0.351 0.248 0.666 0.610 0.618 0.514 0.304 0.208 0.610 0.560 0.564 0.508 0.366 0.272 0.618 0.564 0.580

 .

I

Also gilt

ψ ˆ

1

= 0.520 , ψ ˆ

2

= 0.523 , ψ ˆ

3

= 0.584 , ψ ˆ

4

= 0.334 , ψ ˆ

5

= 0.440 , ψ ˆ

6

= 0.420 .

Mit dieser neuen Matrix ˆ ψ kann ein neuer Sch¨ atzer ˆ λ bestimmt

werden .

(25)

Anzahl der allgemeinen Faktoren

Eine praktische Bestimmung der Anzahl k der Faktoren kann z.B.

erfolgen als

I

die Anzahl der Eigenwerte der empirischen Korrelationsmatrix, die gr¨ oßer als 1 sind;

I

die Anzahl der positiven Eigenwerte der Matrix r − ψ ˆ im Algorithmus 6.2.5 5.;

I

die kleinste Anzahl k , bei der die Summe der k gr¨ oßten Eigenwerte von r − ψ ˆ im Algorithmus 6.2.5 5. die Summe aller Eigenwerte ¨ ubertrifft.

I

Daneben kann man sich auch an den Ergebnissen einer

Hauptkomponentenanalyse der (skalierten) Daten orientieren.

(26)

6.3 Rotation der Faktorladungsmatrix

Bem. 6.3.1

(i) Liegen Sch¨ atzwerte f¨ ur die Faktorladungsmatrix und die Varianzen der spezifischen Faktoren vor, beginnt das Problem der Deutung des Ergebnisses. Dabei kann die Nicht-Eindeutigkeit der Faktorladungen (siehe Bem. 6.1.6) genutzt werden.

(ii) Eine Interpretation von Faktorladungen ist einfacher, wenn

I

jedes Merkmal eine hohe Ladung wenigstens eines Faktors hat,

I

jede Faktorladung entweder hoch oder nahe Null ist, d.h. es m¨ oglichst wenige

” mittlere“ Ladungen gibt. Man spricht auch von Faktorladungen mit einer sogenannten Einfachstruktur.

(iii) Eine Rotation muss nicht zur besseren Interpretation f¨ uhren.

(iv) Zur Bestimmung einer geeigneten orthogonalen Matrix g k¨ onnen verschiedene Prinzipien genutzt werden, hier sollen kurz die Varimax-Rotation und die Quartimax-Rotation erl¨ autert werden.

Dabei wird in den Formeln auf die Kennzeichnung der Sch¨ atzungen

durch ˆ · verzichtet.

(27)

Varimax-Rotation

Bem. 6.3.2

(i) Gesucht wird eine transformierte Matrix der Faktorladungen

∆ = λ g , die m¨ oglichst viele kleine oder große Ladungen hat.

(ii) Es sei ∆ = (δ

ij

)

i=1,...,p;j=1,...,k

und d

ij

= δ

ij

h

i

, hier sind h

i

, i = 1, . . . , p , wieder die Kommunalit¨ aten.

(iii) Bei der Varimax-Rotation wird die Matrix ∆ so bestimmt, dass die quadrierten Ladungen maximal streuen (die Varianzen der

Ladungsquadrate eines Faktors werden maximiert), d.h. durch das Extremwertproblem

k

X

j=1 p

X

i=1

d

ij2

− (d

•j2

)

2 !

= max mit (d

•j2

) := 1 p

p

X

i=1

d

ij2

.

(iv) Die numerische L¨ osung der Optimierungsaufgabe erfolgt sukzessive

f¨ ur je zwei Faktoren.

(28)

Varimax-Rotation: Erster Schritt Optimierungsaufgabe

(v) Man beginnt mit j = 1 und j = 2 . Seien g

(1 2)

=

cos θ sin θ

− sin θ cos θ

die Rotationsmatrix mit dem Rotationswinkel θ und λ

(1 2)

die auf die ersten zwei Spalten reduzierte Faktorladungsmatrix.

(vi) Dann ergeben sich die Elemente der ersten zwei Spalten der normierten und rotierten Faktorladungsmatrix zu (i = 1, . . . , p)

d

i1

= 1 h

i

i1

cos θ − λ

i2

sin θ) , d

i2

= 1 h

i

i1

sin θ + λ

i2

cos θ) . (vii) Mit diesen d

i1

und d

i2

l¨ ost man die Optimierungsaufgabe

p

X

i=1

d

i12

− (d

•12

)

2

+

p

X

i=1

d

i22

− (d

•22

)

2 !

= max

θ

.

(29)

Varimax-Rotation: Fortsetzung Optimierungsaufgabe

(viii) Anschließend werden die dritte, vierte, . . . , und letzte Spalte der unrotierten Faktorladungsmatrix λ mit der rotierten ersten Spalte auf obige Weise rotiert.

(ix) Daran anschließend wird die rotierte zweite Spalte mit der rotierten dritten, vierten, . . . , rotierten letzten Spalte rotiert.

(x) Dieses Verfahren wird fortgesetzt, bis insgesamt k(k − 1)/2 Rotationen durchgef¨ uhrt sind.

(xi) Mitunter wird in (ii) auch die Skalierung durch die Kommunalit¨ aten

nicht durchgef¨ uhrt.

(30)

Quartimax-Rotation

Bem. 6.3.3

I

Bei der Quartimax-Rotation m¨ ochte man m¨ oglichst jedes Merkmal durch wenige allgemeinen Faktor erkl¨ aren.

I

Praktisch sucht man die Rotation, bei der die Summe der Varianzen der gewichteten Ladungsquadrate einer Variablen

p

X

i=1 k

X

j=1 p

X

i=1

δ

ij2

− (δ

i2

)

2 !

= max mit (δ

i•

) := 1 k

p

X

i=1

δ

ij2

.

maximiert wird.

(31)

6.4 Sch¨ atzung der allgemeinen Faktoren f¨ ur einen Merkmalsvektor

I

Bisher wurden f¨ ur eine Datenmatrix x die Sch¨ atzungen ` f¨ ur die Faktorladungsmatrix, ψ f¨ ur die Matrix der spezifischen Varianzen und x f¨ ur die Erwartungswerte betrachtet.

I

In bestimmten Situationen kann es aber auch von großem Interesse sein, f¨ ur einen gegebenen konkreten Merkmalsvektor x die

zugeh¨ origen Auspr¨ agungen der allgemeinen Faktoren zu sch¨ atzen, d.h. einen k −dimesionalen Vektor ˆ f , so dass gilt

x = ` ˆ f + ˆ u + x .

I

Genutzt werden bei den Sch¨ atzungen oft der zentrierte

Merkmalsvektor y = x − x oder der standardisierte Merkmalsvektor mit den Komponenten y

i

= x

i

− x

i

s

ii

.

(32)

Bartlett - und Thompson -Faktor-Sch¨ atzung

I

Es gibt verschiedene Sch¨ atzmethoden f¨ ur die Faktorwerte, z.B.

basierend auf einer Regression oder die Sch¨ atzung nach Anderson-Rubin .

I

Die Bartlett -Faktor-Sch¨ atzung nutzt die Formel ˆ f =

`

T

ψ

−1

`

−1

`

T

ψ

−1

y .

I

Die Thompson -Faktor-Sch¨ atzung nutzt die Formel ˆ f =

`

T

ψ

−1

` + I

k

−1

`

T

ψ

−1

y .

(33)

6.5 Beispiel Autokaufentscheidung

I

Quelle: Horst Rinne , Statistische Analyse multivariater Daten : Einf¨ uhrung, R.Oldenbourg Verlag, M¨ unchen, Wien, 2000; Beispiel 5/1; siehe auch Vorlesungsskript Prof. Dr. Fred B¨ oker,

Georg-August-Universit¨ at G¨ ottingen, Analyse mehrdimensionaler Daten, Kap. 5 Faktorenanalyse,

https://www.uni-goettingen.de/de/304527.html.

I

Vergebene Punktzahlen (zwischen 0 und 20) von 25 K¨ aufern eines neuen Autos in einem Autohaus hinsichtlich der Wichtigkeit der Merkmale (in dieser Reihenfoge)

I

Anschaffungspreis,

I

Betriebskosten,

I

Umfang der Serienausstattung,

I

Styling der Karosserie,

I

Prestige der Marke,

I

Fahrkomfort,

I

Raumangebot.

(34)

Fortsetzung Bsp. 6.5

I

Es gibt zwei Eigenwerte der Korrelationsmatrix gr¨ oßer als 1.

I

Eine Hauptkomponentenanalyse der nicht skalierten und der skalierten Daten ergibt jeweils zwei Hauptkomponenten, die zusammen mehr als 91 % der Gesamtstreuung erkl¨ aren, bei 3 Hauptkomponenten sind es jeweils mehr als 94 % der

Gesamtstreuung.

I

Die Scree-Plots ergeben auch die Nutzung von 2 oder 3 Faktoren,

hier werden 2 gew¨ ahlt.

(35)

2. Fortsetzung Bsp. 6.5

I

In R kann eine Faktoranalyse z.B. mit dem Befehl factanal() durchgef¨ uhrt werden. Dabei wird eine Normalverteilung der Daten angenommen und die Maximum-Likelihood-Faktor-Analyse mit Varimax-Rotation berechnet.

I

Man erh¨ alt f¨ ur die Daten die folgende Faktorladungsmatrix und ein entsprechendes Schema f¨ ur die Faktorladungen betragsm¨ aßig gr¨ oßer als 0.5 :

` =

−0.2522 0.9539

−0.0322 0.8431 0.0964 0.9383 0.8995 −0.0007 0.9093 −0.2814 0.8713 0.4080 0.9415 −0.2049

 ,

x x x x x x x

.

I

Den ersten Faktor k¨ onnte man als

” Produktdesign“, den zweiten als

” Wirtschaftlichkeit“ bezeichnen.

(36)

3. Fortsetzung Bsp. 6.5

I

Die Variablen k¨ onnen in Faktorraum wie folgt dargestellt werden:

I

Eine Berechnung der Thompson -Faktorsch¨ atzwerte erfolgt z.B.

durch factanal(...,scores=’’regression’’).

I

Eine Varimax-Rotation der ersten beiden Hauptkomponenten ergibt

eine Ladungsmatrix, die sich nur wenig von der Ladungsmatrix bei

der Maximum-Likelihood-Faktoranalyse mit Varimax-Rotation

unterscheidet.

Referenzen

ÄHNLICHE DOKUMENTE

I Um f¨ ur eine gegebene Distanzmatrix d eine Punktekonfiguration berechnen zu k¨ onnen, reicht es also aus, die dazu entsprechende Matrix b zu berechnen.. Die in diesen R¨

Das Merkmal Bev ist die absolute Bev¨olkerungszahl (in tausend Einwohner) der Region, w¨ahrend das Merkmal BevOZ die Bev¨olkerungszahl (in tausend Einwohner) im Oberzentrum und

Halbe Schwebungsperiode (Energie ist von einem zum anderen Pendel und zurück geflossen, d.h. Wilberforce), eine Kombination aus Federpendel (senkrechte Schwingung) und

Im Falle einer konservativen Kraft F ⃗ kann die gesuchte Skalarfunktion Φ auch durch Auswertung eines Linienintegrals

Für infinitesimal kleine

Keywords: Computer vision, 3-D model construction, image sequence (motion) analysis, optic flow, Kalman filter, surface interpolation, computer aided design, computer

Es  wird  das  Geschwindigkeitsfeld  einer  stationären  Strömung betrachtet,

Hinweis: Die Ableitungen von f(r) nach x, y, z k¨ onnen und m¨ ussen mit Hilfe der Ket- tenregel auf Ableitungen von f(r) nach r zur¨ uckgef¨ uhrt werden!. Die Aufgabe l¨ aßt sich