• Keine Ergebnisse gefunden

Principal Component Analysis (PCA)

N/A
N/A
Protected

Academic year: 2022

Aktie "Principal Component Analysis (PCA)"

Copied!
40
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

|

|

Seminar für Statistik Markus Kalisch 25.11.2014 1

Principal Component Analysis (PCA)

(aka Hauptkomponentenanalyse)

(2)

 Supervised Learning: Erkläre Zielgrösse durch erklärende Variablen

Ergebnis kann validiert werden (Fehlerrate, Kreuzvalidierung)

 Unsupervised Learning: Finde “interessante” Strukturen in Daten (z.B. Gruppen); es gibt keine Zielgrösse

Ergebnis kann nicht validiert werden; subjektiv

Unsupervised Learning

(3)

|

| Seminar für Statistik

 Wie visualisiert man hochdimensionale (>3) Datensätze ?

25.11.2014

Markus Kalisch 3

Beispiel 1: Visualisieren

(4)

 Wie komprimiert man viele Variablen in wenige Variablen, die die Daten gut beschreiben?

Beispiel 2: Komprimieren

Gen 1 Gen 2 … Gen 6829 Gen 6830

Person 1 1.3 4.3 3.1 9.2

Person 2 8.2 5.5 3.2 5.8

Z1 Z2 … Z9 Z10 Person 1 1.3 4.3 3.1 9.2 Person 2 8.2 5.5 3.2 5.8

(5)

|

| Seminar für Statistik

Wie erstellt man einen eindimensionalen Index, der Subjekte möglichst gut unterscheidet?

25.11.2014

Markus Kalisch 5

Beispiel 3: Unterscheiden

Siebenkampf

(6)

PCA: “Gute” Projektion in wenige Dimensionen

“Gut” = Möglichst viel Varianz

3D

2D

(7)

|

|

Seminar für Statistik Markus Kalisch 25.11.2014 7

PCA: “Bester” Subraum

(bzgl. Residuenquadratsumme)

(8)

PCA: Intuition

Richtung mit grösster Streuung:

1. Hauptkomponente, PC 1 Senkrecht zu PC 1, wieder mit mglst.

grosser Streuung: PC 2

(9)

|

|

Seminar für Statistik Markus Kalisch 25.11.2014 9

Konvention: Zentrieren

X1 X2

X1 X2

(10)

PCA: Intuition

Standard basis (0.3, 0.5)

X1 X2

(11)

|

|

Seminar für Statistik Markus Kalisch 25.11.2014 11

PCA: Intuition

Richtung mit grösster Streuung:

(1,1)

Wähle eine der beiden Richtungen willkürlich

(12)

PCA: Intuition

Auf Länge 1 normieren:

1

2 , 1

2 =: (𝜙

11

, 𝜙

21

)

(13)

|

|

Seminar für Statistik Markus Kalisch 25.11.2014 13

PCA: Intuition

PC 2:

- Senkrecht zu PC 1

- Wieder Richtung mit grösster Streuung In 2d gibt es nur noch zwei Möglichkeit;

wähle eine willkürlich: (-1, 1)

Wähle eine der beiden Richtungen willkürlich

(14)

PCA: Intuition

Auf Länge 1 normieren:

− 1

2 , 1

2 =: (𝜙

12

, 𝜙

22

)

(15)

|

|

Seminar für Statistik Markus Kalisch 25.11.2014 15

𝑃𝐶1 = 1

2, 1

2 =: (𝜙11, 𝜙21)

𝑃𝐶2 = − 1

2, 1

2 =: (𝜙12, 𝜙22)

PCA: Ergebnis

Richtung der PCs bzgl. Standardbasis:

“loadings”

(16)

PCA: Basiswechsel

Standard basis

(𝑋1 = 0.3, 𝑋2 = 0.5)

X1 X2

(17)

|

|

Seminar für Statistik Markus Kalisch 25.11.2014 17

PCA: Basiswechsel

Neue Basis:

- Vektor 1: PC1 - Vektor 2: PC2 (𝑍1 =? , 𝑍2 =? )

(18)

PCA: Basiswechsel

(𝑋1 = 0.3,

𝑋2 = 0.5) 𝜙11 = 1

2, 𝜙21 = 1 2

Skalarprodukt:

𝑍1 = 𝑋1, 𝑋2 𝜙11, 𝜙21 = 𝑋1 𝜙11 + 𝑋2 𝜙21 = 𝑍1

(19)

|

|

Seminar für Statistik Markus Kalisch 25.11.2014 19

PCA: Basiswechsel

(𝑋1 = 0.3, 𝑋2 = 0.5) 𝜙12 = − 1

2, 𝜙22 = 1 2

Skalarprodukt:

𝑍2 = 𝑋1, 𝑋2 𝜙12, 𝜙22 = 𝑋1 𝜙12 + 𝑋2 𝜙22 =

= 0.3 −1

2 + 0.5 1

2 0.14 𝑍2

(20)

PCA: Basiswechsel

Neue Basis:

- Vektor 1: PC1 - Vektor 2: PC2

(𝑍1 = 0.57, 𝑍2 = 0.14)

Koord. 1 Koord. 2 Std. Basis 𝑋1 = 0.3 𝑋2 = 0.5 PC Basis 𝑍1 = 0.57 𝑍2 = 0.14

“scores”

(21)

|

| Seminar für Statistik

Ihr Kollege hat unabhängig von Ihnen auch die PCA

durchgeführt und berechnet nun die PC Koordinaten des Punktes (0.3, 0.5). Er bekommt bei 𝑍1 ein anderes

Vorzeichen als Sie. Ist das ein Hinweis auf einen Fehler in seiner Analyse?

1. Ja 2. Nein

25.11.2014

Markus Kalisch 21

Andere Koordinaten ?

Koord. 1 Koord. 2 Std. Basis 𝑋1 = 0.3 𝑋2 = 0.5 PC Basis 1 𝑍1 = 0.57 𝑍2 = 0.14 PC Basis 2 𝑍1 = −0.57 𝑍2 = 0.14

(22)

PCA: Basiswechsel mit Linearer Algebra

Koord. 1 Koord. 2 Std. Basis 𝑋1 = 0.3 𝑋2 = 0.5 PC Basis 𝑍1 = 0.57 𝑍2 = 0.14

• Standard Basis und PC Basis sind je eine Orthonormal Basis (Achsen senkrecht, Länge 1)

• Basiswechsel: Rotationsmatrix Φ

• Spalten der Rotationsmatrix sind loadings:

Φ = 1/ 2 −1/ 2 1/ 2 1/ 2

• Basiswechsel mit Rotationsmatrix ist einfach:

Φ: Von PC Basis nach Standardbasis Φ−1: Von Standardbasis nach PC Basis

Φ−1 = 1/ 2 1/ 2

−1/ 2 1/ 2 ; 𝑍 = Φ−1 𝑋 =

1 2

1 2

1 1 0.3

0.5 = 0.57 0.14 PC1 PC2

X1 X2

X1 X2

PC1 PC2

Bzgl. Std.basis

(23)

|

| Seminar für Statistik

 Zentriere Daten

 Angenommen, 1. PC ist in Richtung Φ1 = 𝜙11, 𝜙21, … , 𝜙𝑝1

 Betrachte Datenpunkt 𝑖:

Koordinaten bzgl. Standardbasis 𝑥𝑖 = (𝑥𝑖1, 𝑥𝑖2, … , 𝑥𝑖𝑝)

 Neue erste Koordinate von Datenpunkt 𝑥𝑖:

𝑧𝑖1 = Φ1 ∗ 𝑥𝑖 = 𝜙11 ∗ 𝑥𝑖1 + 𝜙21 ∗ 𝑥𝑖2 + ⋯ + 𝜙𝑝𝑖 ∗ 𝑥𝑖𝑝

 Koordinaten bzgl. PC-Basis 𝑧𝑖 = (𝑧𝑖1, 𝑧𝑖2, … , 𝑧𝑖𝑝)

 Kriterium für 1. PC (vgl. Gleichung (10.3) in ISLR):

𝜙11max,…,𝜙𝑝1 𝑉𝑎𝑟 𝑧𝑖1 𝑠𝑜𝑑𝑎𝑠𝑠 𝐿ä𝑛𝑔𝑒 𝑣𝑜𝑛 Φ1 = 1

25.11.2014

Markus Kalisch 23

Wie findet man 1.PC - Mathematik

(24)

 Singulärwertzerlegung der Kovarianzmatrix (= Singular Value Decomposition, SVD)

 Schlechtere Alternative:

Eigenwertzerlegung der Kovarianzmatrix In R:

 Funktion prcomp verwendet Singulärwertzerlegung der Kovarianzmatrix

 Funktion princomp verwendet Eigenwertzerlegung der Kovarianzmatrix

Wie findet man 1. PC - Numerik

empfohlen

(25)

|

| Seminar für Statistik

Messungen auf einer Landkarte (z.B. Bodenschätze)

25.11.2014

Markus Kalisch 25

To scale or not to scale …

Welche Einheiten ?

(26)

Faustregeln:

 Daten immer zentrieren

 Falls alle Variablen in der gleichen Einheit sind: Nicht skalieren

 Falls Variablen in unterschiedlichen Einheiten sind:

Skalieren

To scale or not to scale …

(27)

|

|

Seminar für Statistik Markus Kalisch 25.11.2014 27

Beispiel 1: Visualisierung

(28)

Beispiel 1: Interpretation der PCs

• PC 1 ist gross, wenn v.a. Murder, Assault und Rape klein sind

PC 1 spiegelt “Verbrechen” wieder

• PC 2 ist gross, wenn UrbanPop klein ist

PC 2 spiegelt “Verstädterung” wieder

(29)

|

|

Seminar für Statistik Markus Kalisch 25.11.2014 29

Biplot: PC1 vs PC2

- Projektion auf die Ebene mit der grössten Streuung

- West Virginia und Vermont scheinen ähnlich; California und Vermont

scheinen verschieden

- Rot: Projektion der ursprüngl.

Koordinatenachsen:

PC1 ~ Verbrechen PC2 ~ Verstädterung

(30)

PCA: Dim.reduktion

Neue Basis:

- Vektor 1: PC1 - Vektor 2: PC2

(𝑍1 = 0.57, 𝑍2 = 0.14)

Dimensionsreduktion:

Behalte nur die ersten paar PC’s

viel Varianz erklärt

Koord. 1 Koord. 2 Std. Basis 𝑋1 = 0.3 𝑋2 = 0.5 PC Basis 𝑍1 = 0.57 𝑍2 = 0.14 Dim.reduktion 𝑍1 = 0.57 -

(31)

|

| Seminar für Statistik

 Es gibt so viele PCs wie es X-Variablen gibt

25.11.2014

Markus Kalisch 31

Wie viele PCs?

0 PCs

perfekt komprimiert

Varianz in Daten nicht erfasst

alle PCs

nicht komprimiert

Varianz in Daten perfekt erfasst

Kompromiss

(32)

 Ziel: Möglichst viel Varianz in den Daten erfassen

 Varianz entlang der PCs nimmt ab

Screeplot: Wie viele PCs bei USArrests?

(33)

|

| Seminar für Statistik

 64 Krebszell-Linien; je 6830 Gene

 Wie fasst man die Anzahl Gene zusammen ?

 (Vgl. ISLR 10.6.1)

25.11.2014

Markus Kalisch 33

Beispiel 2: NCI60 Data

Gen 1 Gen 2 … Gen 6829 Gen 6830

Person 1 0.3 1.18 … -0.34 -1.93

Person 64 0.35 -0.27 … -0.15 1.21

(34)

Beispiel 2: NCI60 Data

Z1 Z2 … Z9 Z10 Person 1 1.3 4.3 3.1 9.2

Person 64 8.2 5.5 3.2 5.8 PCA

Gen 1 Gen 2 … Gen 6829 Gen 6830

Person 1 0.3 1.18 … -0.34 -1.93

Person 64 0.35 -0.27 … -0.15 1.21

Wie viele PCs?

(35)

|

|

Seminar für Statistik Markus Kalisch 25.11.2014 35

Beispiel 2: Klare Struktur mit nur 2 PCs

(36)

Beispiel 2: Scree-Plot

“elbow”

• Die ersten ca. 10 PCs haben grosses PVE; danach flacht Kurve ab

(37)

|

| Seminar für Statistik

Wie erstellt man einen eindimensionalen Index, der Subjekte möglichst gut unterscheidet?

25.11.2014

Markus Kalisch 37

Beispiel 3: Siebenkampf

Siebenkampf

(38)

Bsp 3: Korrelationsmatrix

(39)

|

|

Seminar für Statistik Markus Kalisch 25.11.2014 39

Bsp 3: Scree-Plot

PC 1 erklärt schon über 60% der Varianz !

PC 1 ist die “Richtung”, in der die Punkte am meisten streuen ideal für Ranking

(40)

PC 1 vs. Olympischer Score

PC 1 gibt den olympischen

Score (mit kleinen Ausnahmen) gut wieder.

Referenzen

ÄHNLICHE DOKUMENTE

Estimation results — We report the results for the loadings estimated by spec- tral decomposition of dual covariance matrix for option price functions, and the es- timates of the

M. Theoretical foundations of the potential function method in pattern recognition learning. A training algorithm for optimal margin classiers. In Fifth Annual Workshop on COLT

language model in NLP: a probability that a string is a member of a language (originally developed for the problem of speech recognition) Machine Learning - creating and using

do not span the whole space (e.g. the dimension of the space is higher as the number of the data points). It will be important later for the feature spaces.. Why is it so? Proof

Keywords: principal components; asymmetric norm; dimension reduction; quantile; expec- tile; fMRI; risk attitude; brain imaging; temperature; functional data.. JEL Classification:

Keyword: Principal Component Analysis, Design of Experiment, Plant-wide Optimisation, Statistical Process Optimization, PASPO, Big Data Analytics 1.0 Introduction.. Development of

• PC 1: Straight line with smallest orthogonal distance to all points. • PC 1 & PC 2: Plane with smallest orthogonal distance to

• PC 1: Straight line with smallest orthogonal distance to all points. • PC 1 & PC 2: Plane with with smallest orthogonal distance to