Principal Component Analysis (PCA)

(1)

Principal Component Analysis (PCA)

• Motivation: Klassifikation mit der PCA

• Berechnung der Hauptkomponenten

• Theoretische Hintergründe

• Anwendungsbeispiel: Klassifikation von Gesichtern

• Weiterführende Bemerkungen

Birgit Möller & Denis Williams

AG Bioinformatik & Mustererkennung Institut für Informatik

(2)

Motivation

Rückblick: Klassifikation von Mustern Allgemeine Vorgehensweise:

1. Berechnung von geeigneten Merkmalen aus den Mustervektoren 2. Training eines Klassifikators, z.B. NN-Klassifikator

3. Zuordnung neuer Merkmalsvektoren zu einer Klasse

⇒ offene Frage: Wie findet man geeignete Merkmale zur Klassifikation?

• für Bilder als Mustervektoren bewährt:

Hauptkomponentenanalyse (PCA)

(3)

Motivation

Grundidee:

”Ermögliche Klassifikation durch Transformation der Mustervektoren in einen niedriger-dimensionalen Unterraum, in dem der Hauptteil der Datenvariation liegt.”

Annahme dabei:

Variation in den Daten entspricht einem hohen Informationsgehalt!

(4)

Algorithmus

• gegeben seien mittelwert-freie Mustervektoren ~x^α, α = 1. . . N, ~x^α ∈ R^d:

1 N

PN

α=1~x^α = 0 Algorithmus:

1. berechne die Autokorrelationsmatrix C^xx der Datenmenge:

C_ij^xx = 1 N

N

X

α=1

~x^α_i ~x^α_j (1)

• C^xx ist positiv-definit und symmetrisch.

2. berechne die Eigenwerte λ_i und die Eigenvektoren vˆ_i von C^xx:

C^xx · vˆ_i = λ_i · vˆ_i (Eigenwertgleichung) (2)

• aufgrund der Symmetrie gilt: vˆ_i · vˆ_j := δ_ij

⇒ die Eigenvektoren bilden eine Orthonormal-Basis des R^d

(5)

Es gilt nun:

• jeder Datenvektor ~x^α besitzt die Eigenvektorzerlegung

~x^α =

d

X

i=1

t^α_i · vˆ_i ⇐⇒ t^α_j = ~x^α · vˆ_j (3)

• die t^α_i sind zentriert und paarweise unkorreliert

• die Eigenwerte λ_i liefern die Varianz in den t^α_i : 1

N

X

α=1

t^α_i t^α_j = λ_i · δ_ij , (4) denn

1 N

N

X

α=1

t^α_i t^α_j = 1 N

N

X

α=1

ˆ

v_i~x^α (~x^α)^T vˆ_j = ˆv_i · C^xx · vˆ_j = λ_i · δ_ij (5)

(6)

Interpretation

• die Eigenvektorzerlegung beschreibt jeden Vektor ~x^α durch einen neuen Parametervektor (Merkmalsvektor!)

~t^α = (t^α₁, t^α₂,· · · , t^α_d)^T

• die t^α_i gehen durch lineare Transformation aus den ~x^α hervor:

t^α_j = ~x^α · vˆ_j

• die Eigenwerte λ_i liefern die Varianzen in den einzelnen t^α_i

⇒ Dimensionsreduktion durch Auswahl einer Teilmenge der Basisvektoren bei der Transformation

(7)

Dimensionsreduktion

• die Eigenwerte seien absteigend sortiert:

λ₁ ≥ λ₂ ≥ · · · ≥ λ_d

• Abbruch der Eigenvektorzerlegung nach dem k-ten Term liefert Approximation x˜^α für ~x^α:

˜

x^α =

k

X

j=1

t^α_j · vˆ_j

• Approximationsfehler δx˜^α:

δx˜^α = ~x^α − x˜^α =

d

X

j=k+1

t^α_j · vˆ_j

(8)

Statistische Analyse

Frage: Wie groß ist der Approximationsfehler im Mittel?

• Berechnung des Erwartungswertes des quadratischen Fehlers:

< (δx˜^α)² >_α = 1 N

X

α

(δx˜^α)²

= 1 N

X

α

X

i>k

X

j>k

t^α_i t^α_j vˆ_ivˆ_j

= 1 N

X

α

X

i>k

X

j>k

t^α_i t^α_j δ_ij

= 1 N

X

α

X

i>k

(t^α_i )² = X

i>k

< (t^α_i )² >_α = X

i>k

λ_i

⇒ der mittlere Approximationsfehler ist gleich der Summe unberücksichtigter Eigenwerte!

(9)

Statistische Analyse

Fazit:

• Mitnahme der k größten Eigenvektoren führt zu Minimierung des mittleren Approximationsfehlers unter allen Projektionen

auf k-dimensionale Unterräume

• Dimensionsreduktion auch bekannt als Karhunen-Loeve-Entwicklung Offene Frage: Wie wählt man k geschickt?!

⇒ anhand der Eigenwertverteilung von C^xx

(10)

Zwischenfazit

• Eigenwertanalyse gibt Aufschluß über intrinsische Datendimensionalität

• PCA macht keine Aussage über semantischen Gehalt der Daten

⇒ Achtung bei starkem Rauschen in den Daten!!!

Fazit:

• PCA fokussiert durch Dimensionsreduktion auf spezifische Charakteristika der zu klassifizierenden Daten

• der entstehende (niedrig-dimensionale) Datenraum beschreibt die Mustercharakteristik optimal bei gewählter Dimension k

(11)

Eigenfaces

Klassifikation von Gesichtern - Eigenfaces

Grundidee:

• Repräsentation der gesicht-spezifischen Merkmale von Bildern in einem geeigneten Unterraum

• Klassifikation eines unbekannten Musters durch Auswertung seiner Projektion in den gewählten Unterraum

Der Klassifikator unterscheidet zwei Modi:

1. Systeminitialisierung:

Training des Klassifikators auf einer Trainingsmenge 2. Arbeitsphase:

Klassifikation unbekannter Muster (mit optionalem Update)

(12)

Phase I - Initialisierung

• gegeben eine Menge von M Trainingsmustern ~x_α ∈ R^N², α = 1 · · ·M (fasse N × N-dimensionales Bild als N²-dimensionalen Vektor auf)

• berechne “Facespace“ durch Auswahl von L Eigenvektoren der Korrelationsmatrix C^xx als Basis des gesuchten Unterraums R^L

• berechne Merkmalsvektoren ~ω_α der Trainingsvektoren ~x_α als Repräsentanten der einzelnen Klassen Ω_i (NN-Klassifikator)

Berechnung der Eigenvektoren:

C^xx = 1 M

M

X

α=1

~

x_α(~x_α)^T = 1

M A A^T mit A = [~x₁ · · ·~x_M] (6) Problem:

~

x_i ∈ R^N², d.h. für Bilder der Größe 256 × 256 folgt N² = 65536 und A ∈ R^N²^×N² !!!

(13)

Phase I - Initialisierung

“Trick 17“:

Ist die Anzahl der Datenpunkte M sehr viel kleiner als ihre Dimension N², dann lassen sich nur maximal M − 1 aussagekräftige Eigenvektoren finden!

⇒ leite Eigenvektoren aus niedrig-dimensionalem Unterraum ab!

• die Eigenvektoren vˆ_i von A^TA sind gegeben durch A^TAvˆ_i = λ_ivˆ_i

• ferner gilt: AA^TAˆv_i = λ_iAˆv_i

⇒ die Aˆv_i entsprechen den Eigenvektoren uˆ_i von C^xx = AA^T

• A^TA hat die Dimension M × M, mit (A^TA)_mn = ~x^T_m~x_n

(14)

Phase I - Initialisierung

Algorithmus - auf einen Blick:

1. berechne Matrix A^TA

2. berechne die Eigenvektoren vˆ_i von A^TA

3. berechne die Eigenvektoren u_i von AA^T (“Eigenfaces“) aus u_i = Aˆv_i 4. projiziere die Trainingsmuster ~x_α in den Unterraum (“Facespace“) und

verwende deren Projektionen ω~_α als Repräsentanten für einen intuitiven Klassifikator

(15)

Phase II - Klassifikation

Gegeben ein unbekanntes Muster ~x.

• berechne die Eigenvektorzerlegung des Eingabemusters (Projektion in den “Facespace“)

t_k = ˆu_k · (~x − x)¯ mit x¯ = 1 M

M

X

α=1

~x_α

• klassifiziere über Distanzen zu den Repräsentanten:

_i = k ~t− ~ω_i k² < θ₁ mit ~ω_i Repräsentant der Klasse Ω_i

• Problem:

auch Nicht-Gesichter werden unter Umständen auf Merkmalsvektoren nahe den Repräsentanten abgebildet!

(16)

Phase II - Klassifikation

Rückweisungskriterium:

ψ = k ~x − x˜ k² > θ₂ mit x˜ =

L

X

i=1

t^~^x_iuˆ_i

Damit resultieren drei Fälle, die zu unterscheiden sind:

a) ψ > θ₂: Rückweisung

b) ψ < θ₂, > θ₁: unbekanntes Gesicht c) ψ < θ₂, < θ₁: bekanntes Gesicht

(17)

Abschliessende Bemerkungen

• Trainingsmenge:

je größer, desto besser, aber auch desto aufwändiger! (30 bis 40 Bilder)

• Eigenfaces sind nicht – skalierungsinvariant

⇒ Ausschnitte gleicher Größe verwenden oder explizit skalieren!

(erst Lokalisation anhand alternativer Kriterien, dann Skalierung) – beleuchtungsinvariant

⇒ zu große Varianz in der Beleuchtung vermeiden!

• weiteres Problem: Hintergrund!

⇒ je mehr Varianz dort, desto störender!

(einfarbigen Hintergrund verwenden oder Randbereiche maskieren)

(18)

Abschliessende Bemerkungen

Suche nach Gesichtern in großen Bildern:

• projiziere jeweils Ausschnitte in den ”Facespace” und klassifiziere gemäß

ψ = k ~x − x˜ k² > θ₂ mit x˜ =

L

X

i=1

t^~^x_i uˆ_i

• Aber Achtung: mitunter sehr aufwändig!!!

• Verbesserungen:

– Offline-Berechnung einzelner Terme – Auflösungspyramide

– Groblokalisation, z.B. durch Farbe, dann Verifikation – Kalmanfilter beim Tracking