• Keine Ergebnisse gefunden

2. THEORIE UND GRUNDLAGEN

2.3 S PEZIELLE L ERNREGELN UND A NALYSEMETHODEN

2.3.3 Independent Component Analysis (ICA)

Die Independent Component Analysis (ICA) ist ein wichtiges statistisches Verfahren, mit dem Korrelationen höherer Ordnung in einer hochdimensionalen Datenmenge entfernt werden können. Im Vergleich dazu werden bei der PCA nur Korrelationen 2. Ordnung berücksichtigt.

Ein Spezialfall der ICA ist die sogenannte Blind Source Separation (BSS). Die ersten Arbeiten über BSS wurden von Jutten et al. [Jutten91] veröffentlicht. Bis heute ist BSS und ICA Gegenstand vieler Forschungsprojekte.

Seien n unbekannte Quellensignale si(t) mit i = 1, . . ., n zu jeder Zeit t statistisch unabhängig, d.h. die gemeinsame Wahrscheinlichkeitsdiche p(s) ist gleich dem Produkt der marginalen Verteilungen:

Wenn nun lineare Mischungen dieser Quellensignale vorhanden sind, gelingt es der ICA, nur aus der Kenntnis der Mischungen die Quellensignale zu extrahieren. Die ICA wird verstärkt in den Bereichen wie Spracherkennung, medizinischer Signalverarbeitung und Bildverarbeitung eingesetzt.

Es gibt zahlreiche Algorithmen, die auf unterschiedliche Weise die ICA durchführen. So gibt es die nichtlinearen PCA-Algorithmen, siehe Oja et al. [Oja95] bzw. Karhunen [Karhunen96], die marginale Negentropy als Projektionsindex, um maximale Kurtosispro-jektionen zu finden [Girolami97], Maximum Likelihood Estimations [Cardoso97], Maximum Entropy [Yang97] oder Minimum Mutual Information (MMI) [Yang97]. Die meisten dieser Algorithmen basieren auf neuronalen Netzen. In dieser Arbeit wird der MMI-Algorithmus verwendet, der die „gegenseitige Information“ der Ausgabe minimiert.

Sei nun A ∈ ℜnxn eine lineare Mischungsmatrix, d.h. die Anzahl der Quellen soll gleich der Anzahl der Mischungen sein, so gilt:

( )

t As

( )

t

x = (2.37)

mit s

( )

t =

(

s1

( )

t ,...,sn

( )

t

)

T

( )

t =

(

x1

( )

t ,...,xn

( )

t

)

T

x

Die Komponenten xi(t) von x sind lineare Mischungen der Quellen si(t). Nur aus der Kenntnis von x(t) sollen die Quellensignale extrahiert werden.

Dazu betrachtet man folgende Transformation:

( )

t Wx

( )

t

y = (2.38)

W nennt man die Entmischungsmatrix, falls gilt:

W = A-1

( )

t WAs

( ) ( )

t st

y = =

Þ (2.39)

Gleichung (2.38) ist allerdings nicht ganz exakt. Die Originalquellen können nur bis auf einen Skalierungsfaktor und beliebige Permutationen genau bestimmt werden. Dies liegt daran, dass man in Gleichung (2.39) ein Produkt zweier unbekannter Größen, nämlich A und s(t) hat.

Die Entmischungsmatrix schreibt sich korrekt:

W = ΛΛΛΛPA-1 (2.40)

Wobei ΛΛΛΛ eine Diagonalmatrix ist, die die Skalierungsfaktoren enthält, und P eine Permutationsmatrix, die die Quellen richtig permutiert. Permutationsmatrix heißt, dass in jeder Zeile und Spalte genau eine Eins steht. Ein Spezialfall ist die Einheitsmatrix.

Die Entmischungsmatrix W muss so gewählt sein, dass die Qutputkomponenten ya(t) von y(t)=(y1(t), . . . , yn(t))T statistisch unabhängig werden, bzw. dass die statistischen Abhängigkeiten der Ausgabekomponenten untereinander minimiert werden. Diese Abhängigkeit kann man mit der Kullback-Leibler-Divergenz zwischen der gemeinsamen Wahrscheinlichkeitsdichtefunktion und dem Produkt der marginalen Wahrscheinlichkeits-dichtefunktionen der Ausgabe messen:

( ) [ ( ) ( ) ] ( ) ( )

Mit der gemeinsamen Wahrscheinlichkeitsdichtefunktion p(y;W) und dem Produkt der marginalen Wahrscheinlichkeiten p~

(

y;W

)

:

( ) ∏ ( )

Falls die Komponenten ya statistisch unabhängig sind, wird I(W) zu Null.

Die Lernregel für W erhält man, indem man die Kullback-Leibler-Divergenz I(W) mit einem Gradientenabstiegsverfahren minimiert:

Um nun I(W) berechnen zu können, benötigt man noch einen Ausdruck für die marginalen Wahrscheinlichkeiten pa(ya;W) die nach Standardverteilungen entwickelt werden können.

Allgemein gilt:

wobei ci Entwicklungskoeffizienten, Ki(ya) orthogonale Polynome und β(ya) eine Standardverteilung darstellen. In dieser Arbeit werden zwei Entwicklungen, die Gram-Charlier und die Edgeworth-Entwicklung betrachtet.

Die Gram-Charlier-Entwicklung verwendet als Standardverteilung die Gaußverteilung:

( ) ( )

22

und als orthogonale Polynome die Tschebyschev-Hermite-Polynome Hi(ya), die bei [Kendall69] definiert sind:

Die ersten fünf Tschebyschev-Hermite-Polynome lauten:

( )

x =1

und die Entwicklungskoeffizienten ci, die man durch Ausnützen der Orthogonalitätsbeziehung der Hi erhält.

0 =1 c

1 =0 c

(

1

)

Die Wahrscheinlichkeitsdichtefunktion lässt sich damit schreiben als:

( )

a

Um die Rechnung zu vereinfachen, trifft man die Annahme, dass

[ ]

2 1

2 =E ya =

µ ∀a=1,...,n (2.48)

und für weitere Kumulanten 3. und 4. Ordnung von ya definiert man:

úû

mit der Skewness κ3aund der Kurtosis κ4a. Damit lässt sich die Wahrscheinlichkeits-dichtefunktion schreiben als:

Für die partielle Ableitung der Kullback-Leibler-Divergenz ergibt sich damit:

( ) ( )

T ak

(

a a

) [ ]

a k

(

a a

) [ ]

a k

( )

y,z y z

Durch Ersetzen der Erwartungswerte E[.] durch die instantanen Werte ergibt sich in Matrixschreibweise:

Bei jedem Aktualisierungsschritt müsste das Inverse einer Matrix berechnet werden, was viel Rechenzeit beanspruchen würde. Yang und Amari [Yang97] zeigen, dass folgende Substitution gilt:

Mit dieser Beziehung kommt man zum natürlichen oder relativen Gradientenabstieg [Yang97], die auch für Koordinatensysteme, die nicht orthonormal sind, den steilsten Gradientenabstieg gewährleistet:

Gleichung (2.55) ist die fertige Lernregel, nach der die „Mutual Information“ der Ausgabe minimiert und somit statistische Unabhängigkeit zwischen den Komponenten des Ausgabevektors erzeugt wird.

φκ(y) bezeichnet man als die Nichtlinearität oder Score-Function der Lernregel.

Edgeworth-Entwicklung

Für die Edgeworth-Entwicklung betrachtet man die Fourier-Transformation von Hr(x)α(x).

Wobei Hr(x) Hermitsche-Polynome und α(x) wieder die Gauß’sche Normalverteilung darstellen [Kendall69].

Für die Wahrscheinlichkeitsdichtefunktion erhält man:

pa

( )

ya =

( ) ( ) ( ) ( ) ( ) ( )

und für die Funktionen f und g ergeben sich:

( )

y,z y y yz

Um diese Lernregeln implementieren zu können, müssen die Funktionen f und g definiert sein. Für die Gram-Charlier und die Edgeworth-Entwicklung müssen hierzu die Kurtosis und Skewness bestimmt werden, die mit (2.49) und (2.50) nach folgendem Schema bestimmt werden können:

Weitere Möglichkeiten für die Score-Function sind sogenannte fixed algorithms, bei denen eine feste Nichtlinearität φκ(y) verwendet wird.

( )

y =

(

f

( )

y1 ,...,f

( )

yn

)

T

φκ (2.61)

z.B. können folgende Funktionen eingesetzt werden [Yang97]:

( )

y y3

Um den Algorithmus zu testen, wurden fünf verschiedene Signale, wie Rechtecks-, Sägezahn-Sinus- und Rauschsignal, künstlich erzeugt. Unter der Annahme, dass die Signale statistisch unabhängig sind, wurden mittels einer Mischungsmatrix A fünf lineare Mischungen erzeugt.

Mit Hilfe von Gleichung (2.48) und der Nichtlinearität (2.62) konnten die Quellensignale aus den Mischungen extrahiert werden. Das Ergebnis ist in Abbildung 2.14 zu sehen. Man sieht, dass bis auf Permutationen und Skalierungsfaktoren die Originalsignale mit sehr guter Genauigkeit rekonstruiert werden konnten.

Abbildung 2.14: Beispiel für Blind Source Separation. In der linken Spalte sind die Quellsignale si(t), in der Mitte die linearen Mischungen xi(t) und rechts die mit dem ICA Algorithmus extrahierten Quellsignale yi(t). Bis auf die Permutationen und Skalierungsfaktoren können die Quellsignale aus den linearen Mischungen extrahiert werden.