Lineare Transformation der Variablen so dass:

(1)

Lineare Transformation der Variablen so dass:

• möglichst wenig neue Variablen die relevante Information beschreiben (Mass für die Relevanz ist die Varianz)

• die neuen Variablen orthogonal (unkorreliert) sind Zweck:

• explorative Datenanalyse

Entdeckung von Zusammenhängen in 2D Plots

• Modellbildung (z.B. Regression) mit den transformierten Daten Eliminiert die Gefahr von Artefakten

Eliminiert irrelevante Information (Rauschen)

Hauptkomponentenanalyse

(2)

Hauptkomponentenanalyse

1 3 2

4 6 5

x ₁ x ₂

PC1

PC2

t ₁₁

t ₁₂

x ₁₁ x ₁₂

t ₂₂

t ₂₁

Neue Koordinaten (scores, T-Matrix)

Berechnung der neuen Achsen

(Loadings, P-Matrix)

(3)

Hauptkomponentenanalyse

1 3 2

4 6 5

x ₁ x ₂

T ₂ T ₂

t ₁₁

t ₁₂

x ₁₁ x ₁₂

t ₂₂ t ₂₁

Es handelt sich um eine Rotation des

Koordinatensystems (Multiplikation mit einer orthogonalen Matrix).

Der Informationsgehalt der höheren Haupt-

komponenten nimmt rapide ab so dass sie ohne Verlust an Information weggelassen können.

Mass für den Informationsgehalt ist der Anteil an

der totalen Varianz, den die einzelnen Haupt-

komponenten beschreiben.

(4)

Hauptkomponentenanalyse und

Lineare Regression

Bei der Hauptkomponentenanalyse werden die Fehlerquadrate senkrecht zur Geraden minimalisiert (orthogonale Regression), bei der linearen

Regression diejenige in der y-Richtung.

y y

x x

(5)

Hauptkomponentenanalyse

= + . . .

X

m

n

M ₁

m

n

M ₂ +

m

n

+ M ₂

m

n

1 2 r

• Eine Matrix von Rang r kann als eine Summe von r Matrizes von Rang 1 ausgedrückt werden.

• Für eine n x m Matrix mit n > m, ist der Rang r £ m.

• Der Rang einer Matrix entspricht der Ordnung der grössten (quadratischen) Submatrix, deren Determinante (D) ungleich null ist.

(Eine Submatrix kann aus einer Matrix durch Weglassen einer beliebigen Anzahl von Zeilen und/oder Kolonnen gebildet werden).

• Der Rang enstspricht der Anzahl unabhängiger Informationen (Wenn eine Spalte oder Zeile einer Matrix als Linearkombination anderer Spalten/Zeilen ausgedrückt werden kann, ist die entsprechende Information nicht unabhängig).

• Eine quadratische Matrix mit D = 0 ist singulär und kann nicht invertiert werden.

(6)

Hauptkomponentenanalyse

+ + +

=

X

m 1 m

1 n n

m 1

1 n m 1

1 n

t ₁ p _1T

=

X

m

n

m r

r n

T P ^T

t ₂ p _2T t _r p _rT

Bei der Hauptkomponentenanalyse werden die Vektoren t und p so ausgewählt, dass 1. Die p Vektoren paarweise orthonormal sind,

2. Die t Vektoren orthogonal sind,

3. Jedes t-Vektor (Scores, neue Koordinaten) das Maximum der verbleibenden Varianz beschreibt.

. . .

(7)

Hauptkomponentenanalyse

+ + +

=

X

m 1 m

1 n n

m 1

1 n m 1

1 n

t ₁ p _1T

=

X

m

n

m r

r n

T P ^T

t ₂ p _2T t _r p _rT

Die weniger relevanten Hauptkomponenten können oft ohne wesentlichen Verlust an Information weggelassen werden (sie beschreiben das Rauschen und enthalten keine relevante Information).

. . .

(8)

Hauptkomponentenanalyse

110.71 102.05 88.52 504.01 76.54 66.49 102.05 267.23 240.15 1.24E+3 187.19 159.24 88.52 240.15 220.72 1.1E+3 165.44 141.35 504.01 1.24E+3 1.1E+3 5.85E+3 886.6 752.89 76.54 187.19 165.44 886.6 134.42 113.99 66.49 159.24 141.35 752.89 113.99 97.16 587.8

1314 1167 6212 941.0 799.4

0.082 0.199 0.177 0.942 0.143 0.121 44.01 107.36 95.3 507.49 76.87 65.31 107.4 261.86 232.46 1.24E+3 187.5 159.3 95.3 232.46 206.36 1.1E+3 166.45 141.4 507.5 1.24E+3 1.1E+3 5.85E+3 886.34 753 76.87 187.5 166.45 886.34 134.25 114.1 65.31 159.29 141.41 753 114.06 96.9

X

X - M ₁ t ₁

p _1T

M _{1 =} t ₁ p _1T

X - M ₁ - M ₂ t ₂

p _2T

M _{2 =} t ₂ p _2T

M _{3 =} t ₃ p _3T

66.7 -5.31 -6.78 -3.49 -0.33 1.18 -5.31 5.37 7.69 -2.06 -0.31 -0.06 -6.78 7.69 14.36 -3.57 -1.01 -0.06 -3.49 -2.06 -3.57 1.38 0.27 -0.10 -0.33 -0.31 -1.01 0.27 0.16 -0.07 1.19 -0.06 -0.06 -0.10 -0.07 0.26

-67.3 6.71 9.23 2.81 0.17 -1.19

66.28 -6.61 -9.09 -2.77 -0.17 1.17 -6.61 0.66 0.91 0.28 0.02 -0.12 -9.09 0.91 1.25 0.38 0.02 -0.16 -2.77 0.28 0.38 0.17 0.007 -0.05 -0.17 0.02 0.02 0.007 0.0004 -0.003 1.17 -0.12 -0.16 -0.05 -0.003 0.021

0.42 1.30 2.31 -0.72 -0.16 0.01 1.30 4.71 6.79 -2.34 -0.33 0.06 2.31 6.79 13.11 -3.96 -1.03 0.10 -0.72 -2.34 -3.96 1.27 0.26 -0.05 -0.16 -0.33 -1.03 0.26 0.17 -0.06 0.013 0.061 0.101 -0.054 -0.06 0.239 -0.985 0.098 0.135 0.041 0.003 -0.017

X - M ₁ - M ₂ - M ₃ t ₃

p _3T

0.149 0.464 0.831 -0.259 -0.06 0.007 2.78 8.65

15.48 -4.83 -1.11 0.13

0.42 1.29 2.31 -0.72 -0.17 0.02 1.29 4.02 7.19 -2.24 -0.52 0.062 2.31 7.19 12.87 -4.01 -0.92 0.111 -0.72 -2.24 -4.01 1.25 0.29 -0.035 -0.17 -0.52 -0.92 0.29 0.07 -0.008 0.02 0.06 0.11 -0.04 -0.008 0.001

0.0004 0.01 -0.005 -0.001 0.004 -0.007

0.01 0.69 -0.4 -0.1 0.19 -0.001

-0.006 -0.4 0.24 0.06 -0.11 -0.01

-0.0001 -0.1 0.06 0.02 -0.03 -0.02

0.004 0.19 -0.11 -0.03 0.1 -0.05

0.007 -0.001 -0.01 -0.02 -0.05 0.24

(9)

Hauptkomponentenanalyse:

Mathematische Grundlagen

Bei der Hauptkomponentenanalyse sucht man nach einer linearen Transformation der Koordinaten X (Transformationsmatrix P) in neue Koordinaten T (XP = T) so dass ein möglichst grosser Teil der Varianz beschrieben ist und dass die Transformationsmatrix orthonormal ist.

Man sucht also bei jedem Schritt nach den p und t Vektoren die die folgenden Bedingungen erfüllen:

1. t ^T t = max d.h. ((Xp) ^T (Xp) = p ^T X ^T Xp = max (X ^T X ist die Varianz-Kovarinazmatrix * (n-1)) 2. p ^T p = 1

Optimierung mit Nebenbedingungen, Methode der Lagrange Multiplikatoren:

Optimierung der Funktion f(x,y) unter der Bedingung dass g(x,y)=0

Vorgehen: Definition einer allgemeineren Funktion: u(x,y, l ) = f(x,y) - l g(x,y) ( l =Lagrange multiplier) p ^T X ^T Xp maximal, Nebenbedingung: p ^T p = 1

Funktion: u = p ^T X ^T Xp- l (p ^T p-1) du/dp = 2X ^T Xp-2 l p = 0

(A- l I)p = 0 (mit A = X ^T X): Klassisches Eigenwertproblem. p ist jeweils ein Eigenvektor der Varianz-

Kovarianzmatrix.

(10)

Hauptkomponentenanalyse

x11 x12 ... x1m x21 x22 ... x2m etc

t11 t12 ... t1n t21 t22 ... t2n etc

n n

m k

m

k

X T

P

=

Die zu den einzelnen Eigenvektoren p _i gehörenden Eigenwerte λ _i geben an, wie gross der Anteil der Gesamtvarianz ist, der durch sie repräsentiert ist.

Pr ob en Pr ob en

Orignanal-

variablen Transformierte

Variablen

X = T P ^T

T = X P da P eine orthogonale Matrix ist und für orthogonale Matrices

die Transponierte der Inversen entspricht.

(11)

Hauptkomponentenanalyse:

Das Vorgehen

1. Berechnung der Korrelationsmatrix (X ^T X-Matrix zentrierten und mit der Varianz skalierten Daten).

2. Berechnung der Eigenvektoren und Eigenwerte der X ^T X-Matrix. Die Eigenvektoren solcher Matrices sind reell und die Eigenwerte sind nicht negativ.

3. Auswahl der Anzahl signifikanter Eigenwerte. Der Anteil der Varianz die die ausgewählten r

Komponenten beschreiben ist: S l _i / k (k ist die Dimension der X ^T X-Matrix). Die den ausgewählten Eigenwerten entsprechenden Eigenvektoren bilden die Koeffizienten für die Linearkombination der ursprünglichen X-Variablen für die Berechnung der neuen Variablen T ("scores") d.h. sie bilden die "loadings"-Matrix.

4. Berechnung der T-Matrix ("scores"): T = XP

Man kann die Hauptkomponenten auch ohne Skalierung oder Zentrierung der Variablen berechnen.

Je nach Aufgabestellung kann die eine oder die andere Art sinnvollere Resultate geben.

(12)

Singularwert Zerlegung

n n

m r

r r

r m

X = U

W V ^T

Allgemein gilt, dass jede Matrix X in das Produkt dreier Matrices zerlegt werden kann: Singularwert-Zerlegung (Singular value decomposition):

X _nxm = U _nxr W _rxr V _Trxm mit U und V orthonormal und W diagonal.

Zusammenhang mit der Hauptkomponentenanalyse: U W = T ; V = P

Die Eigenwerte der X ^T X und XX ^T Matrices sind Λ = W ² , U ist die Matrix der

Eigenvektoren von XX ^T und V die Matrix der Eigenvektoren von X ^T X

(13)

Singularwertzerlegung (SVD): BSP

Bestimmung von drei Spurenelementen in Luftproben in Abhängigkeit der Windrichtung:

Windrichtung Na Cl Si

0 0.212 0.399 0.190

90 0.072 0.133 0.155

180 0.036 0.063 0.213 270 0.078 0.141 0.273

= X

X = U λ V ^T = =

0.753 0.618 0.343 -0.127 0.302 -0.567 0.473 -0.529

0.626 0 0 0.214

0.371 0.690 0.622 0.280 0.556 -0.783

0.212 0.399 0.190

0.072 0.133 0.155

0.036 0.063 0.213

0.078 0.141 0.273

(14)

Singularwertzerlegung (SVD): BSP

U ^T U= =

V ^T V= =

0.753 0.618 0.343 -0.127 0.302 -0.567 0.473 -0.529

0.371 0.280 0.690 0.556 0.622 -0.783

1 0 0 1 0.753 0.343 0.302 0.473

0.618 -0.127 -0.567 -0.529

1 0 0 1 0.371 0.690 0.622

0.280 0.556 -0.783

X ^T X = (U λ V ^T ) ^T U λ V ^T = V λ U ^T U λ V ^T = V λ ² V ^T V und λ ² sind Eigenvektoren und Eigenwerte der Matix X ^T X

XX ^T = (V λ U ^T ) ^T V λ U ^T = U λ V ^T V λ U ^T = U λ ² U ^T U und λ ² sind Eigenvektoren

und Eigenwerte der Matix XX ^T

(15)

SVD und PCA

T = U λ = = =

= X V =

0.753 0.618 0.343 -0.127 0.302 -0.567 0.473 -0.529

0.371 0.280 0.690 0.556 0.622 -0.783 0.626 0

0 0.214

0.472 0.132 0.215 -0.027 0.189 -0.122 0.296 -0.113

0.212 0.399 0.190

0.072 0.133 0.155

0.036 0.063 0.213

0.078 0.141 0.273

(16)

Teeproben: Hauptkomponentenanal.

-2.3 -4.38 -4.05 5.54 0.68 0.4 -1.74 -4.17 -4.01 4.35 0.53 0.28 -1.01 -3.82 -2.96 3.04 0.15 0.04 -0.49 -4.36 -2.56 1.67 -0.04 -0.13 -0.3 -3.2 -2.1 -0.21 -0.26 -0.32 0.3 -3.64 -1.97 -1.26 -0.38 -0.4 1.5 -3.6 -1.26 -2.39 -0.62 -0.55 -2.73 -3.95 -3.16 3.74 0.44 -0.24 -1.05 -3.48 -2.29 2.5 0.24 -0.42 -1.02 -3.56 -1.79 1.28 0.1 -0.51 0.2 -2.6 -0.38 0.56 -0.27 -0.61 0.37 -3.42 0.13 -0.47 -0.34 -0.82 -1.48 1.38 -2.51 -1.94 0.47 1.01 -0.81 0.83 -1.98 -2.85 0.38 0.93 0.52 0.84 -1.05 -3.43 0.26 0.7 1.24 -1.58 0.12 -4.15 -0.02 0.03 -0.85 -1.44 -2.36 3.19 1.27 1.9 -1.1 -1.48 -1.76 0.96 0.56 1.3 -0.99 -0.85 -1.58 0.25 0.35 1.08 -1.15 -0.87 -1.18 -0.28 0.23 0.86 -0.56 -1.15 0.03 -0.81 0.05 0.67 -0.69 -0.75 0.39 -0.95 -0.01 0.55 0.03 0.5 1.09 -1.33 -0.17 0.46 0.35 3.56 2.37 -2.84 -0.67 -0.45 0.33 3.07 2.97 -2.88 -0.79 -0.93 0.1 6.55 3.6 -2.97 -0.82 -1.52 0.12 6.3 4.29 -3.07 -0.93 -1.63 0.31 4.74 3.41 -4.53 -0.89 -0.62 0.94 4.95 3.58 -4.85 -1.04 -1.19 0.21 5.17 4.5 -4.63 -1.1 -1.58 0.05 5.14 5.02 -4.65 -1.12 -1.66 Teeproben: zentrierte Daten X-Matrix

32.74 46.84 51.35 -56.45 -10.77 -11.27 46.84 383.95 256.25 -232.75 -41.13 -44.22 51.35 256.25 217.2 -180.97 -40.61 -49.59 -56.45 -232.75 -180.97 268.55 41.71 38.28 -10.77 -41.13 -40.61 41.71 11.33 15.06 -11.27 -44.22 -49.59 38.28 15.06 25.99

Teeproben: Kreuzprodukt-Matrix (X ^T X)

7.277 0.569 17.95 45.252 93.109 775.61 Eigenwerte

-0.46 -0.02 0.79 0.34 -0.2 0.12 -0.3 -0.04 0.04 -0.41 0.54 0.67 0.58 0.07 0.04 0.62 0.16 0.5 -0.07 -0.08 0.12 0.28 0.79 -0.52 0.15 0.93 0.24 -0.21 0.08 -0.09 0.58 -0.36 0.56 -0.46 0.03 -0.1

Eigenvektoren (P-Matrix)

-0.051 -0.047 -1.101 -0.273 1.908 -8.201 -0.355 -0.063 -0.896 -0.39 0.953 -7.334 -0.29 -0.174 -0.648 0.188 0.084 -5.75 -0.168 -0.141 -0.551 0.566 -1.359 -5.108 -0.342 -0.14 -0.718 0.049 -2.211 -3.068 -0.402 -0.124 -0.459 0.281 -3.397 -2.665 -0.597 -0.174 0.237 0.914 -4.428 -1.519 0.254 0.159 -2.015 -0.204 0.905 -6.502 -0.2 0.154 -0.938 0.491 -0.05 -4.874 0.113 0.192 -1.128 0.571 -1.002 -4.022 0.022 -0.012 -0.305 1.389 -1.109 -2.11 0.422 0.145 -0.443 1.918 -2.336 -1.824 -0.384 0.019 -0.759 -3.726 -0.823 0.342 -0.217 0.084 -0.41 -3.146 -1.905 0.804 -0.403 0.145 0.444 -2.155 -2.499 1.77 0.279 0.345 0.427 -0.035 -4.386 1.287 0.521 0.138 0.921 -1.412 1.707 -4.209 0.697 -0.078 -0.024 -1.308 -0.014 -2.687 0.455 -0.15 -0.161 -1.469 -0.253 -1.753 0.658 -0.107 -0.486 -1.29 -0.604 -1.278 1.07 -0.076 -0.2 -0.252 -1.123 -0.478 1.151 -0.063 -0.369 -0.208 -0.941 0.045 0.806 -0.156 0.143 -0.07 -0.616 1.54 -0.003 -0.198 -0.232 -0.315 -0.082 5.19 0.204 -0.072 -0.546 0.484 -0.303 5.241 -0.697 0.041 -0.9 -0.369 1.642 7.972 -0.306 0.046 -0.967 0.212 1.522 8.226 0.256 -0.174 -0.522 -0.516 -0.631 7.406 -0.328 -0.089 -0.403 -0.077 -0.902 7.945 0.223 0.049 -1.136 0.407 -0.327 8.399 0.558 0.103 -1.295 0.721 -0.247 8.642 0.77% 0.06% 1.9% 4.8% 9.9% 82.5%

Neue Koordinaten: T = XP

(17)

Teeproben: Clustering

6

5

4

3

2

1 0 S i m i a l

r i y t

D e g r e e

C1 C2 H1 C3 C4 H2 H3 K1 K2 F2 F3 F4 F1 C5 C6 H4 H5 C7 K3 K4 F5 F6 F7 T1 T2 S1 T3 T4 S3 S4 S2

Gr ee n Gr ee n

Go od q ua lit y Lo w q ua lit y Bl ac k O ol on g

Bl ac k Bl ac k an d gr ee n te a

(18)

-2 -6

-10

Teeproben: Score Plots t ₅ vs t ₄

c1

c2

c3

c4

-8 -4 0 2 4 6 8 10

t ₅ t ₄

c5

c6 low quality high quality

c7 h1

h2

h3 high quality

h4

h5 low quality

Black

Green

k1 high quality high quality

k2

k3

k4 low quality low quality f1

f2 f3

f4 high quality

high quality

f5 f6

f7 low quality low quality

t1 t2

t3 t4

Oolong

s2 s1

s3

0 s4

2 -2

-4

-6

(19)

Teeproben: Score Plots t ₅ vs t ₀

-0.5 0 0.5

c1

k2 k1 k3 f1

f2

t1

t3 s2

s1 s3

s4

t4 t2

f5 f6

f4 f7

f3

k4

c2 c3

c4

c5 c6

c7 h1

h3

h4 h5

h2

low quality high quality

high quality

high quality high quality high quality

high quality

low quality low quality

low quality

low quality low quality

Oolong Black

Green

-10 -8 -6 -4 -2 0

1.5 2 4 6 8 10

t ₅ t ₀

1 -1

(20)

Faktoranalyse

Gelegentlich wird der Begriff Faktoranalyse für die Hauptkomponenten-

analyse verwendet. In der chemischen Literautr ist die Faktoranalyse eine

nicht notwendigereweise orthogonale Rotation der Koordinatenachesen so

dass die neuen Koordinaten chemisch interpretierbar sind.

(22)

Evolvierende Faktoranalyse

Die Evolvierende Faktoranalyse ist eine Methode zur Erkennung der Anzahl Komponenten in einer Serie von Daten (z.B. HPLC-UV). Wenn man die Datenmatrix schrittweise vergrössert oder eine fixe Fenster schrittweise verschiebt (window factor analysis), ändert sich die Anzahl signifikanter

Eigenwerte so lange nicht bis eine Komponente erscheint oder verschwindet. Ein Plot der (logarithmischen) Eigenwerten lässt kleinste überlappende Signale erkennen.

Evolving factor analysis Moving window factor analysis

(23)

c

t

t t Λ

Eigenwerte

Evolvierende Faktoranalyse

(24)

Evolvierende Faktoranalyse

Simuliertes Spektrum

Tests mit:

1. R = 1.0, 0.2% Verunreinigung 2. R = 0.2, 0.5% Verunreinigung Definition von R (Vorlesung Anal. Chem. III):

1 : 1 10 : 1

R = 1

R = 0.5

R = 0.25

(25)

Evolvierende Faktoranalyse

Simuliertes Chromatogramm 1. R = 1.0, 0.2% Verunreinigung

(26)

Evolvierende Faktoranalyse

Simuliertes Chromatogramm 2. R = 0.2, 0.5% Verunreinigung

H.R. Keller, D.L. Massart, Anal. Chim. Acta 1991, 246, 379-390

(27)

Neuronale Netze

• Eine Reihe von ganz verschiedenen Methoden werden als NN bezeichnet. Die wichtigsten sind:

- Feed forward, back propagation NN (am meisten verwendet) - Kohonen Netze: Abbildung vieldimensionaler Vektoren auf 2D (explorative Datenanalyse)

- Counterpropagation NN

- ART Netze (Adaptive Resonance Theory): Eine Art Clusteranalyse, besonders geeignet für grosse Datenmengen.

• Neuronale Netze (NN) haben mit der Funktionsweise von Neuronen nichts zu tun.

• Verschiedene Programme als Shareware/Freeware erhältlich.

Literatur: J. Zupan, J. Gasteiger: Neural networks for chemists VCH,

Weinheim, 1993, 2nd Ed. 1999.

(28)

Kohonen Netze

• Kohonen Netze: Abbildung vieldimensionaler Vektoren auf eine Ebene (explorative Datenanalyse)

• Ziel: die Topographie des Input-Raums soll möglichst erhalten bleiben

• Start: eine 2D Karte mit definierten Nachbarschaften (1., 2., etc. Nachbar)

• Zu jedem Punkt gehört ein Gewichstsvektor dessen Länge der Länge der Objektvektoren entspricht

• Die Gewichtsvektoren werden mit Zufallszahlen initialisiert und während des Trainings schrittweise modifiziert

• Am Ende des Trainings enthalten die Abbildungen die Information über den Datenraum

Für eine Erklärung und ein Program für Windows siehe: http://www.let.rug.nl/~kleiweg/kohonen/

(29)

Kohonen Netze

w

(30)

Kohonen Netze: Training

1. Initialisiere die w-Vektoren mit Zufallszahlen

2. Vergleiche den nächsten zufällig ausgewählten Mustervektor x mit allen w-Vektoren: Ähnlichkeitsmass: min [(w ^T x)] oder max [(x - w) ^T (x - w)]

3. Bestimme den Gewinner (dessen Gewichtsvektor am ähnlichsten zu x ist)

4. Korrigiere w, so dass er ähnlicher zu x wird*

5. Korrigiere die Gewichstsvektoren der nächsten Nachbaren um Werte die mit zunehmendem Abstand abnehmen

6. Prüfe das Abbruchskriterium: Gehe zu 2 oder Ende

*Korrekturen für die beiden Ähnlichkeitsmasse:

w _i (neu) = w _i (alt) + η (x _i - w _i (alt))

w _i (neu) = w _i (alt) + η (1- x _i w _i (alt))

(31)

Kohonen Netze: Interpretation

1. Output-activity map: Nach Eingabe eines Einzelobjekts, kann seine Distanz von allen Einheiten graphisch

dargestellt werden:

2. The counting map: Graphische Darstellung der Anzahl der Trainingsobjekte, für die eine Einheit der Gewinner ist.

3. The feature map: Darstellung der einzelnen Gruppen (a, b, c) der Trainigsobjekte (wenn verschiedene

Gruppen zu einer Einheit gehören: x)

a a b x x

c c c

d d d a

x x

(32)

Counterpropagation Neural Network

J. Aries-de-Sousa, M.C. Hemmer, J. Gasteiger,

Prediction of 1H NMR chemical shifts using neural networks Anal. Chem. 2002, 74, 80-90.

Vier Klassen von Protonen (aromatisch, ungesättigt, alicyclisch, aliphatisch) Dimension des Netzes: 9 x 9 bis 22 x 22

Totale Anzahl Deskriptoren: 92-174 (berechnete Grössen wie partielle Ladungen, Polarisierbarkeit, geometrische Deskriptoren, etc.) Ausgewählte Deskriptoren (Optimierung mit genetischem Algorithmus): 17-42.

Trainingssatz: 744 chemische Verschiebungen (120 Moleküle)

Testsatz 259 chemische Verschiebungen (31 Moleküle)

(33)

Überwachtes Lernen

(Supervised pattern recognition)

1. Ausgangspunkt: Trainingssatz: eine Reihe von Objekten mit Messdaten, die man einzelnen Gruppen zuordnen kann.

2. Man sucht eine mathematische Methode, die ein neues Objekt einer der Klassen zuordnet .

3. Das Modell wird mit einem Testsatz validiert, d.h. mit Objekten

bekannter Gruppenzugehörigkeit, die am Modellbau nicht beteiligt waren.

4. Diskutierte Methoden:

k-nearest neighbor (k-NN) Lineare Diskriminanzalayse

SIMCA (soft independent modeling of class analogy)

Neuronale Netze (Feed forward backpropagation)

(34)

Die k-NN Methode

k-NN: k-nearest neighbors

Für die Klassifizierung rechnet man den Abstand des unbekannten Objekts zu allen bekannten und zu Klassen zugeordneten Objekten. Man ordnet das neue Objekt der Gruppe zu, zu der die

Mehrzahl der k nächsten Nachberen gehört:

* ^u

K L

x ₁

x ₂

x ₃

1-NN Klassifizierung des unbekannten Objektes u:

u wird der Klasse L zugeordnet

* ^u

K L

x ₁

x ₂

x ₃

3-NN Klassifizierung des unbekannten Objektes u

u wird der Klasse K zugeordnet

(35)

c1 c2 c3 c4 c5 c6 c7 h1 h2 h3 h4 h5 k1 k2 k3 k4 f1 f2 f3 f4 f5 f6 f7 t1 t2 t3 t4 s1 s2 s3 s4 c1 0.00 1.35 3.13 4.61 6.61 7.72 9.40 2.21 3.95 5.17 7.04 8.01 9.62 10.22 11.18 11.50 4.66 6.07 6.99 7.49 8.42 8.84 10.18 13.57 13.66 16.19 16.44 15.83 16.41 16.77 17.02 c2 1.35 0.00 1.92 3.37 5.33 6.43 8.11 1.55 2.81 4.01 5.93 6.88 8.56 9.07 9.99 10.26 3.94 5.02 5.91 6.41 7.34 7.79 9.15 12.59 12.68 15.33 15.58 14.84 15.40 15.82 16.09 c3 3.13 1.92 0.00 1.63 3.53 4.66 6.30 1.92 1.04 2.20 4.04 4.99 7.30 7.63 8.37 8.44 3.28 3.61 4.43 4.86 5.61 6.08 7.45 10.96 11.01 13.83 14.05 13.21 13.74 14.18 14.45 c4 4.61 3.37 1.63 0.00 2.28 3.20 4.82 3.17 1.42 1.35 3.14 3.74 6.97 7.01 7.56 7.20 4.10 3.50 4.14 4.40 4.88 5.39 6.82 10.42 10.41 13.47 13.65 12.59 13.08 13.57 13.84 c5 6.61 5.33 3.53 2.28 0.00 1.30 3.01 4.87 2.88 1.77 2.06 2.41 5.28 5.05 5.46 5.06 4.72 2.89 2.97 2.94 3.20 3.70 5.08 8.56 8.56 11.71 11.90 10.63 11.10 11.65 11.94 c6 7.72 6.43 4.66 3.20 1.30 0.00 1.82 6.03 4.06 2.91 2.64 2.29 5.64 5.11 5.22 4.26 5.84 3.92 3.82 3.65 3.53 4.00 5.23 8.56 8.51 11.80 11.96 10.50 10.91 11.52 11.82 c7 9.40 8.11 6.30 4.82 3.01 1.82 0.00 7.77 5.68 4.54 3.51 2.66 6.25 5.37 4.91 3.14 7.22 5.25 4.94 4.65 4.04 4.39 5.18 8.12 8.01 11.40 11.51 9.87 10.17 10.87 11.16 h1 2.21 1.55 1.92 3.17 4.87 6.03 7.77 0.00 2.33 3.35 5.37 6.28 8.01 8.53 9.50 9.73 4.01 4.56 5.39 5.77 6.66 7.06 8.49 11.88 11.92 14.57 14.79 14.08 14.66 14.99 15.24 h2 3.95 2.81 1.04 1.42 2.88 4.06 5.68 2.33 0.00 1.33 3.17 4.15 6.76 7.01 7.69 7.69 3.34 3.12 3.84 4.17 4.82 5.26 6.64 10.13 10.14 12.99 13.20 12.35 12.87 13.29 13.54 h3 5.17 4.01 2.20 1.35 1.77 2.91 4.54 3.35 1.33 0.00 2.25 3.00 6.16 6.21 6.78 6.52 3.96 2.81 3.32 3.46 3.89 4.34 5.81 9.35 9.31 12.35 12.52 11.51 12.02 12.44 12.70 h4 7.04 5.93 4.04 3.14 2.06 2.64 3.51 5.37 3.17 2.25 0.00 1.44 5.71 5.46 5.50 5.00 4.69 3.06 3.04 2.93 2.54 2.92 4.07 7.57 7.46 10.64 10.76 9.72 10.17 10.62 10.87 h5 8.01 6.88 4.99 3.74 2.41 2.29 2.66 6.28 4.15 3.00 1.44 0.00 6.29 5.76 5.57 4.30 5.92 4.10 4.00 3.70 2.92 3.25 4.34 7.72 7.50 10.89 10.94 9.70 10.10 10.55 10.77 k1 9.62 8.56 7.30 6.97 5.28 5.64 6.25 8.01 6.76 6.16 5.71 6.29 0.00 1.37 2.96 5.40 6.01 4.17 3.30 3.13 3.91 3.87 4.14 6.01 6.51 8.70 9.12 7.79 8.44 9.10 9.50 k2 10.22 9.07 7.63 7.01 5.05 5.11 5.37 8.53 7.01 6.21 5.46 5.76 1.37 0.00 1.74 4.13 6.60 4.49 3.56 3.21 3.52 3.47 3.62 5.54 5.97 8.49 8.86 7.24 7.84 8.57 8.97 k3 11.18 9.99 8.37 7.56 5.46 5.22 4.91 9.50 7.69 6.78 5.50 5.57 2.96 1.74 0.00 2.96 7.42 5.31 4.37 3.96 3.63 3.51 3.10 4.65 5.02 7.79 8.09 6.28 6.77 7.62 8.03 k4 11.50 10.26 8.44 7.20 5.06 4.26 3.14 9.73 7.69 6.52 5.00 4.30 5.40 4.13 2.96 0.00 8.34 6.09 5.38 4.86 3.87 3.87 3.86 5.89 5.81 9.16 9.25 7.28 7.60 8.35 8.65 f1 4.66 3.94 3.28 4.10 4.72 5.84 7.22 4.01 3.34 3.96 4.69 5.92 6.01 6.60 7.42 8.34 0.00 2.50 3.34 4.00 4.99 5.35 6.40 9.72 9.96 12.42 12.71 11.98 12.60 13.07 13.36 f2 6.07 5.02 3.61 3.50 2.89 3.92 5.25 4.56 3.12 2.81 3.06 4.10 4.17 4.49 5.31 6.09 2.50 0.00 1.02 1.60 2.72 3.14 4.45 7.97 8.16 10.95 11.21 10.17 10.80 11.29 11.58 f3 6.99 5.91 4.43 4.14 2.97 3.82 4.94 5.39 3.84 3.32 3.04 4.00 3.30 3.56 4.37 5.38 3.34 1.02 0.00 0.73 2.06 2.41 3.63 7.06 7.28 10.06 10.34 9.23 9.85 10.37 10.69 f4 7.49 6.41 4.86 4.40 2.94 3.65 4.65 5.77 4.17 3.46 2.93 3.70 3.13 3.21 3.96 4.86 4.00 1.60 0.73 0.00 1.50 1.81 3.14 6.60 6.78 9.67 9.91 8.73 9.36 9.86 10.16 f5 8.42 7.34 5.61 4.88 3.20 3.53 4.04 6.66 4.82 3.89 2.54 2.92 3.91 3.52 3.63 3.87 4.99 2.72 2.06 1.50 0.00 0.59 2.13 5.86 5.90 9.09 9.25 7.95 8.55 9.03 9.29 f6 8.84 7.79 6.08 5.39 3.70 4.00 4.39 7.06 5.26 4.34 2.92 3.25 3.87 3.47 3.51 3.87 5.35 3.14 2.41 1.81 0.59 0.00 1.66 5.35 5.37 8.56 8.70 7.43 8.04 8.49 8.75 f7 10.18 9.15 7.45 6.82 5.08 5.23 5.18 8.49 6.64 5.81 4.07 4.34 4.14 3.62 3.10 3.86 6.40 4.45 3.63 3.14 2.13 1.66 0.00 3.80 3.87 7.07 7.20 5.95 6.53 7.03 7.31 t1 13.57 12.59 10.96 10.42 8.56 8.56 8.12 11.88 10.13 9.35 7.57 7.72 6.01 5.54 4.65 5.89 9.72 7.97 7.06 6.60 5.86 5.35 3.80 0.00 0.92 3.42 3.57 2.33 2.91 3.44 3.81 t2 13.66 12.68 11.01 10.41 8.56 8.51 8.01 11.92 10.14 9.31 7.46 7.50 6.51 5.97 5.02 5.81 9.96 8.16 7.28 6.78 5.90 5.37 3.87 0.92 0.00 3.59 3.57 2.41 2.88 3.22 3.51 t3 16.19 15.33 13.83 13.47 11.71 11.80 11.40 14.57 12.99 12.35 10.64 10.89 8.70 8.49 7.79 9.16 12.42 10.95 10.06 9.67 9.09 8.56 7.07 3.42 3.59 0.00 0.76 2.57 2.64 2.36 2.63 t4 16.44 15.58 14.05 13.65 11.90 11.96 11.51 14.79 13.20 12.52 10.76 10.94 9.12 8.86 8.09 9.25 12.71 11.21 10.34 9.91 9.25 8.70 7.20 3.57 3.57 0.76 0.00 2.53 2.52 1.95 2.10 s1 15.83 14.84 13.21 12.59 10.63 10.50 9.87 14.08 12.35 11.51 9.72 9.70 7.79 7.24 6.28 7.28 11.98 10.17 9.23 8.73 7.95 7.43 5.95 2.33 2.41 2.57 2.53 0.00 0.96 1.54 1.99 s2 16.41 15.40 13.74 13.08 11.10 10.91 10.17 14.66 12.87 12.02 10.17 10.10 8.44 7.84 6.77 7.60 12.60 10.80 9.85 9.36 8.55 8.04 6.53 2.91 2.88 2.64 2.52 0.96 0.00 1.28 1.78 s3 16.77 15.82 14.18 13.57 11.65 11.52 10.87 14.99 13.29 12.44 10.62 10.55 9.10 8.57 7.62 8.35 13.07 11.29 10.37 9.86 9.03 8.49 7.03 3.44 3.22 2.36 1.95 1.54 1.28 0.00 0.55 s4 17.02 16.09 14.45 13.84 11.94 11.82 11.16 15.24 13.54 12.70 10.87 10.77 9.50 8.97 8.03 8.65 13.36 11.58 10.69 10.16 9.29 8.75 7.31 3.81 3.51 2.63 2.10 1.99 1.78 0.55 0.00

(36)

Die k-NN Methode

Vorteile der k-NN Methode:

mathematisch einfach

liefert oft die besten Resultate Probleme mit k-NN

wenn die Anzahl Objekte in den verschiedenen Klassen stark variiert:

*

(37)

Lineare Diskriminanzanalyse

A 0 L

a

K d

X1

X2

6 4 2 0 -2

-4

-6 -6 -4 -2 0 2 4 6

L

K

(38)

LDA - Theorie

Transformation der Variablen X, so dass die Varianz zwischen den Gruppen relativ zur gemittelten Varianz innerhalb der Gruppen maximal wird:

Transformierte Variablen: vX, ihre Varianz (vX) ^T (vX) = v ^T X ^T Xv = v ^T Av Innergruppen-CP-Matrx W = (x _k -x _k ) ^T (x _k -x _k )

Zwischengruppen-CP-Matrix: A = (x _k -x _k ) ^T (x _k -x _k ) λ = v ^T Av v ^T Wv

∂λ

∂ v = 2 [ ( ) Av ( _v ^T _Wv ) ⁻ ( ^v ^T ^Av ) ^{( )} ^Wv ]

v ^T Wv

( ) ² ⁼ ⁰

2 [ Av − λ Wv ]

v ^T Wv = 0 A − λ W

( ) v = 0 W ^-1 A − λ I

( ) ^v ^{= 0}

– –– – ––

–

– maximieren

Unter der Annahme dass W invertierbar ist:

Eigenwertproblem einer nicht symmentrischen Matrix (W ^-1 A)

die Eigenwektoren (neuen Achsen) werden NICHT orthogonal.

(39)

LDA - Theorie: Ein Beispiel

X1 X2

Gruppe 1

1 -5.25 -3.92

2 -4.25 -3.92

3 -4.25 -2.92

4 -3.25 -2.92

Mittelwert -4.25 -3.42 Gruppe 2

Gruppe 3

5 -1.25 -0.92

6 -1.25 1.08

7 -0.25 0.08

8 0.75 -0.92

Mittelwert -0.5 -0.17

1 3.75 3.08

2 4.75 2.08

3 4.75 4.08

4 5.75 5.08

Mittelwert 4.75 3.58

-6 -5 -4 -3 -2 -1 1 2 3 4 5 6

-4

-3

-2

-1

1

2

3

4

5

6

(40)

LDA - Theorie: Ein Beispiel

X1 X2

Gruppe 1

1 -5.25 -3.92

2 -4.25 -3.92

3 -4.25 -2.92

4 -3.25 -2.92

Mittelwert -4.25 -3.42 Gruppe 2

5 -1.25 -0.92

6 -1.25 1.08

7 -0.25 0.08

8 0.75 -0.92

Mittelwert -0.5 -0.17 Gruppe 3

1 3.75 3.08

2 4.75 2.08

3 4.75 4.08

4 5.75 5.08

Mittelwert 4.75 3.58

Abweichungen innerhalb

der Gruppen Abweichungen zwischen Gruppen (Gruppenmittel - Totales Mittel)

-1 -0.5 -4.25 -3.42

0 -0.5 -4.25 -3.42

0 0.5 -4.25 -3.42

1 0.5 -4.25 -3.42

-0.75 -0.75 -0.5 -0.17

-0.75 1.25 -0.5 -0.17

0.25 0.25 -0.5 -0.17

1.25 -0.75 -0.5 -0.17

-1 -0.5 4.75 3.58

0 -1.5 4.75 3.58

0 0.5 4.75 3.58

1 1.5 4.75 3.58

W=Inner Gruppen CP Matrix A= ZwischenGruppen CP Matrix

6.75 1.75 163.5 126.5

1.75 8.75 126.5 98.1668

W ^-1 W ^-1 A

0.15625 -0.03125 21.59375 16.6979125 -0.03125 0.12053571 10.13839297.87948036 Eigenwerte von W ^-1 A Eigenvektoren von W ^-1 A

29.444 0 0.905 -0.612

0 0.0295 0.425 0.791

(41)

LDA - Theorie: Ein Beispiel

X1 X2

Gruppe 1

1 -5.25 -3.92

2 -4.25 -3.92

3 -4.25 -2.92

4 -3.25 -2.92

Mittelwert -4.25 -3.42 Gruppe 2

5 -1.25 -0.92

6 -1.25 1.08

7 -0.25 0.08

8 0.75 -0.92

Mittelwert -0.5 -0.17 Gruppe 3

1 3.75 3.08

2 4.75 2.08

3 4.75 4.08

4 5.75 5.08

Mittelwert 4.75 3.58

W=Inner Gruppen CP Matrix A= ZwischenGruppen CP Matrix

6.75 1.75 163.5 126.5

1.75 8.75 126.5 98.1668

W ^-1 W ^-1 A

0.15625 -0.03125 21.59375 16.6979125 -0.03125 0.12053571 10.13839297.87948036 Eigenwerte von W ^-1 A Eigenvektoren von W ^-1 A

29.444 0 0.905 -0.612

0 0.0295 0.425 0.791

-6 -5 -4 -3 -2 -1 1 2 3 4 5 6

-4 -3 -2 -1 1 2 3 4 5 6

v1

(42)

LDA und PCA

Die Hauptkomponentenanalyse (PCA) maximiert die Varianz und ist immer eine orthogonale Transformation.

Die lineare Diskriminanzanalyse maximiert die zwischengruppen-Varianz relative zur intregruppen -Varianz. Sie ist im allgemeinen eine nicht

orthogonale Transformation. Die erste Hauptkomponente und die erste Diskriminanzfunktion können ähnlich oder ganz verschieden sein:

X1

X2

X1

X2

PC, DF PC

DF

(43)

LDA – Nachteile

Ein Objekt wird zwangsläufig einer Klasse zugewiesen.

Schwierigkeiten bei nichtliniearen Trennflächen. Dann müssen komplexere

Modelle, wie quadratische Diskriminanzanalyse verwendet werden.

(44)

Sinnlose Korrelation

(45)

Sinnlose Korrelation

Für die Klassirung von 25 Objekten wurden hier 12 Variablen verwendet. Die Anzahl Variablen v, für die Einteilung von n Ob-

jekten in g Gruppen sollte: v ≤ (n-g)/3 sein, d.h. für dieses Beispiel: < 7. (vgl. TrAC 1997, 16, 216)

(46)

Modellierung der Klassen

1.Die n-dimensionale Verteilung (2D: Ellipse, 3D: Ellipsoid, nD:

n-dimensionales Hyperellipsoid) der Objekte der einzelnen Klassen wird berechnet.

2. Der Abstand des zu klassierenden Objektes (Mahalabonis) wird

bestimmt und und ein Ausreisser-Test wird für jede Klasse durchgeführt.

Ein Objekt kann zu einer, zu keiner oder zu mehreren Klassen zugeordent werden (überlappende Klassen).

Nachteil: bei hoher Anzahl von unabhängigen Variablen.

SIMCA (soft independent modelling of class analogy) löst das Problem der zu grossen Anzahl von Variablen durch eine vorgeschaltete

Hauptkomponentenanalyse. Diese wird für jede Gruppe unabhängig

durchgeführt (auch die ausgewählte Anzahl relevanter PC-s kann

verschieden sein).

(47)

Feed Forward Back Propagation NN

. . .

Input layer

Hidden layer Output layer

X 1

w 1 w 2 w 3

X 2 X 3

Input = S x _i w _i

Transform

Output

(48)

Feed Forward NN: Training

Start: Zufallszahlen als Gewichte

Training mit einer grossen Zahl von bekannten Input-Output Paaren

Korrekturterm der Gewichte aus der Abweichung des Outputs vom Sollwert berechnen

Gefahr: Übertraining: das Netz hat oft mehr Parameter als unabhängige Information. Kann die Beispiele auswendig lernen, hat aber dann keine Voraussagefähigkeit für unbekannte Fälle

Monitoring: mit einem unabhängigen Testsatz. Training abbrechen, wenn die Voraussage schlechter wird

Gefahr: lokale Minima: das Netz mit verschiedenen Startwerten neu trainieren

Aufwand der Training: hoch, dafür ist die Anwendung des Netzes sehr schnell

Gefahr: Extrapolation ...

(49)

Gefahr Extrapolation

Das Netz wurde zwischen x = -0.5 und x = 0.5 mit der Funktion y = x ² trainiert

Interpolation, 6000 Zyklen

0.00 0.05 0.10 0.15 0.20 0.25 0.30

-0.50 -0.40 -0.30 -0.20 -0.10 0.00 0.10 0.20 0.30 0.40 0.50

x

y=x*x

(50)

Gefahr Extrapolation

Das Netz wurde zwischen x = 0 und x = 0.5 mit der Funktion y = x ² trainiert

Extrapolation, 1200 Zyklen

0.00 0.05 0.10 0.15 0.20 0.25 0.30

-0.50 -0.40 -0.30 -0.20 -0.10 0.00 0.10 0.20 0.30 0.40 0.50

x

y=x*x

(51)

Gefahr Extrapolation

Das Netz wurde zwischen x = -0.5 und x = 0.5 mit der Funktion y = x ² trainiert

Extrapolation, 6000 Zyklen

0.00 0.50 1.00 1.50 2.00 2.50 3.00 3.50 4.00 4.50

-2.50 -2.00 -1.50 -1.00 -0.50 0.00 0.50 1.00 1.50 2.00 2.50

x

y=x*x

(52)

Anzahl Neuronen in Hidden Layer

Artificial neural networks for quantification in unresolved capillary electrophoresis peaks G. Bocaz-Beneventi, R. Latorre, M. Farkova, J. Havel

Anal. Chim. Acta 2002, 452, 47–63.

Voraussage der Konzentrationen von Fluoreszein und 2,7-Dibromoquecksilberfluoreszein aus dem

Elektropherogramm mit stark überlappenden Peaks

(53)

Auswahl von Anwendungen

Spektreninterpretation:

Abschätzung von 1H NMR Chemischen Verschiebungen (Counterpropagation NN), Aires/deSousa et al. Anal. Chem. 2002, 74, 80–90.

Abschätzung von 13C NMR Chemischen Verschiebungen, (W. Robien et al.) Abschätzung von IR-Spektren, Chemom. Intell. Lab. Syst. 1993, 21, 151-157.

Automatische Interpretation von IR-Spektren: Mikrochim. Acta, 1991, 2 505-524.

Interpretation von NIR Spektren, Chemom. Intell. Lab. Syst. 1996, 35, 127-135.

Mustererkennung (pattern recognition):

Ursprung von Olivenölproben mit Pyrolyse GC-MS: J. Anal. Appl. Pyrol. 1997, 40, 159-170.

Klassifizierung von Algen mit Flow Cytometry: Anal. Chim. Acta, 1992, 258, 11-25.

Fuel indentification with vapor-sensitive sensor arrays: Anal. Chem. 1996, 68, 4264-4269.

Identifizierung von Propibacterium acnes mit Pyrolyse MS: J. Appl. Bacteriol. 1994, 76, 124-134.

Fuel identification with laser induced fluorescende: Anal. Chim. Acta, 1994, 285, 237-246.

(54)

"Artificial Intelligence"

"Toute bonne théorie doit remplir deux conditions:

1. Il faut qu'elle s'accorde avec l'experience.

2. Il n'est pas moins nécessaire qu'elle soit philisophiqumement vraie...

Un principe condamné par le sens commun est philosophiquement faux et ne peut être qu'une erreur scientifique."

A.-S. Couper, Ann.Chim. et Physique, 3 ^e serie, 1858, 53, 469.

(55)

Warnung

Korrelation der pharmakolokischen Wirkung (Tranquilizer oder Sedativ) mit den Massenspektren (30 ausgewählte m/z-Werte). Das System wurde mit 66 Produkten trainiert und konnte dann erfolgreich die Wirkung von 6 weiteren Produkten aufgrund der Massenspektren voruassagen.

K.L.H. Ting, R.C.T. Lee, G.W.A. Milne, M. Shapiro, A.M. Guarino, Science

1973, 180, 417.

(56)

"Artificial intelligence"

Um den Unsinn der Korrelation der Massenspektren mit der pharmakolo- gischen Wirkung zu zeigen, hat J.T. Clerc die Massenspektren der gleichen 66 Verbindungen verwendet (30 m/z Werte) und eine lineare Lernmaschine trainiert, die erkennt, ob der systematische Name der Verbindungen eine gerade oder eine ungerade Anzahl von Charakteren hat.

Das System konnte dann für die 6 Testfälle erfolgreich voraussagen, ob die Anzahl Charaktere ihrer systematischen Namen gerade oder ungerade war.

J.T. Clerc, P. Naegeli, J. Seibl, Chimia, 1973, 27, 12.

(Die Publikation wurde in August 1973 als Letter to the Editor of Scince einge-

reicht. Da Science sich bis zum 13. November nicht zur Annahme der Arbeit

geäussert hat, haben die Autoren sie zurückgezogen und im Chimia publi-

ziert)

(57)

MS und pharmakologische Wirkung

In der Zwischenzeit haben verschiedene Gruppen die oben erwähnte Science Studie kritisch untersucht. Es gab drei verschiedene Fehler dabei:

1. Die Strukturen der Verbindungen waren hoch korreliert (Barbiturate bzw.

Phenothiazine kamen in den einzelnen Gruppen dominant vor).

2. Ein Testsatz von 2–6 Verbindungen ist viel zu klein, die Wahrscheinlichkeit für Zufallskorrelationen ist hoch.

Lineare Transformation der Variablen so dass: