Lineare Transformation der Variablen so dass:
• möglichst wenig neue Variablen die relevante Information beschreiben (Mass für die Relevanz ist die Varianz)
• die neuen Variablen orthogonal (unkorreliert) sind Zweck:
• explorative Datenanalyse
Entdeckung von Zusammenhängen in 2D Plots
• Modellbildung (z.B. Regression) mit den transformierten Daten Eliminiert die Gefahr von Artefakten
Eliminiert irrelevante Information (Rauschen)
Hauptkomponentenanalyse
Hauptkomponentenanalyse
1
3 2
4 6 5
x 1 x 2
PC1
PC2
t 11
t 12
x 11 x 12
t 22
t 21
Neue Koordinaten (scores, T-Matrix)
Berechnung der neuen Achsen
(Loadings, P-Matrix)
Hauptkomponentenanalyse
1
3 2
4 6 5
x 1 x 2
T 2 T 2
t 11
t 12
x 11 x 12
t 22 t 21
Es handelt sich um eine Rotation des
Koordinatensystems (Multiplikation mit einer orthogonalen Matrix).
Der Informationsgehalt der höheren Haupt-
komponenten nimmt rapide ab so dass sie ohne Verlust an Information weggelassen können.
Mass für den Informationsgehalt ist der Anteil an
der totalen Varianz, den die einzelnen Haupt-
komponenten beschreiben.
Hauptkomponentenanalyse und
Lineare Regression
Bei der Hauptkomponentenanalyse werden die Fehlerquadrate senkrecht zur Geraden minimalisiert (orthogonale Regression), bei der linearen
Regression diejenige in der y-Richtung.
y y
x x
Hauptkomponentenanalyse
= + . . .
X
m
n
M 1
m
n
M 2 +
m
n
+ M 2
m
n
1 2 r
• Eine Matrix von Rang r kann als eine Summe von r Matrizes von Rang 1 ausgedrückt werden.
• Für eine n x m Matrix mit n > m, ist der Rang r £ m.
• Der Rang einer Matrix entspricht der Ordnung der grössten (quadratischen) Submatrix, deren Determinante (D) ungleich null ist.
(Eine Submatrix kann aus einer Matrix durch Weglassen einer beliebigen Anzahl von Zeilen und/oder Kolonnen gebildet werden).
• Der Rang enstspricht der Anzahl unabhängiger Informationen (Wenn eine Spalte oder Zeile einer Matrix als Linearkombination anderer Spalten/Zeilen ausgedrückt werden kann, ist die entsprechende Information nicht unabhängig).
• Eine quadratische Matrix mit D = 0 ist singulär und kann nicht invertiert werden.
Hauptkomponentenanalyse
+ + +
=
X
m 1 m
1
n n
m 1
1
n m 1
1
n
t 1 p 1T
=
X
m
n
m r
r n
T P T
t 2 p 2T t r p rT
Bei der Hauptkomponentenanalyse werden die Vektoren t und p so ausgewählt, dass 1. Die p Vektoren paarweise orthonormal sind,
2. Die t Vektoren orthogonal sind,
3. Jedes t-Vektor (Scores, neue Koordinaten) das Maximum der verbleibenden Varianz beschreibt.
. . .
Hauptkomponentenanalyse
+ + +
=
X
m 1 m
1
n n
m 1
1
n m 1
1
n
t 1 p 1T
=
X
m
n
m r
r n
T P T
t 2 p 2T t r p rT
Die weniger relevanten Hauptkomponenten können oft ohne wesentlichen Verlust an Information weggelassen werden (sie beschreiben das Rauschen und enthalten keine relevante Information).
. . .
Hauptkomponentenanalyse
110.71 102.05 88.52 504.01 76.54 66.49 102.05 267.23 240.15 1.24E+3 187.19 159.24 88.52 240.15 220.72 1.1E+3 165.44 141.35 504.01 1.24E+3 1.1E+3 5.85E+3 886.6 752.89 76.54 187.19 165.44 886.6 134.42 113.99 66.49 159.24 141.35 752.89 113.99 97.16 587.8
1314 1167 6212 941.0 799.4
0.082 0.199 0.177 0.942 0.143 0.121 44.01 107.36 95.3 507.49 76.87 65.31 107.4 261.86 232.46 1.24E+3 187.5 159.3 95.3 232.46 206.36 1.1E+3 166.45 141.4 507.5 1.24E+3 1.1E+3 5.85E+3 886.34 753 76.87 187.5 166.45 886.34 134.25 114.1 65.31 159.29 141.41 753 114.06 96.9
X
X - M 1 t 1
p 1T
M 1 = t 1 p 1T
X - M 1 - M 2 t 2
p 2T
M 2 = t 2 p 2T
M 3 = t 3 p 3T
66.7 -5.31 -6.78 -3.49 -0.33 1.18 -5.31 5.37 7.69 -2.06 -0.31 -0.06 -6.78 7.69 14.36 -3.57 -1.01 -0.06 -3.49 -2.06 -3.57 1.38 0.27 -0.10 -0.33 -0.31 -1.01 0.27 0.16 -0.07 1.19 -0.06 -0.06 -0.10 -0.07 0.26
-67.3 6.71 9.23 2.81 0.17 -1.19
66.28 -6.61 -9.09 -2.77 -0.17 1.17 -6.61 0.66 0.91 0.28 0.02 -0.12 -9.09 0.91 1.25 0.38 0.02 -0.16 -2.77 0.28 0.38 0.17 0.007 -0.05 -0.17 0.02 0.02 0.007 0.0004 -0.003 1.17 -0.12 -0.16 -0.05 -0.003 0.021
0.42 1.30 2.31 -0.72 -0.16 0.01 1.30 4.71 6.79 -2.34 -0.33 0.06 2.31 6.79 13.11 -3.96 -1.03 0.10 -0.72 -2.34 -3.96 1.27 0.26 -0.05 -0.16 -0.33 -1.03 0.26 0.17 -0.06 0.013 0.061 0.101 -0.054 -0.06 0.239 -0.985 0.098 0.135 0.041 0.003 -0.017
X - M 1 - M 2 - M 3 t 3
p 3T
0.149 0.464 0.831 -0.259 -0.06 0.007 2.78 8.65
15.48 -4.83 -1.11 0.13
0.42 1.29 2.31 -0.72 -0.17 0.02 1.29 4.02 7.19 -2.24 -0.52 0.062 2.31 7.19 12.87 -4.01 -0.92 0.111 -0.72 -2.24 -4.01 1.25 0.29 -0.035 -0.17 -0.52 -0.92 0.29 0.07 -0.008 0.02 0.06 0.11 -0.04 -0.008 0.001
0.0004 0.01 -0.005 -0.001 0.004 -0.007
0.01 0.69 -0.4 -0.1 0.19 -0.001
-0.006 -0.4 0.24 0.06 -0.11 -0.01
-0.0001 -0.1 0.06 0.02 -0.03 -0.02
0.004 0.19 -0.11 -0.03 0.1 -0.05
0.007 -0.001 -0.01 -0.02 -0.05 0.24
Hauptkomponentenanalyse:
Mathematische Grundlagen
Bei der Hauptkomponentenanalyse sucht man nach einer linearen Transformation der Koordinaten X (Transformationsmatrix P) in neue Koordinaten T (XP = T) so dass ein möglichst grosser Teil der Varianz beschrieben ist und dass die Transformationsmatrix orthonormal ist.
Man sucht also bei jedem Schritt nach den p und t Vektoren die die folgenden Bedingungen erfüllen:
1. t T t = max d.h. ((Xp) T (Xp) = p T X T Xp = max (X T X ist die Varianz-Kovarinazmatrix * (n-1)) 2. p T p = 1
Optimierung mit Nebenbedingungen, Methode der Lagrange Multiplikatoren:
Optimierung der Funktion f(x,y) unter der Bedingung dass g(x,y)=0
Vorgehen: Definition einer allgemeineren Funktion: u(x,y, l ) = f(x,y) - l g(x,y) ( l =Lagrange multiplier) p T X T Xp maximal, Nebenbedingung: p T p = 1
Funktion: u = p T X T Xp- l (p T p-1) du/dp = 2X T Xp-2 l p = 0
(A- l I)p = 0 (mit A = X T X): Klassisches Eigenwertproblem. p ist jeweils ein Eigenvektor der Varianz-
Kovarianzmatrix.
Hauptkomponentenanalyse
x11 x12 ... x1m x21 x22 ... x2m etc
t11 t12 ... t1n t21 t22 ... t2n etc
n n
m k
m
k
X T
P
=
Die zu den einzelnen Eigenvektoren p i gehörenden Eigenwerte λ i geben an, wie gross der Anteil der Gesamtvarianz ist, der durch sie repräsentiert ist.
Pr ob en Pr ob en
Orignanal-
variablen Transformierte
Variablen
X = T P T
T = X P da P eine orthogonale Matrix ist und für orthogonale Matrices
die Transponierte der Inversen entspricht.
Hauptkomponentenanalyse:
Das Vorgehen
1. Berechnung der Korrelationsmatrix (X T X-Matrix zentrierten und mit der Varianz skalierten Daten).
2. Berechnung der Eigenvektoren und Eigenwerte der X T X-Matrix. Die Eigenvektoren solcher Matrices sind reell und die Eigenwerte sind nicht negativ.
3. Auswahl der Anzahl signifikanter Eigenwerte. Der Anteil der Varianz die die ausgewählten r
Komponenten beschreiben ist: S l i / k (k ist die Dimension der X T X-Matrix). Die den ausgewählten Eigenwerten entsprechenden Eigenvektoren bilden die Koeffizienten für die Linearkombination der ursprünglichen X-Variablen für die Berechnung der neuen Variablen T ("scores") d.h. sie bilden die "loadings"-Matrix.
4. Berechnung der T-Matrix ("scores"): T = XP
Man kann die Hauptkomponenten auch ohne Skalierung oder Zentrierung der Variablen berechnen.
Je nach Aufgabestellung kann die eine oder die andere Art sinnvollere Resultate geben.
Singularwert Zerlegung
n n
m r
r r
r m
X = U
W V T
Allgemein gilt, dass jede Matrix X in das Produkt dreier Matrices zerlegt werden kann: Singularwert-Zerlegung (Singular value decomposition):
X nxm = U nxr W rxr V Trxm mit U und V orthonormal und W diagonal.
Zusammenhang mit der Hauptkomponentenanalyse: U W = T ; V = P
Die Eigenwerte der X T X und XX T Matrices sind Λ = W 2 , U ist die Matrix der
Eigenvektoren von XX T und V die Matrix der Eigenvektoren von X T X
Singularwertzerlegung (SVD): BSP
Bestimmung von drei Spurenelementen in Luftproben in Abhängigkeit der Windrichtung:
Windrichtung Na Cl Si
0 0.212 0.399 0.190
90 0.072 0.133 0.155
180 0.036 0.063 0.213 270 0.078 0.141 0.273
= X
X = U λ V T = =
0.753 0.618 0.343 -0.127 0.302 -0.567 0.473 -0.529
0.626 0 0 0.214
0.371 0.690 0.622 0.280 0.556 -0.783
0.212 0.399 0.190
0.072 0.133 0.155
0.036 0.063 0.213
0.078 0.141 0.273
Singularwertzerlegung (SVD): BSP
U T U= =
V T V= =
0.753 0.618 0.343 -0.127 0.302 -0.567 0.473 -0.529
0.371 0.280 0.690 0.556 0.622 -0.783
1 0 0 1 0.753 0.343 0.302 0.473
0.618 -0.127 -0.567 -0.529
1 0 0 1 0.371 0.690 0.622
0.280 0.556 -0.783
X T X = (U λ V T ) T U λ V T = V λ U T U λ V T = V λ 2 V T V und λ 2 sind Eigenvektoren und Eigenwerte der Matix X T X
XX T = (V λ U T ) T V λ U T = U λ V T V λ U T = U λ 2 U T U und λ 2 sind Eigenvektoren
und Eigenwerte der Matix XX T
SVD und PCA
T = U λ = = =
= X V =
0.753 0.618 0.343 -0.127 0.302 -0.567 0.473 -0.529
0.371 0.280 0.690 0.556 0.622 -0.783 0.626 0
0 0.214
0.472 0.132 0.215 -0.027 0.189 -0.122 0.296 -0.113
0.212 0.399 0.190
0.072 0.133 0.155
0.036 0.063 0.213
0.078 0.141 0.273
Teeproben: Hauptkomponentenanal.
-2.3 -4.38 -4.05 5.54 0.68 0.4 -1.74 -4.17 -4.01 4.35 0.53 0.28 -1.01 -3.82 -2.96 3.04 0.15 0.04 -0.49 -4.36 -2.56 1.67 -0.04 -0.13 -0.3 -3.2 -2.1 -0.21 -0.26 -0.32 0.3 -3.64 -1.97 -1.26 -0.38 -0.4 1.5 -3.6 -1.26 -2.39 -0.62 -0.55 -2.73 -3.95 -3.16 3.74 0.44 -0.24 -1.05 -3.48 -2.29 2.5 0.24 -0.42 -1.02 -3.56 -1.79 1.28 0.1 -0.51 0.2 -2.6 -0.38 0.56 -0.27 -0.61 0.37 -3.42 0.13 -0.47 -0.34 -0.82 -1.48 1.38 -2.51 -1.94 0.47 1.01 -0.81 0.83 -1.98 -2.85 0.38 0.93 0.52 0.84 -1.05 -3.43 0.26 0.7 1.24 -1.58 0.12 -4.15 -0.02 0.03 -0.85 -1.44 -2.36 3.19 1.27 1.9 -1.1 -1.48 -1.76 0.96 0.56 1.3 -0.99 -0.85 -1.58 0.25 0.35 1.08 -1.15 -0.87 -1.18 -0.28 0.23 0.86 -0.56 -1.15 0.03 -0.81 0.05 0.67 -0.69 -0.75 0.39 -0.95 -0.01 0.55 0.03 0.5 1.09 -1.33 -0.17 0.46 0.35 3.56 2.37 -2.84 -0.67 -0.45 0.33 3.07 2.97 -2.88 -0.79 -0.93 0.1 6.55 3.6 -2.97 -0.82 -1.52 0.12 6.3 4.29 -3.07 -0.93 -1.63 0.31 4.74 3.41 -4.53 -0.89 -0.62 0.94 4.95 3.58 -4.85 -1.04 -1.19 0.21 5.17 4.5 -4.63 -1.1 -1.58 0.05 5.14 5.02 -4.65 -1.12 -1.66 Teeproben: zentrierte Daten X-Matrix
32.74 46.84 51.35 -56.45 -10.77 -11.27 46.84 383.95 256.25 -232.75 -41.13 -44.22 51.35 256.25 217.2 -180.97 -40.61 -49.59 -56.45 -232.75 -180.97 268.55 41.71 38.28 -10.77 -41.13 -40.61 41.71 11.33 15.06 -11.27 -44.22 -49.59 38.28 15.06 25.99
Teeproben: Kreuzprodukt-Matrix (X T X)
7.277 0.569 17.95 45.252 93.109 775.61 Eigenwerte
-0.46 -0.02 0.79 0.34 -0.2 0.12 -0.3 -0.04 0.04 -0.41 0.54 0.67 0.58 0.07 0.04 0.62 0.16 0.5 -0.07 -0.08 0.12 0.28 0.79 -0.52 0.15 0.93 0.24 -0.21 0.08 -0.09 0.58 -0.36 0.56 -0.46 0.03 -0.1
Eigenvektoren (P-Matrix)
-0.051 -0.047 -1.101 -0.273 1.908 -8.201 -0.355 -0.063 -0.896 -0.39 0.953 -7.334 -0.29 -0.174 -0.648 0.188 0.084 -5.75 -0.168 -0.141 -0.551 0.566 -1.359 -5.108 -0.342 -0.14 -0.718 0.049 -2.211 -3.068 -0.402 -0.124 -0.459 0.281 -3.397 -2.665 -0.597 -0.174 0.237 0.914 -4.428 -1.519 0.254 0.159 -2.015 -0.204 0.905 -6.502 -0.2 0.154 -0.938 0.491 -0.05 -4.874 0.113 0.192 -1.128 0.571 -1.002 -4.022 0.022 -0.012 -0.305 1.389 -1.109 -2.11 0.422 0.145 -0.443 1.918 -2.336 -1.824 -0.384 0.019 -0.759 -3.726 -0.823 0.342 -0.217 0.084 -0.41 -3.146 -1.905 0.804 -0.403 0.145 0.444 -2.155 -2.499 1.77 0.279 0.345 0.427 -0.035 -4.386 1.287 0.521 0.138 0.921 -1.412 1.707 -4.209 0.697 -0.078 -0.024 -1.308 -0.014 -2.687 0.455 -0.15 -0.161 -1.469 -0.253 -1.753 0.658 -0.107 -0.486 -1.29 -0.604 -1.278 1.07 -0.076 -0.2 -0.252 -1.123 -0.478 1.151 -0.063 -0.369 -0.208 -0.941 0.045 0.806 -0.156 0.143 -0.07 -0.616 1.54 -0.003 -0.198 -0.232 -0.315 -0.082 5.19 0.204 -0.072 -0.546 0.484 -0.303 5.241 -0.697 0.041 -0.9 -0.369 1.642 7.972 -0.306 0.046 -0.967 0.212 1.522 8.226 0.256 -0.174 -0.522 -0.516 -0.631 7.406 -0.328 -0.089 -0.403 -0.077 -0.902 7.945 0.223 0.049 -1.136 0.407 -0.327 8.399 0.558 0.103 -1.295 0.721 -0.247 8.642 0.77% 0.06% 1.9% 4.8% 9.9% 82.5%
Neue Koordinaten: T = XP
Teeproben: Clustering
6
5
4
3
2
1
0 S i m i a l
r i y t
D e g r e e
C1 C2 H1 C3 C4 H2 H3 K1 K2 F2 F3 F4 F1 C5 C6 H4 H5 C7 K3 K4 F5 F6 F7 T1 T2 S1 T3 T4 S3 S4 S2
Gr ee n Gr ee n
Go od q ua lit y Lo w q ua lit y Bl ac k O ol on g
Bl ac k Bl ac k an d gr ee n te a
-2 -6
-10
Teeproben: Score Plots t 5 vs t 4
c1
c2
c3
c4
-8 -4 0 2 4 6 8 10
t 5 t 4
c5
c6 low quality high quality
c7 h1
h2
h3 high quality
h4
h5 low quality
Black
Green
k1 high quality high quality
k2
k3
k4 low quality low quality f1
f2 f3
f4 high quality
high quality
f5 f6
f7 low quality low quality
t1 t2
t3 t4
Oolong
s2 s1
s3
0 s4
2
-2
-4
-6
Teeproben: Score Plots t 5 vs t 0
-0.5 0 0.5
c1
k2 k1 k3 f1
f2
t1
t3 s2
s1 s3
s4
t4 t2
f5 f6
f4 f7
f3
k4
c2 c3
c4
c5 c6
c7 h1
h3
h4 h5
h2
low quality high quality
high quality
high quality high quality high quality
high quality
low quality low quality
low quality
low quality low quality
Oolong Black
Green
-10 -8 -6 -4 -2 0
1.5
2 4 6 8 10
t 5 t 0
1
-1
Verwandte Methoden
Faktoranalyse: Es handelt sich um eine nicht orthogonale Transformation:
d.h. die Achsen des neuen Koordinatensystems sind nicht mehr senkrecht zueinander (die Variablen sind korreliert). Man versucht die neuen Achsen so zu legen, dass die Variablen chemisch interpretierbar werden.
Evolvierende Faktoranalyse: Wenn Daten in regelmässigen Abständen aufgenommen werden (z.B. Spektren bei der Chromatographie oder bei einer Titration) ändert sich die Anzahl relevanter Hauptkomponenten, wenn eine neue Komponente erscheint oder wenn eine Komponente
verschwindet.
Faktoranalyse
Gelegentlich wird der Begriff Faktoranalyse für die Hauptkomponenten-
analyse verwendet. In der chemischen Literautr ist die Faktoranalyse eine
nicht notwendigereweise orthogonale Rotation der Koordinatenachesen so
dass die neuen Koordinaten chemisch interpretierbar sind.
Evolvierende Faktoranalyse
Die Evolvierende Faktoranalyse ist eine Methode zur Erkennung der Anzahl Komponenten in einer Serie von Daten (z.B. HPLC-UV). Wenn man die Datenmatrix schrittweise vergrössert oder eine fixe Fenster schrittweise verschiebt (window factor analysis), ändert sich die Anzahl signifikanter
Eigenwerte so lange nicht bis eine Komponente erscheint oder verschwindet. Ein Plot der (logarithmischen) Eigenwerten lässt kleinste überlappende Signale erkennen.
Evolving factor analysis Moving window factor analysis
c
t
t t Λ
Eigenwerte
Evolvierende Faktoranalyse
Evolvierende Faktoranalyse
Simuliertes Spektrum
Tests mit:
1. R = 1.0, 0.2% Verunreinigung 2. R = 0.2, 0.5% Verunreinigung Definition von R (Vorlesung Anal. Chem. III):
1 : 1 10 : 1
R = 1
R = 0.5
R = 0.25
Evolvierende Faktoranalyse
Simuliertes Chromatogramm 1. R = 1.0, 0.2% Verunreinigung
Evolvierende Faktoranalyse
Simuliertes Chromatogramm 2. R = 0.2, 0.5% Verunreinigung
H.R. Keller, D.L. Massart, Anal. Chim. Acta 1991, 246, 379-390
Neuronale Netze
• Eine Reihe von ganz verschiedenen Methoden werden als NN bezeichnet. Die wichtigsten sind:
- Feed forward, back propagation NN (am meisten verwendet) - Kohonen Netze: Abbildung vieldimensionaler Vektoren auf 2D (explorative Datenanalyse)
- Counterpropagation NN
- ART Netze (Adaptive Resonance Theory): Eine Art Clusteranalyse, besonders geeignet für grosse Datenmengen.
• Neuronale Netze (NN) haben mit der Funktionsweise von Neuronen nichts zu tun.
• Verschiedene Programme als Shareware/Freeware erhältlich.
Literatur: J. Zupan, J. Gasteiger: Neural networks for chemists VCH,
Weinheim, 1993, 2nd Ed. 1999.
Kohonen Netze
• Kohonen Netze: Abbildung vieldimensionaler Vektoren auf eine Ebene (explorative Datenanalyse)
• Ziel: die Topographie des Input-Raums soll möglichst erhalten bleiben
• Start: eine 2D Karte mit definierten Nachbarschaften (1., 2., etc. Nachbar)
• Zu jedem Punkt gehört ein Gewichstsvektor dessen Länge der Länge der Objektvektoren entspricht
• Die Gewichtsvektoren werden mit Zufallszahlen initialisiert und während des Trainings schrittweise modifiziert
• Am Ende des Trainings enthalten die Abbildungen die Information über den Datenraum
Für eine Erklärung und ein Program für Windows siehe: http://www.let.rug.nl/~kleiweg/kohonen/
Kohonen Netze
w
Kohonen Netze: Training
1. Initialisiere die w-Vektoren mit Zufallszahlen
2. Vergleiche den nächsten zufällig ausgewählten Mustervektor x mit allen w-Vektoren: Ähnlichkeitsmass: min [(w T x)] oder max [(x - w) T (x - w)]
3. Bestimme den Gewinner (dessen Gewichtsvektor am ähnlichsten zu x ist)
4. Korrigiere w, so dass er ähnlicher zu x wird*
5. Korrigiere die Gewichstsvektoren der nächsten Nachbaren um Werte die mit zunehmendem Abstand abnehmen
6. Prüfe das Abbruchskriterium: Gehe zu 2 oder Ende
*Korrekturen für die beiden Ähnlichkeitsmasse:
w i (neu) = w i (alt) + η (x i - w i (alt))
w i (neu) = w i (alt) + η (1- x i w i (alt))
Kohonen Netze: Interpretation
1. Output-activity map: Nach Eingabe eines Einzelobjekts, kann seine Distanz von allen Einheiten graphisch
dargestellt werden:
2. The counting map: Graphische Darstellung der Anzahl der Trainingsobjekte, für die eine Einheit der Gewinner ist.
3. The feature map: Darstellung der einzelnen Gruppen (a, b, c) der Trainigsobjekte (wenn verschiedene
Gruppen zu einer Einheit gehören: x)
a a b x x
c c c
d d d a
x x
Counterpropagation Neural Network
J. Aries-de-Sousa, M.C. Hemmer, J. Gasteiger,
Prediction of 1H NMR chemical shifts using neural networks Anal. Chem. 2002, 74, 80-90.
Vier Klassen von Protonen (aromatisch, ungesättigt, alicyclisch, aliphatisch) Dimension des Netzes: 9 x 9 bis 22 x 22
Totale Anzahl Deskriptoren: 92-174 (berechnete Grössen wie partielle Ladungen, Polarisierbarkeit, geometrische Deskriptoren, etc.) Ausgewählte Deskriptoren (Optimierung mit genetischem Algorithmus): 17-42.
Trainingssatz: 744 chemische Verschiebungen (120 Moleküle)
Testsatz 259 chemische Verschiebungen (31 Moleküle)
Überwachtes Lernen
(Supervised pattern recognition)
1. Ausgangspunkt: Trainingssatz: eine Reihe von Objekten mit Messdaten, die man einzelnen Gruppen zuordnen kann.
2. Man sucht eine mathematische Methode, die ein neues Objekt einer der Klassen zuordnet .
3. Das Modell wird mit einem Testsatz validiert, d.h. mit Objekten
bekannter Gruppenzugehörigkeit, die am Modellbau nicht beteiligt waren.
4. Diskutierte Methoden:
k-nearest neighbor (k-NN) Lineare Diskriminanzalayse
SIMCA (soft independent modeling of class analogy)
Neuronale Netze (Feed forward backpropagation)
Die k-NN Methode
k-NN: k-nearest neighbors
Für die Klassifizierung rechnet man den Abstand des unbekannten Objekts zu allen bekannten und zu Klassen zugeordneten Objekten. Man ordnet das neue Objekt der Gruppe zu, zu der die
Mehrzahl der k nächsten Nachberen gehört:
* u
K L
x 1
x 2
x 3
1-NN Klassifizierung des unbekannten Objektes u:
u wird der Klasse L zugeordnet
* u
K L
x 1
x 2
x 3
3-NN Klassifizierung des unbekannten Objektes u
u wird der Klasse K zugeordnet
c1 c2 c3 c4 c5 c6 c7 h1 h2 h3 h4 h5 k1 k2 k3 k4 f1 f2 f3 f4 f5 f6 f7 t1 t2 t3 t4 s1 s2 s3 s4 c1 0.00 1.35 3.13 4.61 6.61 7.72 9.40 2.21 3.95 5.17 7.04 8.01 9.62 10.22 11.18 11.50 4.66 6.07 6.99 7.49 8.42 8.84 10.18 13.57 13.66 16.19 16.44 15.83 16.41 16.77 17.02 c2 1.35 0.00 1.92 3.37 5.33 6.43 8.11 1.55 2.81 4.01 5.93 6.88 8.56 9.07 9.99 10.26 3.94 5.02 5.91 6.41 7.34 7.79 9.15 12.59 12.68 15.33 15.58 14.84 15.40 15.82 16.09 c3 3.13 1.92 0.00 1.63 3.53 4.66 6.30 1.92 1.04 2.20 4.04 4.99 7.30 7.63 8.37 8.44 3.28 3.61 4.43 4.86 5.61 6.08 7.45 10.96 11.01 13.83 14.05 13.21 13.74 14.18 14.45 c4 4.61 3.37 1.63 0.00 2.28 3.20 4.82 3.17 1.42 1.35 3.14 3.74 6.97 7.01 7.56 7.20 4.10 3.50 4.14 4.40 4.88 5.39 6.82 10.42 10.41 13.47 13.65 12.59 13.08 13.57 13.84 c5 6.61 5.33 3.53 2.28 0.00 1.30 3.01 4.87 2.88 1.77 2.06 2.41 5.28 5.05 5.46 5.06 4.72 2.89 2.97 2.94 3.20 3.70 5.08 8.56 8.56 11.71 11.90 10.63 11.10 11.65 11.94 c6 7.72 6.43 4.66 3.20 1.30 0.00 1.82 6.03 4.06 2.91 2.64 2.29 5.64 5.11 5.22 4.26 5.84 3.92 3.82 3.65 3.53 4.00 5.23 8.56 8.51 11.80 11.96 10.50 10.91 11.52 11.82 c7 9.40 8.11 6.30 4.82 3.01 1.82 0.00 7.77 5.68 4.54 3.51 2.66 6.25 5.37 4.91 3.14 7.22 5.25 4.94 4.65 4.04 4.39 5.18 8.12 8.01 11.40 11.51 9.87 10.17 10.87 11.16 h1 2.21 1.55 1.92 3.17 4.87 6.03 7.77 0.00 2.33 3.35 5.37 6.28 8.01 8.53 9.50 9.73 4.01 4.56 5.39 5.77 6.66 7.06 8.49 11.88 11.92 14.57 14.79 14.08 14.66 14.99 15.24 h2 3.95 2.81 1.04 1.42 2.88 4.06 5.68 2.33 0.00 1.33 3.17 4.15 6.76 7.01 7.69 7.69 3.34 3.12 3.84 4.17 4.82 5.26 6.64 10.13 10.14 12.99 13.20 12.35 12.87 13.29 13.54 h3 5.17 4.01 2.20 1.35 1.77 2.91 4.54 3.35 1.33 0.00 2.25 3.00 6.16 6.21 6.78 6.52 3.96 2.81 3.32 3.46 3.89 4.34 5.81 9.35 9.31 12.35 12.52 11.51 12.02 12.44 12.70 h4 7.04 5.93 4.04 3.14 2.06 2.64 3.51 5.37 3.17 2.25 0.00 1.44 5.71 5.46 5.50 5.00 4.69 3.06 3.04 2.93 2.54 2.92 4.07 7.57 7.46 10.64 10.76 9.72 10.17 10.62 10.87 h5 8.01 6.88 4.99 3.74 2.41 2.29 2.66 6.28 4.15 3.00 1.44 0.00 6.29 5.76 5.57 4.30 5.92 4.10 4.00 3.70 2.92 3.25 4.34 7.72 7.50 10.89 10.94 9.70 10.10 10.55 10.77 k1 9.62 8.56 7.30 6.97 5.28 5.64 6.25 8.01 6.76 6.16 5.71 6.29 0.00 1.37 2.96 5.40 6.01 4.17 3.30 3.13 3.91 3.87 4.14 6.01 6.51 8.70 9.12 7.79 8.44 9.10 9.50 k2 10.22 9.07 7.63 7.01 5.05 5.11 5.37 8.53 7.01 6.21 5.46 5.76 1.37 0.00 1.74 4.13 6.60 4.49 3.56 3.21 3.52 3.47 3.62 5.54 5.97 8.49 8.86 7.24 7.84 8.57 8.97 k3 11.18 9.99 8.37 7.56 5.46 5.22 4.91 9.50 7.69 6.78 5.50 5.57 2.96 1.74 0.00 2.96 7.42 5.31 4.37 3.96 3.63 3.51 3.10 4.65 5.02 7.79 8.09 6.28 6.77 7.62 8.03 k4 11.50 10.26 8.44 7.20 5.06 4.26 3.14 9.73 7.69 6.52 5.00 4.30 5.40 4.13 2.96 0.00 8.34 6.09 5.38 4.86 3.87 3.87 3.86 5.89 5.81 9.16 9.25 7.28 7.60 8.35 8.65 f1 4.66 3.94 3.28 4.10 4.72 5.84 7.22 4.01 3.34 3.96 4.69 5.92 6.01 6.60 7.42 8.34 0.00 2.50 3.34 4.00 4.99 5.35 6.40 9.72 9.96 12.42 12.71 11.98 12.60 13.07 13.36 f2 6.07 5.02 3.61 3.50 2.89 3.92 5.25 4.56 3.12 2.81 3.06 4.10 4.17 4.49 5.31 6.09 2.50 0.00 1.02 1.60 2.72 3.14 4.45 7.97 8.16 10.95 11.21 10.17 10.80 11.29 11.58 f3 6.99 5.91 4.43 4.14 2.97 3.82 4.94 5.39 3.84 3.32 3.04 4.00 3.30 3.56 4.37 5.38 3.34 1.02 0.00 0.73 2.06 2.41 3.63 7.06 7.28 10.06 10.34 9.23 9.85 10.37 10.69 f4 7.49 6.41 4.86 4.40 2.94 3.65 4.65 5.77 4.17 3.46 2.93 3.70 3.13 3.21 3.96 4.86 4.00 1.60 0.73 0.00 1.50 1.81 3.14 6.60 6.78 9.67 9.91 8.73 9.36 9.86 10.16 f5 8.42 7.34 5.61 4.88 3.20 3.53 4.04 6.66 4.82 3.89 2.54 2.92 3.91 3.52 3.63 3.87 4.99 2.72 2.06 1.50 0.00 0.59 2.13 5.86 5.90 9.09 9.25 7.95 8.55 9.03 9.29 f6 8.84 7.79 6.08 5.39 3.70 4.00 4.39 7.06 5.26 4.34 2.92 3.25 3.87 3.47 3.51 3.87 5.35 3.14 2.41 1.81 0.59 0.00 1.66 5.35 5.37 8.56 8.70 7.43 8.04 8.49 8.75 f7 10.18 9.15 7.45 6.82 5.08 5.23 5.18 8.49 6.64 5.81 4.07 4.34 4.14 3.62 3.10 3.86 6.40 4.45 3.63 3.14 2.13 1.66 0.00 3.80 3.87 7.07 7.20 5.95 6.53 7.03 7.31 t1 13.57 12.59 10.96 10.42 8.56 8.56 8.12 11.88 10.13 9.35 7.57 7.72 6.01 5.54 4.65 5.89 9.72 7.97 7.06 6.60 5.86 5.35 3.80 0.00 0.92 3.42 3.57 2.33 2.91 3.44 3.81 t2 13.66 12.68 11.01 10.41 8.56 8.51 8.01 11.92 10.14 9.31 7.46 7.50 6.51 5.97 5.02 5.81 9.96 8.16 7.28 6.78 5.90 5.37 3.87 0.92 0.00 3.59 3.57 2.41 2.88 3.22 3.51 t3 16.19 15.33 13.83 13.47 11.71 11.80 11.40 14.57 12.99 12.35 10.64 10.89 8.70 8.49 7.79 9.16 12.42 10.95 10.06 9.67 9.09 8.56 7.07 3.42 3.59 0.00 0.76 2.57 2.64 2.36 2.63 t4 16.44 15.58 14.05 13.65 11.90 11.96 11.51 14.79 13.20 12.52 10.76 10.94 9.12 8.86 8.09 9.25 12.71 11.21 10.34 9.91 9.25 8.70 7.20 3.57 3.57 0.76 0.00 2.53 2.52 1.95 2.10 s1 15.83 14.84 13.21 12.59 10.63 10.50 9.87 14.08 12.35 11.51 9.72 9.70 7.79 7.24 6.28 7.28 11.98 10.17 9.23 8.73 7.95 7.43 5.95 2.33 2.41 2.57 2.53 0.00 0.96 1.54 1.99 s2 16.41 15.40 13.74 13.08 11.10 10.91 10.17 14.66 12.87 12.02 10.17 10.10 8.44 7.84 6.77 7.60 12.60 10.80 9.85 9.36 8.55 8.04 6.53 2.91 2.88 2.64 2.52 0.96 0.00 1.28 1.78 s3 16.77 15.82 14.18 13.57 11.65 11.52 10.87 14.99 13.29 12.44 10.62 10.55 9.10 8.57 7.62 8.35 13.07 11.29 10.37 9.86 9.03 8.49 7.03 3.44 3.22 2.36 1.95 1.54 1.28 0.00 0.55 s4 17.02 16.09 14.45 13.84 11.94 11.82 11.16 15.24 13.54 12.70 10.87 10.77 9.50 8.97 8.03 8.65 13.36 11.58 10.69 10.16 9.29 8.75 7.31 3.81 3.51 2.63 2.10 1.99 1.78 0.55 0.00