Chemometrie: von Daten zu Information
Chemometrie: Definition
%%%$$$!%%%
$$
%%%!""#%%%
!"
%%%"%
W arnungen
&
!"
!! ! $
!"!&! %'')*/--1%)..*'&'%' %! %'')*/--1%..0.(..02'
Daten von Anscombe: numerisch
xy108.0486.95137.5898.81118.33149.9667.2444.261210.8474.8255.68
"0((0.#'0,#+$%"0*/'#+0'#((-0(*#,+$ %0'#-) xy109.1488.14138.7498.77119.26148.166.1343.1129.1377.2654.74 xy107.4686.771312.7497.11117.81148.8466.0845.39128.1576.4255.73 xy86.5885.7687.7188.8488.4787.0485.251912.585.5687.9186.89
Daten von Anscombe: graphisch Zentrieren und Skalieren
original 50-5
-505 50-5
-505 50-5
-505
zentriertzentriert und skaliert
Datentransformationen
Zentrierung (Mittelwert = 0 setzen: xi' = xi - x _)Häufig der erste Schritt, da die Variation der Daten wichtiger ist als ihre Absolutwerte Skalierung bezüglich Standardabweichung s:(Varianz = 1 setzen: xi' = (xi - x _)/s)Notwendig um verschiedenartige Daten zu vergleichen. Vorsicht, wenn Absolutwerte in der gleichen Grössenordnung liegen wie die Fehler.
Skalierung bezüglich Bereich: xi' = (xi - min(x))/(max(x)-min(x))
Logarithmierung
Linearisierung (z.B. Gran-Plot, Scatchard-Plot)Gut um Zusammenhänge zu erkennen. Die Parameter sollten aber nicht mit den linearisierten Variablen angepasst werden.
Achtung: Fehlerstruktur, Distanzen und Winkel (Korrelationskoeffizient) können durch die Transformation verändert werden.
T ransformationen
ln X X
xe
Y ln Y
y
e
Scatchard-Plot
Bestimmung der Komplexbildungskonstante (K) zwischen Ligand (L) und Substrat (S). Zur Lösung des Liganden (totale Konzentration: Ltot) wird schrittweise Substrat-Lösung zugegeben und die Konzentration des Komplexes (LS) bestimmt. Ein Plot von [LS]/[S] gegen [LS] hat die Steigung –K.
L + S LS; K = ; Ltot = [L] + [LS]; [L] = Ltot – [LS]
Daraus folgt: = K [L] = K (Ltot – [LS])
Problem: Die Voraussetzung der Linearen Regression (Fehler nur in y) ist NICHT erfüllt. Zudem kann der Fehler entlang der x-Achse variieren (heteroskedastische Daten). Die Methode sollte für die quantitative Auswertung NICHT eingesetzt werden.
G. Scatchard, Ann. N. Y. Acad. Sci. 1949, 51, 660. [LS][L] [S]
[LS][S]
Datentransformation: W arnungen
Wie kann man für gute Korrelationen sorgen?
1
0-1
-2
-3
-4
-3-2-10123
log x/y
log 1/y
log 1/y vs. log x/y, r = 0.96
Datentransformation: W arnungen
2.02.22.42.62.83.0
log x log x vs. log y, r = 0.00
5
4
3
2
1
0
log y
Wie kann man für gute Korrelationen sorgen?
1
0-1
-2
-3
-4
-3-2-10123
log x/y
log 1/y
log 1/y vs. log x/y, r = 0.96
Charakterisierung von 1D Daten
Mittelwert: μ, Schätzung Varianz σ2, Schätzung: s2 = (s: Standardabweichung)Höhere MomenteOft wird eine Normalverteilung angenommen. Sie ist durch Mittelwert und Varianz vollständig charakterisiert.
Mittelwert und Varianz können für beliebig verteilte Daten berechnet werden. Sie haben dann aber nicht die gleiche statistische Bedeutung. mx=xiΣ/n
s 2= xi−mx() 2Σn−1()
Wichtigkeit von Graphiken
Mittelwert = 3.6 s = 4.2 Wichtigkeit von Graphiken Mittelwert = 3.6 s= 4.2
Anzahl Beobachtungen
0369
V arianz
s 2 1n1 xix _¥§ ´¶ 2
¤
1n1 zi 2¤
z: zentrierte VariablenMit Vektornotation:
s 2 1n1 z Tz zT
z zi 2
¤ Berechnung der V arianz: Matrixnotation
Eindimensionale Daten (Datenvektor x)
Mittelwert:x _ = 1n 3 xi = 1n 1Tx
Summe der Fehlerquadrate:
3 (xi-x _) 2 = 3 x
i 2 - i3(x) 2
n = x Tx - 1n (x T1)(1 Tx) = x THnx mit Hn=I - ( 1n 1n1 Tn ) Varianz: Hn: Zentrierungsmatrix
Da Hn symmetrisch und idempotent ist: (Hnx)THnx = xTHn THnx = xTHnx s2 = 1n-1 x THnx
V arianz und Kovarianz
KonfidenzintervallKonfidenzbereich 1D-Daten2D-Daten
V arianz und Kovarianz
2D-Daten2D-Daten
Kovarianz = 0Kovarianz ≠ 0
V arianz und Kovarianz
1D-Wahrscheinlichkeitsdichtefunktion für die Normalverteilung
nD-Wahrscheinlichkeitsdichtefunktion für die Normalverteilung f(x)= 12πσ 2 e − 12 x−μσ() 2= 12πσ 2 e − 12 x−μ() 1σ2x−μ()
f(x)= 1
2πΣ e − 12 x−μ()ΤΣ−1x−μ() σ2: Varianz
Σ: Varianz-Kovarianzmatrix
Berechnung der V a rianz: Matri x notation
s2 = 1n-1 yTHny Für mehrdimensionale Daten erhält man mit der analogen Matrixoperationen die Varianz-Kovarianz-matrix SS:S = 1n-1 ATA - 1n (AT1)(1TA)= ATHnA
Die Diagonalelemente sind die Varianzen, die Ausserdiagonalelemente die Kovarianzen der entsprechenden Variablen.
HnA= x1
1-x _y 1-y _z -z _
x2
2-x _y 2-y _z -z _
x3
3-x _y 3-y _z -z _
S = 1n-1 ATHnA = 1n-1 Σ(xi-x _
)2Σ(xi-x _
)(yi-y _
) Σ(xi-x _
)(zi-z _
)
Σ(xi-x _
)(yi-y _
) Σ(yi-y _
)2Σ(yi-y _
)(zi-z _
)
Σ(xi-x _
)(zi-z _
) Σ(yi-y _
)(zi-z _
) Σ(zi-z _
)2 =
var(x) cov(x,y) cov(x,z) cov(x,y) var(y) cov(y,z) cov(x,z) cov(y,z) var(z)
T eeproben
CategoryVarietySamplesSource
Green teaChunmeeC1, C2, C3, C4,C5, C6, C7Shanghai Tea Inst. HysonH1, H2, H3,H4, H5Shanghai Tea Inst. Black tea KeemunK1, K2,K3, K4Shanghai Tea Inst.Feng QuingF1, F2, F3, F4,F5, F6, F7Yunnan Tea Inst. Oolong tea TikuanyinT1, T2, T3, T4 Xia Men Tea Inst.Se ZhongS1, S2, S3, S4 Xia Men Tea Inst.
High qualityLow quality
X. Liu, P. van Espen, F. Adams, S.H. Yan, M. Vanbella, Anal.Chim. Acta 1987, 200, 421
T eeproben: Messdaten
CelluloseHemicelluloseLigninPolyphenoleCoffeinAminosäurenc19.504.903.5329.034.443.82c210.065.113.5727.844.293.70c310.795.464.6226.533.913.46c411.314.925.0225.163.723.29c511.506.085.4823.283.503.10c612.105.645.6122.233.383.02c713.305.686.3221.103.142.87h19.075.334.4227.234.203.18h210.755.805.2925.994.003.00h310.785.725.7924.773.862.91h412.006.687.2024.053.492.81h512.175.867.7123.023.422.60k110.3210.665.0721.554.234.43k210.9910.115.6020.644.144.35k312.3210.126.5320.064.024.12k413.047.707.7019.343.743.45f110.957.845.2226.685.035.32f210.707.805.8224.454.324.72f310.818.436.0023.744.114.50f410.658.416.4023.213.994.28f511.248.137.6122.683.814.09f611.118.537.9722.543.753.97f711.839.788.6722.163.593.88t112.1512.849.9520.653.092.97t212.1312.3510.5520.612.972.49t311.9015.8311.1820.522.941.90t411.9215.5811.8720.422.831.79s112.1114.0210.9918.962.872.80s212.7414.2311.1618.642.722.23s312.0114.4512.0818.862.661.84s411.8514.4212.6018.842.641.76 Probe
T eeproben: V arianz-Kovarianzmatrix
Cellulose Hemicellulose Lignin Polyphenole Coffein AminosäurenCellulose 1.06 1.51 1.66 -1.82 -0.35 -0.36Hemicellulose 1.51 12.39 8.27 -7.51 -1.33 -1.43Lignin 1.66 8.27 7.01 -5.83 -1.31 -1.60Polyphenole -1.82 -7.51 -5.83 8.67 1.35 1.24Coffein -0.35 -1.33 -1.31 1.35 0.37 0.49Aminosäuren -0.36 -1.43 -1.60 1.24 0.49 0.84
XTHnX S= Objekte
Objekte
VariablenVariablen
Variablen
Variablen
Korrelationskoef fizient
Ein normiertes Mass für den Zusammenhang zwischen zwei Zufallsvariablen ist der Korrelationskoeffizient r mit Werten zwischen -1 und +1.
Für eine Abschätzung des Korrelationskoeffizienten gilt: R SxySxSy
r covsxsy xy Aus der Varianz-Kovarianzmatrix S kann man die Korrelationsmatrix wie folgt ableiten. Zuerst erzeugt man eine Diagonalmatrix D, die die jeweiligen reziproken Standardabweichungen enthält (vgl. Gleichung 6.20 im Skript). Die Korrelationsmatrix ist dann:R = D S DDie Diagonalelemente der Korrelationsmatrix haben den Wert 1, die Ausserdiagonalelmente sind die Korrelationskoeffizienten der entsprechenden Paare von Variablen. ( σxy ist die Kovarianz)
T eeproben: Korrelationsmatrix
Cellulose Hemicellulose Lignin Polyphenole Coffein AminosäurenCellulose 1.00 0.42 0.61 -0.60 -0.56 -0.38Hemicellulose 0.42 1.00 0.89 -0.72 -0.62 -0.44Lignin 0.61 0.89 1.00 -0.75 -0.82 -0.66Polyphenole -0.60 -0.72 -0.75 1.00 0.76 0.46Coffein -0.56 -0.62 -0.82 0.76 1.00 0.88Aminosäuren -0.38 -0.44 -0.66 0.46 0.88 1.00
Winkel zwischen zwei V e ktoren
α x
y Skalarprodukt:xTy = ||x|| ||y|| cosα
Länge eines Vektors:
x=x1 2+x2 2+...+xn 2=xi 2∑=x Tx cosα= x TyxTxyTy
Korrelationskoef fizient
cosα= x Tyx Txy Ty r= x TyxTxyTy r= cov(xy)sxsy = x−x
()
y−y()
∑x−x()
2∑y−y()
2∑Für zentrierte Variablen:
Der Korrelationskoeffizient entspricht dem Cosinus des Winkels zwischen den beiden Vektoren
Objektraum und V ariablenraum
Multivariate Daten:
Datenmatrix
n Objekte p Variablen
Geometrische Repräsentation
Objekt 1Objekt 2Objekt 3 Variable 1 4 2 1 Variable 2 2 3 2
1234 21 3
Obj. 1 Obj. 2
Obj. 3 Var 2
Var 1
V ariablenraum
Jede Variable spannt eineDimension auf. Jedes Objekt istein Punkt im p-dimensionalenRaum (hier ist p=2).
So lassen sich Objekte vergleichen(z.B. über ihren Abstand).
Geometrische Repräsentation
Objekt 1Objekt 2Objekt 3 Variable 1 4 2 1 Variable 2 2 3 2
1 2 Obj. 2
1
2Obj. 3 Var 2Var 1
Obj 1 3
Objektraum
Jedes Objekt spannt eineDimension auf. Jede Variableist ein Punkt im n-dimensionalenRaum (hier ist n=3).So lassen sich Variablenvergleichen (z.B. über denWinkel zwischen ihnen).Bedeutung des Korrelationskoef fizienten
3
2
1
0
0 1 2 3 3210
0 1 2 3 3210 1-1
0 1 2 3 -1 1 Variablenraum Variablenraum zentriert Objektraum (zentrierte Variablen)
1 3
(-1,0,1) (2,3)
(3,2)
(1,1)
(-1,1,0)-1 (-1 α = 60o; cos α = 0.5
2
[-1 0 1]–110
[-1 0 1]–101 [-1 1 0]–110 r === 0.5 12 2 x x yy
T eeproben: Korrelationsmatrix
Cellulose Hemicellulose Lignin Polyphenole Coffein AminosäurenCellulose 1.00 0.42 0.61 -0.60 -0.56 -0.38Hemicellulose 0.42 1.00 0.89 -0.72 -0.62 -0.44Lignin 0.61 0.89 1.00 -0.75 -0.82 -0.66Polyphenole -0.60 -0.72 -0.75 1.00 0.76 0.46Coffein -0.56 -0.62 -0.82 0.76 1.00 0.88Aminosäuren -0.38 -0.44 -0.66 0.46 0.88 1.00
Geometrische Interpretation:Im 31-dimensionalen Objektraum, ist der Winkel zwischen: Cellulose und Aminosäuren: 112o Coffein und Aminosäuren: 28o Coffein und Polyphenolen: 41o
T eeproben
CategoryVarietySamplesSource
Green teaChunmeeC1, C2, C3, C4,C5, C6, C7Shanghai Tea Inst. HysonH1, H2, H3,H4, H5Shanghai Tea Inst. Black tea KeemunK1, K2,K3, K4Shanghai Tea Inst.Feng QuingF1, F2, F3, F4,F5, F6, F7Yunnan Tea Inst. Oolong tea TikuanyinT1, T2, T3, T4 Xia Men Tea Inst.Se ZhongS1, S2, S3, S4 Xia Men Tea Inst.
High qualityLow quality
X. Liu, P. van Espen, F. Adams, S.H. Yan, M. Vanbella, Anal.Chim. Acta 1987, 200, 421
Distanz zwischen zwei V ektoren
x1
x2
1 2
dij(xikxjk) 2
k
¤
xixj Txixj Euklid: d12 x12x22x11x21
Distanz zwischen T e eproben
c1c2c3c4c5c6c7h1h2h3h4h5k1k2k3k4
c21.35
c33.131.92
c44.613.371.63
c56.615.333.532.28
c67.726.434.663.201.30
c79.408.116.304.823.011.82
h12.211.551.923.174.876.037.77
h23.952.811.041.422.884.065.682.33
h35.174.012.201.351.772.914.543.351.33
h47.045.934.043.142.062.643.515.373.172.25
h58.016.884.993.742.412.292.666.284.153.001.44
k19.628.567.306.975.285.646.258.016.766.165.716.29
k210.229.077.637.015.055.115.378.537.016.215.465.761.37
k311.189.998.377.565.465.224.919.507.696.785.505.572.961.74
k411.5010.268.447.205.064.263.149.737.696.525.004.305.404.132.96
f14.663.943.284.104.725.847.224.013.343.964.695.926.016.607.428.34
f26.075.023.613.502.893.925.254.563.122.813.064.104.174.495.316.09
f36.995.914.434.142.973.824.945.393.843.323.044.003.303.564.375.38
f47.496.414.864.402.943.654.655.774.173.462.933.703.133.213.964.86
f58.427.345.614.883.203.534.046.664.823.892.542.923.913.523.633.87
f68.847.796.085.393.704.004.397.065.264.342.923.253.873.473.513.87
f710.189.157.456.825.085.235.188.496.645.814.074.344.143.623.103.86
t113.5712.5910.9610.428.568.568.1211.8810.139.357.577.726.015.544.655.89
t213.6612.6811.0110.418.568.518.0111.9210.149.317.467.506.515.975.025.81
t316.1915.3313.8313.4711.7111.8011.4014.5712.9912.3510.6410.898.708.497.799.16
t416.4415.5814.0513.6511.9011.9611.5114.7913.2012.5210.7610.949.128.868.099.25
s115.8314.8413.2112.5910.6310.509.8714.0812.3511.519.729.707.797.246.287.28
s216.4115.4013.7413.0811.1010.9110.1714.6612.8712.0210.1710.108.447.846.777.60
s316.7715.8214.1813.5711.6511.5210.8714.9913.2912.4410.6210.559.108.577.628.35
s417.0216.0914.4513.8411.9411.8211.1615.2413.5412.7010.8710.779.508.978.038.65
Distanz zwischen T e eproben
f1f2f3f4f5f6f7t1t2t3t4s1s2s3c2c3c4c5c6c7h1h2h3h4h5k1k2k3k4f1f22.50f33.341.02f44.001.600.73f54.992.722.061.50f65.353.142.411.810.59f76.404.453.633.142.131.66t19.727.977.066.605.865.353.80t29.968.167.286.785.905.373.870.92t312.4210.9510.069.679.098.567.073.423.59t412.7111.2110.349.919.258.707.203.573.570.76s111.9810.179.238.737.957.435.952.332.412.572.53s212.6010.809.859.368.558.046.532.912.882.642.520.96s313.0711.2910.379.869.038.497.033.443.222.361.951.541.28s413.3611.5810.6910.169.298.757.313.813.512.632.101.991.780.55
Clusteranalyse
Prinzip der hierarchischen Clusteranalyse: Avarage-Linkage-Methode:links: Koordinaten im 2D-Raum, rechts: Dendrogramm
A
B C D E
X1 X2Abstand
ABCDE BC DE
T e eproben: Clustering
6543210 SimilarityDegreeC1 C2 H1 C3 C4 H2 H3 K1 K2 F2 F3 F4 F1 C5 C6 H4 H5 C7 K3 K4 F5 F6 F7 T1 T2 S1 T3 T4 S3 S4 S2
Green
Green
Good quality
Low quality
Black
Oolong Black
Black and green tea
Clusterungsmethoden
“Single linkage” (nächster Nachbar): kann zu elongierten Clustern führen“Average linkage” (Mitte der Cluster)“Complete linkage” (am weitesten entfernter Mitglied der Cluster): führt zu kompakten Clustern
Distanzmasse
dij=(xik−xjk) 2
k
∑
=xi−xj()
Txi−xj()
Euklid Minkowskidij=xik−xjk()
nk
∑
⎛ ⎝ ⎜⎞
⎠ ⎟ 1/
n
dij=xik−xjkk
∑
City blockDistanzmasse
dij(xikxjk) 2
k
¤
xixj TxixjEuklid Euklid gewichtetdijxixj TWxixjGewichtsmatrix: I:I: Eukliddiag W: individuell gewichtet, z.B wi = 1/s
zzz CC = (1/n) XX XX, mit XX: zentrierte DatenT WW = CC (Inverse der Varianz-Kovarianz Matrix)-1 Mahalanobis Distanz: i 2 Kolonnenvarianz
Gewichtung = Skalierung der Koordinaten
W = 0.5 1 00 1 11( 0.4)
1
W = 0.5 1.6 00 0.4 1( 1.6 ) Durch die Gewichtung ändern sich die Distanzen und die Winkel (Korrelationskoeffizienten) zwischen den Vektoren
Mahalanobis-DistanzMahalanobis-Distanz
Abstand eines Punktes von einem andren, der sich in einer bekannten Verteilung befindet. Das Abstandsmass berücksichtigt die Korrelation.
A B C
Die Mahalanobis-Distanz von C zu B ist kleiner als von A zu B.Die euklidschen Distanzen sind gleich. Die Mahalanobis-Distanz zwischen den beiden Clustern G1 und G2 ist keiner als zwischen G3 und G4.Die euklidschen Distanzen sind gleich. G1 G2G3 G4
Distanzmasse für binäre V ariablen
dij=XORxik,xjk
()
k
Σ
Hamming-Distanz:Die Hamming-Distanz ist die Cityblock-Distanz für binäre VariablenXOR: exklusives OR: 0 XOR 0 = 0; 1 XOR 1 = 0 0 XOR 1 = 1; 1 XOR 0 = 1
Tanimoto-Koeffizient T zwischen zwei binären Vektoren A und B: Anzahl der 1 in A: NA, in B: NB, gleichzeitiges Vorkommen in A und B: NA&B (Tanimoto Abstand: 1–T)T = NA&BNA +NB – NA&B
Beispiel:A: 1 1 0 1 1 0 0 1 0 1 0 0 1 1B: 1 1 0 1 0 0 0 1 1 0 0 0 1 1A&B 1 1 0 1 0 0 0 1 0 0 0 0 1 1T = 6 / (8 + 7 – 6) = 0.667; 1 – T = 0.333
Hamming-Distanz: 3
Distanzmasse: Abstand und Winkel
X1 X2
v1 v2
v3 D12
D13 Die Abstände D12 und D13 sind gleich, aber bei der Benützung des Winkelszwischen den Vektoren als Distanzmass ist v2 viel ähnlicher zu v1 als v3.
Der Cosinus des Winkels zwischen zwei Datenvektoren entspricht dem Korrela-tionskoeffizienten.
Abstand und Winkel: Ein Beispiel
Retentionsindizes von fünf Substanzen (1–5) mit drei stationären Phasen (SF1–SF3) in der GaschromatographieStationäre Phase 1 2 3 4 5SF1 100 130 150 160 170SF2 120 110 170 150 145SF3 190 260 310 320 350D12 = 43.9 D13 = 329.5r12 = 0.658 r13 = 0.997
Interpretation: Die absoluten Retentionsindizes sind für SF1 und SF2 ähnlich, die relativen für SF1 und SF3. Die Phasen SF1 und SF2 sind ähnlich polar. SF1 und SF3 zeigen ähnliche spezifische Wechselwirkungen mit den Proben. Man würde bei Erhöhung der Temperatur für SF3 ähnliche Werte bekommen wie für SF1.