Daten von Anscombe: numerisch

(1)

Chemometrie: von Daten zu Information

Chemometrie: Definition

%%%$

$$!%%%

$$

%%%!""#%%%

!"

%%%"%

W arnungen

&

!"

!! ! $

!"!&! %'')*/--1%)..*'&'%' %! %'')*/--1%..0.(..02'

Daten von Anscombe: numerisch

xy108.0486.95137.5898.81118.33149.9667.2444.261210.8474.8255.68

"0((0.#'0,#+$%"0*/'#+0'#((-0(*#,+$ %0'#-) xy109.1488.14138.7498.77119.26148.166.1343.1129.1377.2654.74 xy107.4686.771312.7497.11117.81148.8466.0845.39128.1576.4255.73 xy86.5885.7687.7188.8488.4787.0485.251912.585.5687.9186.89

(2)

Daten von Anscombe: graphisch Zentrieren und Skalieren

original 50-5

-505 50-5

-505

zentriertzentriert und skaliert

Datentransformationen

Zentrierung (Mittelwert = 0 setzen: xi' = xi - x _)Häufig der erste Schritt, da die Variation der Daten wichtiger ist als ihre Absolutwerte Skalierung bezüglich Standardabweichung s:(Varianz = 1 setzen: xi' = (xi - x _)/s)Notwendig um verschiedenartige Daten zu vergleichen. Vorsicht, wenn Absolutwerte in der gleichen Grössenordnung liegen wie die Fehler.

Skalierung bezüglich Bereich: xi' = (xi - min(x))/(max(x)-min(x))

Logarithmierung

Linearisierung (z.B. Gran-Plot, Scatchard-Plot)Gut um Zusammenhänge zu erkennen. Die Parameter sollten aber nicht mit den linearisierten Variablen angepasst werden.

Achtung: Fehlerstruktur, Distanzen und Winkel (Korrelationskoeffizient) können durch die Transformation verändert werden.

T ransformationen

ln X X

x

e

Y ln Y

y

e

(3)

Scatchard-Plot

Bestimmung der Komplexbildungskonstante (K) zwischen Ligand (L) und Substrat (S). Zur Lösung des Liganden (totale Konzentration: Ltot) wird schrittweise Substrat-Lösung zugegeben und die Konzentration des Komplexes (LS) bestimmt. Ein Plot von [LS]/[S] gegen [LS] hat die Steigung –K.

L + S LS; K = ; Ltot = [L] + [LS]; [L] = Ltot – [LS]

Daraus folgt: = K [L] = K (Ltot – [LS])

Problem: Die Voraussetzung der Linearen Regression (Fehler nur in y) ist NICHT erfüllt. Zudem kann der Fehler entlang der x-Achse variieren (heteroskedastische Daten). Die Methode sollte für die quantitative Auswertung NICHT eingesetzt werden.

G. Scatchard, Ann. N. Y. Acad. Sci. 1949, 51, 660. [LS][L] [S]

[LS][S]

Datentransformation: W arnungen

Wie kann man für gute Korrelationen sorgen?

1

0-1

-2

-3

-4

-3-2-10123

log x/y

log 1/y

log 1/y vs. log x/y, r = 0.96

Datentransformation: W arnungen

2.02.22.42.62.83.0

log x log x vs. log y, r = 0.00

5

4

3

2

1

0

log y

Wie kann man für gute Korrelationen sorgen?

1

0-1

-2

-3

-4

-3-2-10123

log x/y

log 1/y

log 1/y vs. log x/y, r = 0.96

Charakterisierung von 1D Daten

Mittelwert: μ, Schätzung Varianz σ2, Schätzung: s2 = (s: Standardabweichung)Höhere Momente

Oft wird eine Normalverteilung angenommen. Sie ist durch Mittelwert und Varianz vollständig charakterisiert.

Mittelwert und Varianz können für beliebig verteilte Daten berechnet werden. Sie haben dann aber nicht die gleiche statistische Bedeutung. mx=xiΣ/n

s 2= xi−mx() 2Σn−1()

(4)

Wichtigkeit von Graphiken

Mittelwert = 3.6 s = 4.2 Wichtigkeit von Graphiken Mittelwert = 3.6 s= 4.2

Anzahl Beobachtungen

0369

V arianz

s 2 1n1 xix _¥§ ´¶ 2

¤

1n1 zi 2

¤

z: zentrierte Variablen

Mit Vektornotation:

s 2 1n1 z Tz zT

z zi 2

¤ Berechnung der V arianz: Matrixnotation

Eindimensionale Daten (Datenvektor x)

Mittelwert:x _ = 1n 3 xi = 1n 1Tx

Summe der Fehlerquadrate:

3 (xi-x _) 2 = 3 x

i 2 - i3(x) 2

n = x Tx - 1n (x T1)(1 Tx) = x THnx mit Hn=I - ( 1n 1n1 Tn ) Varianz: Hn: Zentrierungsmatrix

Da Hn symmetrisch und idempotent ist: (Hnx)THnx = xTHn THnx = xTHnx s2 = 1n-1 x THnx

(5)

V arianz und Kovarianz

KonfidenzintervallKonfidenzbereich 1D-Daten2D-Daten

V arianz und Kovarianz

2D-Daten2D-Daten

Kovarianz = 0Kovarianz ≠ 0

V arianz und Kovarianz

1D-Wahrscheinlichkeitsdichtefunktion für die Normalverteilung

nD-Wahrscheinlichkeitsdichtefunktion für die Normalverteilung f(x)= 12πσ 2 e − 12 x−μσ() 2= 12πσ 2 e − 12 x−μ() 1σ2x−μ()

f(x)= 1

2πΣ e − 12 x−μ()ΤΣ−1x−μ() σ2: Varianz

Σ: Varianz-Kovarianzmatrix

Berechnung der V a rianz: Matri x notation

s2 = 1n-1 yTHny Für mehrdimensionale Daten erhält man mit der analogen Matrixoperationen die Varianz-Kovarianz-matrix SS:S = 1n-1 ATA - 1n (AT1)(1TA)= ATHnA

Die Diagonalelemente sind die Varianzen, die Ausserdiagonalelemente die Kovarianzen der entsprechenden Variablen.

HnA= x1

1-x _y 1-y _z -z _

x2

2-x _y 2-y _z -z _

x3

3-x _y 3-y _z -z _

S = 1n-1 ATHnA = 1n-1 Σ(xi-x _

)2Σ(xi-x _

)(yi-y _

) Σ(xi-x _

)(zi-z _

)

Σ(xi-x _

)(yi-y _

) Σ(yi-y _

)2Σ(yi-y _

)(zi-z _

)

Σ(xi-x _

)(zi-z _

) Σ(yi-y _

)(zi-z _

) Σ(zi-z _

)2 =

var(x) cov(x,y) cov(x,z) cov(x,y) var(y) cov(y,z) cov(x,z) cov(y,z) var(z)

(6)

T eeproben

CategoryVarietySamplesSource

Green teaChunmeeC1, C2, C3, C4,C5, C6, C7Shanghai Tea Inst. HysonH1, H2, H3,H4, H5Shanghai Tea Inst. Black tea KeemunK1, K2,K3, K4Shanghai Tea Inst.Feng QuingF1, F2, F3, F4,F5, F6, F7Yunnan Tea Inst. Oolong tea TikuanyinT1, T2, T3, T4 Xia Men Tea Inst.Se ZhongS1, S2, S3, S4 Xia Men Tea Inst.

High qualityLow quality

X. Liu, P. van Espen, F. Adams, S.H. Yan, M. Vanbella, Anal.Chim. Acta 1987, 200, 421

T eeproben: Messdaten

CelluloseHemicelluloseLigninPolyphenoleCoffeinAminosäurenc19.504.903.5329.034.443.82c210.065.113.5727.844.293.70c310.795.464.6226.533.913.46c411.314.925.0225.163.723.29c511.506.085.4823.283.503.10c612.105.645.6122.233.383.02c713.305.686.3221.103.142.87h19.075.334.4227.234.203.18h210.755.805.2925.994.003.00h310.785.725.7924.773.862.91h412.006.687.2024.053.492.81h512.175.867.7123.023.422.60k110.3210.665.0721.554.234.43k210.9910.115.6020.644.144.35k312.3210.126.5320.064.024.12k413.047.707.7019.343.743.45f110.957.845.2226.685.035.32f210.707.805.8224.454.324.72f310.818.436.0023.744.114.50f410.658.416.4023.213.994.28f511.248.137.6122.683.814.09f611.118.537.9722.543.753.97f711.839.788.6722.163.593.88t112.1512.849.9520.653.092.97t212.1312.3510.5520.612.972.49t311.9015.8311.1820.522.941.90t411.9215.5811.8720.422.831.79s112.1114.0210.9918.962.872.80s212.7414.2311.1618.642.722.23s312.0114.4512.0818.862.661.84s411.8514.4212.6018.842.641.76 Probe

T eeproben: V arianz-Kovarianzmatrix

Cellulose Hemicellulose Lignin Polyphenole Coffein AminosäurenCellulose 1.06 1.51 1.66 -1.82 -0.35 -0.36Hemicellulose 1.51 12.39 8.27 -7.51 -1.33 -1.43Lignin 1.66 8.27 7.01 -5.83 -1.31 -1.60Polyphenole -1.82 -7.51 -5.83 8.67 1.35 1.24Coffein -0.35 -1.33 -1.31 1.35 0.37 0.49Aminosäuren -0.36 -1.43 -1.60 1.24 0.49 0.84

XTHnX S= Objekte

Objekte

VariablenVariablen

Variablen

Korrelationskoef fizient

Ein normiertes Mass für den Zusammenhang zwischen zwei Zufallsvariablen ist der Korrelationskoeffizient r mit Werten zwischen -1 und +1.

Für eine Abschätzung des Korrelationskoeffizienten gilt: R SxySxSy

r covsxsy xy Aus der Varianz-Kovarianzmatrix S kann man die Korrelationsmatrix wie folgt ableiten. Zuerst erzeugt man eine Diagonalmatrix D, die die jeweiligen reziproken Standardabweichungen enthält (vgl. Gleichung 6.20 im Skript). Die Korrelationsmatrix ist dann:R = D S DDie Diagonalelemente der Korrelationsmatrix haben den Wert 1, die Ausserdiagonalelmente sind die Korrelationskoeffizienten der entsprechenden Paare von Variablen. ( σxy ist die Kovarianz)

(7)

T eeproben: Korrelationsmatrix

Winkel zwischen zwei V e ktoren

α x

y Skalarprodukt:xTy = ||x|| ||y|| cosα

Länge eines Vektors:

x=x1 2+x2 2+...+xn 2=xi 2∑=x Tx cosα= x TyxTxyTy

Korrelationskoef fizient

cosα= x Tyx Txy Ty r= x TyxTxyTy r= cov(xy)sxsy = x−x

()

y−y

()

∑_x−x

()

2∑y−y

()

2∑

Für zentrierte Variablen:

Der Korrelationskoeffizient entspricht dem Cosinus des Winkels zwischen den beiden Vektoren

Objektraum und V ariablenraum

Multivariate Daten:

Datenmatrix

n Objekte p Variablen

(8)

Geometrische Repräsentation

Objekt 1Objekt 2Objekt 3 Variable 1 4 2 1 Variable 2 2 3 2

1234 21 3

Obj. 1 Obj. 2

Obj. 3 Var 2

Var 1

V ariablenraum

^{Jede V}

ariable spannt eineDimension auf. Jedes Objekt istein Punkt im p-dimensionalenRaum (hier ist p=2).

So lassen sich Objekte vergleichen(z.B. über ihren Abstand).

Geometrische Repräsentation

Objekt 1Objekt 2Objekt 3 Variable 1 4 2 1 Variable 2 2 3 2

1 2 Obj. 2

1

2Obj. 3 Var 2Var 1

Obj 1 3

Objektraum

Jedes Objekt spannt eineDimension auf. Jede Variableist ein Punkt im n-dimensionalenRaum (hier ist n=3).So lassen sich Variablenvergleichen (z.B. über denWinkel zwischen ihnen).

Bedeutung des Korrelationskoef fizienten

3

2

1

0

0 1 2 3 3210

0 1 2 3 3210 1-1

0 1 2 3 -1 1 Variablenraum Variablenraum zentriert Objektraum (zentrierte Variablen)

1 3

(-1,0,1) (2,3)

(3,2)

(1,1)

(-1,1,0)-1 (-1 α = 60o; cos α = 0.5

2

[-1 0 1]–110

[-1 0 1]–101 [-1 1 0]–110 r === 0.5 12 2 x x yy

T eeproben: Korrelationsmatrix

Geometrische Interpretation:Im 31-dimensionalen Objektraum, ist der Winkel zwischen: Cellulose und Aminosäuren: 112o Coffein und Aminosäuren: 28o Coffein und Polyphenolen: 41o

(9)

T eeproben

CategoryVarietySamplesSource

Green teaChunmeeC1, C2, C3, C4,C5, C6, C7Shanghai Tea Inst. HysonH1, H2, H3,H4, H5Shanghai Tea Inst. Black tea KeemunK1, K2,K3, K4Shanghai Tea Inst.Feng QuingF1, F2, F3, F4,F5, F6, F7Yunnan Tea Inst. Oolong tea TikuanyinT1, T2, T3, T4 Xia Men Tea Inst.Se ZhongS1, S2, S3, S4 Xia Men Tea Inst.

High qualityLow quality

X. Liu, P. van Espen, F. Adams, S.H. Yan, M. Vanbella, Anal.Chim. Acta 1987, 200, 421

Distanz zwischen zwei V ektoren

x1

x2

1 2

dij(xikxjk) 2

k

¤

xixj Txixj Euklid: d12 x12x22

x11x21

Distanz zwischen T e eproben

c1c2c3c4c5c6c7h1h2h3h4h5k1k2k3k4

c21.35

c33.131.92

c44.613.371.63

c56.615.333.532.28

c67.726.434.663.201.30

c79.408.116.304.823.011.82

h12.211.551.923.174.876.037.77

h23.952.811.041.422.884.065.682.33

h35.174.012.201.351.772.914.543.351.33

h47.045.934.043.142.062.643.515.373.172.25

h58.016.884.993.742.412.292.666.284.153.001.44

k19.628.567.306.975.285.646.258.016.766.165.716.29

k210.229.077.637.015.055.115.378.537.016.215.465.761.37

k311.189.998.377.565.465.224.919.507.696.785.505.572.961.74

k411.5010.268.447.205.064.263.149.737.696.525.004.305.404.132.96

f14.663.943.284.104.725.847.224.013.343.964.695.926.016.607.428.34

f26.075.023.613.502.893.925.254.563.122.813.064.104.174.495.316.09

f36.995.914.434.142.973.824.945.393.843.323.044.003.303.564.375.38

f47.496.414.864.402.943.654.655.774.173.462.933.703.133.213.964.86

f58.427.345.614.883.203.534.046.664.823.892.542.923.913.523.633.87

f68.847.796.085.393.704.004.397.065.264.342.923.253.873.473.513.87

f710.189.157.456.825.085.235.188.496.645.814.074.344.143.623.103.86

t113.5712.5910.9610.428.568.568.1211.8810.139.357.577.726.015.544.655.89

t213.6612.6811.0110.418.568.518.0111.9210.149.317.467.506.515.975.025.81

t316.1915.3313.8313.4711.7111.8011.4014.5712.9912.3510.6410.898.708.497.799.16

t416.4415.5814.0513.6511.9011.9611.5114.7913.2012.5210.7610.949.128.868.099.25

s115.8314.8413.2112.5910.6310.509.8714.0812.3511.519.729.707.797.246.287.28

s216.4115.4013.7413.0811.1010.9110.1714.6612.8712.0210.1710.108.447.846.777.60

s316.7715.8214.1813.5711.6511.5210.8714.9913.2912.4410.6210.559.108.577.628.35

s417.0216.0914.4513.8411.9411.8211.1615.2413.5412.7010.8710.779.508.978.038.65

Distanz zwischen T e eproben

f1f2f3f4f5f6f7t1t2t3t4s1s2s3c2c3c4c5c6c7h1h2h3h4h5k1k2k3k4f1f22.50f33.341.02f44.001.600.73f54.992.722.061.50f65.353.142.411.810.59f76.404.453.633.142.131.66t19.727.977.066.605.865.353.80t29.968.167.286.785.905.373.870.92t312.4210.9510.069.679.098.567.073.423.59t412.7111.2110.349.919.258.707.203.573.570.76s111.9810.179.238.737.957.435.952.332.412.572.53s212.6010.809.859.368.558.046.532.912.882.642.520.96s313.0711.2910.379.869.038.497.033.443.222.361.951.541.28s413.3611.5810.6910.169.298.757.313.813.512.632.101.991.780.55

(10)

Clusteranalyse

Prinzip der hierarchischen Clusteranalyse: Avarage-Linkage-Methode:links: Koordinaten im 2D-Raum, rechts: Dendrogramm

A

B C D E

X1 X2Abstand

ABCDE BC DE

T e eproben: Clustering

⁶⁵⁴³²¹⁰ ^Sⁱ^mⁱ^lâ^rⁱ^t^y^Dê^g^rêê

C1 C2 H1 C3 C4 H2 H3 K1 K2 F2 F3 F4 F1 C5 C6 H4 H5 C7 K3 K4 F5 F6 F7 T1 T2 S1 T3 T4 S3 S4 S2

Green

Good quality

Low quality

Black

Oolong Black

Black and green tea

Clusterungsmethoden

“Single linkage” (nächster Nachbar): kann zu elongierten Clustern führen“Average linkage” (Mitte der Cluster)“Complete linkage” (am weitesten entfernter Mitglied der Cluster): führt zu kompakten Clustern

Distanzmasse

dij=(xik−xjk) 2

k

∑

=xi−xj

()

Txi−xj

()

Euklid Minkowskidij=xik−xjk

()

n

k

∑

⎛ ⎝ ⎜

⎞

⎠ ⎟ _1/

n

dij=xik−xjkk

∑

City block

(11)

Distanzmasse

dij(xikxjk) 2

k

¤

xixj TxixjEuklid Euklid gewichtetdijxixj TWxixj

Gewichtsmatrix: I:I: Eukliddiag W: individuell gewichtet, z.B wi = 1/s

zzz CC = (1/n) XX XX, mit XX: zentrierte DatenT WW = CC (Inverse der Varianz-Kovarianz Matrix)-1 Mahalanobis Distanz: i 2 Kolonnenvarianz

Gewichtung = Skalierung der Koordinaten

W = 0.5 1 00 1 11( 0.4)

1

W = 0.5 1.6 00 0.4 1( 1.6 ) Durch die Gewichtung ändern sich die Distanzen und die Winkel (Korrelationskoeffizienten) zwischen den Vektoren

Mahalanobis-DistanzMahalanobis-Distanz

Abstand eines Punktes von einem andren, der sich in einer bekannten Verteilung befindet. Das Abstandsmass berücksichtigt die Korrelation.

A B C

Die Mahalanobis-Distanz von C zu B ist kleiner als von A zu B.Die euklidschen Distanzen sind gleich. Die Mahalanobis-Distanz zwischen den beiden Clustern G1 und G2 ist keiner als zwischen G3 und G4.Die euklidschen Distanzen sind gleich. G1 G2G3 G4

Distanzmasse für binäre V ariablen

dij=XORxik,xjk

()

k

Σ

Hamming-Distanz:

Die Hamming-Distanz ist die Cityblock-Distanz für binäre VariablenXOR: exklusives OR: 0 XOR 0 = 0; 1 XOR 1 = 0 0 XOR 1 = 1; 1 XOR 0 = 1

Tanimoto-Koeffizient T zwischen zwei binären Vektoren A und B: Anzahl der 1 in A: NA, in B: NB, gleichzeitiges Vorkommen in A und B: NA&B (Tanimoto Abstand: 1–T)T = NA&BNA +NB – NA&B

Beispiel:A: 1 1 0 1 1 0 0 1 0 1 0 0 1 1B: 1 1 0 1 0 0 0 1 1 0 0 0 1 1A&B 1 1 0 1 0 0 0 1 0 0 0 0 1 1T = 6 / (8 + 7 – 6) = 0.667; 1 – T = 0.333

Hamming-Distanz: 3

(12)

Distanzmasse: Abstand und Winkel

X1 X2

v1 v2

v3 D12

D13 Die Abstände D12 und D13 sind gleich, aber bei der Benützung des Winkelszwischen den Vektoren als Distanzmass ist v2 viel ähnlicher zu v1 als v3.

Der Cosinus des Winkels zwischen zwei Datenvektoren entspricht dem Korrela-tionskoeffizienten.

Abstand und Winkel: Ein Beispiel

Retentionsindizes von fünf Substanzen (1–5) mit drei stationären Phasen (SF1–SF3) in der GaschromatographieStationäre Phase 1 2 3 4 5SF1 100 130 150 160 170SF2 120 110 170 150 145SF3 190 260 310 320 350

D12 = 43.9 D13 = 329.5r12 = 0.658 r13 = 0.997

Interpretation: Die absoluten Retentionsindizes sind für SF1 und SF2 ähnlich, die relativen für SF1 und SF3. Die Phasen SF1 und SF2 sind ähnlich polar. SF1 und SF3 zeigen ähnliche spezifische Wechselwirkungen mit den Proben. Man würde bei Erhöhung der Temperatur für SF3 ähnliche Werte bekommen wie für SF1.