Statistische Analyseverfahren
Abschnitt 7: Multidimensionale Skalierung
Dr. Andreas W¨ unsche
TU Bergakademie Freiberg Institut f¨ ur Stochastik
Januar 2020
7 Multidimensionale Skalierung
I Die multidimensionale Skalierung (auch mehrdimensionale Skalierung, MDS) hat das Ziel, n Untersuchungsobjekte durch Punkte in einem niedrigdimensionalen Raum (h¨ aufig 2-dimensional oder 3-dimensional) so darzustellen, dass die Abst¨ ande zwischen den Objekten m¨ oglichst exakt oder gut reproduziert werden.
I Diese Darstellung durch Punkte nennt man eine Konfiguration.
I Ausgangspunkt sind Daten ¨ uber die Abst¨ ande zwischen den Objekten oder ¨ uber die Rangfolge dieser Abst¨ ande. Merkmalswerte selber liegen in der Regel oft nicht vor bzw. sind nicht quantitativ, so dass eine Hauptkomponentenanalyse nicht direkt anwendbar ist.
I Bei einer metrischen multidimensionalen Skalierung geht man von einer Distanzmatrix aus. Bei einer nichtmetrischen
multidimensionalen Skalierung ist man an der Reihenfolge der
Distanzen und nicht an den Distanzen selber interessiert.
7.1 Metrische multidimensionale Skalierung
Einfache geometrische Fakten sind:
I Sind n Datenpunkte (Datenvektoren) im Raum R p gegeben, dann findet man Konfigurationen von n Punkten im Raum der Dimension min{n − 1, p} , die dieselben Abst¨ ande zwischen den Punkten wie die Datenpunkte besitzen.
I
Zwei unterschiedliche Punkte liegen auf einer Geraden, die man durch die Menge R
1beschreiben kann.
I
Drei unterschiedliche Punkte liegen auf einer Geraden oder in einer zweidimensionalen Ebene.
I
. . .
I Sind umgekehrt (euklidische) Abst¨ ande von n Punkten (in einem Raum unbekannter Dimension) gegeben und nicht die Punkte selber, dann kann man
I
im Fall n = 2 zwei Punkte in R
1mit dem selben Abstand finden;
I
im Fall n = 3 drei Punkte in R
2oder in R
1mit den selben
Abst¨ anden zueinander finden, usw.
Nichteindeutigkeit der Konfigurationen
I Ist eine Konfiguration von n Punkten in einem Raum R k gegeben, dann f¨ uhren Verschiebungen (Translationen) aller Punkte um einen festen Vektor, Drehungen aller Punkte um einen festen Winkel und Spiegelungen aller Punkte an einer Geraden zu Konfigurationen von Punkten, bei denen die Abst¨ ande zwischen den transformierten Punkten und zwischen den urspr¨ unglichen Punkten ¨ ubereinstimmen.
I Bsp. 7.1
I
3 Punkte im R
2in Datenmatrix : x
T=
1 5 1 1 1 4
;
I
−1.33 2.66 −1.33
−1 −1 2
um Mittelwertvektor verschobene Punkte;
I
−1 −1 −4
1 5 1
um 90 Grad gegen den Uhrzeigersinn gedrehte Punkte;
I
an der Abszisse gespiegelte Punkte :
1 5 1
−1 −1 −4
.
Grafik der Punkte und Distanzmatrix Beispiel 7.1
Schwarz
◦: Punkte, rot
∆: um Mittelwertvektor verschobene Punkte,
blau
+: um 90 Grad gegen den Uhrzeigersinn gedrehte Punkte,
gr¨ un
×: an der Abszisse gespiegelte Punkte.
Ausgangspunkt Distanzmatrix
I F¨ ur alle oben angegebenen Konfigurationen des Beispiels 7.1 lauten die Distanzmatrizen f¨ ur euklidische Abst¨ ande (bei entsprechender Nummerierung der Punkte)
d =
0 4 3 4 0 5 3 5 0
.
I Ist nur eine Distanzmatrix gegeben, kann man versuchen, eine Konfiguration im R 2 konstruktiv zu bestimmen. Dazu kann man zwei Punkte im richtigen Abstand zeichnen und dann um diese Punkte Kreise mit den entsprechenden Abst¨ anden aus der Distanzmatrix.
I Dabei gibt es 3 M¨ oglichkeiten:
I
2 Schnittpunkte (zwei m¨ ogliche ¨ aquivalente Konfigurationen),
I
1 Schnittpunkt (eine eindeutig bestimmte Konfiguration) oder
I
kein Schnittpunkt (keine m¨ ogliche Konfiguration).
Geometrische Konstruktion - zwei M¨ oglichkeiten
Fortsetzung Bsp. 7.1 Distanzmatrix d =
0 4 3 4 0 5 3 5 0
.
Geometrische Konstruktion - genau eine M¨ oglichkeit
Bsp. 7.2 Distanzmatrix d =
0 4 1 4 0 3 1 3 0
.
(Hier gibt es sogar eine Konfiguration im Raum R 1 .)
Geometrische Konstruktion - keine M¨ oglichkeit
Bsp. 7.3 Distanzmatrix d =
0 4 1 4 0 2 1 2 0
.
(d 12 > d 13 + d 23 , d.h. die Dreiecksungleichung ist verletzt.)
Bemerkungen und Fragestellungen
I Das letzte Beispiel zeigt, dass auch Distanzmatrizen auftreten k¨ onnen, f¨ ur die es keine m¨ ogliche Konfiguration in irgendeinem Raum R k geben kann. Derartige F¨ alle treten auch oft in den Anwendungen auf, z.B. wenn
” Distanzen“ aus nichtmetrischen Merkmalen berechnet werden.
I Dies f¨ uhrt auf folgende Fragestellungen:
1. Ist ¨ uberhaupt eine Darstellung der Distanzen durch eine Punktekonfiguration m¨ oglich und wenn ja, in welchem Raum ? 2. Wie kann man bei Distanzmatrizen eine Konfiguration von Punkten
im Raum R
kfinden, sodass die Abst¨ ande zwischen den Punkten mit denen in der Distanzmatrix ¨ ubereinstimmen ?
I Hier soll zuerst eine M¨ oglichkeit vorgestellt werden, aus einer Datenmatrix mit reellen Werten eine Distanzmatrix zu berechnen.
I Danach wird auf dieser Grundlage ein Algorithmus angegeben, mit
dessen Hilfe man aus einer Distanzmatrix eine Punktekonfiguration
bestimmen kann (falls eine solche existiert).
Berechnung Distanzmatrix
I Datenmatrix x =
x 11 x 12 . . . x 1p x 21 x 22 . . . x 2p .. . .. . . .. .. . x n1 x n2 . . . x np
=
x T 1 x T 2 . . . x T n
.
I Mit b = (b rs ) r ,s=1,...,n := x x T und d = (d rs ) r,s=1,...,n gilt
d rs 2 = d L 2
2(x r , x s ) = b rr + b ss − 2b rs , r, s ∈ {1, 2, . . . , n} . (1)
I Fortsetzung Bsp. 7.1 F¨ ur x T =
1 5 1 1 1 4
erh¨ alt man
b = x x T =
2 6 5
6 26 9 5 9 17
und daraus d =
0 4 3 4 0 5 3 5 0
.
Berechnung einer Konfiguration mit der Matrix b
I Eine reelle n × n-Matrix b , die wie oben aus einer Datenmatrix x durch b = x x T berechnet wird, ist immer symmetrisch und nichtnegativ definit.
I Die Spektralzerlegung (Satz 5.1) liefert die Darstellung b = u Λ u T
mit der Diagonalmatrix Λ = diag(λ 1 , . . . , λ n ) der nichtnegativen Eigenwerte und der orthogonalen Matrix u , welche spaltenweise die normierten Eigenvektoren von b enth¨ alt.
I Im Fall n > p ist mindestens ein Eigenwert gleich 0.
I Mit Λ 0.5 = diag( √
λ 1 , . . . , √
λ n ) liefert dann x := u Λ 0.5
eine geeignete Konfiguration, da b = x x T gilt. Ist k die Anzahl
der Eigenwerte echt gr¨ oßer als Null, dann liegt die Konfiguration in
einem k −dimensionalen Raum.
Berechnungen f¨ ur das Bsp. 7.1
I Wir erhielten b =
2 6 5
6 26 9 5 9 17
.
I Die Eigenwerte der Matrix b und deren Quadratwurzeln sind λ 1 = 33.466 , p
λ 1 = 5.785 ; λ 2 = 11.534 , p
λ 2 = 3.396 ; λ 3 = 0 .
I Eine Matrix der normierten Eigenvektoren ist u =
0.239 0.087 0.967 0.820 −0.552 −0.153 0.521 0.829 −0.204
.
I Eine Punktekonfiguration im Raum R 2 erh¨ alt man durch x = u Λ 0.5 =
1.383 0.297 0 4.742 −1.875 0 3.012 2.816 0
.
Gefundene Konfiguration aus der Matrix b im Bsp. 7.1
Berechnung der Matrix b aus der Distanzmatrix
I Um f¨ ur eine gegebene Distanzmatrix d eine Punktekonfiguration berechnen zu k¨ onnen, reicht es also aus, die dazu entsprechende Matrix b zu berechnen. Dies bedeutet, dass das Gleichungssystem (1) d rs 2 = b rr + b ss − 2b rs nach den Gr¨ oßen b rs , r, s ∈ {1, . . . , n} , aufgel¨ ost werden muss.
I Dazu kann man als erstes die Matrix a = (a rs ) r,s=1,...,n mit a rs := −0.5d rs 2 berechnen.
I Dann gilt b rs = a rs − a r • − a •s + a •• f¨ ur r , s ∈ {1, . . . , n} mit
I
a
r•= 1 n
n
X
s=1
a
rs(Zeilenmittel);
I
a
•s= 1 n
n
X
r=1
a
rs(Spaltenmittel);
I
a
••= 1 n
2n
X
r=1 n
X
s=1
a
rs(Gesamtmittel).
Algorithmus 7.4 der metrischen MDS
Ausgangspunkt ist die Distanzmatrix d = (d rs ) r ,s=1,...,n . 1. Bilde die Matrix a = (a rs ) r ,s=1,...,n mit a rs = −0.5d rs 2 .
2. Bilde die Matrix b = (b rs ) r ,s=1,...,n mit b rs = a rs − a r • − a •s + a ••
I
a
r•= 1 n
n
X
s=1
a
rs(Zeilenmittel);
I
a
•s= 1 n
n
X
r=1
a
rs(Spaltenmittel);
I
a
••= 1 n
2n
X
r=1 n
X
s=1