TECHNISCHE UNIVERSIT ¨AT DORTMUND Wintersemester 2007/2008
FAKULT ¨AT STATISTIK 18.12.2007
Prof. Dr. G. Trenkler Blatt 10
Dipl.-Stat. M. Arnold
Ubungen zur Vorlesung¨
Multivariate Statistik
Aufgabe 34
Gegeben sei folgende Distanzmatrix der vier Objekte A, B, C und D:
0 1 11 5
1 0 2 3
11 2 0 4
5 3 4 0
.
F¨uhren Sie jeweils eine Clusteranalyse durch und zeichnen Sie das Dendrogramm unter Verwendung von
a) single linkage, b) complete linkage, c) average linkage.
Aufgabe 35
Unterhttp://www.statistik.uni-dortmund.de/∼arnold finden Sie in der DateiSprachen.txtdie Zah- len 1 bis 10 in 11 europ¨aischen Sprachen. Als Merkmal f¨ur die ¨Ahnlichkeit zweier Sprachen soll die Anzahl der Zahlen dienen, die mit dem gleichen Buchstaben beginnen - die resultierende ¨Ahnlich- keitsmatrix steht in der DateiSprachen-Matrix.txt.
a) Wandeln Sie die ¨Ahnlichkeitsmatrix in eine geeignete Distanzmatrix um.
b) Clustern Sie die 11 Sprachen und zeichnen Sie das Dendrogramm bei Verwendung von single linkage.
c) Clustern Sie die 11 Sprachen und zeichnen Sie das Dendrogramm bei Verwendung von complete linkage.
d) Wieviele Cluster w¨urden Sie w¨ahlen? Wie sehen die Cluster aus?
Aufgabe 36
Mit den Methoden der Clusteranalyse k¨onnen nicht nur Objekte (Merkmalstr¨ager), sondern auch die Merkmale selbst zu Gruppen zusammengefasst werden. Ein ¨Ahnlichkeitsmaß kann dazu etwa aus dem Korrelationskoeffizienten abgeleitet werden. Zeigen Sie, dass der Stichprobenkorrelations- koeffizient der beiden bin¨aren VariablenX undY mit zugeh¨origer Vierfeldertafel
X\Y 0 1
0 a b
1 c d
gegeben ist durch
r= ad−bc
p(a+b)(a+c)(b+d)(c+d).
Aufgabe 37
Zu einem gegebenen Abstandsmaßdf¨ur einzelne Objekte (z.B. euklidischer Abstand) sei ein allge- meines AbstandsmaßDf¨ur paarweise disjunkte Cluster R,P undQ folgendermaßen definiert:
D(x, y) = d(x, y),
D(R, P ∪Q) = α1D(R, P) +α2D(R, Q) +α3|D(R, P)−D(R, Q)|.
Dabei sindα1,α2 und α3 geeignet zu w¨ahlende Gewichte.
a) Zeigen Sie, dass sich f¨ur α1 = α2 = 12 und α3 = −12 der nearest-neighbour-Abstand (single linkage) ergibt.
b) Seien die Anzahlen der Elemente von P,Q und R mit p, q und r bezeichnet. Zeigen Sie, dass sich f¨urα1= p+qp ,α2 = p+qq und α3 = 0 deraverage-linkage-Abstand ergibt.
c) F¨ur welche Gewichte α1, α2 und α3 entspricht D dem furthest-neighbour-Abstand (complete linkage)?
Abgabebis Montag, 07.01.2008, 14:00 Uhr, in den Briefkasten im Mathefoyer.