• Keine Ergebnisse gefunden

¨Ubungen zur Vorlesung Wissensentdeckung in Datenbanken Sommersemester 2012 Blatt 12

N/A
N/A
Protected

Academic year: 2022

Aktie "¨Ubungen zur Vorlesung Wissensentdeckung in Datenbanken Sommersemester 2012 Blatt 12"

Copied!
2
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Prof. Dr. Katharina Morik, Prof. Dr. Claus Weihs

Dipl.-Inform. Klaus Friedrichs, Dipl.-Stat. Julia Schiffner, Dr. Issam Ben Khediri

Dortmund, 26.06.12 Abgabe: bis Mi, 04.07., 12.00 Uhr an

friedrichs@statistik.tu-dortmund.de

Ubungen zur Vorlesung ¨

Wissensentdeckung in Datenbanken Sommersemester 2012

Blatt 12

Aufgabe 12.1 (5 Punkte)

Gegeben seien folgende Datenpunkte im euklidischen Raum (siehe auch das Diagramm auf Seite 2):

Punkt x y

A 0 9

B 1 8

C 1 5

D 3 1

E 5 2

F 5 0

G 8 5

H 11 5

a) F¨uhren Sie den K-Means-Algorithmus mit k = 3 per Hand aus. Normalerweise werden die Startpunkte f¨ur die Mittelpunkte der Cluster (auch Zentroiden genannt) zuf¨allig ge- w¨ahlt. Hier sollen Sie jedoch die Punkte A, B und C als Startzentroiden benutzen. Falls im laufenden Algorithmus ein konkretes Beispiel ¨aquidistant zu zwei Clusterzentroiden ist, so w¨ahlen Sie denjenigen, der n¨aher am Nullpunkt liegt.

b) Benutzen Sie nun die Punkte E, F und G als Startzentroiden und f¨uhren Sie den Algo- rithmus ein weiteres Mal durch.

c) Berechnen Sie f¨ur Ihre Resultate aus a) und b) jeweils die in der Vorlesung auf Folie 15 vorgestellten G¨utekriterien Innerer Abstand W(C) und Zwischenun¨ahnlichkeit B(C).

Interpretieren Sie kurz die Ergebnisse!

(2)

0 2 4 6 8 10

02468

x

y

Aufgabe 12.2 (5 Punkte)

Bei Cluster-Verfahren, deren Clusteranzahl k vom Benutzer vorgegeben werden muss, ist die automatische Bestimmung dieses k kritisch.

a) Zur Auswahl welcher Cluster tendiert allgemein eine Optimierung, die auf der Formel W(C) beruht? Was ist somit ein ’optimales’ Clustering beruhend auf dieser Formel?

b) Benutzen Sie nun RapidMiner, um die Iris-Daten mit verschiedenen k-Werten zu clus- tern. Benutzen Sie den OperatorLoop Parameter, um Clusterings f¨ur alle ganzzahligen k zwischen 2 und 150 zu erstellen. Benutzen Sie zudemk-Means,Data to Similarity,Log und Cluster Density Performance innerhalb der Parameter-Schleife, um die Cluster zu bewerten.Cluster Density Performanceliefert vergleichbare Ergebnisse wieW(C). Las- sen Sie sich die Performanz-Werte f¨ur die verschiedenen Parameter-Werte k anzeigen und geben Sie diesen Plot zusammen mit der Experiment-Datei ab!

c) Analysieren Sie den erzeugten Plot und suchen Sie den ’Knick in der Kurve’. Gibt es die- sen Knick? Was sind u.U. andere Merkmale, die hier ein gutes Clustering auszeichnen.

Ihr Wissen ¨uber die Beschaffenheit des Iris-Datensatzes ist hier hilfreich.

Referenzen

ÄHNLICHE DOKUMENTE

Eine der großen St¨ arken der SVM ist die Verwendung von Kernfunk- tionen, die eine implizite Transformation Φ der Daten in einen anderen Raum erm¨ oglichen, so dass urspr¨

Katharina Morik Julia Schiffner, Felix Jungermann.

und den Add-Knopf k¨ onnen Sie nun auf der linken Seite (log) Namen f¨ ur die zu loggenden Werte vergeben (z. k und accuracy) und auf der rechten Seite (co- lumn_name) abh¨ angig

b) Versuchen Sie herauszufinden, welche Variablen n¨ utzlich sind, um die Klassen zu tren- nen. Wie Sie dabei vorgehen, ist Ihnen ¨ uberlassen. verschiedene Kenn- zahlen

Benutzen Sie zudem k-Means, Data to Similarity, Log und Cluster Density Performance innerhalb der Parameter-Schleife, um die Cluster zu bewerten. Cluster Density Performance

Aufgabe 1.2 – bedingte Wahrscheinlichkeiten und Satz von Bayes (4 Punkte) Die Eing¨ ange eines Supermarkts sind mit einer Alarmanlage gegen Diebstahl gesichert. Wir betrachten die

Ziehen Sie außerdem zum Vergleich eine einfache Zufallsstichprobe der Gr¨ oße N = 20 und berechnen ebenfalls den Mittelwert ¯ X des Merkmals Petal.Width und seine gesch¨ atzte

(a) Warum kann man allein anhand dieses Kriteriums den Parameter k nicht mit Hilfe einer herk¨ ommlichen Parameter-Optimierung bestimmen.. (b) Der k-Means-Algorithmus l¨ asst sich