Praktikum 2 Machine Learning (SS 17)

(1)

Praktikum 2

Machine Learning (SS 17)

Stefan Edelkamp

1. März 2017

Sämtliche Aufgaben sind von der Gruppe selbständig zu lösen. Die Verwendung von Hilfsmitteln und Quellen ausserhalb der Vorlesungsmaterialien gilt es in

expliziter Weise zu dokumentieren.

Abgabe ist am Donnerstag, den 2.3.2016 im Tutorium.

Der Source-Code muss dokumentiert vorliegen und ist am Abgabedatum an edelkamp@tzi.de zu schicken.

1 Begrisdenitionen

1. Beschreiben Sie in eigenen Worten den Unterschied zwischen Klassikation und Clustering. (2 P) 2. Beschreiben Sie in eigenen Worten die Begrie Kernobjekt, Dichte-Erreichbar und Dichte- (3 P)

Verbunden.

3. Was ist Lazy Learning? Fällt das Konzept in den Bereich Klassikation und / oder Cluste- (2 P) ring?

2 DBSCAN

Noch letzte Woche waren Sie der Chef eines Fahrradkurierunternehmens. Leider mussten Sie Ihren Chefposten jedoch abgeben, da die Kurierfahrer aufgrund einiger sehr weiter Strecken ihre Arbeit eingestellt haben. Der neue Chef hatte ein Herz und stellte Sie als Fahrradkurier an. Da Sie sich wieder bei ihren Kollegen beliebt machen wollen, versuchen Sie ihren Chef zu überzeugen, dass er sich von einigen Kunden trennen sollte um weite Wege zu vermeiden. Da ihr Chef ebenfalls sehr bewandert im Bereich Maschinelles Lernen ist, kann er überzeugt werden, ein dichtebasiertes Clustering durchzuführen und auf dessen Grundlage eine Entscheidung zu treen.

1. Implementieren Sie einen Algorithmus zur Berechnung eines k-Distanzdiagramms. Verwen- (10 P) den Sie die Formeln aus der Vorlesung um ein geeignetes initialesk und MinPts zu nden.

Berechnen Sie ausgehend davon mindestens fünf weitere k-Distanzdiagramme mit unter- schiedlichen k. Bestimmen Sie auf Grundlage der Diagramme geeignete Werte für und M inP ts. Markieren Sie das entsprechende Objekt im Diagramm. Begründen Sie Ihre Ent- scheidung. Verwenden Sie die Fahrradkurierdaten des ersten Ubungszettels

2. Implementieren Sie den DBSCAN -Algorithmus. Wenden Sie diesen auf die Fahrradkurier- (15 P) daten des Übungszettels 1 mit den zuvor gefundenen Parametern an. Geben Sie für die

Ergebnisse die Anzahl der Cluster, die Kosten für den Chef (basierend auf der Kostenfunk- tion des letzten Übungszettels) und die Anzahl der Noise Daten an.

3. Vergleichen Sie Ihre Lösung durch DBSCAN mit der Lösung basierend auf k-Means von dem (8 P) letzten Übungszettel. Geben Sie jeweils mit einer kurzen Begründung an, für wen die jeweilige

Lösung von Vorteil bzw. von Nachteil ist (Fahrer, Chef, Kunden). Geben Sie ausserdem die Kosten T D und den Silouettenkoezienten für Ihrer Lösungen an.

(2)

Maschinelles Lernen Praktikum 2

3 Markov Ketten

Um das Studuim weiter nanzieren zu können, bieten sich Fuÿball TOTO-Wetten an. Obwohl wir keine Ahnung von Fuÿball haben, wollen wir helfen. Es bietet sich an eine Markov Kette / Markov Modell für SV Darmstadt 98 zu erstellen. Wir beobachteten dazu in einer Saison, welche Spiele SV Darmstadt 98 gewonnen (G), verloren (V) oder unentschieden (U) gespielt hat und verwenden eine Markov Kette mit der Markov Annahme erster Ordnung für eine Vorhersage des Spielergebnisses in der Folgesaison.

G V G V G V U V G V V Tabelle 1: Beobachtete Saison von SV Darmstadt 98

1. Geben Sie die a priori Wahrscheinlichkeiten für die Zustände Gewonnen, Verloren, Unent- (5 P) schieden an.

2. Erstellen Sie das Markov Modell basierend auf den Beobachtungen der letzten Saison. Da wir (15 P) aus relativ vertrauenswürdiger Quelle wissen, dass Darmstadt am ersten Spieltag gewinnen

wird, verwenden wir für den ersten Spieltag folgende Wahrscheinlichkeitsverteilung:G= 0.9, V = 0.1, U = 0. Geben Sie mit Hilfe des Markov Modells die Wahrscheinlichkeit für die möglichen Spielergebnisse der beiden weiteren Spieltage (2. und 3. Spieltag) der neuen Saison an! Geben Sie den Lösungsweg an!

3. Geben Sie 20 - 50 Prozent des Gewinnes bei dem Dozenten der Veranstaltung ab. Die (X P) Verluste dürfen versucht werden von der Steuer abzusetzen.

Seite 2/2