• Keine Ergebnisse gefunden

Übungsblatt 1 Machine Learning (WS 16/17)

N/A
N/A
Protected

Academic year: 2021

Aktie "Übungsblatt 1 Machine Learning (WS 16/17)"

Copied!
2
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Übungsblatt 1

Machine Learning (WS 16/17)

Stefan Edelkamp

20. Oktober 2016

Sämtliche Aufgaben sind von der Gruppe selbständig zu lösen. Die Verwendung von Hilfsmitteln und Quellen auÿerhalb der Vorlesungsmaterialien gilt es in

expliziter Weise zu dokumentieren.

Abgabe ist am Donnerstag, den 3.11.2016 im Tutorium.

Der Source-Code muss dokumentiert in Java vorliegen und ist am Abgabedatum an edelkamp@tzi.de zu schicken. Nicht lauähige Programme werden nicht bewertet.

1 Begrisdenitionen

1. Beschreiben Sie die Begrie Precision, Recall und False Positive in eigenen Worten. (3 P) 2. Grenzen Sie die Begrie Partitionierendes und Hierarchisches Clustering voneinander ab. (4 P) 3. Erklären Sie den Ähnlichkeitsbegri beim Clustering und geben Sie mindestens jeweils ein (4 P)

Beispiel für eine Distanz, die numerische bzw. kategorische Attribute verwendet.

2 k-Means Clustering

Die Firma WIDM (WoIstDerMarsroboter) hat verschiedene Roboter zum Mars geschickt. Sie weiß allerdings nicht genau, wie viele dort angekommen sind und auch nicht genau wo sich diese auf dem Mars benden. Ihre Aufgabe ist es die zerstreuten Roboter mit Hilfe von einzelnen, empfangenen Funksignalen zu lokalisieren. Die Firma WIDM stellt Ihnen die Positionen der Funksignale zur Verfügung, diese sind in ml/code hinterlegt worden.

1. Implementieren Sie den k-Means Algorithmus in Java. Verwenden Sie hierfür dasClustering- (15 P) Interface aus ml/code und dokumentieren Sie den Source-Code an relevanten Stellen. Der

Source-Code des Algorithmus muss sowohl im Übungsblatt abgedruckt sein als auch in der elektronischen Abgabe als lauähiger Source-Code vorliegen.

2. Die Firma WIDM ist sich nicht sicher, ob Sie zwei oder drei Roboter auf dem Mars hat und (10 P) weiß auch nicht genau wo diese sind. Von Zeit zu Zeit können aber Funksignale empfangen

werden die zur Ortung verwendet werden können (vgl. Daten aus ml/code). Verwenden Sie den k-Means Algorithmus mitk= 2und mitk= 3um eine vermutete Region der zwei bzw.

drei Roboter zu berechnen. Verwenden Sie die Centroidec1= (10/10),c2 = (50/50)undc3= (80/50). Gehen Sie davon aus, dass es keine initiale Clusterzuordnung gibt sondern beginnen Sie einfach mit k-Means um Punktweise eine Clusterzuordnung zu berechnen. Zeichnen Sie sowohl die Referenzdaten mit Clusterzugehörigkeit als auch die ermittelten Centroiden in ein Koordinatensystem ein. Erklären Sie das Ergebnis anhand dieser Zeichnung.

3. Verwenden Sie die initialen Centroide c1 = (10/10), c2 = (20/20) und c3 = (30/30) mit (5 P) k = 3. Das Ergebnis scheint keine gute Schätzung für die Position der Roboter zu sein.

Erklären Sie, was das Problem ist und wie man dieses Problem umgehen kann.

4. Ordnen Sie die Reihenfolge der Referenzdaten so an, dass mit den initialen Centroiden (5 P) c1 = (40/50) und c2 = (100/50) und k= 2 nach einem Durchlauf ein Centroid im Bereich

x >100gefunden wird.

(2)

Maschinelles Lernen Übungsblatt 1

3 Fahrradkurier

Stellen Sie sich vor, Sie sind der Chef eines Fahrradkurierunternehmens mit sechs Mitarbeitern.

Sie besitzen die Aufzeichnung der Kurierdienst-Aufträge des letzten Jahres mit Absender- und Empfängeradresse. Nun sollen Sie ihre Mitarbeiter für das kommende Jahr in feste Gebiete einteilen. Dazu wandeln Sie zunächst die Adressdaten in Koordinaten um. Diese Koordinaten sind in ml/code als CSV (Comma Seperated Value) Datei hinterlegt. Jede Koordinate setzt sich aus den Werten der Spalte zwei und drei zusammen, wobei die erste Spalte eine laufende Nummer ist und ignoriert werden kann.

1. Implementieren Sie das Clustering durch Varianzminimierung um ein geeignetes Gebiet für (5 P) jeden Fahrer zu nden. Verwenden Sie auch hierfür das Clustering-Interface aus ml/code.

Großteile dieser Aufgabe können Sie aus Ihrer bisherigen Implementierung (vgl. Aufgabe 2) ableiten. Visualisieren Sie die Centroide und die Klassenzugehörigkeit in einem Koordi- natensystem. Beschreiben Sie Auälligkeiten in den Daten/im Clustering.

2. Berechnen Sie die KostenT D (nichtT D2) des Clusterings. (5 P) 3. Sie konnten mit den Mitarbeitern vereinbaren, dass ihr derzeitiges Gehalt G anhand der (5 P)

Kosten des Clusterings T D bestimmt wird. Sie vereinbaren G = T D12 (Gummimünzen) als xes einheitliches Grundgehalt für jeden Mitarbeiter (einmalig, basierend auf den Daten des letzten Jahres, nicht basierend auf den noch folgenden Daten). Darüber hinaus bekommt jeder Mitarbeiter noch eine Vergütung für die zurückgelegte Strecke in Höhe der halben Kosten seines Clusters. Als Chef möchten Sie nun ihr Unternehmen optimieren und fest- stellen, ob Sie lieber weitere Mitarbeiter einstellen oder ggf. sogar welche entlassen sollten.

Als Kostenfunktion verwenden Sie dazuK(k) =G·k+T D(k)2 , wobeik die Anzahl der Mit- arbeiter ist. G·k entspricht dem Grundgehalt der k Mitarbeiter wobei T D(k)2 die gesamte Prämie für die Mitarbeiter repräsentiert. Implementieren Sie das Finden eines optimalen k zur Minimierung der Kostenfunktion K(k) mit k∈[2,20].

4. Berechnen Sie den Silhouetten Koezienten für die Clusterings mit den unterschiedlichenk. (5 P) Gibt es einen Zusammenhang zwischen den Silhouetten Koezienten und den Ergebnissen

der Kostenfunktion aus der letzten Frage?

Seite 2/2

Referenzen

ÄHNLICHE DOKUMENTE

Ein Großtest mit 150 Anlassern von jeder der beiden Firmen hat nach 100 Tagen ergeben, dass die Anlasser von Firma A verlässlicher sind (10% fielen im Test aus) als die von Firma

[5 Points] Give the equation for the posterior distribution p(θ |D ) where D denotes the dataset of observations we have made, and give the parameter θ for which this

(1 Punkt) j) Sokrates fragte genau dann nach allem, wenn es nichts gab nach dem er nicht fragte. Geben Sie an, welche der folgenden Aussagen wahr sind und welche falsch. Begründen

Wenn Er weder in der Lage, noch willens ist, das Übel zu verhindern, dann ist Er sowohl nicht allmächtig als auch böswillig.. Das Übel existiert aber genau dann, wenn Gott

Bewegen wir unsere Maus über den Rechtecken soll nun immer das darunter liegende rot leuchten, die anderen

d) Auf welche Geschwindigkeit v 2 muss der Satellit in P abgebremst werden, damit er wieder eine Kreisbahn hat?. e) Welche Zeit t muss zwischen den beiden

Geben Sie das elektrische Feld hinter dem Plättchen an (ohne Rechnung). Leiten Sie eine Formel für die Dicke des Plättchens her und bestimmen Sie die minimale Dicke.?. 1..

Mit der Bedingung, dass die Maxwell-Gleichungen invariant unter Ladungskonjugation (C), Parit¨ at (P ) und Zeitumkehr (T ) sind, leiten wir in dieser Aufgabe