• Keine Ergebnisse gefunden

Praktikum 4 Machine Learning (SS 17)

N/A
N/A
Protected

Academic year: 2021

Aktie "Praktikum 4 Machine Learning (SS 17)"

Copied!
2
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Praktikum 4

Machine Learning (SS 17)

Stefan Edelkamp

6. März 2017

Sämtliche Aufgaben sind von der Gruppe selbstständig zu lösen. Die Verwendung von Hilfsmitteln und Quellen auÿerhalb der Vorlesungsunterlagen gilt es in expliziter Weise zu dokumentieren.

Abgabe ist am Mittwoch, den 8.4.2016 im Tutorium.

1 Begrisdenition

1. Modellieren Sie ein Hidden Markov Modell, bei dem sechs verschiedene Würfel (W4, W6, (15 P) W8, W12, W20, W100) gleichzeitig gewürfelt werden. Das Ergebnis eines Würfels legt den

Würfel fest, dessen Ergebnis als Beobachtung verwendet wird. Beschreiben Sie das Modell, insbesondere sind Sensor und Transitionsmodell anzugeben.

2. Passen Sie Ihr Modell an, so dass immer der zuletzt ausgewählte Würfel den nächsten Würfel (10 P) auswählt. Wieder sind Sensor und Transitionsmodell anzugeben und zu erklären.

3. Erklären Sie die Gemeinsamkeiten / Unterschiede zwischen einer Markov Kette und einem (5 P) Markov Decision Process!

4. Erklären Sie die Funktionsweise der Bellman-Gleichung! Wie interpretiert Value Iteration (5 P) die Bellman Gleichung?

2 Markov Decision Process (MDP)

Im Zusammenhang mit der Testreihe bezüglich des Blutalkoholwertes mit dem Kommilitonen kam es vor, dass dieser gefährliche Wege aus der Kneipe nach Hause genommen hat. Um sein Leben signikant zu verlängern, schreiben Sie ihm ein Programm, das einen Markov Decision Process verwendet, um seinen Heimweg sicher zu gestalten. Für einen Prototypen verwenden Sie eine einfache Karte mit der Position des Kommilitonen, seinem Zuhause und der Bahngleise (s. Abbildung 1). Aus einer weiteren lustigen Testreihe haben Sie berechnet, in welche Richtung der volltrunkene Kommilitone laufen möchte im Vergleich zu der Richtung, in die er tatsächlich läuft: Zu 80% läuft er in die korrekte Richtung, zu jeweils 7% in eine Richtung die um 90 Grad abweicht, und zu 6% in die entgegengesetzte Richtung. Es besteht nicht die Möglichkeit, dass der Kommilitone auf einer Stelle verharrt, es sei denn, er läuft gegen eine Wand, dann bleibt er ganz sicher (zu 100%) an der gleichen Position. Wir unterscheiden die Richtungen Hoch, Runter, Links, Rechts auf der Karte. Die Belohnung ist für jeden Schritt−0.01(da wir einen kurzen Weg bevorzugen), für das erreichen des Zustands Bahngleise−15, da der Kommilitone das vermutlich nicht überleben wird und die sichere Heimat hat eine Belohnung von1(lieber nicht nach Hause nden als auf den Bahngleisen zu enden).

2 -0.01 -0.01 -0.01 Haus (1)

1 -0.01 X -0.01 Bahngleise (-15)

0 Kommilitone -0.01 -0.01 -0.01

y/x-Position 0 1 2 3

Abbildung 1: Karte mit den Belohnungen (Die Positionsangaben sind KEINE Belohnungen!)

1. Implementieren Sie den Value-Iteration-Algorithmus in Java und berechnen Sie über 100 (15 P) Iterationen über alle Felder den Utility Wert der einzelnen Positionen! Geben Sie diese in

(2)

Maschinelles Lernen Praktikum 4

einer Tabelle an. Erklären und dokumentieren Sie den Source Code (jedoch nicht nur im Quelltext)! Der Source-Code ist Teil der Abgabe!

2. Geben Sie die beste Aktion für jeden Zustand an! Dokumentieren Sie die Berechnung! (5 P) 3. Geben Sie bis auf Hunderstel genau den gröÿten Discountwertγ an, bei dem sich die Policy (5 P)

ändert! In welchem Punkt ändert sich die Policy zuerst? Erklären Sie das Ergebnis! Nur in diesem Aufgabenteil wird ein Discountwert angenommen.

4. Was passiert, wenn Sie die negative Belohnung für den Zustand Bahngleise noch wesentlich (5 P) verstärken bzw. wesentlich verringern?

5. Was passiert, wenn bei einem Reward für die Bahngleise von−1000als Abbruchbedingung (5 P) statt 100 Iterationen, die maximale Änderung der Utilitywerte δ < 0.02 bzw. δ < 0,002

gefordert wird? Ändern Sie ihre Implementierung entsprechend, testen sie die beiden Ab- bruchbedingungen und erklären Sie die Auswirkungen auf die Policy.

6. Wie kann der Value-Iteration-Algorithmus optimiert werden? Geben Sie zwei mögliche Ver- (5 p) besserungen an und erklären Sie die Vor- und Nachteile.

3 Regression

Gegeben sei eine MengeP ={(x1, t1),(x2, t2),(x3, t3), . . . ,(xn, tn)}von Attribut-Wertenxi ∈R, die zu den Zeitpunkten ti ∈R aufgenommen wurden. Berechnen Sie eine lineare Regressions- funktion, die die Werte approximiert und dabei den quadratischen Fehler minimiert. Bildlich gesprochen wird einen Gerade xi = m·ti+b+i mit zu minimierenden Fehler i durch die Punktwolke der Messung gelegt.

1. Finden Sie eine Formel für m und b, in dem Sie arg min(m,b)∈R2 (5 P) Pn

i=1(xi −(b+m·ti))2 bestimmen.

2. Diskutieren Sie die Grenzen und Möglichkeiten der linearen Regression für den folgenden (5 P) Datensatz:

Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 1996 138.2 137.5 138.4 148.2 151.8 146.4 141.4 135.4 130.2 123.7 121.7 122.6 1997 123.4 124.3 125.3 126.9 125.4 123.2 121.7 123.2 120.9 119.3 120.1 120.8 1998 120.2 118.3 117.9 115.3 114.7 113.8 111.4 111.1 107.6 105.6 108.5 108.1 1999 108.1 108.3 109.5 112.2 113.7 115.5 112.5 113.1 110.8 109.7 110.6 111.8 2000 112.8 114.0 115.5 117.8 117.2 116.2 116.8 117.1 116.6 116.6 116.5 116.6 2001 117.5 117.5 116.6 115.8 116.9 117.9 117.6 116.1 114.4 113.5 115.1 115.4 2002 115.4 115.2 114.5 113.7 111.7 109.0 107.9 110.9 110.9 111.6 110.9 110.0 2003 109.3 108.8 107.3 107.4 106.1 106.8 109.6 112.2 119.1 121.9 130.4 131.8 2004 136.2 134.0 132.3 132.4 122.4 119.7 115.2 108.3 104.7 103.6 103.9 99.4

Seite 2/2

Referenzen

ÄHNLICHE DOKUMENTE

Zur Charakterisierung der Bewegung eines Körpers benötigt man auch die Information über die Richtung der Bewegung... Richtung

L ¨ osung Klausur vom 12.2.2003 Die Literaturangaben stammen von Herr Rupp... 1.)a) Teilchen befinde sich im

Um einen intelligenten Super Computer zu entwickeln wollen wir statt eines herkömmlichen Arbeitsspeichers ein Neuronales Netz einsetzen.. Für die Entwicklungs eines Prototyps

Durchschnittlich=es|5244 Anteilder3TarifklassenamGesamtverkehrin%,in|in.%/o|in% |ı[ufm]ıJum Ei:DieZahlengeberProzentsätze

Der auf der Scheibe sitzende Daumen d ist mittelst einer Kette %, mit der Anspannvorrichtung verbunden, während von der unter dem Wagen durchgehenden Leitung Z das eine Kettenstück

Die Theorie von % 28. 155 hat vorausgesetzt, dass das Fernrohr parallel der Sextantenebene sei, und dass die beiden Spiegel rechtwinklig zur Sextantenebene stehen. Wenn

däni, Ifärizmi, Tabrizi, Sarbini, Bistäm, Qutta o.. Bait al-muqaddas und damit auch für al-Muqaddasi nicht sehr. günstig, bedarf einiger lileiner Korrekturen und Zusätze,

deutlich, daß die Tinte den Grandstrich nicht. /T^w-OQ——.(^^ -voll füllte, sondem nur rechts und