Wahrscheinlichkeitstheoretische Planung

(1)

Wahrscheinlichkeitstheoretische Planung

Vorlesung Handlungsplanung

Stefan Edelkamp

(2)

1 Uberblick ¨

- Makrov’sche Entscheidungsprozessprobleme - Zustandswertfunktion und Aktionswertfunktion

- Monte-Carlo Simulation und Optimierung von Wertfunktionen - Politikiteration

- Wertfunktionsiteration

- ADDs f ¨ur Wertfunktionsiteration

Uberblick¨ 1

(3)

2 MDPs

Ein Makrov’sches Entscheidungsprozessproblem, kurz MDP, wird durch Zustands- und Aktionsmengen in einer Umgebung beschrieben.

Ist ein Zustand S und ein Operator O gegegen, dann ist die Wahrscheinlichkeit f ¨ur jeden m ¨oglichen Nachfolgezustand S⁰ von S beschrieben durch

P_SS^O 0 = P r[S_t+1 = S⁰ | S_t = S, O_t = O]

Die erwartete Belohnung ist

R^O_SS0 = E[r_t+1 | S_t = S, O_t = O, S_t+1 = S⁰]

MDPs 2

(4)

Beispiel

Roboter, der leere Limonadeb ¨uchsen aufsammeln muss. Er hat - hat Sensoren, um die Limonadebeh ¨alter zu finden,

- einen Greifarm, um die B ¨uchsen einzusammeln und - eine aufladbare Batterie.

Zustandsvariablen f ¨ur die Batterie: sind {high,low}

M ¨ogliche Aktionen: {search,wait,recharge}, wobei reacharge in high nicht anwendbar ist.

→ 10 Kombination von S, S⁰ und O (vier f ür search, vier f ür wait und zwei f ür recharge).

MDPs 3

(5)

Wahrscheinlichkeitstabelle

F ¨ur die Tripel (S,S⁰,O) legen wir folgende Wahrscheinlichkeiten P^O

SS⁰ und erwarteten Belohnungen R^O

SS⁰ fest:

(high,high,search): (p₁, r₁) (high,low,search): (1 − p₁, r₁) (low,high,search): (1 − p₂,−3) (low,low,search): (p₂, r₁)

(high,high,wait): (1, r₂) (high,low,wait): (0, r₂) (low,high,wait): (0, r₂) (low,low,wait): (1, r₂)

(high,low,recharge): (1, 0) (high,low,recharge): (0, 0)

MDPs 4

(6)

Ubergangsgraph ¨

Ubersicht ¨uber die stochastischen Transitionen zwischen den Zust ¨anden, die sich¨ wiederum aus den Kombinationen der Zustandsvariablen ergeben.

Beispiel: zwei Knoten f ür low und high, 5 m öglichen Aktionen zu 7 nicht trivialen Kanten f ühren.

Aktionsknoten: Zur besseren ¨Ubersicht ausgehende Aktionskanten b ¨undeln Wie beim nichtdeterministischen Planen sind L ¨osungen von MDPs keine Sequenzen von Aktionen.

Pl äne: sogenannte Politiken π, die f ür jedes Zustandsaktionspaar (S, O) eine Wahrscheinlichkeit festlegen, mit der O in S ausgew ählt werden soll.

MDPs 5

(7)

Zustandswertfunktion

V ^π(S) gibt den erwarteten Gewinn bei Ausf ¨uhrung von π in S an, d.h.

V ^π(S) = E_π{R_t | S_t = S}

Analog: Aktionswertfunktion

Q^π(S, O) = E_π{R_t | S_t = S, O_t = O}

MDPs 6

(8)

Monte-Carlo Simulation

F ¨ur V ^π und Q^π werden verschiedene der Politik π folgende Beispiell ¨aufe generiert und ausgewertet.

Optimale Politik: mit Hilfe der dynamischen Programierung

Approximierte Bellman’sche Optimalit ¨atsgleichung:

V ^π(S) = ^X

O∈O

π(S, O) ^X

S⁰∈S

P_SS^O 0[R_SS0 + δ · V ^π(S⁰)].

Der Wert δ ∈ (0,1) ist der sogenannte Discount, der vorher festgelegt wird und der garantiert, dass die Erwartungswerte konvergieren.

MDPs 7

(9)

Optimale Zustandswertfuntkion

Definition: F ¨ur alle S ∈ S gilt:

V ^∗(S) = max

π V ^π(S)

Analog Optimale Aktionswertfuntkion i Q^∗(S, O) = max_π Q^π(S, O). Wir haben f ¨ur V ^∗ die folgende Rekursionsbedingung:

V ^∗(S) = max

O∈O

X

S⁰∈S

P_SS^O ₀[R_SS0 + δ · V ^∗(S⁰)].

Im Beispiel: V ^∗(high) Maximum aus den zwei verschiedenen Werten r₁ + δ[p₁V ^∗(high) + (1 − p₁)V ^∗(low)] und r₂ + δ · V ^∗(high).

MDPs 8

(10)

3 Politikiteration

Ist Politik π durch V ^π zu π⁰ verbessert, → verbessere π⁰ durch V ^π⁰ zu π⁰⁰

→ Serie von sich stetig verbessernden Politiken und Wertfunktionen.

- π⁰ ensteht aus V ^π durch Politikverbesserung - V ^π entstehe aus π durch Politikauswertung.

Speichereffizienztrick (Auswertung): Beschr ¨ankung auf gerade und ungerade Vektoren in V

Politikiteration 9

(11)

Auswerten einer Politik

Procedure Evaluate

for i ∈ {0, . . . ,|S| − 1}

V (0, i) ← 0 for t ∈ {0, . . . , T − 1}

for i ∈ {0, . . . ,|S| − 1} v ← R^π(i)_i

for k ∈ {0, . . . , |S| − 1}

v ← v + δ · P_i,k^π(i) · V ((t − 1)&1, k) V (t&1, i) ← v

Politikiteration 10

(12)

Politik-Iteration

Procedure Policy-Iteration

for i ∈ {0, . . . ,|O|}: π(i) ← 1 do Evaluate()

c ← 0

for i ∈ {0, . . . , |S − 1|}

b ← −∞; o ← −1

for j ∈ {0, . . . , |O| − 1} v ← R^j_i

for k ∈ {0, . . . , |S| − 1}

v ← v + δ · P_i,k^j · V (0, k) if (v > b): b ← v; o ← j

if (π(i) 6= o) c ← 1: π(i) ← o while (c)

Politikiteration 11

(13)

Kurz und Knapp

Formal gesprochen ist f ¨ur alle S ∈ S die Auswertung durch V (S) = ^X

S⁰∈S

P^π(S)

S,S⁰ [R^π(s)

SS⁰ + δV (S⁰)]

gegeben und

π(S) = argmax

O∈O

X

S⁰∈S

P_S,S^O ₀[R^O_SS₀ + δV (S⁰)]

ein Verbesserungsschritt.

Politikiteration 12

(14)

4 Wertiteration

Nachteil Politikiteration: jede Iteration erfordert vollst ¨andige Bewertung erfordert.

→ Auswertung der Politik nach genau einem Backup-Schritt gestoppt wird, kurz

V (S) = max

O∈O

X

S⁰∈S

P_S,S^O ₀[R^O_SS₀ + δV (S⁰)]

Ausgabe: Entsprechende Politik

π(S) = argmax

O∈O

X

S⁰∈S

P_S,S^O 0[R^O_SS0 + δV (S⁰)]

Wertiteration 13

(15)

5 Implementierung Wertiteration

Procedure Value-Iteration for i ∈ {0, . . . ,|S| − 1}

V (0, i) ← 0 for t ∈ {1, . . . , T}

for i ∈ {0, . . . , |S| − 1}

m ← 0

for j ∈ {0, . . . , |O| − 1} v ← R^j_i

for k ∈ {0, . . . , |S| − 1}

v ← v + δ · P_i,k^j · V (t − 1, k) if (v > m) A ← j; M ← v

V (t, i) = m Choice

Implementierung Wertiteration 14

(16)

6 Aktionsauswahl in Wertiteration

Procedure Choice

for i ∈ {0, . . . ,|S| − 1}

b ← −∞; o ← −1

for j ∈ {0, . . . ,|O| − 1} v ← R^j_i

for k ∈ {0, . . . ,|S| − 1}

v ← v + δ · P_i,k^j · V (T, k) if (|v − V (T, i)| < |b − V (T, i)|)

b ← v; o ← j

Aktionsauswahl in Wertiteration 15

(17)

Terminierung

Bisher sind wir davon ausgegangen, dass der Benutzer die Anzahl der Iterationen vorgibt. Dise ist aber nicht unbedingt erstrebenswert.

Eine h ¨aufig genutzte Terminierungsbedingung ist ||V ⁿ⁺¹ − V ⁿ|| < (1 − δ)/2δ, wobei ||X|| = max{|x| : x ∈ X} die Supremumsnorm bezeichnet.

→ Wertfunktion V ⁿ⁺¹ weicht nicht weiter als /2 von der optimalen Wertfunktion V ^∗ ab.

Die resultierende Politik ist -optimal.

Aktionsauswahl in Wertiteration 16

(18)

7 ADDs

Algebraische Entscheidungsdiagramme, kurz ADDs: generalisieren BDDs auf reelwertige Funktionen {0,1}ⁿ → IR.

→ mitunter mehrere Terminalknoten.

Rekursive Definition:

1. Die Funktion f, die von einem mit c ∈ IR beschriebenen Blattknoten dargestellt wird, ist die konstante Funktion f ≡ c

2. Die Funktion f eines nicht-terminalen Knoten, der mit der Boole’schen Variable x beschriftet ist, ergibt sich wie folgt aus den Nachfolgerfunktionsdarstellungen

f(x₁, . . . , x_n) = x₁ · f|_x₁₌₁(x₂, . . . , x_n) + ¬x₁ · f|_x₁₌₀(x₂, . . . , x_n).

wobei die Boole’schen Werte f ¨ur x_i als 0 und 1 interpretiert werden.

ADDs 17

(19)

Eindeutigkeit

Wie BDDs sind Darstellung von Funktionen mit ADDs bei fester Variablenbelegung eindeutig.

Effizient: Multiplikation, Addition und Maximierung zweier ADDs

Geteilte Darstellung: Teilgraphen von Funktionen werden gemeinsam genutzt.

Bibliotheken Z.B. bietet CUDD ADD Funktionalit ¨at an.

ADDs 18

(20)

Beispiel

Maximierung ist die Funktion f(x, z) mit Wert 5 f ¨ur x ∨ z und 0.5 f ¨ur ¬x ∧ ¬z.

→ ADD zur Ordnung (z, y) hat 2 innere Knoten und 2 Bl ¨atter.

Sei desweiteren g(y, z) mit Wert 7 f ür z, 5.0 f ür ¬z ∧ y und 0.0 f ür ¬z ∧ ¬y.

→ ADD zur Ordnung (z, y) hat 2 innere Knoten und 3 Bl ¨atter.

→ h(x, y, z) = max(f(x, z), g(z, y)) ein ADD zur Ornung (z, x, y) mit drei inneren Knoten und drei Bl ¨attern

ADDs 19

(21)

Wertiteration mit ADDs (SPUDD)

Codierung: Boole’schen Variablens ¨atze x = (x₁, . . . , x_n) x⁰ = (x⁰₁, . . . , x⁰_n)

Dynamisches Bayes’sches Netz (DBN): Azyklischer Graph mit Knoten f ¨ur die

Variablen und Kanten, um die Abh ¨angigkeit einer Variablen in von einer anderen zu beschreiben.

SPUDD-Eingabe: DBN f ¨ur jede Aktion O ∈ O genutzt.

Bedingte Wahrscheinlichkeitstabelle (CPT): F ¨ur jedes x⁰_i die bedingte Wahrscheinlichkeit P^O

x⁰_i(x₁, . . . , x_n) f ¨ur x⁰_i.

Funktionswerte h ¨angen nur von den x_j ab, die direkte Vorg ¨anger von x⁰_i sind.

ADDs 20

(22)

Aktionsdiagramme

Die CPTs, auch Aktionsdiagramme genannt, werden durch ADDs repr äsentiert, d.h. ür jede Aktion O und jede Variable x⁰_i wird ein ADD PÔ

x⁰_i(x₁, . . . , x_n) generiert.

Auch die Belohnungsfunktion wird als BDD dargestellt,

Beispiel Sei R(c, p) = c · p · 10.0 + c · ¬p · 5.0 mit Variablen c f ¨ur “verbunden” und p f ¨ur ”angestrichen”,

⇒ Ein Gewinn von 10 Einheiten, wenn

- die zwei Objekte verbunden und angestrichen sind und

- einen Gewinn von immerhin 5 Einheiten, wenn die zwei Objekte verbunden aber nicht angestrichen sind.

ADDs 21

(23)

Wertiteration mit BDDs

Procedure BDD Value-Iteration

V ⁰ ← R; i ← 0; ∀O ∈ O, x_j ∈ X⁰: create Q^O

x⁰_j(x⁰_j, x₁, . . . , x_n) while ||V ⁱ⁺¹ − V ⁱ|| > (1 − δ)/2δ

V ⁰ⁱ ← V [x ↔ x⁰]

∀O ∈ O

v ← V ⁰ⁱ

∀x⁰_j ∈ V ⁰ⁱ

v ← ^P_a0

j v · Q^O

x⁰_j

V_Oⁱ⁺¹ ← R + δ · v V ⁱ⁺¹ ← max_O∈O V_Oⁱ⁺¹ i ← i + 1

extract ADD π and return (V ⁱ⁺¹, π)

ADDs 22

(24)

Erl ¨auterungen

Jede Wertfunktion wird als ADD V ⁱ(x₁, . . . , x_n) dargestellt. Da V ⁰ = R hat V ⁰ eine klare ADD Repr ¨asentation.

Der Algorithmus beruht auf der Einsicht, dass die ADD Repr ¨asentation direkt

genutzt werden kann, um die Erwartungswerte und Maximierungen durchzuf ¨uhren.

Eine Iterationsschritt in Prozedur BDD Value-Iteration berechnet V ⁱ⁺¹ bei gegebenen V ⁱ.

Demanch m ¨ussen zun ¨achst alle Variablen in V von x nach x⁰ getauscht werden.

Dabei wird V ⁱ⁺¹ f ¨ur jedes O ∈ O getrennt berechnet.

ADDs 23

(25)

Duale Aktionsdiagramme

Die ADDs Q^O

x⁰_j werden duale Aktionsdiagramme genannt und ergeben sich aus P^O

x⁰_j(x₁, . . . , x_n) und ¬P^O

x⁰_j(x₁, . . . , x_n) = 1 − P^O

x⁰_j(x₁, . . . , x_n) wie folgt Q^O_x0

j

(x⁰_j, x₁, . . . , x_n) = x_i · P_x^O0 j

(x₁, . . . , x_n) + (1 − x_j) · ¬P_x^O0 j

(x₁, . . . , x_n)

Mit anderen Worten: Q^O

a⁰_j(a⁰_j, a₁, . . . , a_n) bedingte Wahrscheinlichkeit P r(x⁰_j = a⁰_j|x₁ = a₁, . . . , x_n = a_n) f ¨ur Aktion O. U

ADDs 24

(26)

Berechnung von V

_Oⁱ⁺¹

Um V_Oⁱ⁺¹ f ür jedes O ∈ O zu bestimmen, muss f ür alle Zust ände S und S⁰ die Wahrscheinlichkeit berechnet werden, um von S nach S⁰ zu gelangen.

Dieses wird durch die Multiplikation des dualen Aktionsdiagramms f ¨ur x⁰_j mit V ⁰ⁱ und anschließender Summation ¨uber die Werte im resultierenden ADD erreicht.

Genauer: Durch die Multiplikation von Q^O

x⁰_j mit V ⁰ⁱ entsteht eine Funktion f mit f(a⁰₁, . . . , a⁰_n, a₁, . . . , a_n) = V ⁰ⁱ(a⁰₁, . . . , a⁰_n)P r(a⁰_j|a₁, . . . , a_n).

Anschließend wird durch Aufaddierern ¨uber die beiden Werte a_j ∈ {0,1} f ¨ur x_j der Erwartungswert

g(x⁰₁, . . . , x⁰_j−i, x⁰_j+1. . . x⁰_n, x₁, . . . , x_n) = ^X

a⁰_j

V ⁰ⁱ(x⁰₁, . . . , a⁰_j, . . . , x⁰_n)P r(a⁰_i|x₁, . . . , x_n)

ADDs 25

(27)

.

berechnet.

(28)

Iteration

Dieser Prozess wird f ¨ur jede Variable x⁰_j wiederholt.

Damit erhalten wir zum Ende hin eine Funktion h(x₁, . . . , x_n) = ^X

a⁰₁,...,a⁰_n

V ⁰ⁱ(a⁰₁, . . . , a⁰_n)P r(a⁰₁|x₁, . . . , x_n)·. . .·P r(a⁰_n|x₁, . . . , x_n).

Addiert man nun den Wert R, dann erh ält man das ADD f ür V_Oⁱ⁺¹. Letztendlich werden die ADDs f ür alle O ∈ O maximiert.

ADDs 26