Metrische Planung

(1)

Metrische Planung

Vorlesung Handlungsplanung

Stefan Edelkamp

(2)

1 Uberblick ¨

- Erweitertes Zustandsraumproblem, Operatorsyntax und -semantik - Ganzzahlige Programmierung

- Nummerisch-relaxierte Planungsheuristik

Uberblick¨ 1

(3)

2 Metrisches Planen

Metrisches Planen eine Erweiterung des propositionalen Planens mit reel-wertigen Pr ¨adikaten und allgemeinen Zielfunktionen.

Zu den Propositionen, wie z.B. (at plane city-b) gesellen sich nun Variablen, wie (fuel plane), (distance city-a city-b), . . .

F ¨ur die Adressierung der dadurch entstehende Menge von Zustandsvariablen V nutze Index

φ : V → {1, . . . ,|V|}

Metrisches Planen 2

(4)

Definition

Im metrischen Planen – PDDL 2.1 . Level 2 – ergibt sich der Zustandsraum S aus

S ⊆ 2^F × IR^|V|,

wobei 2^F die Potenzmenge von F ist.

Ein Zustand S ∈ S ist ein Paar (S_p, S_n) mit:

• einem propositionalen Teil S_p ∈ 2^F und

• einem nummerischen Teil S_n ∈ IR^|V|.

Metrisches Planen 3

(5)

Operatorsyntax

Ein Operator o ∈ O in Normalform o = (α, β, γ, δ) hat

• propositionale Vorbedingungen α ⊆ F,

• propositionale Effekte β = (β_a, β_d) ⊆ F²,

• nummerische Vorbedingungen γ und

• nummerische Effekte δ.

Metrisches Planen 4

(6)

Vorbedingungen

Eine nummerische Vorbedingung c ∈ γ ist ein Tripel c = (h_c,⊗, t_c) mit

• h_c ∈ V,

• ⊗ ∈ {≤, <, =, >,≥} und

• t_c ∈ T, wobei T Menge arithmetischer B ¨aume ca. gleichm ¨achtig: c = (t_c,⊗, t⁰_c)

Metrisches Planen 5

(7)

Effekte

Ein nummerischer Effekt m ∈ δ ist ein Tripel m = (h_m,⊕, t_m), wobei

• h_m ∈ V, ⊕ ∈ {←,↑,↓,%,&} und

• t_m ∈ T.

Kopf des nummerischen Effekts: h_m Wertzuweisung: ←

Wertauf- bzw. abschl ¨age: ↑ bzw. ↓, sowie % bzw. &.

Metrisches Planen 6

(8)

Planziel

Das Planziel G ist ¨ublicherweise als

G = (G_p,G_n)

gegeben mit

• G_p ⊂ F und

• G_n als eine Menge von nummerischen Bedingungen c = (h_c,⊗, t_c). Komplexe Ziele lassen sich durch die Einf ¨uhrung von Extra-Operatoren beschreiben.

Metrisches Planen 7

(9)

Operatorsemantik

Ein Vektor S_n = (S₁, . . . , S_|V|) nummerischer Variablen erf ¨ullt eine nummerische Bedingung

c = (h_c,⊗, t_c) ∈ γ, wenn

S_φ(h

c) ⊗ Eval(S_n, t_c) gilt.

Eval(S_n, t_c) ∈ IR ergibt sich dadurch, dass alle v ∈ V in t_c durch S_φ(h

c) ersetzt werden . . .

. . . gefolgt von einer Vereinfachung von t_c.

Metrisches Planen 8

(10)

Operatorsemantik

Ein Vektor S_n = (S₁, . . . , S_|V|) wir zu dem Vektor S_n⁰ = (S₁⁰ , . . . , S_|V|⁰ ) durch die Ver ¨anderung

m = (h_m,⊕, t_m) ∈ δ aktualisiert, wenn

• S⁰

φ(h_m) = Eval(S_n, t_m) f ¨ur ⊕ = ←,

• S⁰

φ(h_m) = S_φ(h

m) + Eval(S_n, t_m) f ¨ur ⊕ = ↑,

• S⁰

φ(h_m) = S_φ(h

m) − Eval(S_n, t_m) f ¨ur ⊕ = ↓,

• S⁰

φ(h_m) = S_φ(h

m) ∗ Eval(S_n, t_m) f ¨ur ⊕ = % und

• S⁰

φ(h_m) = S_φ(h

m)/Eval(S_n, t_m) f ¨ur ⊕ = &.

Metrisches Planen 9

(11)

Operatorsemantik

Ein Operator o = (α, β, γ, δ) ∈ O, der in Zustand S = (S_p, S_n) mit S_p ∈ 2^F und S_n ∈ IR^|V|

angewendet wird, erzeugt wie folgt einen Nachfolger

S⁰ = (S_p⁰ , S_n⁰ ) ∈ 2^F × IR^|V| :

Wenn α ⊆ S_p und S_n alle c ∈ γ erf ¨ullt dann ist

S_p⁰ = (S_p \ β_d) ∪ β_a und der Vektor S_n wird f ¨ur alle m ∈ δ aktualisiert.

• Aktualisierungsschritt S_p⁰ = (S_d \ β_d) ∪ β_a entspricht STRIPS-Semantik.

• u.U. Reihenfolge der Aktualisierung wichtig.

Metrisches Planen 10

(12)

3 Ganzzahlige Programmierung

Idee: Jedes Erf ¨ullbarkeitsproblem auch als ganzahliges Programm ¨uber den Variablenwerten 0 und 1, kurz als 0/1 ILP, formuliert werden kann:

• Wert 0 entspricht dem logischen Wert falsch und

• Wert 1 entspricht dem logischen Wert wahr.

So wird Formel (p ∧ q) zu p + (1 − q) ≥ 1, mit p, q ∈ {0,1}.

ILP in Operations Research Standartwerkzeug zur L ¨osung von Optimierungsproblemen

Ganzzahlige Programmierung 11

(13)

Beispiel

F ¨ur die Spezifikation der Aktion refuel und fly in Zeno mit den Variablen fuel und amount ergeben sich f ¨ur alle i die Gleichungen:

• refuel_i ⇒ fuel_i+1 ≥ C,

• ¬refuel_i ⇒ amount_i = 0,

• fuel_i+1 = fuel_i + amount_i − ^P_a,b,a6=b fly_i(a, b) · dist(a, b) · rate, und

• fuel_i + ^P_a,b,a6=b fly_i(a, b) ≤ 1.

Gemischt logisch/numerischen Gleichungen lassen sich leicht in lineare Ungleichungen transformieren.

Eine Optimierungsfunktion ist: minfuel₁ − fuel_L + ^P_i amount_i

(14)

L ¨ osungen von ILPs

Missionar - und Kannibale: Gut beschrieben als

X

m

at_i(m, s) ≥ ^X

c

at_i(c, s) f ¨ur alle Schritte i und Ufer s Problem: Im Gegensatz zu LPs, ILPs im Allgemeinen NP hart.

⇒ Randomisiertes Runden: LP-Relaxation der ganzzahligen Variablen aus {0,1}

durch die reelwertige Variablen aus [0,1]

Die reelwertigen L ¨osungen werden als Wahrscheinlichkeiten interpretiert, die zum Ausw ¨urfeln der Wahrheitswerte dienen.

Eine gen ¨ugend große Anzahl von Auswahlen stellt sicher, dass die L ¨osung mit einer hohen Erwartung generiert wird.

(15)

4 Nummerisch-relaxierte Planungsheuristik

. . . generiert und analysiert erweiterten geschichteten Plangraphen

. . . mit aktuell g ¨ultigen propositionalen Fakten und nummerischen Bedingungen . . . wendet Operatoren an, bis letztendlich das Ziel erreicht wird

. . . gierige Auswahl Proposition oder Bedingung

. . . propositionalen und nummerischen Vorbedingungen noch zu erledigen . . . in die kleinste Schicht, in der sie g ¨ultig sind

. . . erf üllte Bedingung wird gel öscht und Verfahren iteriert . . . mehrfache Anwendung eines Operators m öglich

Nummerisch-relaxierte Planungsheuristik 14

(16)

Beispiel

Problem Metrik-FF : Jede Bedingung die Form a₀v₀ + . . . + a_kv_k mit Variable v_i und Koeffizienten a_i hat.

(:action mul

:parameters (?x ?y ?z - number)

:precondition (and (active ?x) (active ?y) (non-active ?z))

:effect

(and (not (active ?x))

(not (active ?y)) (active ?z) (assign (value ?z)

(* (value ?x) (value ?y))))

(17)

Generalisierung

Plangraph sird entsprechend der Teilroutinen Test und Update konstruiert und analysiert.

Beide Funktionen nutzen die approximative Evaluation Eval^+[−](exp),

um rekursiv den maximalen und minimalen Wert eines Ausdrucks exp mit Variablen vⁱ ∈ [minⁱ,maxⁱ] zu berechnen.

(18)

Erf ¨ ullbarkeit einer Bedingung

Der Test einer Bedingung exp innerhalb des Vektors von Variablenschranken schw ¨acht die Anforderung nach einer genauen Zuweisungsinformation ab.

Wenn es irgendeine Zuweisung zu einer Variablen innerhalb der gegebenen Grenzen gibt, so liefert die Prozedur wahr.

Fallunterscheidung entsprechend dem Vergleichsoperator in der Wurzel des Ausdrucks exp: beide Teilb ¨aume werden nach maximalen und minimalen Auswertungen durchsucht.

(19)

Pseudo-Code

Procedure Test(exp,min,max) if (op(exp) = ≥ [>])

return

Eval⁺(left(exp,min,max)) ≥ [>]

Eval⁻(right(exp,min,max)) if (op(exp) = ≤ [<])

return

Eval⁻(left(exp),min,max) ≤ [<]

Eval⁺(right(exp),min,max) [...]

(20)

Korrektheit Prozedur Test

Satz Wenn Eval^+[−](exp) den maximalen [minimalen] Wert berechnet, den ein Ausdruck exp mit den Variablen vⁱ ∈ [minⁱ,maxⁱ] besitzt, dann scheitert Test, falls es keine Zuweisung a ∈ [min,max] f ¨ur v gibt, die exp erf ¨ullt.

Die Beobachtung ist in allen F ¨allen f ¨ur Test offensichtlich wahr.

Es wurde jeweils die schw ¨achste Kombination in der Bedingung gew ¨ahlt.

Zum Beispiel wird f ¨ur ≥ der maximale Wert einer Zuweisung auf der linken Seite mit dem minimalen Wert einer Zuweisung auf der rechten Seite verglichen.

(21)

Update

Aktualisierung bzgl. eines gegebenen Ausdrucks exp

Update transformiert [min⁰,max⁰] in [min,max] unter der Annahme, dass [min,max] mit [min⁰,max⁰] initialisiert wurde

Minimale und maximale Evaluation v_min und v_max werden mit alten Schranken berechnet

Schranken aktualisiert, falls die Evaluation die bestehenden Grenzen ¨uberschreitet Aktualisierungsschritte dieser Schranken jeweils konservativ

Ist z.B. der Anstieg in Variable v_i mindestens v_min < 0 und h ¨ochstens v_max > 0, dann sichert [min_i+v_min,max_i +v_max], dass die Variablenzuweisung zu v_i einen Wert ergibt, der in I liegt

(22)

Pseudo-Code

Procedure Update(exp,min⁰, max⁰,min,max) v_min ← Eval⁻(min⁰,max⁰)

v_max ← Eval⁺(min⁰,max⁰) if (op(exp) = ↑)

if (v_min < 0) minhead(exp) ↑ v_min if (v_max > 0) maxhead(exp) ↑ v_max if (op(exp) = ↓)

if (v_min > 0) minhead(exp) ↓ v_min if (v_max < 0) maxhead(exp) ↓ v_max if (op(exp) = ←)

if (v_min < minhead(exp)) minhead(exp) ← v_min if (v_max > maxhead(exp)) maxhead(exp) ← v_max

(23)

Korrektheit Update

Satz Wenn Eval^+[−](exp) den maximalen [minimalen] Wert berechnet, den ein Ausdruck exp mit den Variablen vⁱ ∈ [minⁱ,maxⁱ] besitzt,

dann aktualisiert Update die Schranken, so dass jede Wertzuweisung einer Variablen mit Werten aus [min⁰,max⁰] in [min,max] enthalten ist.

(24)

Relaxierte Planerzeugung

F ¨ur jede Schicht t im Plangraphen wird eine Menge von Propositionen und ein Vektor von Schranken f ¨ur die nummerischen Variablen bestimmt.

Um die Menge der anwendbaren Aktionen A_t zu bestimmen, wird Prozedur Test auf die Vektoren min_t bzw. max_t und die jeweiligen Vorbedingungen angewandt.

Nomenklatur:

• C der aktuelle Zustand,

• G das Planziel,

• p(·) beschreibt die Menge der wahren Propositionen und

• v(·) die Variablenzuweisungen in einem gegebenen Zustand.

(25)

Pseudo-Code

Procedure Relax(C,G)

P₀ ← p(C); ∀i : minⁱ₀ ← maxⁱ₀ ← vⁱ(C) t ← 0

while (p(G) 6⊆ P_t or

∃exp ∈ v(G) : Test(exp,min_t,max_t)) A_t = {a ∈ A | p ∈ pre(a) ⊆ P_t,

∀exp ∈ v(pre(a)) : Test(exp,min_t,max_t))}

P_t+1 ← P_t ∪ ^Spre^(a)⊆Pt add(a) [min_t+1,max_t+1] ← [min_t,max_t] for a ∈ A_t,exp ∈ v(eff(a))

Update(exp,min_t,max_t,min_t+1,max_t+1) if (relaxed problem unsolvable) return ∞

t ← t + 1

(26)

Vollst ¨andigkeit

Satz Wenn Relax mit ∞ terminiert, dann ex. keine L ¨osung im originalen Problem.

Die zwei Aspekte, die zum Beweis der Aussage ben ¨otigt werden, sind:

1. Jeder Plan f ¨ur das originale Problem l ¨ost auch das relaxierte und

2. Falls P_t = P_t+1 und [min_t+1,max_t+1] 6⊆ [min-need,max-need] einmal nicht gilt, so auch nicht in allen folgenden Iterationen.

zu 1. die Erf ¨ullung der nummerischen Bedingungen und Propositionen durch den Relaxierungsprozess erhalten bleiben. Falls Bedingung exp oder Proposition p im originalen Problem erreichbar sind, so auch im relaxierten.

zu 2. In allen Schichten des Plangraphen gilt P_t ⊆ P_t+1 und [min_t,max_t] ⊆ [min_t+1,max_t+1].

(27)

Komplexit ¨at

Algorithmus proportional zur Gr ¨oße des Plangraphen multipliziert mit der

maximalen L änge der Bedingungs- und Effekt-Listen und der maximalen Gr öße der arithmetischen Ausdr ücke.

Da Operatoren mehrfach angewendet werden k önnen, muss die Tiefenschranke nicht unbedingt polynomiell in Bin ärkodierungsl änge der Eingabe liegen.

Diese Exponentialit ¨at kann allerdings durch spezielle Regeln vermieden werden, so dass die Entscheidungszeit f ¨ur das propositionale relaxierte

Planerf ¨ullbarkeitsproblem tats ¨achlich polynomial ist.

(28)

Relaxierte Planextraktion

F ¨ur den Extraktionsprozess m ¨ussen wir zuerst die minimalen Schichten der Zielpropositionen bestimmen und die ebenfalls den Schichten zugeordneten Warteschlangen von Zielanforderungen initialisieren.

Procedure Extract(G) A ← ∅

for i ∈ {1, . . . , t}

p(G_i) ← {g ∈ p(G) | level(g) = i}

for exp ∈ v(G)

if Test(exp,min_i max_i)

v(G_i) ← v(G_i) ∪ {exp}; v(G) ← v(G) \ {exp}

(29)

Extraktion (cont.)

Nun muss der konstruierte Graph Schicht f ür Schicht r ückw ärts traversiert werden.

Um die Menge der aktivierten Operatoren zu finden, wird in jeder Schicht die Menge A_i aus der Vorw ¨artsphase betrachtet und die Vektoren min_i+1 bzw.

max_i+1 erneut berechnet.

Entweder trifft eine der Add-Effekte der Operatoren aus A_i ein Atom in der

propositionalen Warteschlange der Schicht i, oder die nummerischen Bedingungen treffen in der nummerischen Warteschlange der Schicht i zu.

In beiden F ¨allen propagieren wir die nummerischen oder propositionalen

Vorbedingungen zu der Schicht, in der sie in der Vorw ¨artsiteration zum erstenmal g ¨ultig waren.

(30)

Pseudo Code: Propositionaler Effekt

for i ∈ {t, . . . , 1}

[min_i+1,max_i+1] ← [min_i,max_i] for a ∈ A_i

for exp ∈ v(eff(a))

Update (exp,min_i, max_i,min_i+1,max_i+1) for e ∈ add(a)

if e ∈ p(G_i)

A ← A ∪ {a}; p(G_i) = p(G_i) \ add(a) for p ∈ p(pre(a)):

p(Glevel^(p)) ← p(Glevel^(p)) ∪ {p}

for exp ∈ v(pre(a))

v(Glevel⁽exp⁾) ← v(Glevel⁽exp⁾) ∪ {exp}

(31)

Pseudocode: Nummerischer Effekt

for i ∈ {t, . . . , 1} for a ∈ A_i

[...]

for exp ∈ v(G_i)

if Test(exp,min_i+1,max_i+1)

A ← A ∪ {a}; v(G_i) = v(G_i) \ {exp}

p(G_i) = p(G_i) \ add(a) for p ∈ p(pre(a))

p(Glevel(p)) ← p(Glevel(p)) ∪ {p}

for exp ∈ v(pre(a))

v(Glevel⁽exp⁾) ← p(Glevel⁽exp⁾) ∪ {exp}

(32)

Extraktion (cont.)

Der verbleibende Quelltextabschnitt, betrachtet, wie die ausgew ¨ahlten nummerische Bedinungen selbst propagiert werden k ¨onnen.

Hierbei beschr ¨anken wir uns der Einfachheit halber auf die einfache Wertzuweisung.

Nachdem die nummerische Zuweisung ausgew ählt wurde, ben ötigen wir eine M öglichkeit, die schw ächste Vorbedingung zu finden.

Diese wird dann in der Warteschlange in der kleinst-m öglichen Schicht eingef ügt und muss f ür den relaxierten Plan noch erf üllt werden.

Diese Schicht f ¨ur die neue Zielbedingung wird durch Anwenden der Test-Prozedur f ¨ur die j ∈ {1, . . . , i} berechnet.

(33)

Pseudo Code (cont.)

for i ∈ {t, . . . , 1}

for a ∈ A_i

for exp ∈ v(G_i)

if Test(exp,min_i+1,max_i+1) [...]

for exp⁰ ∈ v(eff(a)) h ← head(exp⁰) exp ← exp[h \ exp⁰] for j ∈ {1, . . . , i}

if (Test(exp,min_j,max_j)) l ← j v(G_l) ← v(G_l) ∪ {exp}

return |A|

(34)

Schw ¨achste Vorbedingung

Als Konsequenz ben ötigen wir eine Option, um die schw ächste Vorbedingung eines gegebenen nummerischen Ausdrucks im Verh ältnis zu einem Zuweisungsoperator zu bestimmen.

Um dieses Problem zu l ¨osen, nutzen den Hoare-Kalk ¨ul.

Wir sind nur an der Zuweisungsregel interessiert, die die schw ¨achste Vorbedingung einer Zuweisung findet.

Nach dem Kalk ¨ul von Hoare ist diese durch {p[x \ t]} x ← t; {p} gegeben, wobei x die Variable, p die Nachbedingung und [x \ t] die Substitution von t in x ist.

(35)

Beispiel

Programm, das nur aus der Zuweisung u ← 3x + 17 besteht Nachbedingung p: Ungleichung u < 5x

Um die schw ¨achste Vorbedingung zu finden, setzen wir t = 3x + 17, so dass sich p[u \ t] als 3x + 17 < 5x bzw. x > 8.5 ergibt.

Die Anwendung im Planungskontext ist dadurch gegeben, dass wir eine Zuweisung der Form h ← exp und eine Nachbedingung exp⁰ haben.

Beide Ausdr ¨ucke exp und exp⁰ sind arithmetische Ausdr ¨ucke.

Die schw ¨achste Vorbedingung kann nun durch die Substitution jeden Vorkommens von h in exp⁰ durch exp bestimmt werden.