Nichtdeterministische Planung

(1)

Nichtdeterministische Planung

Vorlesung Handlungsplanung

Stefan Edelkamp

(2)

1 Uberblick ¨

- Transitionssysteme & Zustandsaktionstabellen - Ausf ¨uhrungsstrukturen und Pfade

- Schwache, Starke und Stark-Zyklische Pl ¨ane - BDD Explorationsalgorithmen

- Konformantes Planen - . . . mit BDDs

- . . . mit SAT/QBF

- . . . mit heuristischer Suche - . . . alternativ

(3)

2 Nichtdeterministisches Planen

Eine nichtdeterministisches Planungsproblem wird oft in einem Transitionssystem

¨uber eine Transitionsrelation

R ⊆ S × O × S

Unterschiede zum deterministischen Planen

• Ausf ührung einer Aktion in m öglicherweise mehrere unterschiedliche Zust ände

• Mehrere Initialzust ¨ande, d.h. I ⊆ S, sind m ¨oglich

• Pl ¨ane sind Ausf ¨uhrungseinheiten, eingebettet in einer Umgebung

(4)

Pl ¨ane als Ausf ¨ uhrungseinheiten

Die ausf ¨uhrbaren Aktionen im Zustand S sind

Act(S) = {O | ∃S⁰ : R(S, O, S⁰)}.

Die Ausf ¨uhrung von O ist die Menge

Exec(S, O) = {S⁰ | R(S, O, S⁰)}

Pl ¨ane sind im nichtdeterministischen Kontext Ausf ¨uhrungseinheiten oder Zustandsaktionstabellen (von Cimatti et al. vorgeschlagen)

Zustandsaktionstabellen ¨ahneln universellen Pl ¨anen und Politiken

(5)

Zustandsaktionstabellen

Zustandsaktionstabelle π einer Planungsdom ¨ane P: {(S, O) | S ∈ S, O ∈ O}

- Gibt es nur eine Aktion O f ¨ur jedes S, so ist das Problem deterministisch.

- Die Zust ¨ande von π werden mit S(π) abgek ¨urzt

Die Ausf ¨uhrung von Pl ¨anen π geschieht in einer Schleife in einer umgebenden Welt.

Solange der aktuelle Zustand S in S(π) liegt, 1. wird die passende Aktion in π ausgew ¨ahlt 2. in der Umgebung ausgef ¨uhrt und

3. der resultierende Weltzustand erfragt

(6)

Ausf ¨ uhrungsstruktur

Die von π induzierte Ausf ¨uhrungsstruktur K = (Q, T) mit - Q ⊆ S und

- T ⊆ S × S

bzgl. dem Initialzustand I ist rekursiv definiert:

• I ⊆ Q.

• Falls mit jedem S ∈ Q und (S, O) ∈ π mit R(S, O, S⁰) gilt, ist S⁰ ∈ Q und T(S, S⁰).

. . . entsprechen Kripke-Strukturen.

(7)

Ausf ¨ uhrungspfad

Ausf ¨uhrungspfad in K von S₀ ∈ I:

m öglicherweise unendliche Folge S₀, S₁, S₂, . . . von Zust änden in Q, so dass F ür alle Zust ände S_i

• entweder S_i ein Endzustand ohne Nachfolger ist, oder

• T(S_i, S_i+1) gilt

(8)

3 Schwache und Starke bzw. Stark-Zyklische Pl ¨ane

F ¨ur ein Planungsproblem P bzgl. I induzierter Ausf ¨uhrungsstruktur K = (Q, T) nennen wir einen deterministischen Plan π

schwache L ¨osung , falls f ¨ur jeden Zustand in I ein Endzustand aus der Zielmenge G erreichbar ist;

starke L ¨osung , falls K azyklisch ist und alle Endzustust ¨ande aus K in G enthalten sind; und

stark-zyklische L ¨osung falls von jedem Zustand in Q ein Endzustand erreichbar ist und alle Endzustust ¨ande aus K in G enthalten sind.

(9)

Intuition

Schwache Pl ¨ane: Planziel kann aber muss nicht erreicht werden

Starke Pl äne: Planziel wird unabh ängig vom Nichtdeterminismus immer erreicht Stark-Zyklische Pl äne: Formalisieren die intuitive Notation von g ültigen

Versuch-und-Irrtum Strategien:

Alle Ausf ¨uhrungspfade haben eine M ¨oglichkeit zur Terminierung und sichern das Erreichen des Ziels.

(10)

Nichtdeterministischer Plan

Ein nichtdeterministischer Plan in Form einer Zustandsaktionstabelle ist schwach, stark, bzw. stark-zyklisch:

wenn alle deterministischen Teilpl ¨ane mit gleicher Zustandsmenge schwach, stark bzw. stark-zyklisch sind.

Es gilt: Stark-zyklische Pl ¨ane sind auch stark und starke Pl ¨ane sind auch schwach.

Hier: Schwaches und starkes Planen.

(11)

Implementation mit BDDs

Allein die explizite Repr äsentation der Übergangsmatrix der Gr öße |S| × |O| kann die zu Verf ügung stehenden Resourcen sprengen.

⇒ repr ¨asentiere Pl ¨ane als BDDs

Annahme: (monolithische oder partitionierte) BDDs f ¨ur Transitionsrelation

(12)

R ¨ uckw ¨artsexploration

Exploration des Zustandsraumes: Am besten r ¨uckw ¨arts beginnend mit den Zielknoten und einem leeren Plan.

Berechnung der Vorg ¨angermenge: F ¨ur das starke und schwache Planen unterschiedlich.

F ¨ur schwache Pl ¨ane fordern wir nur die Existenz eines Nachfolgers, der das Ziel erreicht, . . .

. . . w ährend wir f ür starke Pl äne, diese Bedingung von alle Nachfolgern einfordern.

(13)

Starke und Schwache Urbilder

WeakPreImage(S, O) = {S | R(S, O, S⁰), S⁰ ∈ S}

Menge aller Zust ¨ande, von denen aus man mit O in S landen kann und

SrongPreImage(S, O) = {S | ∅ 6= Exec(S, O) ⊆ S}

Menge aller Zust ¨ande, in denen O anwendbar ist und jede Ausf ¨urung in S landet.

Procedure PreImage(S)

if (Strong) return ∀e : (T → S) ∧ Applicable if (Weak) return ∃e : T ∧ S

(14)

Algo. zur schwachen bzw. starken Planfindung

Zustandsaktionstabelle wird in jedem Schritt um die Bildberechnung zum Vorg ¨anger erweitert.

Bezeichnungen

• Alte Tabelle π⁰,

• neue Tabelle mit π

Algorithmus terminiert, falls sich keine weitere Ver ¨anderung von π⁰ nach π ergibt.

Alternativen Abbruch, wenn BFS vom Ziel ausgehend alle Initialzust ¨ande umfasst.

(15)

Pseudo-Code Implementation

Procedure Nondeterministic π⁰ ← 1

π ← 0

S ← G ∨ S(π)

while (π 6= π⁰) ∧ (I 6⊆ S) π⁰ ← π

Π ← PreImage(S) Π ← Π[p ↔ e]

π ← π ∨ (Π ∧ ¬S) S ← G ∨ S(π)

(16)

Temporale Ziele

Stark zyklische Pl ¨ane k ¨onnen in den Kontext temporal erweiterter Ziele eingegliedert werden.

Hierbei geht es darum mit dem Planziel eine temporallogische Formel zu verbinden, die den G ¨ultigkeitsbereich des Zieles festlegt.

Vorgeschlagen wurde der temporallogische Kalk ül CTL (Branching Time Logic) In CTL steht A f ür always, G f ür generally, E f ür existential, und F f ür eventually.

Die Überpr üfung, ob eine temporallogische Formel φ in einem Modell M gilt, wird in der Modellpr üfung untersucht.

Alternative: Linear Temporal Logic (LTL)

(17)

Schwache und Starke Pl ¨ane in CTL

Forderung nach einem schwachen Plan zum Ziel φ, durch Formel EF φ. Forderung nach einem starken Plan zum Ziel φ, durch Formel AG φ.

Forderung nach einem stark-zyklischer Plan zum Ziel φ, durch Formel AGEF φ.

AGEF φ liest sich als: es ist f ¨ur alle Auswahlen von Pfaden immer gegeben, dass es einen ausgehenden Weg gibt, bei dem Formel φ erf ¨ullt ist.

(18)

4 Konformantes Planen

Aufgabe: Sequenz von Aktionen - Gegebene Unsicherheit über den Initialzustand und über Effekte von Aktionen - ohne Informationsgewinn über den aktuellen

Zustand

Ein konformanter Plan ist somit eine Welten das Planziel erreicht.

Ein Plan ist konformant, falls

• die Menge der Startzust ¨ande I in π enthalten ist, kurz I ⊆ S(π) und

• die Ausf ¨uhrung von π in I das Ziel erreicht, also Exec(π,I) ⊆ G.

(19)

Konformantes Planen mit BDDs

Der symbolische Ansatz zum konformanten Planen nutzt Zustandsplantabellen SP, die Paare (S, π) mit S ⊆ S und π ∈ O^∗ beschreiben.

Dabei sei der leere Plan.

Die Eingabe des Algorithmus sind die Mengen I und G.

Menge aller konformanter Pl ¨ane in der Tabelle SP durch

GetPlans(G, SP) = {π | ∃(S, π) ∈ SP ∧ S ⊆ G}

(20)

Weitere Teilroutinen

ConformantImage generiert eine neue SP Tabelle, die alle Erweiterung der konformanter Pl ¨ane der L ¨ange i − 1 betreffen.

ConformantImage(SP) =

{((S, π), O)| ∃(S⁰, π) ∈ SP ∧ O ∈ Act(S⁰) ∧ S = Exec(O, S⁰)}

ConformantPrune: L öschungen neu generierter Tabelle SP von den Pl änen, die entweder von anderen Pl änen gleicher oder geringerer L änge subsumiert werden.

ConformantPrune(SP, i) =

(21)

Pseudo-Code: Symbolisch Konformantes Planen

Procedure ConformantPlan(I,G) i ← 0

SP₀ ← {I, }

Π ← GetPlans(G, SP₀)

while (SP_i 6= ∅) ∧ (Π = ∅) i ← i + 1

SP_i ← ConformantImage(SP_i−1) SP_i ← ConformantPrune(SP_i−1, i) Π ← GetPlans(G, SP_i)

if (SP_i = ∅) exit

else

return Π

(22)

Eigenschaften

Terminierung:

Satz ConformantPlan terminiert immer.

Wird durch die Monotonie der Mengen konformanter Pl ¨ane gesichert.

Optimalit ¨at:

Satz ConformantPlan liefert optimal kurzen konformanten Plan.

Breitendurchlaufordungung sichert, dass ein konformante Plan mit k ¨urzester Planl ¨ange als erstes gefunden wird.

(23)

BDD Codierung

Propositionen p: mit je einer Variablen codiert.

Menge von Zust ¨anden: Durch eine Boole’sche Formel φ codiert.

Transitionsrelation: R(S, O, S⁰)

⇒ Pl äne der L änge k in den SP-Tabellen über die Planvariablen o₁, . . . , o_k f ür O₁, . . . , O_k geschehen kann.

So repr ¨asentiert o₁ ∧ ¬o₂ mit k = 2 einen Plan (O₁, O₂).

Die Formel ¬O₁ mit k = 2 ist eine kompakte Repr äsentation f ür die zwei Pl äne (O₂, O₂) und (O₂, O₁).

Implementation: Model Based Planner (MBP)

(24)

Konformantes Planen als Erf ¨ ullbarkeitsproblem

Eine M ¨oglichkeit ist die Kodierung des Planungsproblems als quantifizierte Boole’sche Formel (QBF):

Ist f⁰ = Q₁x₁ . . . Q_nx_n f(x) mit Q_i ∈ {∃,∀} und Boole’scher Formel f erf ¨ullbar?

Dabei werden die Quantoren schon in sogenannter Pr ¨anexform nach vorn gestellt.

Modellierung: Nichtdeterminismus sei es im Initialzustand oder bei der Operatorausf ¨uhrung jeweils durch Quantoren

Satz: QBF Erf ¨ullbarkeit ist PSPACE-vollst ¨andig

⇒ Komplexit ¨atstheorie

(25)

Idee Polynomialit ¨at

Jede 2-Sat Formel a ∨ b ist ¨aquivalent zu ¬a → b bzw. ¬b → a.

Bilde Graph G_f mit Knotenmenge {x₁, . . . , x_n} ∪ {¬x₁, . . . ,¬x_n}, der diese Formeln als Kanten darstellt.

Es existiert eine erf ¨ullende Belegung f ¨ur f ⇔ G_f hat keinen Zyklus der Form x_i →^∗ ¬x_i →^∗ x_i

Linearzeit-Implementation ¨uber starken Zshg.-Komponenten und Anfragen der Form f ind(x) = f ind(¬x).

Analog zur Belegung in 2-SAT erfolgen f ¨ur 2-QBF die Festlegung der Variablen von links nach rechts.

(26)

Planungsans ¨atze

QBF-L ¨oser z.B. von Rintanen oder Giunchiglia et al. nutzen eine Erweitertung der Davis Dutnam Prozedur.

Konformantes Planen:

1. Generalisierung von SATPLAN auf nicht-deterministische Problemstellungen 2. Generate-and-Test Ansatz von Ferraris & Giunchiglia,

Im generate Schritt werden innerhalb der Davis-Putnam Prozedur nach und nach Pl äne generiert, die (getestet) werden, ob sie die Menge der Initialzust ände in den Zielzustand überf ühren.

(27)

5 Alternative Ans ¨atze zum Konformanten Planen

Conformant Graphplan: Planungsgraph f ür jede m ögliche Folge von m öglichen Welten (Initialzust änden) gebildet.

Konformanz-Bedingungen werden zwischen den Planungsgraphen propagiert.

FragPlan: Behandelt Planfragmente verschiedener Welten, die nach und nach zu einem konformanten Plan erg ¨anzt werden.

Ein Fragment ist ein Plan zumindest f ¨ur eine Welt.

Hoffnung: Nur wenige Welten begr ¨unden den konformanten Plan

(28)

Konformantes Planen als Heuristisch Suche

Ohne konditionale Effekte: Anstatt die Propositionen zu betrachten, die wahr sind, muss er Propositionen betrachten, die gesichert wahr sind.

Konditionale Effekte e einer STRIPS Aktion a = (P, A, D):

Tripel (C(e), A(e), D(e)), die in Zustand S ∈ S anwendbar sind, wenn die Bedingungen P ⊆ S und C(e) ⊂ S erf ¨ullt sind.

Annahme: A ∩ D = ∅ und A(e) ∩ D(e) = ∅

(29)

Unsicherheit im Initialzustand

Propositionen p werden als unbekannt markiert.

Disjunktion: l¹ ∨ . . . ∨ l^k von markierten Literalen l¹, . . . , l^k sagt aus, dass alle m öglichen Initialzust ände diese Formel erf üllen.

⇒ Menge von Initialzust ¨anden I ⊆ S mit bekannt positiven bzw. bekannt negativen und unbekannten Propositionen.

π konformanter Plan: Wenn Anwendung f ¨ur jedes I ∈ I einen Zustand liefert, der das Ziel erf ¨ullt.

Achtung: Konditionale Effekte k önnen f ür unterschiedliche Zust ände unterschiedliche Resultate liefern k önnen.

(30)

Unterscheidung

Weltzust ¨anden, die aus einer Menge von Propositionen bestehen und

Suchzust änden, die aus einer Menge von m öglichen Weltzust änden bestehen.

Suchzustand S entspricht einem zum Teil ausgef ¨uhrten Plan π_k (als Prefix von π).

• Proposition p ist in S positiv bekannt, falls f ¨ur alle I ∈ I die Anwendung π(I) in einen Weltzustand f ¨uhrt, in dem p enthalten ist.

• Proposition p ist in S negativ bekannt, falls f ¨ur alle I ∈ I die Anwendung π(I) in einen Weltzustand f ¨uhrt, in dem p nicht enthalten ist.

• Alle weder positiv oder negativ bekannten Propositionen sind unbekannt.

(31)

Komplexit ¨at Bekanntheit

Die Entscheidung, ob f ¨ur ein gegebenen Suchzustand S und Teilplan π_k eine Proposition p bekannt ist, ist co-NP vollst ¨andig.

Beweis fehlt.

Analog: Problem zu entscheiden, ob eine Proposition p negativ bekannt ist, co-NP vollst ¨andig ist.

⇒ Problem zu entscheiden, ob eine Proposition p unbekannt ist, NP-vollst ¨andig.

Beweis gilt ¨ubrigens auch f ¨ur ein relaxierten Plan, d.h. in einem Plan ohne negative Effekte.

. . . gibt bessere M ¨oglichkeit, als die Generierung aller Initialzust ¨ande

(32)

SAT L ¨ osen

In dem Algorithmus wird eine Boolesche Formel φ(π_k) erzeugt, die Proposition p_k genau dann impliziert, falls p im Suchzustand S = π_k(I) positiv bekannt ist.

F ¨ur jeden Zustand S und jede Proposition p wird ein SAT-L ¨oser mit der Formel φ(π_k) ∧ ¬p_k aufgerufen.

Ist die Formel unerf ¨ullbar, so ist p positiv bekannt.

Analog wird der L ¨oser mit φ(π_k) ∧ p_k aufgerufen.

Ist diese Formel unerf ¨ullbar, so ist p unbekannt.

(33)

Der Aufbau von φ ( π

_k

)

F ür die Menge von Initialzust änden wird Klausel p₀ f ür alle positiv bekannten p und Klausel ¬p₀ f ür alle negativ bekannten p gesetzt.

F ¨ur die unbekannten Literale, die mit l¹ ∨ . . . l^k die Unsicherheit im Initialzustand beschreiben, wird die Klausel l₀¹ ∨ . . . l^k₀ gesetzt.

Nun betrachten wir die erste Aktion O₁ ∈ π_k.

(34)

Axiome

Effekt Axiome F ¨ur jeden Effekt e in Aktion O₁ mit Bedingung

C(e) = {p¹, . . . , p^m} und jeder Proposition p ∈ A(e) f ¨ugen wir die Klausel

¬p¹₀ ∨ . . . ∨ ¬p^m₀ ∨ p₁ hinzu. F ¨ur jede Proposition p ∈ D(e) f ¨ugen wir die Klausel ¬p¹₀ ∨ . . . ∨ ¬p^m₀ ∨ ¬p₁ hinzu

Frame Axiome F ¨ur jede Proposition p seien e₁, . . . , e_n die Effekte von O₁ mit p ∈ D(e_i). F ¨ur jedes Tupel p¹, . . . , p^m mit pⁱ ∈ C(e) wird

¬p₀ ∨p¹₀ ∨. . .∨ ¬p^m₀ ∨p₁ eingef ügt (p wahr und nicht gel öscht → p bleibt wahr) Analog seien f ür jede Proposition p, e₁, . . . , e_n die Effekte von O₁ mit

p ∈ A(e_i). F ¨ur jedes Tupel p¹, . . . , p^m mit pⁱ ∈ C(e) wird nun die Klausel p₀ ∨ p¹₀ ∨ . . . ∨ ¬p^m₀ ∨ ¬p₁ eingef ¨ugt (p falsch und nicht gesetzt → p bleibt falsch)

(35)

Rest

Die Konstruktion wird gleichermaßen f ¨ur den Rest von π_k, also die Aktionen O₂, . . . , O_k, durchgef ¨uhrt

Die Klauseln werden zu φ(π_k) hinzugef ¨ugt.

Sie sichern

• dass f ür jeden gew ählten Initialzustand I ∈ I und Proposition p exakt eine erf üllende Belegung existiert und

• dass p nach Ausf ¨uhrung von φ(π_k) in I gilt.

(36)

Beispiel

Angenommen ein Roboter ist initial an einer von zwei Positionen X und Y

⇒ I entspricht Formel ((at X⁾ ∨ ¬(at X⁾⁾ ∧ ((at Y⁾ ∨ ¬(at Y⁾⁾. Das Ziel ist sicher in die Position Y zu gelangen.

Die einzige Aktion ist (moveright⁾ mit leerer Vorbedingungsliste und einem bedingten Effekt ((at X^),⁽at Y^),⁽at X⁾⁾.

Der konditionale Plan π₁ bestehe nur aus der Aktion (moveright⁾.

(37)

Beispiel (ctd.)

Die Formel φ(p₁) besteht aus den Kauseln f ¨ur den Initialzustand (at X⁾₀ ∨ ¬(at X⁾₀

und ¬(at Y⁾₀ ^{∨ ¬(}at Y⁾₀.

Desweiteren kommen zwei Klauseln Effekt-Axiome f ¨ur (moveright⁾:

¬(at X⁾₀ ∨ (at Y⁾₁ (Add-Effekt) und

¬(at X⁾₀ ^{∨ ¬(}at X⁾₁ (Delete-Effekt).

(38)

Frame-Axiome

¬(at X⁾₀ ∨ (at X⁾₀ ∨ (at X⁾₁ (positiv f ¨ur (at X⁾),

¬(at Y⁾₀ ^{∨ ¬(}at Y⁾₁ (positiv f ¨ur (at Y⁾),

(at X⁾₀ ∨ ¬(at X⁾₁, (negativ f ¨ur (at X⁾), und

(at Y⁾₀ ∨ ¬(at X⁾₀ ∨ ¬(at Y⁾₁ (negativ f ¨ur (at Y⁾).

(39)

Test auf Bekanntheit

Um zu pr üfen, ob (at X⁾ in S nach Ausf ührung von π₁ positiv bekannt ist, l ösen wir φ(π₁) ∧ ¬(at X⁾₁.

Es gibt eine erf ¨ullende Belegung, so dass (at X⁾ nicht bekannt ist.

Um zu pr üfen, ob (at Y⁾ in S nach Ausf ührung von π₁ positiv bekannt ist, l ösen wir φ(π₁) ∧ ¬(at Y⁾₁. Die Formel ist unerf üllbar, also ist (at Y⁾ in S positiv bekannt.

Analog ist (at X⁾ in S negativ bekannt.

(40)

Erweitere relaxierter Pl ¨ane

. . . um bekannte Propositionen P_i⁺ und unbekannte Propositionen P_i⁻ in Schicht i - A_i: Menge der Aktionen mit Vorbedingungen in P_i⁺

- P_i+1⁺ : Vereinigung der Add-Effekte in A_i - P_i+1⁻ ← P_i⁻ \ P_i+1⁺ (nun bekannt)

- Propositionen in P_i+1⁻ , die erf ¨ullt werden k ¨onnen: P(e) ∈ P_i⁻ ∪ P_i⁺ → A(e) ∈ P_i+1⁻

Zus ¨atzlich: ∀p ∈ P⁻ pr ¨ufe, ob inferierbar ⇒ Bewege p von P⁻ nach P⁺

(41)

Reduktion der Komplexit ¨at

Letzter Schritt eigentlich ein SAT Problem → NP vollst ¨andig Bekanntheit selbst ohne Delete-Listen NP vollst ¨andig

→ W ¨ahle nur 2 Literale in jeder SAT Klausel aus

→ Polynomielle Komplexit ¨at

→ Verwalte zus ¨atzlich einen Abh ¨angigkeitsgraphen

(42)

Abh ¨angigkeitsgraph

Betrachte Schicht i im relaxierten Plan:

Graph G_I enth ¨alt Kanten (l(t), l⁰(t)) und (l(t), l⁰(t + 1)) zwischen zeitlichen Literalen mit −n ≤ t ≤ i

- Zeiten t < 0 entsprechen ausgef ¨uhrtem Pl ¨anen - Zeiten ≥ 0 entsprechen relaxiertem Plan

Kanten (l(t), l⁰(t)) und (l(t), l⁰(t + 1)) werden gesetz falls l und l⁰ zu den betrachteten Zeitpunkten unbekant sind

- Es gibt wieder Initialkanten, Aktionskanten und Frame-Axiom-Kanten

−

(43)

Conformant-FF

Suche: Enforced Hill-Climbing oder Bestensuche Heuristik: Planla ¨ange relaxierter Plan

SAT-L ¨oser: Eigene Implementation

Helpful Actions: Restriktion auf Aktionen, die in Schicht 1 des relaxierten Planes f ¨uhren.

Hier: Teilziel hinzugef ¨ugt,

Experimente: Bombs-in-Toilet, Omlette, Ring, Safe, Blocks, Logistics, Grid, etc.

Resultate: Wesentlich besser als BDD basierter Planer MBP in vielen aber nicht allen Problemen