Propositionale Planung

(1)

Propositionale Planung

Vorlesung Handlungsplanung

Stefan Edelkamp

(2)

1 Uberblick ¨

- STRIPS Planung, Definition und Komplexit ¨at - Plangraphen und Graphplan

- Erf ¨ullbarkeitsplanen (direkt und in Graphplan) - Planen durch Constraint Satisfaction

- Heurisitische Suche und beschleunigte Planfindung - Symbolische Planung mit BDDs

(3)

2 STRIPS Planung

Ein propositionales Planningproblem in STRIPS Beschreibung ist ein endliches Zustandsraumproblem P =< S,O,I,G >, wobei

• S ⊆ 2^F die Zustandsmenge,

• I ∈ S der Initialzustand,

• G ⊆ S das Planungsziel und

• O die Menge der Operatoren ist.

(4)

Operatoren

Operatoren O = (P, A, D) ∈ O haben

• propositionale Vorbedingungen P ⊆ F, und

• propositionale Effekte (A, D), wobei A ⊆ F die sogennannte Add- und D ⊆ F die sogenannte Delete-Liste sind.

Ist ein Zustand S mit P ⊆ S gegeben, dann ist sein Nachfolger S⁰ = O(S) durch S⁰ = (S \ D) ∪ A festgelegt.

(5)

3 Komplexit ¨at Propositionales Planen

a) PLANSAT ist PSPACE-vollst ¨andig.

b) PLANSAT ohne negative Effekte (PLANSAT₊) ist NP-vollst ¨andig.

c) PLANMIN beschr ¨ankt auf eine positive Vorbedingung und einen positiven Effekt (PLANMIN¹⁺₁₊) ist NP-vollst ¨andig.

d) PLANSAT beschr ¨ankt auf positive Vorbedingungen und eine Nachbedingung (PLANSAT⁺₁ ) hat polynomielle Komplexit ¨at.

(6)

PLANSAT in PSPACE

PLANSAT liegt in PSPACE, weil eine Operatorensequenz nichtdeterministisch gew ählt werden kann, und die Gr öße eines Zustandes durch die Anzahl der Propositionen beschr änkt ist.

D.h. f ür n Propositionen ist die L änge des k ürzesten L ösungspfades kleiner als 2ⁿ. Anderenfalls m üßte die L ösung Schleifen enthalten, in denen Zust ände doppelt besucht werden.

Derartige Schleifen k ¨onnen entfernt werden.

Nach maximal 2ⁿ Schritten muss das Verfahren also einen Zielzustand gef ¨unden haben, wenn dieser erreichbar ist.

Aus PSPACE=NPSPACE folgt, dass PLANSAT in PSPACE liegt.

(7)

PSPACE H ¨arte von PLANSAT

Wir kodieren wir eine polynomial platzbeschr ¨ankte Turingmaschine (TM) als Planungsproblem wie folgt:

• in(i, x) bedeutet, dass das Symbol x in der Bandzelle i steht,

• at(i, q), dass die TM bereit ist, die Transition f ¨ur die aktuelle Position i und den Zustand q auszuf ¨uhren.

• do(i, q, x) bedeutet, dass die Transition an der i-ten Position f ¨ur Zustand q auf das Symbol x angewendet wird und

• accept heißt, dass die TM die Bandeingabe akzeptiert.

(8)

Beschreibung Start- und Zielzust ¨ande

Wenn nun q₀ der Startzustand der TM ist, x₁, . . . , x_n die Eingabe, und der Platz, den die TM ben ötigt, durch m beschr änkt ist, so k önnen Start- und Zielzustand beschrieben werden als:

• I = {at(1, q₀), in(0, ]), in(1, x₁), in(2, x₂), . . . , in(n, x_n), in(n + 1, ]), . . . , in(m − 1, ])} und

• G = accept.

(9)

Transitionen

Die Transitionen werden nun durch folgende Operatoren kodiert (Schreiben und Rechtsbewegung):

at(i, q) ∧ in(i, x) ⇒ do(i, q, x) ∧ ¬at(i, q) do(i, q, x) ∧ in(i, x) ⇒ in(i, y) ∧ ¬in(i, x)

do(i, q, x) ∧ in(i, y) ⇒ at(i + 1, q⁰) ∧ ¬do(i, q, x)

Somit h ält die TM genau dann, wenn es eine L ösung f ür das konstruierte Planungsproblem gibt.

Da es nur polynomiell viele (i, q, x)-Kombinationen gibt, so auch polynomiell viele Propositionen und Operatoren.

(10)

NP-Vollst ¨andigkeit von PLANSAT

₊

Ohne negative Effekte stellt ein Nachfolgezustand stets eine Obermenge des Vorg ¨angers dar.

Die L änge des minimalen L ösungspfades ist daher linear beschr änkt, d.h. wir kommen mir einer linearen Anzahl nichtdeterministischer Entscheidungen aus.

Somit ist PLANSAT₊ ∈ NP.

(11)

NP-H ¨arte von PLANSAT

₊

Reduktion von 3SAT: Sei

• E eine propositionale 3SAT Formel,

• U = {u₁, . . . , u_m} die in E verwendeten Variablen und

• n die Anzahl der Klauseln in E.

F ¨ur jede Variable u_i f ¨uhren wir die Propositionen T(i) und F(i) ein, die bedeuten, dass u_i auf wahr bzw. falsch gesetzt ist.

C(j) bedeutet, dass die j-te Klausel in E erf ¨ullt ist.

(12)

NP-H ¨arte von PLANSAT

₊

Die Initial- und Zielzust ¨ande sind definiert als I = ∅ und G = {C(1), . . . , C(n)}.

F ¨ur jede Variable u_i definieren wir die Operatoren ¬F(i) ⇒ T(i) und

¬T(i) ⇒ F(i).

F ür jede Klausel C(j), die eine nichtnegierte Variable u_i enth ält, definieren wir T(i) ⇒ C(j) und analog F(i) ⇒ C(j) f ür negierte Variablen.

Offensichtlich existiert ein L ¨osungspfad von von I nach G, genau dann, wenn es eine Variablenbelegung gibt, so dass E war wird.

Somit ist PLANSAT₊ NP-hart.

(13)

NP-H ¨arte PLANMIN

¹⁺₁₊

in NP nach Teil d). Reduktion auf 3SAT:

Es sei

• U = {u₁, . . . , u_m} die Menge der verwendeten Variablen in einer 3-SAT Formel

• E und n die Anzahl der Klauseln.

Wir definieren wieder die Propositionen T(i), F(i), C(j), welche bedeuten, dass u_i auf wahr oder falsch gesetzt ist, bzw. dass die j-te Klausel erf ¨ullt ist.

Zus ätzlich definieren wir noch V (i), das angibt, dass eine Belegung f ür Variable u_i gew ählt wurde.

(14)

NP-H ¨arte PLANMIN

¹⁺₁₊

Der Initial- und Zielzustand kann nun definiert werden als: I = ∅ und G = V (1) ∧ . . . ∧ V (m) ∧ C(1) ∧ . . . ∧ C(n).

F ¨ur jede Variable u_i ben ¨otigen wir 4 Operatoren:

⇒ T(i)

⇒ F(i)

T(i) ⇒ V (i) F(i) ⇒ V (i)

D.h. wir haben Operatoren, die Variablen Werte zuweisen, und solche die sicherstellen, dass einer Variable ein Wert zugewiesen wurde.

(15)

NP-H ¨arte PLANMIN

¹⁺₁₊

F ür jede Klausel j, die eine Variable negiert bzw. nicht-negiert enth ält, ben ötigen wir die Operatoren T(i) ⇒ C(j) bzw. F(i) ⇒ C(j).

Wenn E erf ¨ullbar ist, so

• muss f ¨ur jede Variable nur ein Wert gesetzt werden (m Operatoren), weitere

• m Operatoren werden be ¨otigt, um die V (i)’s zu setzen und

• n Operatoren f ¨ur die C(j)’s.

Somit ist E genau dann erf ¨ullbar, wenn das konstruierte Planungsproblem in k = 2m + n Schritten l ¨osbar ist.

(16)

PLANSAT

⁺₁

∈ P

Reduktion auf Pfade mit zuerst nur positive und danach nur negative Effekten:

- betrachte Operatorenfolge mit O_i’s Effekt negativ und O_i+1’s Effekt positiv - sei p_i O_i’s positiver Effekt und p_i+1 O_i+1’s negativer Effekt

- falls p_i = p_i+1, kann O_i entfernt werden

- anderenfalls k ¨onnen O_i und O_i+1 vertauscht werden

- da Vorbedingungen von O_i+1 wahr, gilt dies auch wenn man p_i wahr l ¨asst - analog muss O_i+i die Vorbedingung von O_i erhalten

Iteriere, bis ¨aquivalente Operatorenfolge gefunden

(17)

PLANSAT

⁺₁

∈ P

Existiert L ¨osung, gibt es einen Zwischenzustand S_i mit G₊ ⊆ S_i, der

- von I aus nur durch Operatoren mit positiven Effekten erreicht werden kann - von dem aus S_i\G₋ nur durch Operatoren mit negativen Effekten erreichbar ist Das Entscheidungsverfahren muss nun einen solchen Zwischenzustand finden Hierzu ben ¨otigen wir die folgenden zwei Teilroutinen:

• Turnon(X) erh ¨alt als Parameter eine Menge von Propositionen X und liefert den maximalen Zustand S ⊆ F \X, der von I aus erreicht werden kann.

• Turnoff(S), die als Paramter einen Zustand S erh ¨alt und den maximalen Zustand S⁰ ⊆ S liefert, so dass S\G₋ von S⁰ erreichbar ist.

(18)

Turnon

Procedure Turnon(X) S ← I

repeat

temp ← S for O ∈ O do

if (S ⊂ Result(S, O)) ∧ (X ∩ Result(S, O) = ∅) S ← Result(S, O)

until S = temp return S

F ¨ur n Propositionen und m Operatoren ist Turnon O(mn²).

(19)

Turnon

Procedure Turnoff(S) S⁰ ← S\G₋

repeat

temp ← S⁰ for O ∈ O do

if (O₋ ⊆ S) ∧ (Result(S⁰ ∪ O₋, O) = S⁰) S⁰ ← S⁰ ∪ O₋

until S = temp return S

Die Laufzeit von Turnoff ist ebenfalls O(mn²).

(20)

Satisfy

Satisfy pr ¨uft unter der Verwendung der beiden Teilroutinen, ob eine L ¨osung existiert.

Procedure Satisfy X ← ∅

loop

S ←Turnon(X)

if G₊ 6⊆ S return reject S⁰ ← Turnoff(S)

if S = S⁰ return accept X ← X ∪ (S\S⁰)

if X ∩ I 6= ∅ return reject

(21)

Satisfy

In der ersten Iteration wird S auf Turnon(∅) gesetzt. Wenn S die positiven

Zielpropositionen nicht enth ¨alt, so gibt es keine L ¨osung. Anderenfalls wird S⁰ auf Turnoff(S) gesetzt, d.h. S⁰ ist die maximale Teilmenge von S, die die negativen Ziele erreichen kann.

Da keine weiteren Propositionen wahr gemacht werden k ¨onnen, ist S⁰ auch die maximale Teilmenge von F, die die negativen Zielbedingungen erreichen kann.

Falls S = S⁰, so existiert eine L ¨osung. Anderenfalls gibt es negative

Zielbedingungen, die verhindern, dass der Zielzustand erreicht werden kann.

Damit ein Zielzustand erreicht werden kann, d ¨urfen diese Propositionen niemals wahr werden. Daher werden sie zu X hinzugef ¨ugt.

Falls mind. eine solche Proposition im Initialzustand wahr ist, reject

(22)

Gesamtresultat

Die n ¨achste Iteration verl ¨auft wie die vorhergehende, mit dem Unterschied, dass kein Element von X wahr gemacht wird.

Diese Iteration kann weitere Propositionen entdecken, die - falls sie wahr gemacht werden - verhindern, dass das Ziel erreicht wird.

Diese werden wiederum zu X hinzugef ¨ugt.

In aufeinanderfolgenden Iterationen werden entweder neue Propositionen zu X hinzugef ¨ugt, oder es wird accept/reject zur ¨uckgegeben.

Da |X| monoton w ¨achst und durch n = |F | begrenzt ist, wird die Schleife h ¨ochstens n-mal durchlaufen.

Da Turnon und Turnoff O(mn²) sind, folgt dass Satisfy O(mn³) ist.

(23)

4 Paralleles Planen mit Graphplan

Plangraph; gerichtetet, geschichtetet, mit 2 Knoten- und 3 Kantenarten Schichten alternieren zwischen

• Propositionsschichten, in der Knoten durch Atome festgelegt sind und

• Aktionsschichten, die aus Knoten f ¨ur die Operatoren bestehen.

Die erste Schicht ist eine Propositionsschicht mit Knoten f ¨ur jede Proposition in dem Initialzustand.

Die weiteren Schichten sind: Anwendbare Aktionen zum Zeitpunkt 1, Propositionen, die m ¨oglicherweise zum Zeitpunkt 2 wahr sind, anwendbare Aktionen zum

Zeitpunkt 2, Propositionen, die m ¨oglicherweise zum Zeitpunkt 2 gelten, usw..

(24)

Kanten im Plangraphen

Kanten in dem Plangraphen entsprechen Relationen zwischen Aktionen und Propositionen.

Aktionen in Schicht i sind

• mit Vorbedingungskanten mit ihren Vorbedingungen im Schicht i verbunden,

• mit Add -Kanten mit ihren positiven Effekten in der Propositionsschicht i + 1, sowie mit

• Delete-Kanten mit den negativen Effekten in der Propositionsschicht i + 1.

(25)

Zusammensetzung des Plangraphen

Der Plangraph setzt sich wie folgt zusammen:

• Aktionsschicht i enth ält alle m öglichen Aktionen enth ält, deren Vorbedingungen in Schicht i erf üllt sind.

• Eine Proposition wird in Schicht i + 1 aufgenommen, sobald es eine Aktion gibt, die die Proposition als Add-Effekt hat.

• Desweiteren erlauben wir sogenannte noop Aktionen, die Propositionen unver ¨andert von Schicht i in die Schicht i + 1 bef ¨ordern.

(26)

Rocket-Domain

(:action move

:parameters (?r - rocket ?from ?to - place)

:precondition (and (at ?r ?from) (has-fuel ?r))

:effect (and (at ?r ?to) (not (at ?r ?from)) (not (has-fuel ?r)))) (:action load

:parameters (?r - rocket ?p - place ?c - cargo) :precondition (and (at ?r ?p) (at ?c ?p))

:effect (and (in ?c ?r) (not (at ?c ?p)))) (:action unload

:parameters (?r - rocket ?p - place ?c - cargo) :precondition (and (at ?r ?p) (in ?c ?r))

:effect (and (at ?c ?p) (not (in ?c ?r))))

(27)

Plangraph

prop 1 act 1 prop 2 act 2 prop 3

---

(load b l) (in b r) (noop) (in b r)

(load a l) (in a r) (noop) (in a r)

(move l p) (at r p) (noop) (at r p)

(unload a p) (at a p) (unload b p) (at b p)

(at a l) (noop) (at a l) (noop) (at a l)

(at b l) (noop) (at b l) (noop) (at b l)

(at r l) (noop) (at r l) (noop) (at r l)

(fuel r) (noop) (fuel r) (noop) (fuel r)

(28)

Exklusivit ¨at

Zwei Aktionen a und b in einer gegebenen Aktionsschicht sind exklusiv, wenn

Interferenz eine der Aktionen die Vorbedingung der jeweils anderen Aktione l ¨oscht.

Gleichzeitiger Zugriff eine Vorbedingung in Aktion a und eine Vorbedingung in Aktion b wurden in der vorangegangenen Propositionsschicht als exklusiv markiert

Dabei werden zwei Propositionen p und q als exklusiv markiert, wenn wenn alle

Aktionen a mit Add-Kante zu p exklusiv sind zu allen Aktionen b die eine Add-Kante zu p haben.

(29)

Algorithmus Graphplan

Die grobe Vorgehensweise des Graphplan-Algorithmus ist die Folgende.

Beginnend mit einem Plangraph, der nur die Startbedingungen in Schicht 1 enth ¨alt, wird der Graph nach und nach aufgebaut.

Dabei

• nimmt Graphplan den Plangraphen der Phase i − 1,

• erweitert ihn um eine Aktions- und Propositionsschicht und

• f ¨uhrt anschließend in dem erzeugten Graphen eine Suche nach einem validen Plan der L ¨ange i durch.

Ist die Suche nicht erfolgreich, wird der Plangraph um eine Schicht erweitert.

(30)

Vorw ¨artsphase

Eine neue Aktionsschicht wird wie folgt bestimmt:

F ür jeden Operator und jede Instantiierungsm öglichkeit der Vorbedingungen in der vorangegangenen Schicht wird ein Aktionsknoten eingef ügt, sofern nicht zwei

Vorbedinungen als exklusiv gekennzeichnet sind.

Zudem werden die noops und die Vorbedingungskanten eingef ¨ugt.

Dann werden die Aktionen auf Exklusivit ät gepr üft und f ür jede Aktion eine Liste aller anderen Aktionen aufgebaut, zu denen sie exklusiv ist.

Um die Propositionsschricht zu generieren:

werden die Add-Effekte der Aktionen in der vorangegangengen Schicht ausgew ählt und als Vorbedingung f ür die n ächste Schicht in den Graph eingef ügt

(31)

Komplexit ¨at Plangraph

Betrachte ein Planungsproblem mit n Objekten, p Propositionen im Initialzustand und m STRIPS Operatoren jeweils mit einer konstanten Anzahl formaler Parameter.

Weiterhin sei l die L ¨ange der l ¨angsten Add-Liste aller Operatoren.

Satz Die Gr ¨oße des Plangraphen mit t Schichten, der von Graphplan konstruiert wird, als auch die Laufzeit diesen Graph zu erzeugen, ist polynomiell in n, m, p, l und t.

Beweis Sei k die gr ¨oßte Anzahl formaler Parameter in den Operatoren.

(32)

Gr ¨ oße

Da ein Operator keine neue Objekte erzeugen kann, ist die Anzahl instantiierter Effektpropositionen durch O(ln^k) beschr ¨ankt.

Damit ist die maximale Anzahl von Knoten in jeder Propositionsschicht durch O(p + mln^k) beschr ¨ankt.

Da jeder Operator auf max. O(n^k) verschiedenen Weise instantiiert werden kann, ist die maximaler Anzahl von Knoten in jeder Aktionsschicht des Plangraphen durch O(mn^k) beschr ¨ankt.

Damit ist die Gr ¨oße des Plangraphen tats ¨achlich polynomiell in den angegebenen Parametern.

(33)

Laufzeit

Das Ziel, eine neue Aktions- bzw. Propositionsschricht des Graphen zu konstruieren, kann aufgeteilt werden in

• die Zeit aller Operatoren gem ¨aß den Vorbediungen in der vorangegangenen Schicht in allen m ¨oglichen Art und Weisen zu instanziieren,

• die Zeit die Exklusiv-Relation zwischen den Aktionen zu berechnen und

• die Zeit, um die Exklusiv-Relation zwischen den Propositionen f ¨ur die n ¨achste Schicht zu bestimmen.

Es ist klar, dass diese Zeit polynomiell in der Anzahl der Knoten in der aktuellen Schicht des Plangraphen ist.

(34)

R ¨ uckw ¨artsphase

Graphplan sucht validen Plan r ¨uckw ¨arts von Menge der Zielpropositionen ausgehen

Schicht f ¨ur Schicht, um die Exklusiv-Relation auszunutzen.

- Zu einer Menge von Zielen zur Zeit t versucht Graphplan die Menge von Aktionen (inkl. noops) zur Zeit t − 1 zu finden, die diese Ziele als Add-Effekte haben.

- Vorbedingungen dieser Aktionen bilden dann die Menge der Teilziele zum

Zeitpunkt t − 1 mit der Eigenschaft, dass wenn diese Ziele in t − 1 Schritten erf üllt werden k önnen, dann kann das originale Ziel erf üllt werden.

- wenn Zielmenge zur Zeit t − 1 unl ösbar, w ählt Graphplan eine andere Menge von Aktionen, und f ährt solange fort, bis es entweder erfolgreich einen Plan findet, oder bewiesen hat, dass ein solcher Plan mit dieser oder geringerer Tiefe nicht existiert.

(35)

Implementierung

Um diese Strategie zu implementieren, bietet sich eine rekursive Suchmethode an:

1. F ür jedes Ziel zum Zeitpunkt t w ähle einige Aktionen zum Zeitpunkt t − 1 in einer festen Anordnung aus, die das Ziel erreichen und nicht exklusiv zu Aktionen sind, die vorher ausgew ählt wurden.

2. Fahre rekursiv fort mit dem n ächtem Ziel zum Zeitpunkt t (nat ürlich brauchen f ür schon erf üllte Ziele keine neuen Aktionen ausgew ählt werden).

3. Wenn der rekursive Aufruf fehlschl ägt, dann versuche es mit einer anderen Aktion, die das gegenw ärtige Ziel erreicht, bis alle m öglichen Aktionen

ausgew ¨ahlt wurden.

4. Wurden alle Ziele zum Zeitpunkt t erf ¨ullt, dann bilden die Vorbedingungen der ausgew ¨ahlten Aktionen die neue Zielmenge zum Zeitpunkt t − 1.

(36)

Vollst ¨andige Aktionsauswahl

Satz Sei G die Zielmenge zum Zeitpunkt t, die in t Schritten nicht l ¨osbar ist.

Dann entspricht die Zielmenge zum Zeitpunkt t − 1, unabh ¨angig von der gew ¨ahlten Ordnung der Ziele in G, exakt den Vorbedingungen aller minimaler Aktionsmengen zum Zeitpunkt t − 1, die G erreichen.

Beweis Graphplan ist so konzipiert, nur minimale Aktionsmengen auszuw ¨ahlen.

Demnach m ¨ussen wir zeigen, dass alle dieser Mengen vom Algorithmus behandelt werden.

(37)

Speziell

Sei A eine solche Menge

Betrachte eine beliebige Ordnung auf der Zielmenge G.

Sei a₁ eine Aktion in A, die das erste Ziel in G erreicht.

- wir bezeichnen das Ziel mit g_a₁

Sei a₂ eine Aktion in A, die das erste Ziel in G erreicht, das nicht schon durch a₁ erreicht wurde.

- wir bezeichnen dieses Ziel mit g_a₂

(38)

Allgemein

Sei a_i eine Aktion in A die das erste Ziel in G erreicht, das nicht schon durch {a₁, . . . , a_i−1} erreicht wurde. Wir bezeichnen dieses Ziel mit g_a_i.

Beachte, dass alle Aktionen in A so einen Index erhalten, da A minimal.

Die Anordung der Aktionen impliziert, dass zu einem Punkt in der Rekursion,

• a₁ zum Erreichen von g_a₁ gew ¨ahlt wird, und

• a₂ zum Erreichen von g_a₂ gew ¨ahlt wird

• usw.

Damit werden alle Aktionen in A vom Algorithmus gew ¨ahlt.

(39)

Terminierung

Ein Fixpunkt bei der Graphgenerierung ist erreicht, wenn sich die

Propositionsmenge in einer Schicht n nicht mehr ¨andert, kurz P_n = P_n+1. Wenn nun

• der Fixpunkt in der Graphkonstruktion erreicht ist und ein Zielfakt nicht erreicht wurde oder

• zwei Zielpropositionen in der letzten Schichtals als exklusiv gekennzeichnet sind,

dann ist das Problem mit Sicherheit unl ¨osbar.

In diesem Fall muss keine weitere Suche durchgef ¨uhrt werden.

(40)

Verfeinerte Terminierung

Test auf Terminierung nicht ersch ¨opfend.

Gegenbeispiel: (on a b), (on b c) und (on c a).

Je zwei Bedingungen sind erf ¨ullbar, jedoch nicht alle drei gleichzeitig.

Demnach brauchen wir eine verfeinerte Terminierungsbedingung f ¨ur Graphplan.

Sei S_i^t die Zusammenfassung aller Zielmengen, die in einer Schicht i nach einer unerf ¨ullten Iteration t gespeichert wird.

Graphplan termimiert, wenn die Graphkonstruktionen einen Fixpunkt in Schicht n gefunden hat und eine Phase t in Graphplan zur Plankonstruktion erreicht wird mit

|S_n^t−1| = |S_n^t|.

(41)

Terminierung Graphplan

Satz Graphplan terminiert ohne L ¨osung, dann nur dann, wenn das Planungsproblem unl ¨osbar ist.

Beweis Die einfache Richtung ist die, wenn das Problem unl ¨osbar ist, wird Graphplan dieses auch anzeigen.

Die Begr ¨undung liegt darin, dass

• die Anzahl der Mengen in S_n^t niemals kleiner wird als die Anzahl der Mengen in S_n^t−1 und

• die Anzahl der Mengen in S_n^t beschr ¨ankt ist.

(42)

Andere Beweisrichtung

Annahme Graph hat Fixpunkt in Schicht n erreicht und Iteration t > n nicht erfolgreich

- jeder Plan, der Zielmenge in S_n+1^t erreicht, diese Menge in S_n^t erreicht - die letzten t − n Schichten gleich und es gilt S_n+1^t = S_n^t

Angenommen, nach einer nicht erfolgreichen Phase t gilt |S_n^t−1| = |S_n^t|.

Damit gilt auch S_n^t−1 = S_n^t und S_n^t+1 = S_n^t. D.h. um eine Menge in S_n+1^t zu erreichen, muss man vorher eine andere Menge in S_n+1^t erreicht haben.

Da keine der Mengen in S_n+1^t in den Startbedingungen enthalten ist, ist das Problem unl ¨osbar.

(43)

5 Planung als Erf ¨ ullbarkeitsproblem

In dem Ansatz, Handlungsplanungsprobleme durch ein bzw. meherere Erf üllbarkeitsformeln auszudr ücken, wird jeder Proposition zus ätzlich ein Zeitstempel gegeben, zu der sie wahr ist.

F ¨ur einen Initialzustand in Blocks World mit Block a auf Block b und Zielzustand Block b auf Block a nach drei Schritten haben wir die Formel

(on a b 1) ∧ (on b t 1) ∧ (clear a 1) ∧ (on b a 3)

(44)

Aktionsanwendungen

Die ¨ubrigen Formeln beschreiben die Aktionsanwendungen. Diese beinhalten sowohl die Effekte, hier

∀x, y, z, i : (on x y i) ∧ (clear x i) ∧ (clear z i) ∧ (move x y z i) ⇒ (on x z i+1) ∧ (clear y i+1)

als auch diejenigen Regeln, die den Bestand eines nicht-ver ¨anderten Proposition sichern (Frame-Axiome).

(45)

Restriktion zur Anwendung von Aktionen

Nun wird die M öglichkeit ausgeschlossen, dass eine Aktion ausgef ührt wird, deren Vorbedingung nicht erf üllt sind.

Dieses kann dadurch erzielt werden, dass eine Aktion ihre Vorbedingungen und Effekte impliziert.

F ¨ur die Vorbedingungen der Aktion move in Blocks World haben wir

∀x, y, z, i : move(x y z i) ⇒ clear(x i) ∧ clear(z i) ∧ on(x y i) Effekte werden symmetrisch behandelt.

(46)

H ¨ ochstens eine Aktionsanwendung

Nun spezifizieren wir, dass immer nur eine Aktion zu einem festen Zeitpunkt durchgef ¨uhrt werden kann:

∀x, x⁰, y, y⁰, z, z⁰, i : x 6= x⁰ ∨ y 6= y⁰ ∨ z 6= z⁰ ⇒

¬(move x y z i) ∨ ¬(move x’ y’ z’ i)

(47)

Mindestens eine Aktionsanwendung

Zum Schluss bleibt die Bedingung, dass mindestens eine Aktion zu jedem Zeitpunkt stattfinden muss:

∀i < N : ∃x, y, z : (move x y z i)

(48)

Modelle und valide Pl ¨ane

Wenn ein vollst ändiger Initialzustand gegeben ist garantieren obige Bedingungen, dass alle zu den Formeln erzeugten Modelle tats ächlich valide Pl äne darstellen.

Dies gilt deshalb, da

• jedes Modell eine Sequenz von Aktionen darstellt, deren Vorbedingungen erf ¨ullt sind und

• die Ausf ührung einer Aktion im Zustand vollst ändig von den Wahrheitswerten aller Propositionen des n ächsten Zustandes abh ängen.

Das einzige Modell des obigen Planungsproblems ist (move a b t 1), (move b t a 2).

(49)

Vorteile

Planen als Erf ¨ullbarkeitsproblem hat eine Menge von Vorteilen.

• So ist es m ¨oglich zu fordern, dass Pr ¨adikate zu einem bestimmten Zeitpunkt wahr sind.

Zum Beispiel, die Anforderung, dass etwas auf Block c oder Block d liegt kann durch die Erf ¨ullbarkeitsformel ¬(clear c 5) ∨ ¬(clear d 5) ausgedr ¨uckt werden.

• Genauso k ¨onnen Aktionen zu einem speziellen Zeitpunkt ausgeschlossen werden, z.B. in dem man ¬(move a b c 3) der Spezifikation hinzuf ¨ugt.

(50)

Nachteile

• Anzahl der entstehenden Klauseln.

Sei c die Anzahl der Elemente des gr ¨oßten Typs und d die maximale Quantoren-Tiefe in irgendeinem Schema

⇒ L ¨ange der instantiierten Theorie nur durch O(kc^d) begrenzt.

Gr ¨oßte Reduktion: Einschr ¨ankung der Quantoren-Tiefe

(51)

Reduktion der Quantoren-Tiefe

Ersetze Pr ¨adikate mit > 3 Argumenten durch vielen Pr ¨adikate mit ≤ 2 Argumenten Beispiel: Zerlege (move x y z i) in

(object x i), (source y i) und (dest z i)

Dieses f ¨uhrt zur Veringerung der Quantoren-Tiefe der Regel, dass nur eine Aktion zu einem festen Zeitpunkt ausf ¨uhrbar ist.

Anstatt der 7 quantifizierten Variablen sind nunmehr nur noch 3 Schemata mit jeweils 3 Quantoren n ¨otig

∀x, x⁰, i : x 6= x⁰ ⇒ ¬(object x i) ∨ ¬(object x’ i)

∀y, y⁰, i : y 6= y⁰ ⇒ ¬(source y i) ∨ ¬(source y’ i)

∀z, z⁰, i : z 6= z⁰ ⇒ ¬(dest z i) ∨ ¬(dest z’ i)

(52)

Erf ¨ ullbarkeitsalgorithmen: Davis-Putnam

Einer der zumeist genutzten Algorithmen, um die Erf ¨ullbarkeit zu testen, ist die Davis-Putnam Prozedur, die eine besondere Resolutionsmethode darstellt.

Der Algorithmus

• bildet inkrementell eine Belegung und f ¨uhrt einen Backtrack-Schritt durch, wenn er eine Zuweisung findet, die die Formel nicht erf ¨ullt.

• vereinfacht desweiteren Klauseln parallel zur Elimination von Literalen, die sich bzgl. der derzeitigen Belegung als unwahr herausstellen.

Falls eine Klausel mit einem Literal erzeugt wird, so wird diese direkt erf ¨ullt, oder ein Backtrack-Schritt eingeleitet.

(53)

Erf ¨ ullbarkeitsalgorithmen: GSAT

Alternative zur L ösung von großen Erf üllbarkeitsproblemen. GSAT, 1. f ührt eine randomisierte lokale Suche durch

2. w ürfelt eine vollst ändige Belegung aus und f ührt dann eine Anzahl von

Variablenflips durch, um die derzeitige Belegungssituation gemessen in der Anzahl der erf ¨ullten Klauseln zu verbessern

3. wenn verschiedene Propositionen gleich gut sind, wird per Zufall eine ausgew ¨ahlt

4. terminiert, wenn eine erf ¨ullbare Belegung gefunden wurde oder eine Obergrenze an Flips erreicht ist

(54)

Planextraktion als Erf ¨ ullbarkeitsproblem

Idee: Plangraph als Erf ¨ullbarkeitformel.

1. Alle Ziele werden auf wahr gesetzt.

2. Alle initiale Fakten werden auf wahr gesetzt.

3. F ¨ur alle Fakten F in Schicht i 6= 0 des Plangraphen wird eine Regel F ⇒ A₁ ∨ . . . ∨ A_n gebildet, wobei A₁, . . . , A_n die Aktionen in der vorangegangenen Schicht sind, die F erzeugen.

4. F ¨ur alle Aktionen, bei denen P₁, . . . , P_n die Vorbedingungen von A sind und E₁, . . . , E_m die Effekte von A werden die Regeln A ⇒ P₁, A ⇒ P₂, . . . , A ⇒ P_n und A ⇒ E₁, A ⇒ E₂, . . . , A ⇒ E_m eingef ¨uhrt

5. F ¨ur jede Exklusivit ¨at von Propositionen A und B im Graph, wird eine Regel

¬A ∨ ¬B gebildet.

(55)

Planextraktion als CSP

Mit Blackbox vergleichbar, nur dass statt einer SAT-Formel eine CSP-Beschreibung generiert wird.

Dabei wird zwischen statischen und aktiven Bedingungen unterschieden.

Letztere beschreiben die Auswahl der Vorbedingungen im Planextraktionsprozess.

(56)

Beispiel Dynamisches CSP

• Variablen [mit Wertebereichen] G₁ : [A₁], G₂ : [A₂], G₃ : [A₃], G₄ : [A₄],

P₁ : [A₅], P₂ : [A₆, A₁₁], P₃ : [A₇], P₄ : [A₈, A₉], P₅ : [A₁₀] und P₆ : [A₁₀].

• Bedingungen (statisch) P₁ = A₅ ⇒ P₄ 6= A₉, P₂ = A₆ ⇒ P₄ 6= A₈ und P₃ = A₁₁ ⇒ P₃ 6= A₇

• Bedingungen (dynamisch) G₁ = A₁ ⇒ Active{P₁, P₂, P₃}, G₂ = A₂ ⇒ Active{P₄}, G₃ = A₄ ⇒ Active{P₅} und

G₃ = A₄ ⇒ Active{P₁, P₆}

• Startzustand Active{G₁, G₂, G₃, G₄}

Dabei beschreiben die statischen Bedingungen die Exklusiv-Relation der

Propositionen innerhalb einer Schicht und die dynamischen Bedingungen die Aktivierung der Vorbedingungen.

(57)

Korrespondierendes gew ¨ ohnliches CSP

• Variablen G₁ : [A₁,⊥], G₂ : [A₂,⊥], G₃ : [A₃,⊥], G₄ : [A₄,⊥], P₁ : [A₅,⊥], P₂ : [A₆, A₁₁,⊥], P₃ : [A₇,⊥], P₄ : [A₈, A₉,⊥], P₅ : [A₁₀,⊥] und

P₆ : [A₁₀,⊥].

• Bedingungen (statisch) P₁ = A₅ ⇒ P₄ 6= A₉, P₂ = A₆ ⇒ P₄ 6= A₈ und P₃ = A₁₁ ⇒ P₃ 6= A₇

• Bedingungen (dynamisch) G₁ = A₁ ⇒ P₁ 6= ⊥ ∧ P₂ 6= ⊥ ∧ P₃ 6= ⊥,

G₂ = A₂ ⇒ P₄ 6= ⊥, G₃ = A₄ ⇒ P₅ 6= ⊥ und G₃ = A₄ ⇒ P₁ 6= ⊥∧ 6= ⊥

• Startzustand G₁ 6= ⊥ ∧ G₂ 6= ⊥ ∧ G₃ 6= ⊥ ∧ G₄ 6= ⊥ Es dient als Eingabe f ¨ur einen CSP-L ¨oser.

(58)

6 Planen durch Heuristische Suche

Suchverfahren:

• (Enforced) Hill Climbing

• (Weighted) A*

• . . .

& Heuristiken

• Max-Atom, Max-Pair, Max-Triple, . . .

• Relaxierte Planungsgsheuristik

• Musterdatenbanken

• . . .

(59)

Enforced Hill Climbing

Procedure Enforced Hill Climbing S ← I

while (S 6= 0)

(S⁰, h⁰) ← EHC-BFS(S, h) if (h⁰ = ∞) return ∅

S ← S⁰ h ← h⁰ return path(S)

(60)

Breitensuche in EHC

Procedure EHC-BFS Enqueue(Q, S) while (Q 6= ∅)

S ← DeQeueue(Q)

if (h(S⁰) < h) return (S⁰, h(S⁰)) for all S⁰⁰ in Γ(S⁰)

Enqueue(Q, S⁰⁰) return (·,∞)

(61)

Vollst ¨andigkeit

Satz Falls G keine Sackgasse enth ¨alt, dann findet Enforced Hill Climbing eine L ¨osung.

Beweis Es gibt nur einen Fall, in dem der Algorithmus versagt:

• wenn es einen Knoten gibt, f ür den keine Verbesserung gefunden werden kann Da BFS vollst ändig ist, ist dies nur m öglich, wenn das Ziel nicht erreichbar ist.

(62)

Zul ¨assige und konsistente Heuristiken

Definition Eine Heuristik h wird zul ässig genannt, wenn sie eine untere Schranke f ür den k ürzesten Weg zum Ziel darstellt.

Definition Sie ist monoton oder konsistent wenn w(S, S⁰) + h(S⁰) − h(S) ≥ 0 f ¨ur alle S, S⁰ ∈ S gilt.

Dabei beschreibt w die Anwendungskosten eines Zustands ¨ubergangs, In der Handlungsplanung gilt ¨ublicherweise w ≡ 1.

(63)

Konsistente Heuristiken sind zul ¨assig

Satz Konsistente Heuristiken sind zul ¨assig.

Beweis Falls h konsistent, haben wir h(v) − h(u) ≤ w(u, v) f ¨ur alle (u, v) ∈ E. Sei p = (v₀, . . . , v_k) ein beliebiger Pfad von u = v₀ zu t = v_k. Dann haben wir

w(p) =

k−1 X

i=0

w(v_i, v_i+1)

≥

k−1 X

i=0

h(v_i+1) − h(v_i)

= h(t) − h(u) = h(u).

Dies gilt insbesondere, falls p ein optimaler Pfad ist.

(64)

**A* f ¨ ur konsistente Heuristiken**

Initial f(I) ← h(I)

Aktualisierung f⁰(S⁰) ← min{f(S), f(S) + w(S, S⁰) + h(S⁰) − h(S)}

- auf jedem Pfad bilden Sch ¨atzwerte Teleskopsumme

- wenn der berechnete f-Wert f ¨ur ein Ziel bestimmt ist, stimmen die Bewertungen in A* und Dijkstra ¨uberein

⇒ A* vollst ¨andig und optimal.

Vorteil von A* geringere Anzahl der Knoten, die angeschaut werden

(65)

Dijkstra vs. A*

Procedure Dijkstra Procedure A*

Open ← {(I,0)}; Closed← {} Open ← {(I, h(I))}

while (Open 6= ∅)

S ← DeleteMin(Open); Insert(Closed,S) if (goal(S)) return path(S)

for all S⁰⁰ in Γ(S)

f⁰(S⁰) ← f(S) + w(S, S⁰) +h(S⁰) − h(S) if (Search(Open, S⁰))

if (f⁰(S⁰) < f(S))

DecreaseKey (Open(S⁰, f⁰(S⁰)) else if not (Search(Closed, S⁰))

Insert(Open,(S⁰, f⁰(S⁰))

(66)

**A* f ¨ ur zul ¨assige Heuristiken**

Problem: Negative Werten von w(S, S⁰) + h(S⁰) − h(S) Re-Opening:

• Neubetrachtung von schon expandierten Knoten.

• von Liste Closed zur ¨uck in den Suchhorizont Open bef ¨ordert.

+: Vollst ¨andigkeit und Optimalit ¨at

−: Anzahl erneut betrachteten Knoten mitunter exponentiell

(67)

Max-Atom Heuristik

Approximiere optimale Kosten im Problem, in dem Delete-Listen ignoriert wurden Gesch ¨atzten Kosten g(S, p), um Proposition p von S aus zu erreichen:

g(S, p) = min

p∈add^(O),O∈O{g(S, p),1 + g(S,pre(O))}.

Die Rekursion startet mit g(I, p) = 0, f ¨ur p ∈ I, und g(S, p) = ∞, sonst.

Sie wird so lange berechnet, bis die Kosten g(S, p) sich nicht mehr ¨andern.

Max-Atom Heuristik h¹: Maximum g(S, C) = max_p∈C g(S, p). Lemma Max-Atom ist zul ¨assig.

(68)

h

^m

Heuristik

Zuerst haben wir h^m(C) = 0, falls C ⊆ I. Dann gilt h^m(C) = min

(D,O)∈R(C){1 + h^m(D)} (1) falls |C| ≤ m und C 6⊆ I. Desweiteren gilt

h^m(C) = max

D⊆C,|D|=m h^m(D) falls |C| > m.

(D, O) ∈ R(C) bedeutet, dass D Resultat der Regression von C durch p ist, R(C) enth ¨alt alle Paare (D, O), mit C ∩ add(O) 6= ∅, C ∩ del(O) 6= ∅ und D = (C \ add(O)) ∪ pre(O)

(69)

Max-Pair Heuristik

F ¨ur m = 2 und C = {p, q} gilt h²(C) = min

(

min

p∈add(O)∧q∈add(O)

n1 + h²(pre(O))^o ,

min

p∈add(O)∧q /∈(add(O)∪del(O))

n1 + h²(pre(O) ∪ {p})^o,

min

q∈add(O)∧p /∈(add(O)∪del(O))

n1 + h²(pre(O) ∪ {q})^o

)

und f ¨ur C = {p} ist

h²(C) = min

p∈add(O),O∈O{1 + h²(pre(O))}.

(70)

Paralleles Planen

Heuristik h² ist f ¨ur das sequentielle Planen zul ¨assig.

Um eine zul ¨assige Heuristik h²_|| f ¨ur das parallele Planen zu bestimmen, kommt als vierter Term

min

p,q∈(add(O)∪add(O⁰))

n1 + h²(pre(O) ∪ pre(O⁰))^o

hinzu.

h²_|| entspricht der Heuristik, die in Graphplan durch den Aufbau des Plangraphen implizit verwendet wird

(71)

Relaxierte Planungsheuristik

Die Relaxierung einer Aktion a = (pre(a),eff(a)⁺,eff(a)⁻) ist a⁺ = (pre(a),eff(a)⁺,∅).

Die Relaxierung eines Planungsproblems ist diejenige, in der alle Aktionen durch ihre relaxierten Gegenst ¨ucke ersetzt werden.

Die Relaxierung hat die folgenden Eigenschaften

1. jede L ¨osung des originalen Planungsproblem l ¨ost auch das relaxierte;

2. alle Vorbedingungen und Ziele sind im originalen Problem erreichbar, genau dann, wenn sie es in dem relaxierten Problem sind.

Der Wert h⁺ ist die L änge des k ürzesten relaxierten (sequentiellen) Plans, der das Problem l öst.

(72)

Zul ¨assigkeit und Monotonie

Lemma Heuristik h⁺ ist zul ¨assig.

Beweis Aufgrund von Bedingung i) Lemma Die Heuristik ist monoton.

Beweis

• Angenommen, ein relaxierter Plan mit Wert h⁺(S⁰) wurde gefunden.

• Dieser kann durch die Aktion erweitert werden, die von S nach S⁰ f ¨uhrt.

• Demnach gilt h⁺(S) ≤ h⁺(S⁰) + w(S, S⁰).

(73)

Implementierung

Procedure Relax(S,goal) P₀ ← S; t ← 0

while (goal 6⊆ P_t) do

P_t+1 ← P_t ∪ ^Spre^(a)⊆Pt eff(a)⁺ if (P_t+1 = P_t) return ∞

t ← t + 1

for i ← t downto 1: G_i ← {g ∈ goal | level(g) = i}

for i ← t downto 1 for g ∈ G_i

if ∃a. g ∈ eff(a)⁺ and level(a) = i − 1 A ← A ∪ {a}

for p ∈ pre(a): Glevel^(p) = Glevel^(p) ∪ {p}

return |A|

(74)

Approximation

Problem L ¨osen von relaxierten Pl ¨anen ist NP schwer.

⇒ Approximation durch Anzahl Operatoren im parallelen Plan gegeben, der das relaxierte Problem l ¨ost.

• Analog zu dem Graphplan-Ansatz berechnet der Algorithmus f ¨ur den

relaxierten parallelen Plan zuerst den Fixpunkt des relaxierten Plangraphen.

• Darauf folgt eine gierige Extraktion des Plans, beginnend bei den erreichten Zielpropositionen.

(75)

Ablauf Graphgenerierung

Schicht i: Alle Propositionen, die durch die Anwendung einer Aktion erhalten werden, deren Vorbedingungen in Schicht j mit 1 ≤ j < i erf ¨ullt sind.

• jede Proposition wird nur einmal in der minimalen Schicht abgelegt.

• in Schicht 1 ist der Initialzustand abgelegt.

Da es nur eine endliche Anzahl von Propositionen gibt, wird der Prozess irgendwann einen Fixpunkt erreichen.

In einer Implementierung kann es ratsam sein, die Schichten in Form von Bitvektoren zu verwalten.

(76)

Ablauf relaxierte Planextraktion

R ¨uckw ¨artslauf:

• Zielfakten bilden die ersten markierten Fakten.

• solange markierte Fakten in Schicht i, wird Operator ausgew ¨ahlt, der markierten Add-Effekt hat

• f ür die gew ählte Aktion werden nun die Markierungen allre anderen Add-Effekte gel öscht und die Vorbedingungen markiert

• solange es noch markierte Propositionen in Schicht i gibt, wird mit das Verfahren fortgesetzt.

• ansonsten aktuelle Schicht um 1 erniedrigt, bis Initialschicht erreicht wird.

(77)

Beobachtungen

• Entgegen Graphplan findet kein Backtrack statt

• Approximation polynomiell

• Eignet sich zur Berechnung f ¨ur jeden Zustand

• Heuristik konstruktiv, d.h. sie gibt nicht nur die gesch ätzte Distanz sondern auch die gew ählten Aktionen zur ück.

• Es ist leicht Beispiele zu finden, in denen die Approximation nicht zul ¨assig ist.

(78)

Musterdatenbank Heuristik

Abstraktes Planungsproblem P|_R = < S|_R,O|_R,I|_R,G|_R > eines STRIPS Planungsproblems < S,O,I,G > f ¨ur R ⊆ F:

1. S|_R = {S ∩ R | S ∈ S}, 2. I|_R = I ∩ R,

3. G|_R = {G ∩ R | G ∈ G},

4. O|_R = {(α|_R, β_a|_R, β_d|_R) | O = (α, β_a, β_d) ∈ O},

Abstrakte Pl ¨ane werden mit π_R und optimale Planl ¨ange mit δ_R bezeichnet . Abstrakte Operatoren: Schnitt der Listen mit R.

Diese Restriktion kann zu leeren Operatoren (∅,∅,∅) f ¨uhren

(79)

L ¨ osungserhaltung und Zul ¨assigkeit

Beweis Sei π = (O₁, . . . , O_k) ein sequentieller Plan f ¨ur < S,O,I,G >.

⇒ π|_R = (O₁|_R, . . . , O_k|_R) Plan f ¨ur P|_R = < S|_R,O|_R,I|_R,G|_R >.

Angenommen δ_R(S|_R) > δ(S) f ¨ur ein S ∈ S und π^opt = (O₁, . . . , O_t) optimaler Plan im originalen Planraum P

Dann ist π^opt|_R = (O₁|_R, . . . , O_t|_R) valider Plan in P|_R mit einer Planl ¨ange

≤ t = δ(S). Widerspruch.

Strikte Ungleichheit δ_R(S|_R) < δ(S) durch leere Operatoren, oder durch alternative, k ¨urzere Pl ¨ane im abstrakten Raum

(80)

(Disjunkte) Planungsmusterdatenbanken

Planungsmusterbank DB_R f ¨ur R ⊆ F und Planungsproblem < S,O,I, G > ist Menge von Paaren

DB_R = {(δ_R(S), S) | S ∈ S|_R}.

Speicherung einer Planungsmusterdatenbank als (Hash-) Tabelle, die durch die abstrakten Planungszust ¨ande addressiert wird.

Zwei Planungsmusterdatenbanken DB_R und DB_Q mit R, Q ⊆ F, R ∩ Q = ∅ sind disjunkt, wenn φ⁻¹_R (O⁰) ∩ φ⁻¹_Q (O⁰⁰) = ∅ f ¨ur alle O⁰ ∈ O|_R und O⁰⁰ ∈ O|_Q gilt,

wobei φ⁻¹_R (O⁰) = {O ∈ O | O|_R = O⁰}.

(81)

Zul ¨assigkeit disjunkter Datenbanken

Satz Zwei disjunkte Musterdatenbanken DB_R und DB_Q f ¨ur < S,O,I,G > sind additiv, d.h. f ¨ur alle S ∈ S haben wir δ_P(S|_R) + δ_Q(S|_Q) ≤ δ(S).

Beweis Seien P|_R = < S|_R,O|_R,I|_R,G|_R > und P|_Q =< S|_Q,O|_Q,I|_Q,G|_Q >

Abstraktionen von P =< S,O,I,G > und π ein optimaler Plan f ür P. Dann ist π|_R ein Plan f ür P|_R und π|_Q ein Plan f ür P|_Q.

Da die Musterdatenbanken DB_R und DB_Q disjunkt sind, gilt φ⁻¹_R (O⁰) ∩ φ⁻¹_Q (O⁰⁰) = ∅ f ¨ur alle O⁰ ∈ π|_R und alle O⁰⁰ ∈ π|_Q. Damit folgt δ_R(S|_R) + δ_Q(S|_Q) ≤ δ(S).

(82)

7 Planen mit BDDs

BDDs sind ein fundamentales Hilfsmittel in vielen Forschungszweigen, wie der Synthese und Verifikation von Schaltkreisen.

In der Handlungsplanung werden BDDs haupts ¨achlich dazu eingesetzt, große Zustandsmengen effizient zu repr ¨asentieren.

Das Planen mit BDDs basiert auf dem Erf ¨ullbarkeitsproblem: bin ¨are Zustandskodierungen werden auf wahr oder falsch abbgebildet.

Wesentlicher Unterschied Anwendung von Reduktionsregeln, die ¨uberfl ¨ussige Variablentest und isomorphe Teilgraphen eliminieren.

⇒ Eindeutigee Repr ¨asentation, die f ¨ur viele Boole’sche Funktionen polynomiell in der Anzahl der Variablen ist.

(83)

Definition BDD

Ein BDD ist eine Datenstruktur, um Boole’sche Funktionen effizient zu repr ¨asentieren und ist gegeben

• in Form eines gerichteten, azyklischen Graphen mit

• einer Wurzel und zwei Senken, die mit 0 oder 1 beschriftet sind

• innere Knoten sind mit Variablennamen beschriftet und haben zwei

ausgehende Kanten, die je nach der Variablenzuweisung ausgew ¨ahlt werden

(84)

Operationen auf BDD

Auswertung Um nun eine Funktion f ¨ur eine gegebenen Belegung auszuwerten wird der Pfad von der Wurzel zu einer der Senken verfolgt, vergleichbar mit der Auswertung von Entscheidungsb ¨aumen.

Weitere Ooerationen Unter den Operationen, die von derzeitigen BDD-Paketen unterst ¨utzt werden, sind die in polynomialer Zeit auszuf ¨uhrenden “und” und “oder”

Verbindungen, sowie die in konstanter Zeit auszuf ¨uhrenden Erf ¨ullbarkeits- und Gleichheitstests.

Bibliotheken CUDD von Fabio Somenzi und Buddy von Jørn Lind-Nielsen.

Hilfreich, wenn man Ganzzahlen aus einem endlichen Bereich bin ¨ar kodieren will.

(85)

Darstellen von Zustandsmengen

Idee BDD zur Darstellung der charakteristischen Funktion der Zustandsmenge

• Funktion wertet eine gegebene Belegung als wahr aus, wenn ein Zustand in der Zustandsmenge beschrieben wird.

• Funktion wird mit der zugrundeliegenden Menge identifiziert.

Problem Viele M ¨oglichkeiten, eine Kodierung der Zust ¨ande eines

Planungssystems zu finden, wobei die offensichtlichen Kodierungen zu einer schlechten Performanz f ¨uhren.

⇒ Minimierung der Zustandscodierung

(86)

Beispiel

Logistics Ein LKW soll ein Paket von Los Angeles nach San Francisco bef ¨ordern.

Initialzustand in PDDL Notation: (at package los-angeles), und (at truck los-angeles)

Zielzust ¨ande erf ¨ullen Bedingung (at package san-francisco) Aktionen:

• load, um einen LKW zu beladen,

• unload, als inverse Operation, und

• drive, um einen LKW von einer Position zu einer anderen zu bewegen.

(87)

Vorverarbeitung

Elimination konstanter Pr ädikate nur das at und das in Pr ädikat ver ändern.

Gegenseitigen Ausschluss von Pr ¨adikaten Ein gegebenes Objekt entweder an einem Ort oder in einem anderen Objekt

Exploration des Faktenraumes: Alle Propositionen, die durch einen legale Sequenz von Aktionsanwendungen vom Startzustand erreicht werden k ¨onnen Negative Effekte von Operatoren werden vernachl ¨assigt.

⇒ illegale Propositionen, wie (in los-angeles package), (at package package) oder (in truck san-francisco), werden automatisch

ausgeschlossen.

(88)

Effiziente Zustandskodierung

Drei Boole’sche Variablen A, B und C

• A beschreibt die Stadt, in der sich der LKW aufh ¨alt; wahr, falls (at truck san-francisco) gilt.

• B und C kodieren den Status der Pakete: Sie sind beide unwahr, falls das Paket in Los Angeles liegt; C, aber nicht B, ist gesetzt, falls es sich in San

Francisco befindet; und B, aber nicht C, ist gesetzt, falls es sich innerhalb des LKWs befindet.

Somit k ¨onnen wir den Initialzustand und den Zieltest als Boole’sche Formeln beschreiben, die sich wiederum als BDD darstellen lassen:

• ¬A ∧ ¬B ∧ ¬C beschreibt den Startzustand und

• das Ziel wird in jedem Zustand, in dem ¬B ∧ C gilt, erreicht.

(89)

Darstellen von Zustands ¨ uberg ¨angen

Mengen von Tupeln aus Vorg ¨anger- und Nachfolgerzust ¨anden Alternativ Charakteristische Funktionen dieser Mengen

Variablen A, B und C f ¨ur die alte Situation, sowie A⁰, B⁰, C⁰ f ¨ur die neue Situation.

Beispiel (drive truck los-angeles san-francisco) nur dann

anwendbar, wenn LKW sich in Los Angeles befindet; bewirkt, dass sich die Position des LKWs, aber nicht die des Pakets ¨andert.

⇒ Boolesche Funktion ¬A ∧ A⁰ ∧ (B ↔ B⁰) ∧ (C ↔ C⁰)

(90)

Relationales Produkt

Berechnung der Nachfolgermenge:

• verbindet man nun Relation konjunktiv mit Formel, die eine Menge von Zust ¨anden mit den Variablen A, B und C beschreibt und

• fragt nach den m ¨oglichen Instantiierungen von A⁰, B⁰ und C⁰,

wird die Menge aller derjenigen Zust ¨ande berechnet, die durch das Fahren des LKWs nach San Francisco in einem Zustand der Eingabemenge erreicht werden.

Statt Transitionsrelation f ¨ur eine Aktion, Transitionsrelation f ¨ur alle Aktionen durch Disjunktion der Relation der einzelnen Aktionen.

(91)

Exploration

1. Iteration ¨Ubergang von I:

3 Zust ¨ande (den Initialzustand, den Zustand, in dem der LKW sich bewegt hat und den Zustand, in dem das Paket aufgenommen worden ist), dargestellt durch ein BDD mit drei inneren Knoten.

2. Iteration: Menge von vier Zust ¨anden, die in einem BDD mit nur einem internen Knoten repr ¨asentiert wird.

3. Iteration: findet dann einen Zustand, der die Zielbedingung erf ¨ullt.

Konjunktion der BDDs f ¨ur die derzeitigen Zustandsmenge und der Zielzustandsmenge mit anschließendem Erf ¨ullbarkeitstest

(92)

Planextraktion

Wenn man die Zwischen-BDDs speichert

• l ¨aßt sich die Zustandssequenz vom Start- zum Zielzustand leicht ermitteln,

• wird genutzt, um die Sequenz der korrespondierende Aktionen zu finden.

(93)

Optimalit ¨at

Satz Algorithmus vollst ¨andig und optimal.

Beweis Ist gen ¨ugend Speicher und Platz f ¨ur die Exploration vorhanden, dann findet die BDD-Exploration einen korrekten Plan, so er denn existiert.

Die erste gefundene L ¨osung besitzt die k ¨urzeste Anzahl von Aktionen.

Falls keine L ¨osung existiert, wird dies dadurch festgestellt, dass die Breitensuche einen Fixpunkt erreicht, was z.B. durch Vergleich der Nachfolge-BDDs leicht

festgestellt werden kann.

(94)

Verfeinerungen

Einf ¨uhrung eine Closed -Liste Vermeidung von Duplikaten; nicht immer n ützlich, da die BDD R äpresentationsgr öße nicht unbedingt mit der geringeren

Zustandsanzahl sinkt.

Bidirektionale Suche R ¨uckw ¨artssuche durch Vertauschung von Initialzustand und Planziel und Umkehrung der Bildberechnung unmittelbar ergibt.

⇒ 3 Suchfrontriterien: BDD-Gr ößen, die Anzahl der repr äsentierten Zust ände und Zeit, die f ür den jeweils letzten Explorationsschritt

Heuristisch-symbolischen Suche Hier werden anstatt der Breitensuche gerichtete Explorationsalgorithmen, wie A*, aufgerufen.

Da auch die Sch ¨atzfunktion symbolisch repr ¨asentiert werden muss, bieten sich symbolischen Musterdatenbanken an