03.07.2009| Optimierung in dynamischer Umgebung| 168
V o ra b : E in o rd u n g e n w e it e re r B e g ri ff e
O p ti m a le K o n tr o ll e d is k re te Z u s tä n d e v s . k o n ti n u ie rl ic h e Z u s tä n d e e n d lic h e Z u s ta n d s m e n g e v s . u n e n d lic h e Z u s ta n d s m e n g e d is k re te Z e it v s . k o n ti n u ie rl ic h e Z e it e n d lic h e r H o ri z o n t v s . u n e n d lic h e r H o ri z o n t o p e n -l o o p v s . c lo s e d -l o o p O p ti m ie ru n g
03.07.2009| Optimierung in dynamischer Umgebung| 169
B a s is s y s te m
O p ti m a le K o n tr o ll e : E in fü h r u n g
nach Dimitri P. Bertsekas •zeitdiskretes dynamisches System •Kostenfunktion ist additiv über die Zeit •das System besitzt Zustandsvariablen, die sich im Lauf der Zeit verändern, unter dem Einfluss eigener Entscheidungen und des Zufalls •das System hat die Form x k+1= f k(x k,u k,w k) mit k = 0,...,N-1, wobei •k indiziert die diskrete Zeit •x kist der Zustand des Systems (mit Zustandsmenge S k) und summiert vergangene Informationen, die für die Zukunft relevant sind •u k∈U k(x k) ⊆C ksind so genannte Kontrollvariablen. Die Menge U k(x k) der möglichen Aktionen („Züge“) hängt vom aktuellen Zustand ab. •w k∈D kist ein Zufallsparameter, eine „Störung“. w kgehorcht einer Wahrscheinlichkeitsverteilung P k(· |
x k, u k), d ie v o n
x kund u ka b h ä n g e n k a n n , je d o c h n ic h t v o n f rü h e re n R e a lis ie ru n g e n
w k-1, ... , w 0.
•N ist der Horizont, die Anzahl der Zeitschritte, die wir untersuchen03.07.2009| Optimierung in dynamischer Umgebung| 170
x k+1= f(x k, u k, w k)
μ
kw
k x ku
k= μ
k(x
k)
O p ti m a le K o n tr o ll e : E in fü h r u n g B a s is s y s te m
03.07.2009| Optimierung in dynamischer Umgebung| 171
B a s is s y s te m I
O p ti m a le K o n tr o ll e : E in fü h r u n g
•das System hat die Form ... •f kist eine Funktion, die das System und den Mechanismus, mit dem ein Zustand in einen nächsten überführt wird, beschreibt. •die dazugehörige Kostenfunktion ist additiv, d.h. die Kosten g k(x k,u k,w k) werden akkumuliert. Zusätzlich gibt es Abschlußkosten g N(x N) zum Zeitpunkt N. Die Gesamtkosten werden beschrieben als •EinePolitikist eine Funktionenfolge π= {μ 0,..., μ N-1} wobei μ kZustände x kauf Kontrollvariablen u k=μ k(x k) so abbildet, dass für alle x k∈S kgilt: μ k(x k) ∈U k(x k).) , , ( ) (
1 0kkk
N kkNN
w u x g x g ∑
− =
+
03.07.2009| Optimierung in dynamischer Umgebung| 172
B a s is s y s te m
•Wegen des Zufallseinflusses w ksind die Kosten im Allgemeinen eine Zufalls- variable und können deshalb nicht sinnvoll optimiert werden. Wir betrachten deshalb das Problem der erwarteten Kosten für eine bei x 0startende Politikπ: wobei die Erwartung sich auf die (möglicherweise implizite) Gesamtverteilung der Zufallsvariablen bezieht. •Eine optimale Politikπ*ist eine, die die optimalen Kosten J*(x 0) minimiert: + = ∑
− =
) ), ( , ( ) ( ) (
1 00kkkk
N kkNN
w x x g x g E x J µ
π) ( min ) ( ) ( *
00*0x J x J x J
π ππ Π∈= =
O p ti m a le K o n tr o ll e : E in fü h r u n g
03.07.2009| Optimierung in dynamischer Umgebung| 173
B e is p ie l I, O p ti m ie ru n g e in e r S c h a c h -T u rn ie r- S tr a te g ie
•Ein Spieler muss ein Match mit 2 Partien spielen. Jede Partie hat einen der 3 Ausgänge „win“, „loss“, and „draw“. •Beim Spielstand von 1:1 wird so lange gespielt, bis einer eine Partie gewinnt (sudden-death) •Unser Spieler habe 2 Spielmodi: •„Vorsichtiges Spiel“. Hier bekommt er ein Remis (draw) mit Wahrschein- lichkeit p d> 0 und verliert mit Wahrscheinlichkeit 1-p d. Kein Gewinn. •„Angriffsspiel“. Gewinnwahrscheinlichkeit p wund Verlustwahrscheinlich- keit 1-p w. Nie Remis. •Sobald der Sudden-death beginnt, sollte der Spieler Angriffsspiel zeigen. Frage: Wie sollte er sich in den ersten beiden Runden verhalten? Frage: Wie großsind seine Gewinnchancen, wenn z.B. p w= 0.45 und p d= 0.9?O p ti m a le K o n tr o ll e : E in fü h r u n g
03.07.2009| Optimierung in dynamischer Umgebung| 174
B e is p ie l I, O p ti m ie ru n g e in e r S c h a c h -T u rn ie r- S tr a te g ie
Angriffsspiel0 :0
Angriffsspiel0 :1
Vorsichtiges Spiel1 :0
pw1-pw
0 :2 1 :1
p w1-p w
1 :1 1 .5 :0 .5
p d1-p d
Nach 2 Spielen: •W. für Matchwin ist p w·p d •W. für Matchverlust ist (1-p w)2 •W. für Gleichstand ist p w(1-p d)+(1-p w)p w. Danach ist die Gewinnwahrscheinlichkeit p w. •Somit: Gewinnw. dieser Strategie: p wp d+ p w(p w(1-p d)+(1-p w)p w) •Für p w= 0.45 und p d= 0.9 ergibt sich eine Gesamtgewinnwahr- scheinlichkeit von ca. 0.53.
O p ti m a le K o n tr o ll e : E in fü h r u n g
03.07.2009| Optimierung in dynamischer Umgebung| 175
B e is p ie l I, O p ti m ie ru n g e in e r S c h a c h -T u rn ie r- S tr a te g ie
´Betrachte nun alle open-loop-Politiken (sind nur 4): Bezeichne W die Wahrscheinlichkeit, das Match zu gewinnen. 1.Spiele vorsichtig in beiden Spielen. W = p d2 p w. 2.Zeige beide Male Angriffsspiel W = p w2 + 2 p w2 (1-p w) = p w2 (3 -2p w2 ) 3.Spiele erst auf Angriff, dann vorsichtigW = p wp d+ p w2 (1-p d) 4.Spiele erst vorsichtig, dann auf AngriffW = p wp d+ p w2 (1-p d) mit ein bisschen „Herumrechnen“ergibt sich: W = p w2 + p w(1-p w) max(2p wp d) Für p w= 0.45 und p d= 0.9 ergibt sich eine Gesamtgewinnwahrscheinlichkeit von ca. 0.425. Die Differenz 0.53 –0.425 nennt man den “Value of Information”.O p ti m a le K o n tr o ll e : E in fü h r u n g
03.07.2009| Optimierung in dynamischer Umgebung| 176
D y n a m ic P ro g ra m m in g ( D P )
Grundlage für DP ist dasOptimalitätsprinzip Sei π* = {μ* 0,..., μ* N-1} eine optimale Strategie. Nehmen wir an, aufgrund der ersten i Schritte wird Zustand x ierreicht. Betrachten wir nun das Teilproblem von Zeitpunkt i bis N. Die restlichen Kosten bis zum Zeitpunkt Nsind: Dann ist die abgeschnittene Politik {μ* i,..., μ* N-1} optimal für das Restproblem. + ∑
− =
) ), ( , ( ) (
1 kkkk
N ikkNN
w x x g x g E µ
O p ti m a le K o n tr o ll e : E in fü h r u n g
03.07.2009| Optimierung in dynamischer Umgebung| 177
D e r D P -A lg o ri th m u s ( D y n a m ic P ro g ra m m in g A lg o ri th m u s )
Für jeden Startzustand x 0sind die optimalen Kosten J*(x 0) gleich J 0(x 0), welches durch den letzten Schritt des folgenden Algorithmus berechnet wird, der sich rückwärts von Periode N-1 zu Periode 0 in der Zeit bewegt: Die Erwartung bezieht sich hier auf Wahrscheinlichkeitsverteilung von w k, die von x kund u kabhängt. Wenn u* k=μ* kdie rechte Seite von (*) für alle x kund k minimiert, ist die Politikπ* = {μ* 0,..., μ* N-1} eine optimale Strategie.{ } 1 ,...,1, 0
, )) , , ( ( ) , , ( min ) (
), ( ) (
1 )(− =
+ = =
+ ∈N k
w u x f J w u x g E x J
x g x J
kkkkkkkkk wxUukkNNNN kkkk
O p ti m a le K o n tr o ll e : E in fü h r u n g
03.07.2009| Optimierung in dynamischer Umgebung| 178
D e r D P -A lg o ri th m u s ( D y n a m ic P ro g ra m m in g A lg o ri th m u s )
Unter der Annahme, dass alle involvierten Wahrscheinlichkeitsverteilungen endlich und diskret sind, ergibt sich folgender einfach Korrektheitsbeweis über Induktion. Bezeichne dafür für jede gültige Politikπund jedes k die Restpolitik vonπder letzten Perioden. Für k = 0,..,N-1 seien die optimalen Kosten für das (N-k)-stufige Restproblem, welches in x kzum Zeitpunkt k startet und zum Zeitpunkt N endet.O p ti m a le K o n tr o ll e : E in fü h r u n g
},...,{ 1−= Nkk µµπ + = ∑− +=−
1 1,...,
) ), ( , ( ) ( min ) ( *
1N kiiiiiiNN wwkk
w x x g x g E x J
Nkkµ
π03.07.2009| Optimierung in dynamischer Umgebung| 179
D e r D P -A lg o ri th m u s ( D y n a m ic P ro g ra m m in g A lg o ri th m u s ) ) (
)) , , ( ( ) , , ( min
)) ), ( , ( ( * ) ), ( , ( min
) ), ( , ( ) ( min ) ), ( , ( min
) ), ( , ( ) ( ) ), ( , ( min ) ( *
), ( ) ( *
1 )(1
1 1,...,
1 1,...,),( 111
11 kk
kkkkkkkkk wxUu kkkkkkkkkkk w
N kiiiiiiNN wwkkkkk w
N kiiiiiiNNkkkkk wwkk
NNNN
x J
w u x g J w u x g E
w x x g J w x x g E
w x x g x g E w x x g E
w x x g x g w x x g E x J
x g x J
kkkkkk
Nkk kk
Nkk k
= + =
+ =
+ + =
+ + =
=
+ ∈+
− +=
− +=
∑ ∑
−++−+
µ µ
µ µ
µ µ
µπµ
πµ
O p ti m a le K o n tr o ll e : E in fü h r u n g
03.07.2009| Optimierung in dynamischer Umgebung| 180
B e is p ie l I, L a g e rk o n tr o ll e
•Im Verlauf von N Zeitschritten wird zu jedem Zeitschritt eine bestimmte Anzahl eines bestimmten Gutes von Außen geordert. Wir müssen den Lagerbestand möglichst klein halten, gleichzeitig aber verhindern, dass Anforderungen nicht erfüllt werden können. •x kist der Lagerbestand zu Beginn von Periode k •u kist die Menge des Gutes, mit dem wir das Lager nach Periode k auffüllen. •w kBedarf während der k-ten Periode mit gegebener Zufallsverteilung, w 0,...,w N-1seien unabhängige Zufallsvariablen. •Bedarf, den wir nicht decken können wird als negativer Lagerbestand fort- geführt, und wird so bald wie möglich bedient. •-Kosten r(x k) repräsentieren Strafen für positiven und negativen Bestand. -R(x N) sind Endkosten für Lagerbestand am Ende -cu ksind Bestellkosten, wobei c die Kosten pro Einheit des Gutes sind. •Der Lagerbestand entwickelt sich also wie folgt: x k+1= x k+ u k-w kO p ti m a le K o n tr o ll e : E in fü h r u n g
03.07.2009| Optimierung in dynamischer Umgebung| 181
B e is p ie l I, L a g e rk o n tr o ll e
E in fü h r u n g , B e is p ie le L a g e rs y s te m K o s te n d e r P e ri o d e k r( x
k) + c u
kB e s ta n d , P e ri o d e k x
kB e s ta n d e rh ö h u n g , P e ri o d e k u
kw
kB e d a rf i n P e ri o d e k B e s ta n d , P e ri o d e k + 1
x k+1= x k+ u k-w k03.07.2009| Optimierung in dynamischer Umgebung| 182
B e is p ie l I, L a g e rk o n tr o ll e
O p ti m a le K o n tr o ll e : E in fü h r u n g
Rest-Teilproblem der Länge 1: Zu Beginn der Periode N-1 sei der Lagerbestand x N-1. Klar: Egal was vorher war, sollte man mittels u N-1≥0 die Orderkosten plus die erwarteten Lager/Strafkosten minimieren: Die optimalen Kosten für die letzte Periode sind)} ( { min
1111 11−−−−− + +
−−NNN wN uw u x R E cu
NN
− + + + =
−−−− ≥−−− −−)} ( { min ) ( ) (
1111 0111 11NNN wN uNNNw u x R E cu x r x J
NN03.07.2009| Optimierung in dynamischer Umgebung| 183