• Keine Ergebnisse gefunden

O p ti m a le K o n tr o ll e : E in fü h r u n g

N/A
N/A
Protected

Academic year: 2022

Aktie "O p ti m a le K o n tr o ll e : E in fü h r u n g"

Copied!
16
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

03.07.2009| Optimierung in dynamischer Umgebung| 168

V o ra b : E in o rd u n g e n w e it e re r B e g ri ff e

O p ti m a le K o n tr o ll e d is k re te Z u s tä n d e v s . k o n ti n u ie rl ic h e Z u s tä n d e e n d lic h e Z u s ta n d s m e n g e v s . u n e n d lic h e Z u s ta n d s m e n g e d is k re te Z e it v s . k o n ti n u ie rl ic h e Z e it e n d lic h e r H o ri z o n t v s . u n e n d lic h e r H o ri z o n t o p e n -l o o p v s . c lo s e d -l o o p O p ti m ie ru n g

(2)

03.07.2009| Optimierung in dynamischer Umgebung| 169

B a s is s y s te m

O p ti m a le K o n tr o ll e : E in h r u n g

nach Dimitri P. Bertsekas •zeitdiskretes dynamisches System •Kostenfunktion ist additiv über die Zeit •das System besitzt Zustandsvariablen, die sich im Lauf der Zeit verändern, unter dem Einfluss eigener Entscheidungen und des Zufalls •das System hat die Form x k+1= f k(x k,u k,w k) mit k = 0,...,N-1, wobei •k indiziert die diskrete Zeit •x kist der Zustand des Systems (mit Zustandsmenge S k) und summiert vergangene Informationen, die für die Zukunft relevant sind •u k∈U k(x k) ⊆C ksind so genannte Kontrollvariablen. Die Menge U k(x k) der möglichen Aktionen („Züge“) hängt vom aktuellen Zustand ab. •w k∈D kist ein Zufallsparameter, eine „Störung“. w kgehorcht einer Wahrscheinlichkeitsverteilung P k

(· |

x k, u k

), d ie v o n

x kund u k

a b h ä n g e n k a n n , je d o c h n ic h t v o n f rü h e re n R e a lis ie ru n g e n

w k-1, ... , w 0

.

•N ist der Horizont, die Anzahl der Zeitschritte, die wir untersuchen

(3)

03.07.2009| Optimierung in dynamischer Umgebung| 170

x k+1= f(x k, u k, w k)

μ

k

w

k x k

u

k

= μ

k

(x

k

)

O p ti m a le K o n tr o ll e : E in h r u n g B a s is s y s te m

(4)

03.07.2009| Optimierung in dynamischer Umgebung| 171

B a s is s y s te m I

O p ti m a le K o n tr o ll e : E in h r u n g

•das System hat die Form ... •f kist eine Funktion, die das System und den Mechanismus, mit dem ein Zustand in einen nächsten überführt wird, beschreibt. •die dazugehörige Kostenfunktion ist additiv, d.h. die Kosten g k(x k,u k,w k) werden akkumuliert. Zusätzlich gibt es Abschlußkosten g N(x N) zum Zeitpunkt N. Die Gesamtkosten werden beschrieben als •EinePolitikist eine Funktionenfolge π= {μ 0,..., μ N-1} wobei μ kZustände x kauf Kontrollvariablen u kk(x k) so abbildet, dass für alle x k∈S kgilt: μ k(x k) ∈U k(x k).

) , , ( ) (

1 0kkk

N kkNN

w u x g x g

=

+

(5)

03.07.2009| Optimierung in dynamischer Umgebung| 172

B a s is s y s te m

•Wegen des Zufallseinflusses w ksind die Kosten im Allgemeinen eine Zufalls- variable und können deshalb nicht sinnvoll optimiert werden. Wir betrachten deshalb das Problem der erwarteten Kosten für eine bei x 0startende Politikπ: wobei die Erwartung sich auf die (möglicherweise implizite) Gesamtverteilung der Zufallsvariablen bezieht. •Eine optimale Politikπ*ist eine, die die optimalen Kosten J*(x 0) minimiert:

      + = ∑

=

) ), ( , ( ) ( ) (

1 00kkkk

N kkNN

w x x g x g E x J µ

π

) ( min ) ( ) ( *

00*0

x J x J x J

π ππ Π

= =

O p ti m a le K o n tr o ll e : E in h r u n g

(6)

03.07.2009| Optimierung in dynamischer Umgebung| 173

B e is p ie l I, O p ti m ie ru n g e in e r S c h a c h -T u rn ie r- S tr a te g ie

•Ein Spieler muss ein Match mit 2 Partien spielen. Jede Partie hat einen der 3 Ausgänge „win“, „loss“, and „draw“. •Beim Spielstand von 1:1 wird so lange gespielt, bis einer eine Partie gewinnt (sudden-death) •Unser Spieler habe 2 Spielmodi: •„Vorsichtiges Spiel“. Hier bekommt er ein Remis (draw) mit Wahrschein- lichkeit p d> 0 und verliert mit Wahrscheinlichkeit 1-p d. Kein Gewinn. •„Angriffsspiel“. Gewinnwahrscheinlichkeit p wund Verlustwahrscheinlich- keit 1-p w. Nie Remis. •Sobald der Sudden-death beginnt, sollte der Spieler Angriffsspiel zeigen. Frage: Wie sollte er sich in den ersten beiden Runden verhalten? Frage: Wie großsind seine Gewinnchancen, wenn z.B. p w= 0.45 und p d= 0.9?

O p ti m a le K o n tr o ll e : E in h r u n g

(7)

03.07.2009| Optimierung in dynamischer Umgebung| 174

B e is p ie l I, O p ti m ie ru n g e in e r S c h a c h -T u rn ie r- S tr a te g ie

Angriffsspiel

0 :0

Angriffsspiel

0 :1

Vorsichtiges Spiel

1 :0

pw1-pw

0 :2 1 :1

p w

1-p w

1 :1 1 .5 :0 .5

p d1-p d

Nach 2 Spielen: •W. für Matchwin ist p w·p d •W. für Matchverlust ist (1-p w)2 •W. für Gleichstand ist p w(1-p d)+(1-p w)p w. Danach ist die Gewinnwahrscheinlichkeit p w. •Somit: Gewinnw. dieser Strategie: p wp d+ p w(p w(1-p d)+(1-p w)p w) •Für p w= 0.45 und p d= 0.9 ergibt sich eine Gesamtgewinnwahr- scheinlichkeit von ca. 0.53.

O p ti m a le K o n tr o ll e : E in h r u n g

(8)

03.07.2009| Optimierung in dynamischer Umgebung| 175

B e is p ie l I, O p ti m ie ru n g e in e r S c h a c h -T u rn ie r- S tr a te g ie

´Betrachte nun alle open-loop-Politiken (sind nur 4): Bezeichne W die Wahrscheinlichkeit, das Match zu gewinnen. 1.Spiele vorsichtig in beiden Spielen. W = p d2 p w. 2.Zeige beide Male Angriffsspiel W = p w2 + 2 p w2 (1-p w) = p w2 (3 -2p w2 ) 3.Spiele erst auf Angriff, dann vorsichtigW = p wp d+ p w2 (1-p d) 4.Spiele erst vorsichtig, dann auf AngriffW = p wp d+ p w2 (1-p d) mit ein bisschen „Herumrechnen“ergibt sich: W = p w2 + p w(1-p w) max(2p wp d) Für p w= 0.45 und p d= 0.9 ergibt sich eine Gesamtgewinnwahrscheinlichkeit von ca. 0.425. Die Differenz 0.53 –0.425 nennt man den “Value of Information”.

O p ti m a le K o n tr o ll e : E in h r u n g

(9)

03.07.2009| Optimierung in dynamischer Umgebung| 176

D y n a m ic P ro g ra m m in g ( D P )

Grundlage für DP ist dasOptimalitätsprinzip Sei π* = {μ* 0,..., μ* N-1} eine optimale Strategie. Nehmen wir an, aufgrund der ersten i Schritte wird Zustand x ierreicht. Betrachten wir nun das Teilproblem von Zeitpunkt i bis N. Die restlichen Kosten bis zum Zeitpunkt Nsind: Dann ist die abgeschnittene Politik {μ* i,..., μ* N-1} optimal für das Restproblem.

      + ∑

=

) ), ( , ( ) (

1 kkkk

N ikkNN

w x x g x g E µ

O p ti m a le K o n tr o ll e : E in h r u n g

(10)

03.07.2009| Optimierung in dynamischer Umgebung| 177

D e r D P -A lg o ri th m u s ( D y n a m ic P ro g ra m m in g A lg o ri th m u s )

Für jeden Startzustand x 0sind die optimalen Kosten J*(x 0) gleich J 0(x 0), welches durch den letzten Schritt des folgenden Algorithmus berechnet wird, der sich rückwärts von Periode N-1 zu Periode 0 in der Zeit bewegt: Die Erwartung bezieht sich hier auf Wahrscheinlichkeitsverteilung von w k, die von x kund u kabhängt. Wenn u* k=μ* kdie rechte Seite von (*) für alle x kund k minimiert, ist die Politikπ* = {μ* 0,..., μ* N-1} eine optimale Strategie.

{ } 1 ,...,1, 0

, )) , , ( ( ) , , ( min ) (

), ( ) (

1 )(

− =

+ = =

+

N k

w u x f J w u x g E x J

x g x J

kkkkkkkkk wxUukk

NNNN kkkk

O p ti m a le K o n tr o ll e : E in h r u n g

(11)

03.07.2009| Optimierung in dynamischer Umgebung| 178

D e r D P -A lg o ri th m u s ( D y n a m ic P ro g ra m m in g A lg o ri th m u s )

Unter der Annahme, dass alle involvierten Wahrscheinlichkeitsverteilungen endlich und diskret sind, ergibt sich folgender einfach Korrektheitsbeweis über Induktion. Bezeichne dafür für jede gültige Politikπund jedes k die Restpolitik vonπder letzten Perioden. Für k = 0,..,N-1 seien die optimalen Kosten für das (N-k)-stufige Restproblem, welches in x kzum Zeitpunkt k startet und zum Zeitpunkt N endet.

O p ti m a le K o n tr o ll e : E in h r u n g

},...,{ 1= Nkk µµπ

      + = ∑

+=

1 1,...,

) ), ( , ( ) ( min ) ( *

1

N kiiiiiiNN wwkk

w x x g x g E x J

Nkk

µ

π

(12)

03.07.2009| Optimierung in dynamischer Umgebung| 179

D e r D P -A lg o ri th m u s ( D y n a m ic P ro g ra m m in g A lg o ri th m u s ) ) (

)) , , ( ( ) , , ( min

)) ), ( , ( ( * ) ), ( , ( min

) ), ( , ( ) ( min ) ), ( , ( min

) ), ( , ( ) ( ) ), ( , ( min ) ( *

), ( ) ( *

1 )(

1

1 1,...,

1 1,...,),( 111

11 kk

kkkkkkkkk wxUu kkkkkkkkkkk w

N kiiiiiiNN wwkkkkk w

N kiiiiiiNNkkkkk wwkk

NNNN

x J

w u x g J w u x g E

w x x g J w x x g E

w x x g x g E w x x g E

w x x g x g w x x g E x J

x g x J

kkkk

kk

Nkk kk

Nkk k

=       + =

      + =

 

 

 

 

 

 

       + + =

      + + =

=

+

+

+=

+=

∑ ∑

++

+

µ µ

µ µ

µ µ

µ

πµ

πµ

O p ti m a le K o n tr o ll e : E in h r u n g

(13)

03.07.2009| Optimierung in dynamischer Umgebung| 180

B e is p ie l I, L a g e rk o n tr o ll e

•Im Verlauf von N Zeitschritten wird zu jedem Zeitschritt eine bestimmte Anzahl eines bestimmten Gutes von Außen geordert. Wir müssen den Lagerbestand möglichst klein halten, gleichzeitig aber verhindern, dass Anforderungen nicht erfüllt werden können. •x kist der Lagerbestand zu Beginn von Periode k •u kist die Menge des Gutes, mit dem wir das Lager nach Periode k auffüllen. •w kBedarf während der k-ten Periode mit gegebener Zufallsverteilung, w 0,...,w N-1seien unabhängige Zufallsvariablen. •Bedarf, den wir nicht decken können wird als negativer Lagerbestand fort- geführt, und wird so bald wie möglich bedient. •-Kosten r(x k) repräsentieren Strafen für positiven und negativen Bestand. -R(x N) sind Endkosten für Lagerbestand am Ende -cu ksind Bestellkosten, wobei c die Kosten pro Einheit des Gutes sind. •Der Lagerbestand entwickelt sich also wie folgt: x k+1= x k+ u k-w k

O p ti m a le K o n tr o ll e : E in h r u n g

(14)

03.07.2009| Optimierung in dynamischer Umgebung| 181

B e is p ie l I, L a g e rk o n tr o ll e

E in h r u n g , B e is p ie le L a g e rs y s te m K o s te n d e r P e ri o d e k r( x

k

) + c u

k

B e s ta n d , P e ri o d e k x

k

B e s ta n d e rh ö h u n g , P e ri o d e k u

k

w

k

B e d a rf i n P e ri o d e k B e s ta n d , P e ri o d e k + 1

x k+1= x k+ u k-w k

(15)

03.07.2009| Optimierung in dynamischer Umgebung| 182

B e is p ie l I, L a g e rk o n tr o ll e

O p ti m a le K o n tr o ll e : E in h r u n g

Rest-Teilproblem der Länge 1: Zu Beginn der Periode N-1 sei der Lagerbestand x N-1. Klar: Egal was vorher war, sollte man mittels u N-1≥0 die Orderkosten plus die erwarteten Lager/Strafkosten minimieren: Die optimalen Kosten für die letzte Periode sind

)} ( { min

1111 11

− + +

NNN wN u

w u x R E cu

NN

 

 

 − + + + =

)} ( { min ) ( ) (

1111 0111 11NNN wN uNNN

w u x R E cu x r x J

NN

(16)

03.07.2009| Optimierung in dynamischer Umgebung| 183

B e is p ie l I, L a g e rk o n tr o ll e

O p ti m a le K o n tr o ll e : E in h r u n g

Rest-Teilproblem der Länge 2: Zu Beginn der Periode N-2 sei der Lagerbestand x N-2. Klar: Egal was vorher war, sollte man mittels u N-2≥0 (erwarteten Kosten der Periode N-2) + (erwarteten Kosten der Periode N-1, bei optimaler Politik) minimieren. Rest-Teilproblem der Länge k: minimiere mittel u N-k: (erwarteten Kosten der Periode N-k) + (erwarteten Kosten der Periode N-k+1, bei optimaler Politik)

)} ( { ) (

1122

+ +

NNNN

x J E cu x r

 

 

 − + + + =

)} ( { min ) ( ) (

22212 0222 22NNNN wN uNNN

w u x J E cu x r x J

NN

 

 

 − + + + =

+

)} ( { min ) ( ) (

1 0kNkNkNkN wkN ukNkNkN

w u x J E cu x r x J

kkN

D P

Referenzen

ÄHNLICHE DOKUMENTE

Male alle “a“ blau und alle “o“

An der senkrechten Linie wird das Blatt nach hinten gefaltet und die strichlierten Linien werden bis zur

[r]

Ihr Haar bekommt wieder Olanz und Farbe, wenn Sie meinen „Haarbalsam" (mit Vitarainen und Wirkstoffen des Weizenkeimöls) ver- wenden. Auch für fettiges Haar. Sie erhal- ten

Es soll anerkannt werden, daß schon viel getan wurde, um es den noch erwerbsfähigen Heimat- vertriebenen möglich zu machen, hier eine Exi- stenz zu finden und auch, um die über

Dezember 1953 bei ihrer Meldestelle (Kreis*- oder Gemeindeverwaltung) melden, wenn sie es noch nicht getan haben, und können Wieder- verwendung oder Versorgung nach dem Gesetz zu

Extractive Industries Transparency Initiative Economic Partnership Agreements European Report on Development European Trading Scheme European Union Food and Agriculture

Leistet der Arbeitgeber für alle oder bestimmte Gruppen seiner Arbeitnehmer einen Zuschuss für die Kinderbetreuung, dann ist dieser Zuschuss bis zu einem Betrag von 500