• Keine Ergebnisse gefunden

3.2 Hamilton-Jacobi-Bellmann Gleichung

N/A
N/A
Protected

Academic year: 2022

Aktie "3.2 Hamilton-Jacobi-Bellmann Gleichung"

Copied!
3
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

wobei (X(s))s∈[t,T] folgende SDE erf¨ullt:

(dX(s) =b(s, X(s), u(s))ds+σ(s, X(s), u(s))dW(s)

X(t) =x. (3.1)

Die nichtleere Menge der zul¨assigen KontrollenUtumfasst alleFst-adaptierten Prozesse (u(s))s∈[t,T] mit Werten inU ⊂Rm, so dass

E

T

Z

t

ku(s)k2mds <∞.

Aus(A1)erhalten wir die Existenz und Eindeutigkeit der L¨osung von (3.1) analog zu Satz 2.1.

Ziel: Findeu∈Ut, so dass

J(t, x, u) = sup

u∈Ut

J(t, x, u). (3.2)

Damit k¨onnen wir die sogenannte WertefunktionV: [0, T]×Rn→Rgegeben durch V(t, x) = sup

u∈Ut

J(t, x, u)

= sup

u∈Ut

E

T

Z

t

f(s, X(s), u(s))ds+g(X(T))

 (3.3)

einf¨uhren. Wir erhalten das Prinzip der dynamischen Programmierung.

Satz 3.1. Sei (t, x)∈[0, T]×Rn. Dann gilt f¨ur jede Stoppzeitτ mit Werten in[t, T]

V(t, x) = sup

u∈Ut

E

τ

Z

t

f(s, X(s), u(s))ds+V(τ, X(τ))

.

Beweis. Wir bezeichnen mit (X(s;t, x, u))s∈[t,T] die L¨osung von System (3.1). Auf- grund der pfadweisen Eindeutigkeit gilt f¨ur alles∈[τ, T]

X(s;t, x, u) =X(s;τ, X(τ), u).

10

(2)

Wir erhalten f¨ur alleu∈Ut J(t, x, u) =E

T

Z

t

f(s, X(s;t, x, u), u(s))ds+g(X(T;t, x, u))

=E

τ

Z

t

f(s, X(s;t, x, u), u(s))ds

+E

T

Z

τ

f(s, X(s;τ, X(τ), u), u(s))ds+g(X(T;τ, X(τ), u))

Fτt

=E

τ

Z

t

f(s, X(s;t, x, u), u(s))ds+J(τ, X(τ), u)

≤E

τ

Z

t

f(s, X(s;t, x, u), u(s))ds+V(τ, X(τ))

.

Somit schließen wir V(t, x) = sup

u∈Ut

J(t, x, u)≤ sup

u∈Ut

E

τ

Z

t

f(s, X(s), u(s))ds+V(τ, X(τ))

. (3.4) Als n¨achstes w¨ahlen wir f¨ur beliebigesε >0 eine Kontrolleuε∈Ut, so dass

J(τ, X(τ), uε)≥V(τ, X(τ)))−ε.

Wir definieren f¨ur eine beliebige Kontrolleu∈Ut

u(s) =

(u(s) f¨urs∈[t, τ) uε(s) f¨urs∈[τ, T].

Dann ist u∈Utund es gilt V(t, x)≥J(t, x, u)

=E

τ

Z

t

f(s, X(s;t, x, u), u(s))ds+J(τ, X(τ), uε)

≥E

τ

Z

t

f(s, X(s;t, x, u), u(s))ds+V(τ, X(τ)))

−ε.

Dau∈Ut undε >0 beliebig gew¨ahlt wurde, erhalten wir V(t, x)≥ sup

u∈Ut

E

τ

Z

t

f(s, X(s), u(s))ds+V(τ, X(τ))

. (3.5)

11

(3)

Aus den Ungleichung (3.4) und (3.5) folgt die Behauptung.

Bemerkung 3.2. In dem Beweis zu Satz 3.1 haben wir die folgende zu dem Prinzip der dynamischen Progammierung ¨aquivalente Formulierung gezeigt:

• V(t, x)≤ sup

u∈Ut

E τ

R

t

f(s, X(s), u(s))ds+V(τ, X(τ))

und

• V(t, x)≥ sup

u∈Ut

E τ

R

t

f(s, X(s), u(s))ds+V(τ, X(τ))

−ε f¨ur beliebiges ε >0.

3.2 Hamilton-Jacobi-Bellmann Gleichung

Basierend auf dem Prinzip der dynamischen Programmierung wollen wir das infinites- imale Verhalten der Wertefunktion unter zus¨atzlichen Glattheitsbedingungen betra- chten.

SeiSndie Menge der symmetrischen Matrizen inRn×n. Wir definieren die Funktion H: [0, T]×Rn×Rn×Sn→Rdurch

H(t, x, p, M) = sup

u∈U

b0(t, x, u)p+1

2T r[σ(t, x, u)σ0(t, x, u)M] +f(t, x, u)

. (3.6) Weiterhin bezeichnen wir mitDxundDx2 den Gradienten und die Hesse-Matrix einer Funktion bez¨uglichx∈Rn. F¨uru∈U f¨uhren wir den Operator

Luϕ(t, x) =b0(t, x, u)Dxϕ(t, x) +1

2T r[σ(t, x, u)σ0(t, x, u)D2xϕ(t, x)]

ein, wobeiϕ∈C0,2([0, T)×Rn). Wir erhalten folgendes Resultat.

Satz 3.3. Sei V gegeben durch (3.3), so dass V ∈C1,2([0, T)×Rn). Weiterhin sei f(·,·, u) stetig auf[0, T]×Rn f¨ur festes u∈ U und H gegeben durch (3.6) sei stetig.

Dann istV die L¨osung folgender PDE mit Endbedingung:

− ∂

∂tV(t, x)−H(t, x, DxV(t, x), D2xV(t, x)) = 0, (t, x)∈[0, T)×Rn

V(T, x) =g(x), x∈Rn.

(3.7)

Beweis. Schritt 1: Seien (t, x)∈[0, T)×Rn undu∈U. Wir zeigen

−∂

∂tV(t, x)−H(t, x, DxV(t, x), D2xV(t, x))≥0.

Sei (X(s))s∈[t,T] die L¨osung der SDE (3.1), wobei u(s) =u f¨ur alle s ∈ [t, T]. Wir f¨uhren die Stoppzeit

τh= inf{s > t: s−t≥hoderkX(s)−xkn ≥1}

12

Referenzen

ÄHNLICHE DOKUMENTE

F¨ ur so ein einfaches Beispiel ist der Sinn der Hamilton-Jacobi Theorie noch nicht wirklich er- sichtlich, der Aufwand scheint den Nutzen nicht zu rechtfertigen. Die Bedeutung

3 In der klassischen Mechanik haben wir gelernt, dass die Addition einer solchen Gr¨ oße die Bewegungsgleichungen nicht ¨ andert, eine solche Umeichung der Lagrangefunktion w¨ are

We review the construction of the universal Hamilton–Jacobi counterterm for dilaton gravity in two dimensions, derive the corresponding result in the Cartan formulation and

Standard thermodynamics in canonical ensemble: internal energy, enthalpy, free enthalpy, specific heats, isothermal compressibility, .... Grumiller — Black Hole Thermodynamics

Es gibt aber, neben S, noch viel mehr L¨ osungen – schließlich ist Hamilton-Jacobi eine partielle Differentialgleichung (in den 4 Variablen x, y, z, t), und eine solche Gleichung

Wir sind hier von der Ordnung auf N , die durch die nat¨urliche Ordnung von Mengen definiert wird, aus- gegangen, und haben diese dann auf Z und Q erweitert!. Man kann auch Q

Unter einer gewissen Glattheitsvoraussetzung zeigen wir, dass die Wertefunktion eine partielle Differentialgleichung (PDE) erf¨ ullt und wir die optimale Kontrolle auf Grund- lage

Die Bezeichnung der Variablen sollte eine eindeutige Beschreibung des Zustands (Aktion) für das „1“-Signal des Eingangs (Ausgangs) wiedergeben. Bsp: Endschalter Jalousie (Öffner,