H¨ohere Ableitungen

(1)

H¨ ohere Ableitungen

Kapitel 6: H¨ohere Ableitungen Informationen zur Vorlesung:

http://www.mathematik.uni-trier.de/∼wengenroth/

(2)

Kapitel 6: H¨ohere Ableitungen 6.1 Bemerkung

6.1 Bemerkung

(a) In Satz 5.4 haben wir als notwendigesKriterium f¨ur Extremalstellen x einer Funktion f :Rⁿ→Rdie Bedingung Dvf(x) = 0 f¨ur alle

Richtungen v und damit insbesondere∇f(x) = 0 gezeigt.

Genau wie in EA I für Funktionen R→Rbraucht man zusätzliche Kriterien, um zu entscheiden, ob tatsächlich eine Extremalstelle vorliegt.

(b) Beispiele:

• f :R²→R,f(x,y) =x²+y²hat in 0 ein (sogar globales) Minimum

• f :R²→R,f(x,y) =xy hat nur einen

”kritischen Punkt“

x

y

mit

∇f(x,y) = 0, n¨amlichx=y = 0, aber weder ein lokales Minimum noch ein lokales Maximum.

(3)

Kapitel 6: H¨ohere Ableitungen 6.2 Konvexit¨at

6.2 Konvexit¨ at

(a) F¨ur ein IntervallI ⊆R undf :I →Rwurde in EA I Konvexit¨at definiert durch die Bedingung

∀x,y ∈I ∀t ∈[0,1] f(tx + (1−t)y)≤tf(x) + (1−t)f(y) (b) Genauso wollen wir Konvexität fürf :A→Rdefinieren, und dafür

muss nat¨urlichtx + (1−t)y wieder ein Element von Asein.

(c) Eine Teilmenge A⊆Rⁿ heißt konvex, falls f¨ur alle x,y ∈Aund t ∈[0,1] der Vektortx + (1−t)y wieder in Aliegt. Beachte, dass Sx,y ={tx + (1−t)y :t∈[0,1]}={x+s(y−x) :s ∈[0,1]} das

”Segment“ vonx nachy beschreibt.

(d) Eine Funktion f :A→Rheißt konvex, falls

• A⊆Rⁿ eine konvexe Menge ist, und es gilt

• ∀x,y∈A ∀t ∈[0,1] f(tx+ (1−t)y)≤tf(x) + (1−t)f(y).

(4)

Kapitel 6: H¨ohere Ableitungen 6.3 Satz

6.3 Satz

Seien A⊆Rⁿ eine konvexe offene Menge, f :A→Rkonvex und x ∈A, so dass f inx total differenzierbar ist. Falls ∇f(x) = 0, so ist

f(x) = min{f(y) :y∈A}.

Beweis. F¨ur jedesy ∈Aundt∈[0,1] ist

f(x+t(y−x)) =f(ty+ (1−t)x)≤tf(y) + (1−t)f(x), also f(x+t(y−x))−f(x)

t ≤f(y)−f(x).

Der Quotient links konvergiert f¨urt→0 gegen die Richtungsableitung

Dy−xf(x) =∇f(x)·(y−x) = 0, und dies impliziert 0≤f(y)−f(x), alsof(x)≤f(y).

2

(5)

Kapitel 6: H¨ohere Ableitungen 6.4 H¨ohere Ableitungen

6.4 H¨ oehere Ableitungen

(a) Wir wollen die Konvexit¨at von f :A→R analog zu EA I durch die Ableitungen charakterisieren. Dazu bemerken wir:

f konvex auf A ⇐⇒F¨ur alle x,y∈Aist g =f ◦σ konvex, wobei

σ(t) =x+t(y−x).

Falls g =f ◦σ zweimal (nach (t)) differenzierbar ist, so besagt Satz 5.4.4 EA I: g⁰⁰(t)≥0 f¨ur alle t ∈[0,1] =⇒g konvex auf [0,1].

Ist g⁰⁰ sogar stetig, so gilt auch die Umkehrung:

Beweis. Annahme, es gibtt0∈(0,1) mitg⁰⁰(t0)<0. Wegen der Stetigkeit int0

gibt esδ >0, so dassg⁰⁰(t)<0 f¨ur allet∈(t0−δ,t0+δ) =I. Dann istg sowohl konvex als auch konkav aufI, und deshalb affin linear aufI. Dann ist aberg⁰⁰= 0 aufI und insbesondereg⁰⁰(t0) = 0 .

(6)

6.4 H¨ ohere Ableitungen

(b) Wir wollen also die zweite Ableitung vong(t) =f(σ(t)) ausrechnen, und dazu brauchen wir zun¨achstg⁰(t). Wegen der Kettenregel ist

g⁰(t) = ∇f(σ(t))·σ⁰(t) =∇f(σ(t))·(y−x)

=

n

X

j=1

Djf(σ(t))(yj−xj).

SindDjf :A→Rwiederum total differenzierbar, so liefern die Linearit¨at und die Kettenregel (f¨ur D_jf anstatt f)

g⁰⁰(t) =

n

X

j=1 n

X

k=1

D_kD_jf(σ(t))(y_k−x_k)(y_j −x_j)

(7)

6.4 H¨ ohere Ableitungen

(c) Eine Funktionf :A→RmitA⊆Rⁿ offen, heißt zweimal stetig differenzierbar, falls alle partiellen AbleitungenD_jf :A→Rstetig differenzierbar sind.

F¨ur jedesj haben wir dann dien partiellen Ableitungen D₁D_jf, . . . ,D_nD_jf :A→R. F¨ur x ∈Aheißt die Matrix

H_f(x) =







D₁D₁f(x) D₂D₁f(x) . . . D_nD₁f(x) D2D1f(x) D2D2f(x) . . . DnD2f(x)

... ... ...

DnD1f(x) DnD2f(x) . . . DnDnf(x)







dieHesse-Matrixvon f im Punktx.

(8)

6.4 H¨ ohere Ableitungen

(d) Bezeichnen wir f¨urv =y−x∈Rⁿ=R^n×1 (Spaltenvektor) mitv^t den entsprechenden Zeilenvektor v^t = [v₁, . . . ,v_n], so ist die Doppelsumme in (c) gerade

n

X

j=1 n

X

k=1

D_kD_jf(σ(t))v_kv_j =v^t·H_f(σ(t))·v

(Beachte R^1×n·R^n×n·R^n×1 R^1×n·R^n×1 R^1×1 =R).

(d) Eine MatrixH ∈R^n×n heißt (streng) positiv definit, fallsv^tHv ≥0 (beziehungsweise>0) f¨ur alle v ∈Rⁿ\ {0}. Wir haben damit gezeigt:

(9)

6.5 Satz

Seien A⊆Rⁿ konvex und offen und f :A→R zweimal stetig

differenzierbar, so dass die Hesse-Matrix H_f(x) in jedem Punktx∈A positiv definit ist. Dann istf konvex auf A.

(10)

6.6 Satz

Seien A⊆Rⁿ offen, f :A→R zweimal stetig differenzierbar undx∈A mit ∇f(x) = 0. Ist H_f(x) streng positiv definit, so hatf in x ein lokales Minimum, das heißt, es gilt δ >0, so dass

f(x) = min{f(y) :y ∈Aund ky−xk< δ}.

Gilt esv und w mit v^tH_f(x)v >0 undw^tHw <0, so hat f in x kein lokales Extremum.

Beweis. Aus der Stetigkeit vonDjDkf folgt die Existenz vonδ >0, so dassHf(y) f¨ur jedesy ∈K(x, δ) positiv definit ist. WeilAoffen ist, kann manδverkleinern, so dass K(x, δ)⊆Agilt. Wegen Satz 6.5 ist dannf aufK(x, δ) konvex und wegen Satz 6.3 ist

f(x) = min{f(y) :y ∈K(x, δ)}.

2

Bemerkung: Falls −H_f(x) streng positiv definit ist, hatf in x ein lokales Maximum.

WARNUNG: Oft ist es nicht leicht

• alle Punktex ∈Amit∇f(x) auszurechnen und

(11)

Kapitel 6: H¨ohere Ableitungen 6.7 Beispiel

6.7 Beispiel

Sei f :R² →Rdefiniert durch f(x,y) = exp(−x²−1 + cos(y)). Dann ist

D1f(x,y) = −2xexp(−x²−1 + cos(y)) D2f(x,y) = −sin(y) exp(−x²−1 + cos(y))

D1D1f(x,y) = −2 exp(−x²−1 + cos(y)) + 4x²exp(−x²−1 + cos(y)) D1D2f(x,y) = 2xsin(y) exp(−x²−1 + cos(y))

D2D1f(x,y) = 2xsin(y) exp(−x²−1 + cos(y))

D2D2f(x,y) = −cos(y) exp(−x²−1 + cos(y)) + sin²(y) exp(−x²−1 + cos(y))

Weil exp keine Nullstellen hat, gilt∇f(x,y) = 0⇐⇒x = 0 und sin(y) = 0 und in diesen Punkten ist

H_f(x,y) =

−2 exp(−1 + cos(y)) 0

0 −cos(y) exp(−1 + cos(y))

(12)

Kapitel 6: H¨ohere Ableitungen 6.7 Beispiel

6.7 Beispiel

Diese Matrix ist von der Form Hf(x,y) =

a 0 0 b

mit a<0 und b<0, falls cos(y)>0, sowieb >0, falls cos(y)<0.

F¨ur eine so strukturierte Matrix istv^tHv leicht auszurechnen:

[v1,v2]

a 0 0 b

v₁ v2

=av₁²+bv₂². Also istHf(x,y) genau dann negativ definit, falls cos(y)>0. Falls cos(y)<0 hatf in

0 y

kein lokales Extremum.

Beobachtung: In diesem Beispiel gilt D₁D₂f(x,y) =D₂D₁f(x,y). Dass dies kein Zufall ist, besagt folgender Satz.

(13)

Kapitel 6: H¨ohere Ableitungen 6.8 Satz (Schwarz)

6.8 Satz (Schwarz)

Seien A⊆Rⁿ offen und f :A→Rzweimal stetig differenzierbar. F¨ur alle x ∈A und j,k ∈ {1, . . .n} gilt dannD_kD_jf(x) =D_jD_kf(x), das heißt, man kann die Ableitungsreihenfolge vertauschen.

Plausibilit¨at f¨urn= 2:

D2D1f(x,y) = lim

t→0

D1f(x,y+t)−D1f(x,y) t

= lim

t→0lim

s→0

f(x+s,y+t)−f(x,y+t)−(f(x+s,y)−f(x,y)) st

= lim

s→0lim

t→0

f(x+s,y+t)−f(x+s,y)−(f(x,y+t)−f(x,y)) st

= lim

s→0

D2f(x+s,y)−D2(x,y)

s =D1D2f(x,y)

2