H¨ ohere Ableitungen
Kapitel 6: H¨ohere Ableitungen Informationen zur Vorlesung:
http://www.mathematik.uni-trier.de/∼wengenroth/
Kapitel 6: H¨ohere Ableitungen 6.1 Bemerkung
6.1 Bemerkung
(a) In Satz 5.4 haben wir als notwendigesKriterium f¨ur Extremalstellen x einer Funktion f :Rn→Rdie Bedingung Dvf(x) = 0 f¨ur alle
Richtungen v und damit insbesondere∇f(x) = 0 gezeigt.
Genau wie in EA I f¨ur Funktionen R→Rbraucht man zus¨atzliche Kriterien, um zu entscheiden, ob tats¨achlich eine Extremalstelle vorliegt.
(b) Beispiele:
• f :R2→R,f(x,y) =x2+y2hat in 0 ein (sogar globales) Minimum
• f :R2→R,f(x,y) =xy hat nur einen
”kritischen Punkt“
x
y
mit
∇f(x,y) = 0, n¨amlichx=y = 0, aber weder ein lokales Minimum noch ein lokales Maximum.
Kapitel 6: H¨ohere Ableitungen 6.2 Konvexit¨at
6.2 Konvexit¨ at
(a) F¨ur ein IntervallI ⊆R undf :I →Rwurde in EA I Konvexit¨at definiert durch die Bedingung
∀x,y ∈I ∀t ∈[0,1] f(tx + (1−t)y)≤tf(x) + (1−t)f(y) (b) Genauso wollen wir Konvexit¨at f¨urf :A→Rdefinieren, und daf¨ur
muss nat¨urlichtx + (1−t)y wieder ein Element von Asein.
(c) Eine Teilmenge A⊆Rn heißt konvex, falls f¨ur alle x,y ∈Aund t ∈[0,1] der Vektortx + (1−t)y wieder in Aliegt. Beachte, dass Sx,y ={tx + (1−t)y :t∈[0,1]}={x+s(y−x) :s ∈[0,1]} das
”Segment“ vonx nachy beschreibt.
(d) Eine Funktion f :A→Rheißt konvex, falls
• A⊆Rn eine konvexe Menge ist, und es gilt
• ∀x,y∈A ∀t ∈[0,1] f(tx+ (1−t)y)≤tf(x) + (1−t)f(y).
Kapitel 6: H¨ohere Ableitungen 6.3 Satz
6.3 Satz
Seien A⊆Rn eine konvexe offene Menge, f :A→Rkonvex und x ∈A, so dass f inx total differenzierbar ist. Falls ∇f(x) = 0, so ist
f(x) = min{f(y) :y∈A}.
Beweis. F¨ur jedesy ∈Aundt∈[0,1] ist
f(x+t(y−x)) =f(ty+ (1−t)x)≤tf(y) + (1−t)f(x), also f(x+t(y−x))−f(x)
t ≤f(y)−f(x).
Der Quotient links konvergiert f¨urt→0 gegen die Richtungsableitung
Dy−xf(x) =∇f(x)·(y−x) = 0, und dies impliziert 0≤f(y)−f(x), alsof(x)≤f(y).
2
Kapitel 6: H¨ohere Ableitungen 6.4 H¨ohere Ableitungen
6.4 H¨ oehere Ableitungen
(a) Wir wollen die Konvexit¨at von f :A→R analog zu EA I durch die Ableitungen charakterisieren. Dazu bemerken wir:
f konvex auf A ⇐⇒F¨ur alle x,y∈Aist g =f ◦σ konvex, wobei
σ(t) =x+t(y−x).
Falls g =f ◦σ zweimal (nach (t)) differenzierbar ist, so besagt Satz 5.4.4 EA I: g00(t)≥0 f¨ur alle t ∈[0,1] =⇒g konvex auf [0,1].
Ist g00 sogar stetig, so gilt auch die Umkehrung:
Beweis. Annahme, es gibtt0∈(0,1) mitg00(t0)<0. Wegen der Stetigkeit int0
gibt esδ >0, so dassg00(t)<0 f¨ur allet∈(t0−δ,t0+δ) =I. Dann istg sowohl konvex als auch konkav aufI, und deshalb affin linear aufI. Dann ist aberg00= 0 aufI und insbesondereg00(t0) = 0 .
Kapitel 6: H¨ohere Ableitungen 6.4 H¨ohere Ableitungen
6.4 H¨ ohere Ableitungen
(b) Wir wollen also die zweite Ableitung vong(t) =f(σ(t)) ausrechnen, und dazu brauchen wir zun¨achstg0(t). Wegen der Kettenregel ist
g0(t) = ∇f(σ(t))·σ0(t) =∇f(σ(t))·(y−x)
=
n
X
j=1
Djf(σ(t))(yj−xj).
SindDjf :A→Rwiederum total differenzierbar, so liefern die Linearit¨at und die Kettenregel (f¨ur Djf anstatt f)
g00(t) =
n
X
j=1 n
X
k=1
DkDjf(σ(t))(yk−xk)(yj −xj)
Kapitel 6: H¨ohere Ableitungen 6.4 H¨ohere Ableitungen
6.4 H¨ ohere Ableitungen
(c) Eine Funktionf :A→RmitA⊆Rn offen, heißt zweimal stetig differenzierbar, falls alle partiellen AbleitungenDjf :A→Rstetig differenzierbar sind.
F¨ur jedesj haben wir dann dien partiellen Ableitungen D1Djf, . . . ,DnDjf :A→R. F¨ur x ∈Aheißt die Matrix
Hf(x) =
D1D1f(x) D2D1f(x) . . . DnD1f(x) D2D1f(x) D2D2f(x) . . . DnD2f(x)
... ... ...
DnD1f(x) DnD2f(x) . . . DnDnf(x)
dieHesse-Matrixvon f im Punktx.
Kapitel 6: H¨ohere Ableitungen 6.4 H¨ohere Ableitungen
6.4 H¨ ohere Ableitungen
(d) Bezeichnen wir f¨urv =y−x∈Rn=Rn×1 (Spaltenvektor) mitvt den entsprechenden Zeilenvektor vt = [v1, . . . ,vn], so ist die Doppelsumme in (c) gerade
n
X
j=1 n
X
k=1
DkDjf(σ(t))vkvj =vt·Hf(σ(t))·v
(Beachte R1×n·Rn×n·Rn×1 R1×n·Rn×1 R1×1 =R).
(d) Eine MatrixH ∈Rn×n heißt (streng) positiv definit, fallsvtHv ≥0 (beziehungsweise>0) f¨ur alle v ∈Rn\ {0}. Wir haben damit gezeigt:
Kapitel 6: H¨ohere Ableitungen 6.5 Satz
6.5 Satz
Seien A⊆Rn konvex und offen und f :A→R zweimal stetig
differenzierbar, so dass die Hesse-Matrix Hf(x) in jedem Punktx∈A positiv definit ist. Dann istf konvex auf A.
Kapitel 6: H¨ohere Ableitungen 6.6 Satz
6.6 Satz
Seien A⊆Rn offen, f :A→R zweimal stetig differenzierbar undx∈A mit ∇f(x) = 0. Ist Hf(x) streng positiv definit, so hatf in x ein lokales Minimum, das heißt, es gilt δ >0, so dass
f(x) = min{f(y) :y ∈Aund ky−xk< δ}.
Gilt esv und w mit vtHf(x)v >0 undwtHw <0, so hat f in x kein lokales Extremum.
Beweis. Aus der Stetigkeit vonDjDkf folgt die Existenz vonδ >0, so dassHf(y) f¨ur jedesy ∈K(x, δ) positiv definit ist. WeilAoffen ist, kann manδverkleinern, so dass K(x, δ)⊆Agilt. Wegen Satz 6.5 ist dannf aufK(x, δ) konvex und wegen Satz 6.3 ist
f(x) = min{f(y) :y ∈K(x, δ)}.
2
Bemerkung: Falls −Hf(x) streng positiv definit ist, hatf in x ein lokales Maximum.
WARNUNG: Oft ist es nicht leicht
• alle Punktex ∈Amit∇f(x) auszurechnen und
Kapitel 6: H¨ohere Ableitungen 6.7 Beispiel
6.7 Beispiel
Sei f :R2 →Rdefiniert durch f(x,y) = exp(−x2−1 + cos(y)). Dann ist
D1f(x,y) = −2xexp(−x2−1 + cos(y)) D2f(x,y) = −sin(y) exp(−x2−1 + cos(y))
D1D1f(x,y) = −2 exp(−x2−1 + cos(y)) + 4x2exp(−x2−1 + cos(y)) D1D2f(x,y) = 2xsin(y) exp(−x2−1 + cos(y))
D2D1f(x,y) = 2xsin(y) exp(−x2−1 + cos(y))
D2D2f(x,y) = −cos(y) exp(−x2−1 + cos(y)) + sin2(y) exp(−x2−1 + cos(y))
Weil exp keine Nullstellen hat, gilt∇f(x,y) = 0⇐⇒x = 0 und sin(y) = 0 und in diesen Punkten ist
Hf(x,y) =
−2 exp(−1 + cos(y)) 0
0 −cos(y) exp(−1 + cos(y))
Kapitel 6: H¨ohere Ableitungen 6.7 Beispiel
6.7 Beispiel
Diese Matrix ist von der Form Hf(x,y) =
a 0 0 b
mit a<0 und b<0, falls cos(y)>0, sowieb >0, falls cos(y)<0.
F¨ur eine so strukturierte Matrix istvtHv leicht auszurechnen:
[v1,v2]
a 0 0 b
v1 v2
=av12+bv22. Also istHf(x,y) genau dann negativ definit, falls cos(y)>0. Falls cos(y)<0 hatf in
0 y
kein lokales Extremum.
Beobachtung: In diesem Beispiel gilt D1D2f(x,y) =D2D1f(x,y). Dass dies kein Zufall ist, besagt folgender Satz.
Kapitel 6: H¨ohere Ableitungen 6.8 Satz (Schwarz)
6.8 Satz (Schwarz)
Seien A⊆Rn offen und f :A→Rzweimal stetig differenzierbar. F¨ur alle x ∈A und j,k ∈ {1, . . .n} gilt dannDkDjf(x) =DjDkf(x), das heißt, man kann die Ableitungsreihenfolge vertauschen.
Plausibilit¨at f¨urn= 2:
D2D1f(x,y) = lim
t→0
D1f(x,y+t)−D1f(x,y) t
= lim
t→0lim
s→0
f(x+s,y+t)−f(x,y+t)−(f(x+s,y)−f(x,y)) st
= lim
s→0lim
t→0
f(x+s,y+t)−f(x+s,y)−(f(x,y+t)−f(x,y)) st
= lim
s→0
D2f(x+s,y)−D2(x,y)
s =D1D2f(x,y)
2