• Keine Ergebnisse gefunden

Inhaltsverzeichnis Kapitel2Differentialrechnungim R Analysis2

N/A
N/A
Protected

Academic year: 2021

Aktie "Inhaltsverzeichnis Kapitel2Differentialrechnungim R Analysis2"

Copied!
46
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Analysis 2

Kapitel 2 Differentialrechnung im R n

Vorlesungsausarbeitung zum SS 2001 von Prof. Dr. Klaus Fritzsche

Inhaltsverzeichnis

§1 Totale Differenzierbarkeit . . . . 51

§2 H¨ ohere Ableitungen und Taylorformel . . . . 64

§3 Der Umkehrsatz . . . . 76

§4 Implizite Funktionen . . . . 82

Diese Ausarbeitung darf nur f¨ ur den privaten Gebrauch kopiert oder gedruckt wer-

den. Jede unauthorisierte kommerzielle Nutzung wird strafrechtlich verfolgt!

(2)

1 Totale Differenzierbarkeit 51

§ 1 Totale Differenzierbarkeit

Erinnern wir uns an die Differenzierbarkeit in einer Ver¨ anderlichen:

Es sei I ⊂ R ein Intervall. Eine Funktion f : I → R k heißt differenzierbar in t 0 ∈ I, falls eine der folgenden ¨ aquivalenten Aussagen erf¨ ullt ist:

1. Es existiert der Grenzwert lim

t→t

0

f(t) − f (t 0 ) t − t 0

.

2. Es gibt einen Vektor a ∈ R k und eine Funktion ϕ : I → R k , mit f(t) = f(t 0 ) + (t − t 0 ) · a + ϕ(t) auf I und

t→t lim

0

ϕ(t) t − t 0 = 0.

3. Es gibt eine in t 0 stetige Abbildung ∆ : I → R k mit f (t) = f (t 0 ) + (t − t 0 ) · ∆(t).

Unter der Ableitung von f in t 0 versteht man den Vektor f 0 (t 0 ) := a = ∆(t 0 ) = lim

t→t

0

f(t) − f (t 0 ) t − t 0 .

Was bedeutet die Differenzierbarkeit von f in t 0 anschaulich? Im Falle k > 1 kann man sich f als Parametrisierung einer Kurve C vorstellen, die im Punkte f(t 0 ) so

” glatt“ ist, daß sie dort eine eindeutig bestimmte Tangente besitzt. Was ist aber nun eine Tangente? Das ist eine Gerade, die C in f (t 0 )

” ber¨ uhrt“. Also bleibt die Frage: Was bedeutet es, daß sich zwei Kurven in einem Punkt ber¨ uhren?

Damit sich zwei Kurven α, β : I → R n in einem Punkt x 0 ber¨ uhren, muß es sicherlich ein t 0 ∈ I geben, so daß α(t 0 ) = β(t 0 ) = x 0 ist. Aber das reicht nicht! Wir erwarten, daß sich die beiden Kurven bei x 0 regelrecht aneinander anschmiegen. Der Ausdruck kα(t) − β(t)k muß f¨ ur t → t 0 hinreichend schnell gegen Null streben. Im Falle k = 1 wissen wir, daß der Graph der Funktion t 7→ |t − t 0 | bei t 0 einen Knick und zwei verschiedene Tangenten hat. Ist aber ϕ eine Funktion mit ϕ(t) → 0 f¨ ur t → t 0 , so streben alle Differenzenquotienten von (t − t 0 )ϕ(t) f¨ ur t → t 0 gegen Null, und die x-Achse ist die eindeutig bestimmte Tangente an den Graphen. Deshalb sagt man, daß sich α und β in x 0 ber¨ uhren, falls eine Funktion ϕ mit Werten im R k existiert, so daß α(t) − β(t) = (t − t 0 ) · ϕ(t) ist und ϕ(t) f¨ ur t → t 0 gegen Null konvergiert.

Nun brauchen wir noch die Parametrisierung der Tangente an die durch f para- metrisierte Kurve. Dies geschieht durch

T f (t) := f (t 0 ) + (t − t 0 ) · a,

(3)

wobei a der Richtungsvektor und f (t 0 ) der

” St¨ utzvektor“ ist. Die Parametrisierung ist gerade so gemacht, daß T f (t 0 ) = f (t 0 ) ist. Die obige Bedingung (2) entspricht also genau der anschaulichen Vorstellung, daß f in t 0 differenzierbar ist, wenn die durch f parametrisierte Kurve in f (t 0 ) von einer (eindeutig bestimmten) Geraden ber¨ uhrt wird. Im Falle k = 1 k¨ onnen wir f : I → R durch die Parametrisierung F (t) := (t, f(t)) des Graphen von f ersetzen. Dann parametrisiert F eine Kurve im R 2 , wir behalten die Vorstellung von der Tangente an eine Kurve und f ist nat¨ urlich genau dann differenzierbar, wenn F es ist.

Die Parametrisierung T f der Tangente (im Falle k > 1) ist eine affin-lineare Abbil- dung der Gestalt

T f (t 0 + h) = f (t 0 ) + L(h),

mit einer linearen Abbildung L : R → R k , die durch L(h) = h · a gegeben ist. So ist (2) ¨ aquivalent zu folgender Aussage:

1. f(t) = f (t 0 ) + L(t − t 0 ) + ϕ(t) f¨ ur t ∈ I.

2. lim

t→t

0

ϕ(t)

|t − t 0 | = 0.

Ist nun f = f (x 1 , . . . , x n ) eine Funktion von mehreren Variablen mit Werten in R k und k > n, so parametrisiert f ein n-dimensionales Gebilde (wir werden das am Ende des Kapitels pr¨ azisieren). Wir werden dann f in y 0 = f (x 0 ) differenzier- bar nennen, wenn das parametrisierte Gebilde in y 0 so glatt ist, daß es dort eine eindeutig bestimmte Tangentialebene der Dimension n besitzt. Ist k ≤ n (z.B. im Falle einer skalaren Funktion f), so behelfen wir uns wieder mit dem Graphen, der durch F (x) = (x, f (x)) parametrisiert wird.

Auch im Falle einer Funktion f : R n → R k (mit n < k) wird die Tangentialebene durch eine affin-lineare Abbildung parametrisiert:

T f (x 0 + h) = f (x 0 ) + L(h), diesmal mit einer linearen Abbildung L : R n → R k .

Deshalb besch¨ aftigen wir uns zun¨ achst einmal mit linearen Abbildungen.

Ist L : R n → R k linear, so gibt es eine Matrix A ∈ M k,n ( R ), so daß gilt:

L(v) = v · A t .

Man beachte, daß wir hier immer mit Zeilen-Vektoren arbeiten! Schreiben wir L = L A , so ist

L A·B (v) = v · (A · B ) t = v · (B t · A t ) = L B (v) · A t = L A (L B (v)), also

L A·B = L A ◦ L B .

(4)

1 Totale Differenzierbarkeit 53

Sind E, F zwei (endlich-dimensionale) R -Vektorr¨ aume, so bezeichnen wir mit L(E, F ) den Vektorraum aller linearen Abbildungen von E nach F . Die Zuord- nung A 7→ L A liefert einen Vektorraum-Isomorphismus

M k,n ( R ) → L( R n , R k ) . Wir betrachten noch zwei Spezialf¨ alle:

a) Ist F beliebig, so wird durch L 7→ L(1) eine lineare Abbildung L( R , F ) → F definiert. Tats¨ achlich ist dies ein Isomorphismus, die Umkehrabbildung ordnet einem Vektor a ∈ F die lineare Abbildung t 7→ t · a zu. Man spricht hier auch vom kanonischen Isomorphismus L( R , F ) ∼ = F .

b) Die Elemente von L( R n , R ) = ( R n ) sind die Linearformen auf dem R n . Ist a ∈ R n , so wird eine Linearform λ a auf dem R n definiert durch

λ a (x) := x • a = x · a t .

Offensichtlich ist dann a ∈ M 1,n ( R ) auch schon die Matrix, die λ a beschreibt.

Die Zuordnung a 7→ λ a liefert einen Isomorphismus von R n auf L( R n , R ). Die Umkehrung ist gegeben durch

λ 7→ (λ(e 1 ), . . . , λ(e n )).

In diesem Fall ist der Isomorphismus R n ∼ = L( R n , R ) bestimmt durch das eu- klidische Skalarprodukt und die dazu passende Orthonormalbasis {e 1 , . . . , e n }.

Man kann f¨ ur jeden anderen endlich-dimensionalen Vektorraum E (mit einem Skalarprodukt <. . . , . . .>) einen Isomorphismus E → L(E, R ) = E definie- ren durch

a 7→ λ a : (x 7→ <x , a>) .

Sei nun F ein beliebiger endlich-dimensionaler R -Vektorraum mit Basis {z 1 , . . . , z m }.

Ist B ⊂ R n offen und f : B → F eine Abbildung, so kann man f in der Form f (x) =

m

X

ν=1

f ν (x) · z ν

schreiben, wobei die Koeffizienten f ν : B → R skalare Funktionen sind. Ist f Einschr¨ ankung einer linearen Abbildung f : R n → F , so sind die f ν Linearformen auf R n .

Die Abbildung f ist genau dann in x 0 ∈ B stetig, wenn alle Koeffizienten f ν in x 0

stetig sind.

(5)

Beispiele.

1. Sei F = L( R n , R ) = ( R n ) . Zu den Einheitsvektoren e i ∈ R n geh¨ oren die Linearformen λ e

i

= ε i ∈ ( R n ) mit

ε i (x) = x · e i t = x i , also ε i (e j ) = δ ij .

Man bezeichnet {ε 1 , . . . , ε n } auch als duale Basis (zur Standard-Basis) von ( R n ) . Jede Linearform

λ : (x 1 , . . . , x n ) 7→ a 1 x 1 + · · · + a n x n kann in der Form λ = a 1 ε 1 + · · · + a n ε n geschrieben werden.

Eine Abbildung f = f 1 ε 1 + · · · + f n ε n : B → L( R n , R ) ist genau dann stetig, wenn alle f i stetig sind. 1 Dabei ist f i (x) = f (x)(e i ). Deshalb ist f auch genau dann stetig, wenn f¨ ur jeden Vektor v die Abbildung x 7→ f (x)(v) stetig ist.

Ist – etwas allgemeiner – F = L( R n , R k ), so gilt das gleiche Kriterium: f : B → F ist genau dann stetig, wenn f (x)(v) f¨ ur jeden Vektor v stetig in x ist. Das ist jeweils eine Abbildung von B nach R k .

2. Sei F = M k,n ( R ). Dann bilden die Matrizen E νµ , die aus einer 1 an der Stelle (ν, µ) und lauter Nullen sonst bestehen, eine Basis von F . Eine Abbildung f : B → M k,n ( R ) hat dann die Gestalt

f (x) = X

ν,µ

f νµ (x) · E νµ =

f 11 (x) · · · f 1n (x) .. . .. . f k1 (x) · · · f kn (x)

 .

Analog zu der Situation bei den linearen Abbildungen gilt hier: f ist genau dann stetig, wenn die Abbildung x 7→ v · f (x) t f¨ ur jeden Vektor v stetig ist.

1.1 Satz. Sei B ⊂ R n offen, x 0 ∈ B und f : B → R m eine Abbildung. Dann sind die folgenden Aussagen ¨ aquivalent:

1. Es gibt eine lineare Abbildung L : R n → R k , so daß gilt:

x→x lim

0

f(x) − f(x 0 ) − L(x − x 0 ) kx − x 0 k = 0 .

2. Es gibt eine lineare Abbildung L : R n → R k und eine Abbildung ϕ : B → R k , so daß gilt:

(a) f(x) = f (x 0 ) + L(x − x 0 ) + ϕ(x).

1 Wir kennen solche Abbildungen f schon in der Gestalt Pfaffscher Formen f = f 1 dx 1 + · · · +

f n dx n .

(6)

1 Totale Differenzierbarkeit 55

(b) lim

x→x

0

ϕ(x)

kx − x 0 k = 0.

3. Es gibt eine in x 0 stetige Abbildung δ : B → L( R n , R k ) mit f (x) = f(x 0 ) + δ(x)(x − x 0 ) . 4. Es gibt eine in x 0 stetige Abbildung ∆ : B → M k,n ( R ) mit

f (x) = f (x 0 ) + (x − x 0 ) · ∆(x) t .

Beweis:

(1) = ⇒ (2): Setze ϕ(x) := f (x) − f (x 0 ) − L(x − x 0 ). Nach Voraussetzung folgt:

x→x lim

0

ϕ(x)

kx − x 0 k = 0 .

(2) = ⇒ (3): F¨ ur x ∈ B sei δ(x) : R n → R k definiert durch δ(x)(v) := L(v) + (x − x 0 ) • v

kx − x 0 k 2 · ϕ(x), . Offensichtlich ist δ(x) linear und

δ(x)(x − x 0 ) = L(x − x 0 ) + ϕ(x) = f (x) − f(x 0 ) . Sei F (h, v) := h • v

khk 2 · ϕ(x 0 + h). Mit Cauchy-Schwarz folgt, daß kF (h, v)k bei festem v f¨ ur h → 0 gegen Null konvergiert, also δ(x)(v) f¨ ur x → x 0 gegen L(v).

Das bedeutet, daß δ stetig in x 0 ist.

(3) = ⇒ (4): Sei ∆(x) ∈ M k,n ( R ) die Matrix mit mit δ(x)(v) = v · ∆(x) t . Dann ist (x − x 0 ) · ∆(x) t = L(x − x 0 ) + ϕ(x) = f (x) − f (x 0 ) ,

und ∆ ist stetig in x 0 .

(4) = ⇒ (1): Ist ∆ gegeben, so setzen wir L(v) := v · ∆(x 0 ) t . Dann ist f (x) − f (x 0 ) − L(x − x 0 ) = (x − x 0 ) · (∆(x) t − ∆(x 0 ) t ) . Also strebt

f (x) − f (x 0 ) − L(x − x 0 )

kx − x 0 k = x − x 0

kx − x 0 k · (∆(x) t − ∆(x 0 ) t )

gegen Null, f¨ ur x → x 0 .

(7)

Definition. Sei B ⊂ R n offen und f : B → R k eine Abbildung.

f heißt in x 0 ∈ B (total) differenzierbar, falls eine der ¨ aquivalenten Bedingungen des Satzes erf¨ ullt ist.

Die lineare Abbildung Df (x 0 ) := L = δ(x 0 ) : R n → R k nennt man die Ableitung von f in x 0 , die Matrix J f (x 0 ) := ∆(x 0 ) ∈ M k,n ( R ) die Funktionalmatrix oder Jacobi-Matrix von f in x 0

1.2 Satz. Ist f in x 0 differenzierbar, so ist die Ableitung in x 0 eindeutig be- stimmt, und J f (x 0 ) ist die Matrix, die zu Df(x 0 ) geh¨ ort.

Beweis: Gibt es zwei Darstellungen

f(x) = f (x 0 ) + δ 1 (x)(x − x 0 ) = f(x 0 ) + δ 2 (x)(x − x 0 ) mit in x 0 stetigen Abbildungen δ 1 , δ 2 : B → L( R n , R k ), so folgt:

1 − δ 2 )(x 0 + tv)(v) = 0 f¨ ur t 6= 0 und jedes v.

Wegen der Stetigkeit von δ 1 und δ 2 in x 0 erh¨ alt man dann δ 1 (x 0 ) = δ 2 (x 0 ). Die zweite Behauptung ist trivial.

1.3 Satz. Ist f in x 0 differenzierbar, so ist f dort auch stetig.

Beweis: Mit Eigenschaft (3) folgt die Behauptung sofort.

1.4 Satz. Ist f : B → R in x 0 differenzierbar, so ist f dort in Richtung jedes Vektors v differenzierbar, und es ist

Df (x 0 )(v) = D v f (x 0 ).

Ist f = (f 1 , . . . , f k ) : B → R k in x 0 differenzierbar, so ist Df (x 0 ) = (Df 1 (x 0 ), . . . , Df k (x 0 )).

Beweis: Im ersten Fall sei L := Df (x 0 ) ∈ Hom R ( R n , R ). Wir benutzen die Darstellung f (x) = f (x 0 ) + L(x − x 0 ) + ϕ(x). F¨ ur t 6= 0 ist dann

1

t (f(x 0 + tv) − f (x 0 )) = L(v) + ϕ(x 0 + tv) ktvk · kvk.

Die rechte Seite konvergiert f¨ ur t → 0 gegen L(v).

Ist f = (f 1 , . . . , f k ) in x 0 differenzierbar, so gibt es Abbildungen

(8)

1 Totale Differenzierbarkeit 57

δ 1 , . . . , δ k : B → L( R n , R ), die in x 0 stetig sind, so daß gilt:

(f 1 (x), . . . , f k (x)) = (f 1 (x 0 ), . . . , f k (x 0 )) + (δ 1 (x)(x − x 0 ), . . . , δ 1 (x)(x − x 0 )).

Daraus ergibt sich unmittelbar die Behauptung.

1.5 Folgerung. Ist f = (f 1 , . . . , f k ) : B → R k in x 0 differenzierbar, so ist

J f (x 0 ) =

∂f 1

∂x 1 (x 0 ) · · · ∂f 1

∂x n (x 0 )

.. . .. .

∂f k

∂x 1 (x 0 ) · · · ∂f k

∂x n (x 0 )

 .

Beweis: Die Matrix der linearen Abbildung Df (x 0 ) besitzt die Spalten J f (x 0 ) · e ν t = Df (x 0 )(e ν ) t = D e

ν

f(x 0 ) t = ((f 1 ) x

ν

(x 0 ), . . . , (f k ) x

ν

(x 0 )) t .

Wie man sieht, ist

J f (x 0 ) =

∇f 1 (x 0 ) .. .

∇f k (x 0 )

 .

1.6 Satz. Sei B ⊂ R n offen und f : B → R k in der N¨ ahe von x 0 ∈ B partiell differenzierbar. Sind alle partiellen Ableitungen von f in x 0 stetig, so ist f in x 0 (total) differenzierbar.

Beweis: Wir w¨ ahlen ε > 0 so, daß f auf U ε (x 0 ) ⊂ B partiell differenzierbar ist.

Zu jedem x ∈ U ε (x 0 ) konstruieren wir die Punktekette z 0 , z 1 , . . . , z n mit z 0 = x 0 und z i = z i−1 + (x i − x (0) i ) · e i , wie in Kapitel I, §2. Dann gibt es Punkte c i = c i (x) auf der Verbindungsstrecke von z i−1 nach z i , so daß gilt:

f(x) = f (x 0 ) +

n

X

i=1

∂f

∂x i

(c i ) · (x i − x (0) i ) . Wir setzen dann

∆(x) := ( ∂f

∂x 1 (c 1 ), . . . , ∂f

∂x n (c n )) .

Offensichtlich ist f (x) = f (x 0 ) + (x − x 0 ) · ∆(x) t , und wegen der Stetigkeit der

partiellen Ableitungen konvergiert ∆(x) f¨ ur x → x 0 gegen ∇f (x 0 ). Also ist f in

x 0 total differenzierbar.

(9)

1.7 Satz. Sind f, g : B → R k in x 0 differenzierbar und r, s ∈ R , so ist auch r · f + s · g in x 0 differenzierbar, und es gilt:

D(r · f + s · g)(x 0 ) = r · Df (x 0 ) + s · Dg(x 0 ).

Beweis: Trivial!

Beispiele.

1. Sei f(x) ≡ c konstant. Wir k¨ onnen δ = 0 setzen und erhalten: f ist ¨ uberall differenzierbar, und Df (x) = 0 f¨ ur alle x.

2. Sei f : R n → R k linear. Dann ist f (x) − f (x 0 ) = f (x − x 0 ), und wir k¨ onnen δ(x) ≡ f setzen. So erhalten wir Df(x 0 ) = f .

3. Sei A ∈ M n,n ( R ) eine symmetrische Matrix und f : R n → R definiert durch f(x) := x · A · x t . Dann ist x · A · y t = y · A · x t , und es gilt:

f (x) − f(x 0 ) = x · A · x t − x 0 · A · x 0 t

= x 0 · A · (x − x 0 ) t + (x − x 0 ) · A · x 0 t

= + (x − x 0 ) · A · (x − x 0 ) t

= 2 · (x − x 0 ) · A · x 0 t + (x − x 0 ) · A · (x − x 0 ) t

= (x − x 0 ) · (2 · x 0 · A + (x − x 0 ) · A) t .

Also setzen wir ∆(x) := 2 · x 0 · A + (x − x 0 ) · A = (x + x 0 ) · A. Dann ist f(x) = f (x 0 ) + (x − x 0 ) · ∆(x) t

und

x→x lim

0

∆(x) = 2 · x 0 · A .

Also ist f in jedem Punkt x 0 differenzierbar, und Df(x 0 )(v) = 2 · v · A · x 0 t . In Koordinaten sieht die Situation folgendermaßen aus:

f (x 1 , . . . , x n ) = X

i,j

a ij x i x j und ∂f

∂x ν (x 0 ) = 2 ·

n

X

j=1

a νj x (0) j .

1.8 Satz (Kettenregel). Sei B ⊂ R n offen, f : B → R k in x 0 ∈ B differen- zierbar, G ⊂ R k offen, f (B) ⊂ G und g : G → R m in f(x 0 ) differenzierbar.

Dann ist auch g ◦ f : B → R m in x 0 differenzierbar, und

D(g ◦ f)(x 0 ) = Dg(f (x 0 )) ◦ Df(x 0 ) .

(10)

1 Totale Differenzierbarkeit 59

Beweis: Sei y 0 := f(x 0 ). Wir haben Darstellungen

f(x) = f (x 0 ) + (x − x 0 ) · ∆(x) t und g(y) = g(y 0 ) + (y − y 0 ) · ∆ (y), wobei ∆ in x 0 und ∆ in y 0 stetig ist. Dann folgt:

g ◦ f (x) − g ◦ f (x 0 ) = (f(x) − f (x 0 )) · ∆ (f(x)) t

= (x − x 0 ) · ∆(x) t · ∆ (f(x)) t

= (x − x 0 ) · (∆ (f (x)) · ∆(x)) t . Also ist g ◦ f in x 0 differenzierbar, und

D(g ◦ f)(x 0 )(v) = v · (∆ (f(x 0 )) · ∆(x 0 )) t

= (v · ∆(x 0 )) t · ∆ (f (x 0 )) t

= Dg(f(x 0 ))(Dg(x 0 )(v)).

Bemerkung. Ist α : [a, b] → R n ein differenzierbarer Weg, so ist Dα(t 0 )(v) = v · α 0 (t 0 ) .

Ist f : B → R eine differenzierbare Funktion, so ist Df (x 0 )(v) = v · ∇f (x 0 ) t .

Liegt nun die Spur von α in B , so ist f ◦ α : [a, b] → R differenzierbar, und es gilt:

D(f ◦ α)(t 0 )(v) = Df (α(t 0 ))(Dα(t 0 )(v)) = v · α 0 (t 0 ) · ∇f (α(t 0 )) t .

Daraus folgt: (f ◦ α) 0 (t 0 ) = ∇f(α(t 0 )) • α 0 (t 0 ). Ist f sogar stetig differenzierbar, so ist das genau die spezielle Kettenregel.

Beispiel.

Sei Φ : R k × R k → R m eine bilineare Abbildung, also linear in beiden Argu- menten. Sei (x 0 , y 0 ) ∈ R k × R k . Dann ist

Φ(x, y) − Φ(x 0 , y 0 ) = Φ(x − x 0 , y) + Φ(x 0 , y − y 0 ).

Die Abbildung δ(x, y) : R k × R k → R m mit

δ(x, y)(v, w) := Φ(v, y) + Φ(x 0 , w)

ist linear, und sie ist sicherlich stetig in (x 0 , y 0 ). Daher ist Φ in (x 0 , y 0 )

differenzierbar, und

(11)

DΦ(x 0 , y 0 )(v, w) = Φ(v, y 0 ) + Φ(x 0 , w) .

Ist nun B ⊂ R n offen und sind f, g : B → R k zwei differenzierbare Abbildun- gen, so ist auch Φ ◦ (f, g) : B → R differenzierbar, und es gilt:

D(Φ ◦ (f, g))(x 0 )(v) = DΦ(f(x 0 ), g(x 0 )) ◦ D(f, g)(x 0 )(v)

= Φ(Df(x 0 )(v), g(x 0 )) + Φ(f (x 0 ), Dg(x 0 )(v)).

Das ist eine Verallgemeinerung der Produktregel. Haben f und g Werte in R , so ist

D(f · g)(x 0 ) = f(x 0 ) · Dg (x 0 ) + g(x 0 ) · Df (x 0 ) .

Ist E ein endlich-dimensionaler reeller Vektorraum, so kann E (etwa mit Hilfe einer Basis) mit einer Norm versehen werden. Damit wird E zu einem metrischen Raum, und die so gewonnene Topologie auf E ist unabh¨ angig von der Norm. Ist F ein weiterer endlich-dimensionaler Vektorraum, so ist jede lineare Abbildung von f : E → F stetig. Der Beweis funktioniert genauso wie bei linearen Abbildungen von R n nach R k . Da die Kugel B = {x ∈ E : kxk ≤ 1} kompakt ist, nimmt f auf B sein Maximum an.

Definition. Sei f : E → F eine lineare Abbildung zwischen endlich-dimensionalen Vektorr¨ aumen. Dann nennt man

kf k := sup

kxk≤1

kf (x)k die Norm von f .

Tats¨ achlich erf¨ ullt kfk alle Eigenschaften einer Norm und macht L(E, F ) zu einem normierten (endlich-dimensionalen) Vektorraum.

Bemerkung. Ist f : E → F linear und x ∈ E , so ist kf(x)k ≤ kf k · kxk. Im Falle x = 0 ist das klar, und im Falle x 6= 0 ist

kf (x)k

kxk = kf ( x

kxk )k ≤ kfk .

1.9 Satz. Ist f : R n → R die durch f (x) = x · a t gegebene Linearform, so ist kf k = kak.

Beweis: F¨ ur beliebiges x ∈ R n ist

|f (x)| = |a • x| ≤ kak · kxk .

Daraus folgt: kfk ≤ kak. Aber f¨ ur x := a/kak gilt: kxk = 1 und f(x) = kak 2 /kak = kak. Daher ist kf k = kak.

Ist A ∈ M k,n ( R ) eine Matrix und L A die zugeh¨ orige lineare Abbildung (mit

L A (x) := x · A t ), so setzt man kAk := kL A k.

(12)

1 Totale Differenzierbarkeit 61

1.10 Satz.

1. Es ist kA · Bk ≤ kAk · kBk.

2. Ist A = (a ij ), so ist kAk ≤ ( P

i,j a 2 ij ) 1/2 . Beweis: 1) Es ist

kL A·B (x)k = kL A (L B (x))k ≤ kAk · kL B (x)k ≤ kAk · kBk · kxk.

2) Bezeichnen wir mit z i (A) = (a i1 , . . . , a in ) die i-te Zeile von A, so ist z i (A) t die i-te Spalte von A t , also z i (A) = e i · A. Dann gilt:

kx · A t k 2 = k

n

X

i=1

(x · z i (A) t )e i k 2

=

n

X

i=1

(x · z i (A) t ) 2

n

X

i=1

kxk 2 · kz i (A)k 2

= kxk 2 ·

n

X

i=1 n

X

j=1

(a ij ) 2 .

1.11 Mittelwertsatz. Sei B ⊂ R n offen und f : B → R differenzierbar. Wenn mit den Punkten a, b ∈ B auch deren Verbindungsstrecke zu B geh¨ ort, so gibt es einen Punkt c auf dieser Verbindungsstrecke mit

f (b) − f(a) = Df (c)(b − a).

Beweis: Sei ϕ(t) := f ((1 − t)a + tb) f¨ ur 0 ≤ t ≤ 1. Dann ist ϕ(0) = f (a), ϕ(1) = f(b) und

ϕ 0 (t) = Df((1 − t)a + tb)(b − a) .

Nach dem Mittelwertsatz in einer Ver¨ anderlichen gibt es ein ξ ∈ (0, 1) mit ϕ(1) − ϕ(0) = ϕ 0 (ξ). Mit c := (1 − ξ)a + ξb folgt: f(b) − f(a) = Df(c)(b − a).

1.12 Folgerung (Schrankensatz). Sei B ⊂ R n offen und konvex, f : B → R differenzierbar und kDf (x)k ≤ C f¨ ur alle x ∈ B. Dann ist

|f (b) − f(a)| ≤ C · kb − ak f¨ ur alle a, b ∈ B.

(13)

Beweis: Es interessiert nur der Fall, daß a 6= b ist. Wegen der Konvexit¨ at von B liegt die Verbindungsstrecke von a und b ganz in B. Dann gibt es ein c auf der Verbindungsstrecke mit f (b) − f (a) = Df (c)(b − a), und es ist

|f(b) − f(a)| = |Df(c)(b − a)| ≤ kDf (c)k · kb − ak ≤ C · kb − ak.

1.13 Satz. Sei B ⊂ R n offen und zusammenh¨ angend, f : B → R differenzierbar.

Dann gilt:

Df(x) ≡ 0 ⇐⇒ f konstant auf B.

Beweis: Die eine Richtung (

” ⇐“ ) ist trivial.

F¨ ur die andere Richtung w¨ ahlen wir einen festen Punkt a ∈ B. Ist x 6= a ein beliebiger Punkt von B , so kann man x innerhalb von B durch einen Streckenzug mit a verbinden. Es gibt also Punkte z 0 = a, z 1 , . . . , z N = x in B , so daß die Verbindungsstrecke von z i−1 und z i ganz in B liegt. Auf dieser Verbindungsstrecke gibt es ein c i mit

f (z i ) − f (z i−1 ) = Df(c i )(z i − z i−1 ) = 0.

Dann ist auch f (x) − f (a) = 0. Das bedeutet, daß f konstant ist.

Ist E ein normierter R -Vektorraum (mit Norm N ) und (f n ) eine Folge von Ab- bildungen von einer offenen Menge B ⊂ R n nach E, so kann man wie ¨ ublich die Begriffe (gleichm¨ aßige) Konvergenz und Cauchyfolge erkl¨ aren.

1. (f n ) konvergiert gegen f : B → E, falls gilt:

∀ ε > 0 ∃ n 0 ∈ N , so daß f¨ ur n ≥ n 0 gilt: N (f n (x)−f (x)) < ε f¨ ur alle x ∈ B.

2. (f n ) ist eine Cauchyfolge, falls gilt:

∀ ε > 0 ∃ n 0 ∈ N , so daß f¨ ur n, m ≥ n 0 gilt: N (f n (x)−f m (x)) < ε f¨ ur x ∈ B.

1.14 Theorem. Sei B ⊂ R n offen und (f n ) eine Folge von differenzierbaren Abbildungen f n : B → R k , die punktweise gegen eine Abbildung f : B → R k konvergiert. Wenn die Folge der Ableitungen (Df n ) auf B gleichm¨ aßig gegen eine Abbildung g : B → L( R n , R k ) konvergiert, dann ist f differenzierbar und Df = g.

Beweis: Wir gehen so ¨ ahnlich wie bei dem Beweis des entsprechenden Satzes

in einer Ver¨ anderlichen vor. Sei x 0 ein fester Punkt von B und U = U r (x 0 ) eine

Kugelumgebung, deren Abschluß noch in B liegt. Setzen wir f nm := f n − f m , so

gilt f¨ ur x ∈ U :

(14)

1 Totale Differenzierbarkeit 63

kf nm (x) − f nm (x 0 )k ≤ kx − x 0 k · sup

U

kDf nm k. (∗) Nun sei ε > 0. Wir w¨ ahlen ein n 0 ∈ N , so daß

sup

U

kDf nm k < ε und sup

U

kDf n − gk < ε

f¨ ur n, m ≥ n 0 ist. Wegen der gleichm¨ aßigen Konvergenz von (f n ) gegen g auf B ist das m¨ oglich.

Lassen wir in (∗) m gegen Unendlich gehen, so erhalten wir:

k(f n (x) − f (x)) − (f n (x 0 ) − f(x 0 ))k ≤ kx − x 0 k · ε f¨ ur n ≥ n 0 .

Jetzt halten wir ein solches n fest. Da f n differenzierbar ist, gibt es ein δ > 0, so daß f¨ ur kx − x 0 k < δ gilt:

kf n (x) − f n (x 0 ) − Df n (x 0 )(x − x 0 )k ≤ kx − x 0 k · ε.

Dann folgt:

kf(x) − f(x 0 ) − g(x 0 )(x − x 0 )k ≤ k(f n (x) − f(x)) − (f n (x 0 ) − f(x 0 ))k + kf n (x) − f n (x 0 ) − Df n (x 0 )(x − x 0 )k + kDf n (x 0 )(x − x 0 ) − g(x 0 )(x − x 0 )k

≤ 3ε · kx − x 0 k.

Das bedeutet, daß f in x 0 differenzierbar und Df (x 0 ) = g(x 0 ) ist.

Bemerkung. Zum Schluß dieses Paragraphen kommen wir zur¨ uck zu dem Pro- blem, die Tangentialebene an den Graphen einer differenzierbaren Funktion zu finden.

Ist B ⊂ R n offen und f : B → R in x 0 differenzierbar, so soll T (x

0

,f(x

0

)) (G f ) diejenige affine Hyperebene im R n+1 sein, die den Graphen G f ¨ uber x 0 ber¨ uhrt.

Nach unseren ¨ Uberlegungen zu Anfang des Paragraphen ist das der Graph der affin-linearen Abbildung T f : R n → R , die gegeben ist durch

T f (x) := f(x 0 ) + Df (x 0 )(x − x 0 ).

Dann ist

T (x

0

,f(x

0

)) (G f ) = {(x, T f (x)) : x ∈ R n }

= {(x 0 + h, f(x 0 ) + Df (x 0 )(h)) : h ∈ R n }

= {(x, z) ∈ R n+1 : z − f(x 0 ) = Df (x 0 )(x − x 0 )}.

(15)

§ 2 H¨ ohere Ableitungen und Taylorformel

Definition. E 1 , E 2 , . . . , E q und F seien reelle Vektorr¨ aume. Eine Abbildung ϕ : E 1 × . . . × E q → F

heißt (q-fach) multilinear, wenn sie in jedem Argument linear ist, d.h. wenn gilt:

1. ϕ(v 1 , . . . , v i + v 0 i , . . . , v q ) = ϕ(v 1 , . . . , v i , . . . , v q ) + ϕ(v 1 , . . . , v 0 i , . . . , v q ).

2. ϕ(v 1 , . . . , c · v i , . . . , v q ) = c · ϕ(v 1 , . . . , v i , . . . , v q ) f¨ ur c ∈ R .

Den Vektorraum aller q-fach multilinearen Abbildungen von E 1 × . . . × E q nach F bezeichnen wir mit L q (E 1 , . . . , E q ; F ). Ist E 1 = . . . = E q =: E , so schreiben wir auch kurz L q (E; F ). Ist F = R , so sprechen wir von Multilinearformen.

Wir betrachten hier nur endlich-dimensionale (normierte) Vektorr¨ aume.

Beispiele.

1. Die

” Evaluationsabbildung“ ev : L(E, F ) × E → F mit ev(L, v) := L(v) ist bilinear.

2. Die Elemente von L 2 (E; R ) nennt man auch Bilinearformen auf E. Ist auf E sogar ein Skalarprodukt < . . . , . . . > gegeben, so definiert jede lineare Abbildung λ : E → E eine Bilinearform ϕ auf E durch

ϕ(x, y) :=< λ(x), y > .

Auf dem R n kann jede Bilinearform mit Hilfe einer Matrix beschrieben wer- den:

ϕ(v, w) = v · B · w t .

Die Eintr¨ age b ij in der Matrix B sind dann gegeben durch b ij = e i · B · e j t . Nun kommt eine begrifflich etwas schwierige, aber wichtige Betrachtung: Ist v ∈ R n fest, so wird durch w 7→ v · B · w t eine Linearform λ v auf dem R n definiert. Die Zuordnung λ : v 7→ λ v ist eine lineare Abbildung

λ : R n → L( R n , R ), also ein Element aus L( R n , L( R n , R )).

Ist umgekehrt ein λ ∈ L( R n , L( R n , R )) gegeben, so erh¨ alt man eine Bilinear- form ϕ λ : R n × R n → R , indem man definiert:

ϕ λ (v, w) := λ(v)(w).

Auch wenn E und F beliebige Vektorr¨ aume sind, wird durch diese Formel

ein Isomorphismus L(E, L(E, F )) → L 2 (E; F ) definiert.

(16)

2 H¨ ohere Ableitungen und Taylorformel 65

3. Was mit bilinearen Abbildungen funktioniert, das geht z.B. auch mit allge- meinen Multilinearformen. Ist E ein endlich-dimensionaler Vektorraum, so gibt es f¨ ur alle q ∈ N einen Isomorphismus

L(E, L(E, . . . , L(E, R ) . . .)) → L q (E; R ), mit λ 7→ ϕ λ und ϕ λ (v 1 , . . . , v q ) := λ(v 1 )(v 2 ) . . . (v q ).

Bemerkung. Jede multilineare Abbildung (zwischen endlich-dimensionalen Vek- torr¨ aumen) ist stetig.

Beweis: Wir betrachten nur den Fall einer bilinearen Abbildung ϕ : E 1 × E 2 → F . Zun¨ achst w¨ ahlen wir Basen {a 1 , . . . , a n } von E 1 und {b 1 , . . . , b m } von E 2 . Dann gilt f¨ ur v = P

i v i a i und w = P

j w j b j kϕ(v, w)k = k X

i,j

v i w j ϕ(a i , b j )k ≤ C · k(v 1 , . . . , v n )k · k(w 1 , . . . , w m )k · X

i,j

kϕ(a i , b j )k, mit einer geeigneten Konstanten C > 0. Daraus folgt die Stetigkeit im Nullpunkt.

Wegen ϕ(v, w) − ϕ(v 0 , w 0 ) = ϕ(v − v 0 , w) + ϕ(v 0 , w − w 0 ) ergibt sich daraus die Stetigkeit in allen anderen Punkten.

Definition. E und F seien endlich-dimensionale Vektorr¨ aume, und B ⊂ E sei eine offene Teilmenge. Eine Abbildung f : B → F heißt in einem Punkt x 0 ∈ B differenzierbar, wenn es eine Abbildung δ : B → L(E, F ) gibt, so daß gilt:

1. f(x) = f(x 0 ) + δ(x)(x − x 0 ) f¨ ur x ∈ B.

2. δ ist stetig in x 0 .

Die lineare Abbildung Df (x 0 ) := δ(x 0 ) ∈ L(E, F ) heißt dann die Ableitung von f in x 0 .

Wie im R n folgt aus der Differenzierbarkeit die Stetigkeit, es gilt die Linearit¨ at, die Produktregel und die Kettenregel. Eine Funktionalmatrix k¨ onnen wir allerdings nur in Abh¨ angigkeit von Basen definieren.

Sei nun B ⊂ E offen, f : B → F eine Abbildung und {z 1 , . . . , z m } eine Basis von F , so daß man f in der Form

f(x) =

m

X

ν=1

f ν (x) · z ν

schreiben kann, mit skalaren Funktionen f ν : B → R . Die Abbildung f ist genau dann in x 0 differenzierbar, wenn alle f ν in x 0 differenzierbar sind, und es gilt:

Df (x 0 ) = X

ν

Df ν (x 0 ) · z ν .

(17)

Wir versuchen jetzt herauszufinden, was unter der zweiten Ableitung einer Funktion zu verstehen ist.

Sei B ⊂ R n offen und f : B → R uberall differenzierbar. Dann ist ¨ Df : B → L( R n , R ) definiert. Wir k¨ onnen Df in der Form Df = P

ν g ν ε ν schreiben, mit gewissen Funktionen g ν : B → R . Nun gilt:

D j f(x) = Df (x)(e j ) =

n

X

ν=1

g ν (x)ε ν (e j ) =

n

X

ν=1

g ν (x)ε ν (e j ) = g j (x).

Daher k¨ onnen wir schreiben:

Df =

n

X

j=1

(D j f ) · ε j . 2

Nun nehmen wir an, daß Df in x 0 ∈ B ein weiteres Mal differenzierbar ist. Dann ist

D(Df)(x 0 ) =

n

X

j=1

D(D j f )(x 0 ) · ε j ∈ L( R n , L( R n , R )).

Daraus folgt

D(Df )(x 0 )(v) =

n

X

j=1

D(D j f )(x 0 )(v) · ε j , mit

D(D j f)(x 0 )(v) = X

i

D i (D j f )(x 0 ) · ε i

(v) = X

i

D i (D j f )(x 0 ) · v i . So erhalten wir schließlich

D 2 f (x 0 )(v, w) := D(Df )(x 0 )(v)(w) =

n

X

j=1 n

X

i=1

D i (D j f)(x 0 )v i w j .

Die Bilinearform D 2 f(x 0 ) : R n × R n → R nennt man die zweite Ableitung von f in x 0 . Voraussetzung f¨ ur ihre Existenz ist die Differenzierbarkeit von f in der N¨ ahe von x 0 und die Differenzierbarkeit von Df im Punkt x 0 .

Existiert D 2 f in einer ganzen Umgebung U von x 0 und ist D 2 f : U → L 2 ( R n ; R ) wiederum in x 0 differenzierbar, so nennt man D 3 f(x 0 ) ∈ L 3 ( R n ; R ) mit

D 3 f(x 0 )(u, v, w) := D(D 2 f)(x 0 )(u)(v, w)

die dritte Ableitung von f in x 0 , und so geht es weiter. Wir werden hier aber ab der Ordnung 3 nur noch mit partiellen Ableitungen arbeiten.

2 Im Grunde ist das nur eine andere Schreibweise f¨ ur die Gleichung df =

n

X

j=1

f x

j

dx j .

(18)

2 H¨ ohere Ableitungen und Taylorformel 67

Definition. Sei f in x 0 ∈ R n zweimal differenzierbar. Dann heißt die Matrix H f (x 0 ) :=

2 f

∂x i ∂x j (x 0 )

i, j = 1, . . . , n

die Hesse–Matrix von f in x 0 .

2.1 Satz. Ist f in x 0 ∈ R n zweimal differenzierbar, so ist die Hesse–Matrix H f (x 0 ) symmetrisch.

Beweis: Sind die zweiten partiellen Ableitungen von f in x 0 sogar stetig, so folgt die Symmetrie der Hesse–Matrix aus dem Satz von Schwarz. Wird die Stetigkeit der 2. Ableitungen nicht vorausgesetzt, so ist ein etwas subtilerer Beweis notwendig, auf den wir hier jedoch verzichten wollen.

Bemerkung. Im Falle n = 2 ist H f (x, y) =

f xx (x, y) f xy (x, y) f yx (x, y) f yy (x, y)

.

Die zweite Ableitung l¨ aßt sich nun auch folgendermaßen beschreiben:

D 2 f(x 0 )(v, w) = v · H f (x 0 ) · w t .

2.2 Folgerung. Die zweite Ableitung ist eine symmetrische Bilinearform:

D 2 f (x 0 )(v, w) = D 2 f (x 0 )(w, v).

Als n¨ achstes wollen wir eine Taylorformel f¨ ur Funktionen von mehreren Ver¨ ander- lichen herleiten. Wie versprochen, wollen wir dabei aber nur mit partiellen Ablei- tungen arbeiten.

Sei f in der N¨ ahe von x 0 ∈ R n gen¨ ugend oft differenzierbar. Wir betrachten den Weg α(t) := x 0 + th, mit h := x − x 0 , und untersuchen die Funktion

g(t) := f ◦ α(t) = f(x 0 + th).

Auf jeden Fall ist

g 0 (t) = Df (x 0 + th)(h) = h • ∇f (x 0 + th).

Wir wollen die h¨ oheren Ableitungen von g berechnen.

(19)

Sei P der Differentialoperator

P = h • ∇ = h 1

∂x 1 + · · · + h n

∂x n . Dann ist (P f ) ◦ α = (f ◦ α) 0 , und per Induktion folgt:

(P k f ) ◦ α = (f ◦ α) (k) . Der Induktionsschritt sieht dabei folgendermaßen aus:

(P k+1 f) ◦ α = P (P k f ) ◦ α = ((P k f ) ◦ α) 0

= ((f ◦ α) (k) ) 0 = (f ◦ α) (k+1) .

Um g (k) (t) = (h • ∇) k f(x 0 + th) zu berechnen, brauchen wir einen Satz ¨ uber Polynome.

2.3 Satz.

(x 1 + · · · + x n ) k = X

α

1

+···+α

n

=k

k!

α 1 ! · · · α n ! x α 1

1

· · · x α n

n

. Beweis: (Induktion nach n)

Der Induktionsanfang ist trivial. Zum Induktionsschluß:

(x 1 + · · · + x n+1 ) k = ((x 1 + · · · + x n ) + x n+1 ) k

= X

m+α

n+1

=k

k!

m!α n+1 ! (x 1 + · · · + x n ) m x α n+1

n+1

= X

m+α

n+1

=k

k!

m!α n+1 !

X

α

1

+···+α

n

=m

m!

α 1 ! · · · α n ! x α 1

1

· · · x α n

n

· x α n+1

n+1

= X

α

1

+···+α

n

=k

k!

α 1 ! · · · α n ! x α 1

1

· · · x α n

n

.

Da die h i Konstanten und die partiellen Ableitungen vertauschbar sind, kann man (h • ∇) k genauso wie den Ausdruck (x 1 + · · · + x n ) k berechnen. Es folgt:

g (k) (t) = (h • ∇) k f (x 0 + th) = k! X

|α|=k

1

α! D α f (x 0 + th) · h α .

Dabei ist α! := α 1 ! · · · α n !, |α| := α 1 + · · · + α n und D α f := D α 1

1

D 2 α

2

· · · D n α

n

f , sowie h α := h α 1

1

· · · h α n

n

f¨ ur einen Vektor h = (h 1 , . . . , h n ).

Ist f k-mal differenzierbar, so nennt man T k f (x; x 0 ) := X

|α|≤k

1

α! D α f (x 0 )(x − x 0 ) α

(20)

2 H¨ ohere Ableitungen und Taylorformel 69

das k-te Taylorpolynom von f in x 0 .

2.4 Satz (Taylorentwicklung). Sei B ⊂ R n eine offene Menge, die sternf¨ ormig bez¨ uglich x 0 ∈ B ist, und f : B → R eine k-mal stetig differenzierbare Funktion.

Dann gibt es eine Darstellung f = T k f + R k , wobei gilt:

1. lim

x→x

0

R k (x)

kx − x 0 k k = 0.

2. Ist f sogar (k +1)-mal differenzierbar, so gibt es zu jedem x ∈ B ein ξ ∈ [0, 1], so daß gilt:

R k (x) = X

|α|=k+1

1

α! D α (x 0 + ξ(x − x 0 ))(x − x 0 ) α .

Beweis: Wir betrachten zun¨ achst den Fall, daß f sogar (k + 1)-mal differenzier- bar ist. Sei α(t) := x 0 + t(x − x 0 ). Dann ist auch g(t) := f ◦ α(t) (k + 1)-mal diffe- renzierbar. Die Taylorformel in einer Ver¨ anderlichen liefert zu jedem t ein ξ = ξ(t) zwischen 0 und t, so daß gilt:

g(t) =

k

X

i=0

g (i) (0)

i! t i + 1

(k + 1)! g (k+1) (ξ)t k+1 . Setzen wir t = 1, so erhalten wir

f (x) = X

|α|≤k

1

α! D α f(x 0 )(x − x 0 ) α + X

|α|=k+1

1

α! D α f (x 0 + ξ(x − x 0 ))(x − x 0 ) α . Ist f nur k-mal stetig differenzierbar, so setzen wir h := x − x 0 und erhalten

f(x) = T k−1 f (x; x 0 ) + X

|α|=k

1

α! D α f (x 0 + ξh)h α

= T k f (x; x 0 ) + X

|α|=k

1

α! D α f (x 0 + ξh) − D α f (x 0 ) h α .

Setzen wir ϕ α (h) := 1

α! D α f(x 0 + ξh) − D α f(x 0 )

, so erhalten wir f(x) = T k f (x; x 0 ) + X

|α|=k

ϕ α (h)h α . F¨ ur |α| = k ist

|h α |

khk k = |h 1 | α

1

· · · |h n | α

n

khk α

1

· · · khk α

n

≤ 1 .

Daraus folgt:

(21)

| X

|α|=k

ϕ α (h)h α |/khk k ≤ X

|α|=k

α (h)| → 0 f¨ ur h → 0, wegen der Stetigkeit von D α f in x 0 .

Wie in der Theorie von einer Ver¨ anderlichen sei C k (B) die Menge aller k-mal stetig differenzierbaren Funktionen auf B . Dabei ist auch k = ∞ zugelassen.

Definition. Sei M ⊂ R n eine Teilmenge, f : M → R stetig, a ∈ M ein Punkt.

f hat in a auf M ein relatives (oder lokales) Maximum (bzw. ein relatives (oder lokales) Minimum), wenn es eine offene Umgebung U(a) ⊂ R n gibt, so daß

f (x) ≤ f(a) (bzw. f(x) ≥ f (a) )

f¨ ur alle x ∈ U ∩ M ist. In beiden F¨ allen spricht man von einem relativen (oder lokalen) Extremum.

Gilt die Ungleichung sogar f¨ ur alle x ∈ M , so spricht man von einem absoluten (oder globalen) Maximum oder Minimum.

2.5 Satz. Sei B ⊂ R n offen und f : B → R in a ∈ B differenzierbar.

Besitzt f in a ein relatives Extremum, so ist ∇f (a) = 0.

Beweis: F¨ ur i = 1, . . . , n besitzt auch g i (t) := f (a + te i ) in t = 0 ein lokales Extremum. Nach dem notwendigen Kriterium aus der Differentialrechnung einer Ver¨ anderlichen muß dann (g i ) 0 (0) = 0 sein. Es ist aber

(g i ) 0 (0) = ∂f

∂x i (a), f¨ ur i = 1, . . . , n.

Daraus folgt die Behauptung.

Definition. Ist f in a differenzierbar und ∇f (a) = 0, so heißt a ein station¨ arer (oder kritischer) Punkt von f .

Ein station¨ arer Punkt a von f heißt Sattelpunkt von f , falls es in jeder Umgebung U (a) Punkte b und c gibt, so daß f (b) < f (a) < f (c) ist.

Wir formulieren die Taylorsche Formel in einem speziellen Fall:

2.6 Satz (Taylorformel 2.Ordnung). Sei a ∈ R n , B = B r (a) eine offene Kugel um a, f : B → R zweimal stetig differenzierbar. Dann gibt es eine auf B r (0) definierte Funktion R, so daß gilt:

f (a + h) = f(a) + ∇f (a) · h t + 1

2 h · H f (a) · h t + R(h)

und

(22)

2 H¨ ohere Ableitungen und Taylorformel 71

h→0 lim R(h) khk 2 = 0 . Beweis: F¨ ur |α| = 2 gibt es die M¨ oglichkeiten

1 , . . . , α n ) = (2, 0, 0, . . . , 0), (α 1 , . . . , α n ) = (1, 1, 0, . . . , 0),

.. .

(α 1 , . . . , α n ) = (1, 0, . . . , 0, 1), (α 1 , . . . , α n ) = (0, 2, 0, . . . , 0),

.. .

1 , . . . , α n ) = (0, 0, . . . , 0, 2).

Daher ist X

|α|=2

1

α! D α f(a) · h α = 1 2

n

X

i=1

f x

i

x

i

(a)h 2 i + X

i<j

f x

i

x

j

(a)h i h j = 1 2

X

i,j

f x

i

x

j

(a)h i h j .

Ist nun f in a station¨ ar, also

f(a + h) − f(a) = 1

2 h · H f (a) · h t + R(h),

so h¨ angt das Verhalten von f in der N¨ ahe von a im Wesentlichen von der Hesse- Matrix ab, denn R(h) verschwindet ja in a von h¨ oherer Ordnung. Das f¨ uhrt uns zu einem ¨ ahnlichen hinreichenden Kriterium f¨ ur Extremwerte, wie wir es aus der eindimensionalen Theorie kennen. Allerdings ist die Lage hier doch etwas kompli- zierter.

Ist A ∈ M n,n ( R ) eine symmetrische Matrix, so nennt man die Funktion q(h) := h · A · h t

eine quadratische Form. Es ist q(th) = t 2 · q(h) f¨ ur t ∈ R und h ∈ R n . Insbesondere ist nat¨ urlich q(0) = 0.

Definition. Eine quadratische Form q(h) heißt

positiv semidefinit : ⇐⇒ q(h) ≥ 0 f¨ ur alle h, positiv definit : ⇐⇒ q(h) > 0 f¨ ur alle h 6= 0, negativ semidefinit : ⇐⇒ q(h) ≤ 0 f¨ ur alle h,

negativ definit : ⇐⇒ q(h) < 0 f¨ ur alle h 6= 0,

indefinit : ⇐⇒ ∃ h 1 , h 2 mit q(h 1 ) < 0 < q(h 2 ).

In der Linearen Algebra wird gezeigt:

(23)

Ist A ∈ M n,n ( R ) eine symmetrische Matrix, so gibt es eine orthogonale Ma- trix S ∈ GL(n, R ), so daß S −1 · A · S eine Diagonalmatrix ist. Die Eintr¨ age in der Diagonalmatrix sind die Eigenwerte von A. (Satz von der Hauptach- sentransformation).

Daß S orthogonal ist, bedeutet, daß S t S = E n , also S −1 = S t ist. Setzen wir v := h · S, so ist

q A (h) := h · A · h t = (v · S t ) · A · (v · S t ) t

= v · (S −1 · A · S) · v t

= v ·

λ 1 · · · 0 .. . . .. .. . 0 · · · λ n

 · v t

=

n

X

i=1

λ i (v i ) 2 , wobei λ 1 , . . . , λ n die Eigenwerte von A sind. Also folgt:

q A positiv definit ⇐⇒ h · A · h t > 0 f¨ ur alle h 6= 0

⇐⇒

n

X

i=1

λ i (v i ) 2 > 0 f¨ ur alle v 6= 0

⇐⇒ λ 1 , . . . , λ n > 0.

Genauso ist q A negativ definit, wenn alle Eigenwerte von A negativ sind. Und q A ist positiv semidefinit (bzw. negativ semidefinit), wenn alle Eigenwerte von A ≥ 0 (bzw. ≤ 0 ) sind. Gibt es wenigstens einen negativen und einen positiven Eigenwert, so ist q A indefinit.

Im Falle n = 2 gibt es noch ein einfacheres Kriterium:

2.7 Satz.

Sei A =

a b

b d

∈ M 2,2 ( R ) eine symmetrische Matrix. Dann ist q A (h 1 , h 2 ) = ah 2 1 + 2bh 1 h 2 + dh 2 2 ,

und es gilt:

1. Ist det(A) < 0, so ist q A indefinit.

2. Ist det(A) > 0 und a > 0, so ist q A positiv definit.

3. Ist det(A) > 0 und a < 0, so ist q A negativ definit.

Beweis: Sei ∆ := det(A) = ad − b 2 . Zur Berechnung der Eigenwerte brauchen

wir noch das charakteristische Polynom:

(24)

2 H¨ ohere Ableitungen und Taylorformel 73

p A (x) = det

a − x b

b d − x

= (a − x)(d − x) − b 2 = x 2 − (a + d)x + ∆.

Die Eigenwerte λ 1 , λ 2 von A sind die beiden Nullstellen dieses quadratischen Poly- noms. Nach dem Satz von Vieta ist

λ 1 + λ 2 = a + d und λ 1 · λ 2 = ∆.

Ist ∆ < 0, so haben die beiden Eigenwerte verschiedenes Vorzeichen, und q A ist indefinit. Ist ∆ > 0, so sind λ 1 und λ 2 beide 6= 0, und sie haben das gleiche Vorzeichen. Außerdem ist ad = ∆ + b 2 > 0. Ist nun a > 0, so ist auch d > 0 und damit λ 1 + λ 2 > 0. In diesem Fall ist q A positiv definit. Genauso folgt aus a < 0, daß q A negativ definit ist.

Nun ergibt sich:

2.8 Satz (Hinreichendes Kriterium f¨ ur Extremwerte).

Sei B ⊂ R n offen, f ∈ C 2 (B). Weiter sei a ∈ B ein station¨ arer Punkt von f , also

∇f (a) = 0.

1. Ist H f (a) positiv definit, so besitzt f in a ein relatives Minimum.

2. Ist H f (a) negativ definit, so besitzt f in a ein relatives Maximum.

3. Ist H f (a) indefinit, so liegt in a ein Sattelpunkt vor.

Beweis:

1) Sei q(h) := h · H f (a) · h t . Da f in a station¨ ar ist, ergibt die Taylorformel:

f (a + h) − f (a) = 1

2 q(h) + R(h).

Die Funktion q ist stetig und nach Voraussetzung > 0 außerhalb des Nullpunk- tes. Insbesondere nimmt sie auf der abgeschlossenen und beschr¨ ankten und daher kompakten Menge

S n−1 := {x ∈ R n : kxk = 1}

ein Minimum m > 0 an. Daher gilt f¨ ur beliebiges h ∈ R n : q(h) = khk 2 · q( h

khk ) ≥ m · khk 2 .

Ist jetzt ein ε mit 0 < ε < m 2 vorgegeben und dazu ein r = r(ε) so gew¨ ahlt, daß

|R(h)| ≤ ε · khk 2 f¨ ur h ∈ B r (0)

ist, so folgt f¨ ur alle h ∈ B r (0) :

(25)

f (a + h) − f(a) = 1

2 q(h) + R(h)

≥ ( m

2 − ε) · khk 2 ≥ 0

Also ist f (a + h) ≥ f (a) f¨ ur kleines h, und es liegt ein relatives Minimum in a vor.

2) Der Fall des Maximums kann durch ¨ Ubergang von f zu −f auf (1) zur¨ uckgef¨ uhrt werden.

3) Ist q indefinit, so gibt es in jeder Umgebung von 0 Vektoren h 1 und h 2 mit q(h 1 ) < 0 < q(h 2 ). Die Funktionen

f 1 (t) := f(a + th 1 ) und f 2 (t) := f(a + th 2 )

sind dann nahe t = 0 definiert und zweimal differenzierbar, und es gilt:

(f 1 ) 0 (0) = (f 2 ) 0 (0) = 0, (f 1 ) 00 (0) = q(h 1 ) < 0 und (f 2 ) 00 (0) = q(h 2 ) > 0.

Also besitzt f 1 in t = 0 ein isoliertes Maximum und f 2 in t = 0 ein isoliertes Minimum. Das bedeutet, daß f beliebig nahe bei a sowohl Werte < f (a) als auch Werte > f (a) annimmt. Damit liegt ein Sattelpunkt vor.

Bemerkung. Ist H f (a) nur semidefinit, so kann man keine genaue Aussage machen!

Beispiele.

1. Sei f (x, y) := x 2 + y 2 . Dann ist ∇f(x, y) = (2x, 2y), also (0, 0) der einzige station¨ are Punkt von f . Da f (0, 0) = 0 und allgemein f (x, y) ≥ 0 ist, liegt ein absolutes Minimum vor. Tats¨ achlich ist

H f (x, y) =

2 0

0 2

.

Da det H f (x, y) = 4 > 0 ist, ist die Matrix positiv definit. Das hinreichende Kriterium sagt also auch, daß f im Nullpunkt ein lokales Minimum besitzt.

2. Sei f(x, y) := 1 − x 2 − y 2 . Dann ist ∇f (x, y) = (−2x, −2y) und H f (x, y) = −2 0

0 −2

negativ definit. Hier liegt im Nullpunkt ein Maximum vor.

3. Sei f (x, y) := x 2 − y 2 . Nun ist ∇f(x, y) = (2x, −2y) und H f (x, y) = 2 0

0 −2

. Da det H f (x, y) < 0 ist, hat f in 0 einen Sattelpunkt.

4. Sei f (x, y) := e xy + x 2 + 1 9 y 2 .

Dann ist ∇f(x, y) = (ye xy + 2x, xe xy + 2 9 y). F¨ ur die Hesse-Matrix ergibt sich:

(26)

2 H¨ ohere Ableitungen und Taylorformel 75

H f (x, y) =

2 + y 2 e xy (1 + xy)e xy (1 + xy)e xy 2/9 + x 2 e xy

.

Der Nullpunkt ist sicher ein station¨ arer Punkt. Ist (x, y ) irgendein anderer station¨ arer Punkt, so muß gelten:

xye xy = −2x 2 und xye xy = − 2 9 y 2 , also x = ± 1 3 y.

W¨ are x = 1 3 y, so w¨ are 0 = f y (x, y) = y 3 (e xy + 2 3 ), also y = 0 (und damit auch x = 0 ) oder e xy = − 2 3 , was nicht m¨ oglich ist. So bleibt nur die Gleichung x = − 1 3 y. Wegen der Bedingung 0 = f x (x, y) = y(e xy2 3 ) muß dann e xy = 2 3 sein, also e −y

2

/3 = 2 3 .

Das f¨ uhrt auf die Gleichung y 2 = −3 ln( 2 3 ). Setzen wir p :=

q

−3 ln( 2 3 ) (der Radikand ist positiv, weil ln( 2 3 ) < 0 ist!), so sind die Punkte

x 1,2 := ±(− 1 3 p, p)

weitere Kandidaten f¨ ur station¨ are Punkte, und mehr kann es nicht geben.

Nun gilt:

f (0) = 1

und f(x 1,2 ) = e −p

2

/3 + 2 9 p 2

= 2

3 · (1 − ln( 2 3 )).

Daß ∇f(0) = (0, 0) ist, ist klar. Ist (x, y) einer der beiden Punkte x 1 oder x 2 , so ist xy = − p 3

2

= ln( 2 3 ), also

∇f(x, y) = ( 2

3 y + 2x, 2 3 x + 2

9 y) = ±( 2 3 p − 2

3 p, − 2 9 p + 2

9 p) = (0, 0).

Da H f (0, 0) =

2 1 1 2/9

ist, also det H f (0, 0) = 4 9 − 1 < 0, liegt im Nullpunkt ein Sattelpunkt vor! Und da f (x, y) > 1 9 (x 2 + y 2 ) ist, gilt f¨ ur k(x, y)k ≥ 3, daß f (x, y) > 1 ist. Auf der kompakten Menge B 3 (0) muß f als stetige Funktion ein globales Minimum ≤ 1 annehmen, und das muß sogar in der offenen Kugel B 3 (0) liegen, weil f auf dem Rand der Kugel schon Werte

> 1 annimmt. In einem solchen Minimum muß f aber einen station¨ aren Punkt besitzen. Daf¨ ur kommen nur die beiden Punkten x 1 und x 2 in Frage, und weil f in diesen Punkten den gleichen Wert annimmt, k¨ onnen wir schließen:

f besitzt in x 1 und in x 2 jeweils ein (globales) Minimum.

(27)

§ 3 Der Umkehrsatz

Wir werden uns zun¨ achst mit invertierbaren Matrizen besch¨ aftigen.

3.1 Satz. Die Menge G := GL n ( R ) aller invertierbaren Matrizen ist offen in M n,n ( R ), und die Abbildung i : G → G mit i(A) := A −1 ist stetig.

Beweis: Versehen wir M n,n ( R ) ∼ = R n

2

mit der euklidischen Norm, so erhalten wir die selbe Topologie wie mit der Matrizen-Norm. Die Determinante ist als Po- lynomfunktion stetig, und G = {A ∈ M n,n ( R ) : det(A) 6= 0} ist daher offen.

Aus der Linearen Algebra weiß man: Ist A −1 = (y ij ), so ist y ij = (−1) i+j det S ji (A) · (det A) −1 ,

wobei S ji (A) die Streichungsmatrix ist, die aus A entsteht, indem man die j-te Zeile und die i-te Spalte streicht. Offensichtlich sind die y ij stetige Funktionen.

3.2 Satz. Die Abbildung i : A 7→ A −1 ist ¨ uberall in G = GL n ( R ) differenzierbar, und es gilt: Di(A 0 )(B ) := −A −1 0 · B · A −1 0 .

Beweis: Setzen wir M := M n,n ( R ), so k¨ onnen wir δ : G → L(M, M) definieren durch

δ(A)(B) := −A −1 · B · A −1 0 . Dann ist

i(A) − i(A 0 ) = A −1 − A −1 0 = A −1 · (A 0 − A) · A −1 0

= δ(A)(A − A 0 ).

Da δ in A 0 stetig ist, ist i in A 0 differenzierbar, und Di(A 0 )(B) = δ(A 0 )(B) =

−A −1 0 · B · A −1 0 .

3.3 Banachscher Fixpunktsatz. Sei X ein vollst¨ andiger metrischer Raum und f : X → X eine stetige Abbildung. Wenn es ein λ mit 0 < λ < 1 gibt, so daß

d(f (x), f (y)) ≤ λ · d(x, y) f¨ ur alle x, y ∈ X ist, so besitzt f einen

” Fixpunkt“, d.h. es gibt ein x ∈ X mit f (x ) = x . Dieser Fixpunkt ist eindeutig bestimmt.

Bemerkung. Man nennt die Abbildung f kontrahierend. Daß λ < 1 ist, ist entscheidend.

Beweis: Wir geben mit dem Beweis zugleich ein Konstruktionsverfahren an:

Sei x 0 ∈ X beliebig gew¨ ahlt. Die Punktfolge (x n ) sei induktiv durch

(28)

3 Der Umkehrsatz 77

x n+1 := f(x n )

definiert. Wir wollen zeigen, daß (x n ) gegen einen Fixpunkt konvergiert. Dazu sch¨ atzen wir ab:

d(x n , x n+1 ) = d(f (x n−1 ), f (x n ))

≤ λ · d(x n−1 , x n )

≤ · · ·

≤ λ n · d(x 0 , x 1 ).

Da 0 < λ < 1 ist, strebt der letzte Ausdruck gegen Null. Also kommen sich die Folgeglieder immer n¨ aher, die (x n ) bilden eine Cauchyfolge. Da X vollst¨ andig ist, konvergiert (x n ) gegen einen Punkt x ∈ X.

Weiter gilt:

d(f(x ), x ) ≤ d(f(x ), f(x n )) + d(f (x n ), x )

≤ λ · d(x , x n ) + d(x n+1 , x ),

und dieser Ausdruck wird beliebig klein. Das ist nur m¨ oglich, wenn f (x ) = x ist.

Zur Eindeutigkeit: Seien x und y zwei Fixpunkte. Ist x 6= y, so ist d(x, y) > 0 und daher

d(x, y) = d(f(x), f(y)) ≤ λ · d(x, y) < d(x, y).

Das kann aber nicht sein.

Definition. Sei B ⊂ R n offen und F : B → R n stetig differenzierbar. F heißt in x 0 ∈ B regul¨ ar, falls det J F (x 0 ) 6= 0 ist.

Bemerkung. Daß det J F (x 0 ) 6= 0 ist, hat zur Folge, daß J F (x 0 ) eine invertier- bare Matrix und DF (x 0 ) : R n → R n ein Isomorphismus ist. Also kann man die Umkehrabbildung (DF (x 0 )) −1 bilden.

3.4 Satz. Ist F in x 0 regul¨ ar, so gilt:

1. Es gibt eine offene Umgebung U = U (x 0 ) ⊂ B , so daß F | U injektiv ist.

2. y 0 = F (x 0 ) ist innerer Punkt von F (B).

3. Es gibt eine Konstante C > 0, so daß kx 1 − x 2 k ≤ C · kF (x 1 ) − F (x 2 )k f¨ ur x 1 , x 2 ∈ U ist.

Beweis: a) Zun¨ achst vereinfachen wir die Situation ein wenig.

Referenzen