Steilster Abstieg Die Methode des steilsten Abstiegs dient zur Minimierung multivariater Funktionen f (x

(1)

Steilster Abstieg

Die Methode des steilsten Abstiegs dient zur Minimierung multivariater Funktionen f(x1, . . . ,xn). Zur Durchf¨uhrung eines Iterationsschritts x→y wird zun¨achst der negative Gradient

d =−gradf(x)

als lokal beste Abstiegsrichtung berechnet. Dann bestimmt man y als eine Minimalstelle vonf in Richtung vond:

f(y) = min

t≥0f(x+td). Wie in der Abbildung illustriert, ist die Such- richtung orthogonal zu der Niveaumenge durch x und ber¨uhrt eine Niveaumenge zu einem klei- neren Funktionswert in y.

(2)

Die Konvergenz der durch die Methode des steilsten Abstiegs erzeugten Folge x0,x1, . . . kann unter sehr allgemeinen Voraussetzungen gezeigt werden. Hinreichend ist, dass f nach unten beschr¨ankt ist und gradf in einer Umgebung U der Menge {x :f(x)≤f(x₀)}Lipschitz-stetig ist, d.h.

kgradf(x)−gradf(˜x)k ≤Lkx−xk,˜ x,x˜∈U. Dann gilt

∞

X

`=0

kgradf(x_`)k² <∞;

insbesondere ist kgradf(x`)k eine Nullfolge. Dies impliziert, dass jeder H¨aufungspunktx∗ der Folge x0,x1, . . .ein kritischer Punkt von f ist, d.h.

gradf(x∗) = (0, . . . ,0)^t. Dass es sich um ein lokales Minimum handelt ist statistisch gesehen fast sicher, kann jedoch nicht zwingend gefolgert werden.

In dem Algorithmus braucht die eindimensionale Minimierung nur näherungsweise durchgeführt werden. Die Suchrichtungd muss nicht als der negative Gradient gewählt, und eine globale Minimalstelle y nicht

2 / 6

(3)

bestimmt werden. Entscheidend f¨ur die Konvergenz ist lediglich, dass in jedem Iterationsschritt eine Reduktion des Funktionswertes proportional zu kgradf(x)k² erreicht wird.

(4)

Beispiel

Steilster Abstieg f¨ur eine quadratische Funktion f(x) = 1

2x^tAx−b^tx mit einer symmetrischen positiv definiten Matrix A Iterationsschritt x →y=x+td mit

d =−gradf(x) =b−Ax und t der Minimalstelle der univariaten Funktion

f(x+td) = 1

2(x+td)^tA(x+td)−b^t(x+td)

= 1

2d^tAd t²+ (x^tAd−b^td)t+1

2(x^tAx −2b^tx)

4 / 6

(5)

Nullsetzen der Ableitung nach t Formel f¨ur den Halbgeradenparameter t

0 =d^tAd t−(b−Ax)^td =d^tAd t−d^td =⇒ t = d^td d^tAd , d.h. man erh¨alt einen expliziten Ausdruck f¨ury

unerw¨unschte Oszillationen bei Eigenwerten stark unterschiedlicher Gr¨oßenordnung vonA

(6)

konkretes Beispiel

A=

1 0 0 100

, b =

0 0

x = (c,1)^t

d =−(Ax −b) =− c

100

, Ad =−

c 10⁴

und

d^td =c²+ 10⁴, d^tAd =c²+ 10⁶, t = d^td

d^tAd = c²+ 10⁴ c²+ 10⁶ sowie

y =x+td = c

1

−c²+ 10⁴ c²+ 10⁶

c 100

= 99c² c²+ 10⁶

10⁴/c

−1

c = 100 Verbesserung um weniger als 1%:

y = 99 101

x₁

−x₂

6 / 6