Steilster Abstieg
Die Methode des steilsten Abstiegs dient zur Minimierung multivariater Funktionen f(x1, . . . ,xn). Zur Durchf¨uhrung eines Iterationsschritts x→y wird zun¨achst der negative Gradient
d =−gradf(x)
als lokal beste Abstiegsrichtung berechnet. Dann bestimmt man y als eine Minimalstelle vonf in Richtung vond:
f(y) = min
t≥0f(x+td). Wie in der Abbildung illustriert, ist die Such- richtung orthogonal zu der Niveaumenge durch x und ber¨uhrt eine Niveaumenge zu einem klei- neren Funktionswert in y.
Die Konvergenz der durch die Methode des steilsten Abstiegs erzeugten Folge x0,x1, . . . kann unter sehr allgemeinen Voraussetzungen gezeigt werden. Hinreichend ist, dass f nach unten beschr¨ankt ist und gradf in einer Umgebung U der Menge {x :f(x)≤f(x0)}Lipschitz-stetig ist, d.h.
kgradf(x)−gradf(˜x)k ≤Lkx−xk,˜ x,x˜∈U. Dann gilt
∞
X
`=0
kgradf(x`)k2 <∞;
insbesondere ist kgradf(x`)k eine Nullfolge. Dies impliziert, dass jeder H¨aufungspunktx∗ der Folge x0,x1, . . .ein kritischer Punkt von f ist, d.h.
gradf(x∗) = (0, . . . ,0)t. Dass es sich um ein lokales Minimum handelt ist statistisch gesehen fast sicher, kann jedoch nicht zwingend gefolgert werden.
In dem Algorithmus braucht die eindimensionale Minimierung nur n¨aherungsweise durchgef¨uhrt werden. Die Suchrichtungd muss nicht als der negative Gradient gew¨ahlt, und eine globale Minimalstelle y nicht
2 / 6
bestimmt werden. Entscheidend f¨ur die Konvergenz ist lediglich, dass in jedem Iterationsschritt eine Reduktion des Funktionswertes proportional zu kgradf(x)k2 erreicht wird.
Beispiel
Steilster Abstieg f¨ur eine quadratische Funktion f(x) = 1
2xtAx−btx mit einer symmetrischen positiv definiten Matrix A Iterationsschritt x →y=x+td mit
d =−gradf(x) =b−Ax und t der Minimalstelle der univariaten Funktion
f(x+td) = 1
2(x+td)tA(x+td)−bt(x+td)
= 1
2dtAd t2+ (xtAd−btd)t+1
2(xtAx −2btx)
4 / 6
Nullsetzen der Ableitung nach t Formel f¨ur den Halbgeradenparameter t
0 =dtAd t−(b−Ax)td =dtAd t−dtd =⇒ t = dtd dtAd , d.h. man erh¨alt einen expliziten Ausdruck f¨ury
unerw¨unschte Oszillationen bei Eigenwerten stark unterschiedlicher Gr¨oßenordnung vonA
konkretes Beispiel
A=
1 0 0 100
, b =
0 0
x = (c,1)t
d =−(Ax −b) =− c
100
, Ad =−
c 104
und
dtd =c2+ 104, dtAd =c2+ 106, t = dtd
dtAd = c2+ 104 c2+ 106 sowie
y =x+td = c
1
−c2+ 104 c2+ 106
c 100
= 99c2 c2+ 106
104/c
−1
c = 100 Verbesserung um weniger als 1%:
y = 99 101
x1
−x2
6 / 6