Mathematik f¨ur Informatiker III
Teil E
Grundlagen der Optimierung
Vorl¨aufige Gliederung
1.(Nicht)lineare Ausgleichsprobleme 2.Grundklassen von Optimierungsproblemen 3.Lineare Optimierungsprobleme (LP) mit Dualit¨at 4.Gemischte Programme mit Ganzzahligkeitsbedingung
5.Unbeschr¨ankte nichtlineare Optimierung (UP) per steilstem Abstieg 6.Anwendung von Newton’s Methode im konvexen Falle
7.Lokale Optimalit¨atsbedingungen im nichtlinearen restringierten Falle 8.Bedeutung der Lagrangemultiplikatoren
– 103–
Mathematik f¨ur Informatiker III
Literaturhinweise I
Walter Alt,
Nichtlineare Optimierung. 1. Auflage, 2002, Vieweg.
Sch¨one Kombination aus Theorie, Numerik und Anwendung ISBN: 3-528-03193-X
Jorge Nocedal, Stephen J. Wright,
Numerical Optimization. 1999, Springer-Verlag New York, Inc.
Ein Standardwerk.
ISBN: 0-387-98793-2
– 104–
Mathematik f¨ur Informatiker III Grundlagen der Optimierung
(Nicht)lineare Ausgleichsprobleme
(Nicht)lineare Ausgleichsprobleme
Wir betrachten zun¨achst ein System A x = b, A∈Rm×n
,b∈Rm
vonmlinearen Gleichungen inn≤mVariablen. Wennm>nnennt man das System¨uberbestimmt, da es weniger freie Variablenxif¨uri= 1. . .n gibt als Bedingungen, die an sie gestellt werden. Wennm=nspricht man vomwohlbestimmtenoderquadratischenFall. Diese Unterscheidung macht eigentlich nur dann Sinn, wenn man folgende Annahme macht.
Vollrang-Vorraussetzung
Die MatrixA∈Rm×nhat vollen Spaltenrangn= min(n,m), d.h. sie erf¨ullt die ¨aquivalenten Bedingungen, dass ihrenSpalten linear unabh¨angig sind und manm−nZeilen entfernen kann, so dass die verbleibende quadratische Matrix eine nichtverschwindende Determinante hat.
– 105–
Mathematik f¨ur Informatiker III Grundlagen der Optimierung
(Nicht)lineare Ausgleichsprobleme
Fehlerminimierung
Beobachtung
Im Fallem>n=rang(A) ist f¨ur fast alle rechten Seitenb∈Rmdas System von GleichungenAx=bnicht exakt erf¨ullbar.
Konsequenz
Man versucht deshalbxso zu w¨ahlen, dass alle Komponenten des Fehlervektors
F ≡A x−b= (Fi)i=1...m
so klein wie m¨oglich sind, d.h. man versucht einenAusgleichzwischen denmeigentlich als Gleichungen gedachten Bedingungen zu schaffen.
– 106–
Mathematik f¨ur Informatiker III Grundlagen der Optimierung
(Nicht)lineare Ausgleichsprobleme
Normwahl
Zur Messung der Gr¨oße vonFw¨ahlt man h¨aufig eine der Vektornormen aus AbschnittB.3
kFkp =kAx−bkp mit p∈ {1,2,∞}
Hier bedeutetkFk1die Summe der Komponentenbetr¨age|Fi|undkFk∞
ihr Maximum. Die Minimierung dieser beiden Normen f¨uhrt auf lineare Optimierungsaufgaben mit Ungleichungsnebenbedingungen.
Diese werden sp¨ater betrachtet und sind im allgemeinen schwerer zu l¨osen als das Gaußsche Problem der kleinsten Quadrate (engl.: least squares), das sich ergibt, wenn man die Euklidische NormkFk2minimiert.
– 107–
Mathematik f¨ur Informatiker III Grundlagen der Optimierung
(Nicht)lineare Ausgleichsprobleme
Satz E.1 (Kleinste - Quadrate - L¨osung)
F¨ur jedes lineare Gleichungssystem Ax=b mit A∈Rm×n, b∈Rmund rang(A) =n existiert ein eindeutiger Vektor x∗∈Rn, so dass
kAx∗−bk2= min
x∈RnkAx−bk2
Diese Ausgleichsl¨osung erf¨ullt das quadratische, regul¨are Gleichungssystem
A>A x∗ = A>b∈Rn, welches alsNormalengleichungssystembezeichnet wird.
Bemerkung
Wenn die Vollrangvorraussetzung verletzt ist, existiert eine unendliche Menge von Vektoren, die sowohl das Minimerungsproblem l¨osen als auch die entsprechende Normalengleichung erf¨ullen.
– 108–
Mathematik f¨ur Informatiker III Grundlagen der Optimierung
Allgemeine lineare Funktionenapproximation
Allgemeine lineare Funktionenapproximation
Betrachte ein System vonnvorgegebenen Ansatzfunktionen uj(x) : [a,b]→R f¨ur j= 1. . .n mit dem gemeinsamen Definitionsbereich [a,b].
Weiterhin betrachtem≥nunterschiedliche St¨utzstellenxi∈[a,b] und entsprechendeDaten yi∈Rf¨uri= 1, . . . ,m.
Gesucht sind nunnKoeffizientenzj, so dass die Linearkombination u(x)≡
Xn
j=1
zjuj(x)
die sog.mittlere Abweichung∆2m¨oglichst klein werden l¨asst:
∆2≡
"m X
i=1
(u(xi)−yi)2
#12 .
– 109–
Mathematik f¨ur Informatiker III Grundlagen der Optimierung
Allgemeine lineare Funktionenapproximation
L¨osung der Gaußschen Ausgleichsaufgabe
Aus den Vektorenaj= (uj(x1),uj(x2), . . . ,uj(xm))>
bilden wir die MatrixA= [a1, . . . ,an] und mit
y= (y1,y2, . . . ,ym)> und z= (z1,z2, . . . ,zn)>
ist zur L¨osung der Ausgleichsaufgabe das Funktional
kF(z)k2=kAz−yk2
zu minimieren.
Das heisst aber nichts anderes, als eine L¨osungz∗des (¨uberbestimmten) GleichungssystemsAz=ymit kleinsten Fehlerquadraten zu finden.
– 110–
Mathematik f¨ur Informatiker III Grundlagen der Optimierung
Allgemeine lineare Funktionenapproximation
Spezialfall: Gaußsche Ausgleichspolynome
W¨ahlt man als Ansatzfunktionenuj(x) =xj−1, so ergibt sich das Polynom
u(x) = Xn
j=1
zjxj−1
Die Vollrangbedingungrang(A) =nist f¨ur paarweise verschiedene St¨utzstellenxjerf¨ullt, da die erstennZeilen vonAdie folgende Vandermondsche Determinantehaben:
det
1 x1 . . . x1n−1
1 x2 . . . x2n−1
... ... ...
1 xn . . . xnn−1
= Yn
k=2 k−1
Y
j=1
(xk−xj)6= 0.
– 111–
Mathematik f¨ur Informatiker III Grundlagen der Optimierung
Allgemeine lineare Funktionenapproximation
Zur Berechnung der L¨osung mit kleinsten Fehler-Quadraten muß die NormalgleichungA>A z=A>ygel¨ost werden.
Lemma E.2
Die Normalenmatrix A>A∈ Rn×nist symmetrisch und positiv semi-definit.
Unter der Vollrangvorraussetzung ist A>A sogar positiv definit.
Bemerkung:
Wegen der positiven Definitheit der MatrixA>Akann man das Normal- gleichungssystem mit dem sogenanntenCholesky- Verfahren l¨osen.
Dieses ist eine pivotierungsfreie Version des Gaußschen Verfahrens, das die Symmetrie der Matrix ausnutzt und dadurch den
Berechnungsaufwand halbiert aufn3/6 Multiplikationen gefolgt von Additionen/Subtraktionen.
Allerdings kostet die Berechnung vonATAausAbereitsm n2 Operationen, was durch dieQRZerlegung vermieden werden kann.
– 112–
Mathematik f¨ur Informatiker III Grundlagen der Optimierung
Allgemeine lineare Funktionenapproximation
QR Faktorisierung
Wendet man das in AbschnittB.7behandelte Gram-Schmidt Orthogo- nalisierungsverfahren auf dienSpaltenvektorenajvonAan so ergibt sich daraus eine Folge von ebenso vielen orthonormalen Vektorenqj. Ausserdem existiert nach Konstruktion derqjdie Darstellung
aj = Xj
k=1
qkrkj f¨urj= 1, . . . ,n
wobei die diagonalen Elementerjjf¨urj= 1, . . .nalle positiv sind. Fasst man nun dieqjals Spalten zu einer orthogonalen Matrix
Q= [q1,q2, . . . ,qn]∈Rm×nzusammen und erg¨anzt die Koeffizientenrkj
durch Nullen zu einer oberhalb dreiecksf¨ormigen MatrixR∈Rn×n, so hat man f¨urAdie Faktorisierung
A=Q R mit QTQ=I∈Rn×n
– 113–
Mathematik f¨ur Informatiker III Grundlagen der Optimierung
Allgemeine lineare Funktionenapproximation
Vereinfachte Normalengleichung
Aus der Orthogonalit¨at ergibt sich unmittelbar
ATA= (QR)T(QR) = RTQTQR =RTR und die Normalengleichung reduziert sich erst zu
RTRx∗ =RTQTb und letztlich zu
Rx∗ =QTb was sehr billig l¨osbar ist.
– 114–
Mathematik f¨ur Informatiker III Grundlagen der Optimierung
Allgemeine lineare Funktionenapproximation
Zur Berechnung der QR Zerlegung
IEs l¨asst sich leicht pr¨ufen, dass die Zerlegung vonA∈Rm×nin das Produkt einer orthogonalen MatrixQund einer DreiecksmatrixR mit positiven Diagonalelementen eindeutig ist.
IEs gibt ausser dem Gram-Schmidt Verfahren andere Methoden, mit denen die QR Zerlegung berechnet werden kann. Zum Beispiel k¨onnte manRaus der Cholesky Faktorisierung vonATAgewinnen und dannQ=AR−1setzen.
IAls effektiv und gegen¨uber Rundungsfehlern sehr stabil gilt die sukkzessive Reduktion vonAmit Hilfe sogenannter elementarer Reflektoren oderHouseholdermatrizen.
Hinweis
F¨ur die kleinen Aufgaben in ¨Ubung 3.1 kann das Gram-Schmidtsche Orthogonalisierungsverfahren angewandt oder noch einfacher die Normalengleichung explizit gebildet und mittels Gaußscher Elimination ohne Pivotierung gel¨ost werden.
– 115–