Grundlagen der Optimierung

(1)

Mathematik f¨ur Informatiker III

Teil E

Grundlagen der Optimierung

Vorl¨aufige Gliederung

1.(Nicht)lineare Ausgleichsprobleme 2.Grundklassen von Optimierungsproblemen 3.Lineare Optimierungsprobleme (LP) mit Dualit¨at 4.Gemischte Programme mit Ganzzahligkeitsbedingung

5.Unbeschr¨ankte nichtlineare Optimierung (UP) per steilstem Abstieg 6.Anwendung von Newton’s Methode im konvexen Falle

7.Lokale Optimalit¨atsbedingungen im nichtlinearen restringierten Falle 8.Bedeutung der Lagrangemultiplikatoren

– 103–

Mathematik f¨ur Informatiker III

Literaturhinweise I

Walter Alt,

Nichtlineare Optimierung. 1. Auflage, 2002, Vieweg.

Sch¨one Kombination aus Theorie, Numerik und Anwendung ISBN: 3-528-03193-X

Jorge Nocedal, Stephen J. Wright,

Numerical Optimization. 1999, Springer-Verlag New York, Inc.

Ein Standardwerk.

ISBN: 0-387-98793-2

– 104–

Mathematik f¨ur Informatiker III Grundlagen der Optimierung

(Nicht)lineare Ausgleichsprobleme

Wir betrachten zun¨achst ein System A x = b, A∈R^m×n

,b∈R^m

vonmlinearen Gleichungen inn≤mVariablen. Wennm>nnennt man das System¨uberbestimmt, da es weniger freie Variablenxif¨uri= 1. . .n gibt als Bedingungen, die an sie gestellt werden. Wennm=nspricht man vomwohlbestimmtenoderquadratischenFall. Diese Unterscheidung macht eigentlich nur dann Sinn, wenn man folgende Annahme macht.

Vollrang-Vorraussetzung

Die MatrixA∈R^m×nhat vollen Spaltenrangn= min(n,m), d.h. sie erfüllt die äquivalenten Bedingungen, dass ihrenSpalten linear unabhängig sind und manm−nZeilen entfernen kann, so dass die verbleibende quadratische Matrix eine nichtverschwindende Determinante hat.

– 105–

Fehlerminimierung

Beobachtung

Im Fallem>n=rang(A) ist f¨ur fast alle rechten Seitenb∈R^mdas System von GleichungenAx=bnicht exakt erf¨ullbar.

Konsequenz

Man versucht deshalbxso zu w¨ahlen, dass alle Komponenten des Fehlervektors

F ≡A x−b= (Fi)_i=1...m

so klein wie m¨oglich sind, d.h. man versucht einenAusgleichzwischen denmeigentlich als Gleichungen gedachten Bedingungen zu schaffen.

– 106–

(2)

Normwahl

Zur Messung der Größe vonFwählt man häufig eine der Vektornormen aus AbschnittB.3

kFkp =kAx−bkp mit p∈ {1,2,∞}

Hier bedeutetkFk1die Summe der Komponentenbetr¨age|Fi|undkFk∞

ihr Maximum. Die Minimierung dieser beiden Normen f¨uhrt auf lineare Optimierungsaufgaben mit Ungleichungsnebenbedingungen.

Diese werden sp¨ater betrachtet und sind im allgemeinen schwerer zu l¨osen als das Gaußsche Problem der kleinsten Quadrate (engl.: least squares), das sich ergibt, wenn man die Euklidische NormkFk2minimiert.

– 107–

Satz E.1 (Kleinste - Quadrate - L¨osung)

F¨ur jedes lineare Gleichungssystem Ax=b mit A∈R^m×n, b∈R^mund rang(A) =n existiert ein eindeutiger Vektor x_∗∈Rⁿ, so dass

kAx∗−bk2= min

x∈RⁿkAx−bk2

Diese Ausgleichslösung erfüllt das quadratische, reguläre Gleichungssystem

A^>A x_∗ = A^>b∈Rⁿ, welches alsNormalengleichungssystembezeichnet wird.

Bemerkung

Wenn die Vollrangvorraussetzung verletzt ist, existiert eine unendliche Menge von Vektoren, die sowohl das Minimerungsproblem l¨osen als auch die entsprechende Normalengleichung erf¨ullen.

– 108–

Allgemeine lineare Funktionenapproximation

Betrachte ein System vonnvorgegebenen Ansatzfunktionen uj(x) : [a,b]→R f¨ur j= 1. . .n mit dem gemeinsamen Definitionsbereich [a,b].

Weiterhin betrachtem≥nunterschiedliche St¨utzstellenxi∈[a,b] und entsprechendeDaten yi∈Rf¨uri= 1, . . . ,m.

Gesucht sind nunnKoeffizientenzj, so dass die Linearkombination u(x)≡

Xn

j=1

zjuj(x)

die sog.mittlere Abweichung∆2m¨oglichst klein werden l¨asst:

∆2≡

"_m X

i=1

(u(xi)−yi)²

#¹₂ .

– 109–

L¨osung der Gaußschen Ausgleichsaufgabe

Aus den Vektoren

aj= (uj(x1),uj(x2), . . . ,uj(xm))^>

bilden wir die MatrixA= [a1, . . . ,an] und mit

y= (y1,y2, . . . ,ym)^> und z= (z1,z2, . . . ,zn)^>

ist zur L¨osung der Ausgleichsaufgabe das Funktional

kF(z)k2=kAz−yk2

zu minimieren.

Das heisst aber nichts anderes, als eine L¨osungz_∗des (¨uberbestimmten) GleichungssystemsAz=ymit kleinsten Fehlerquadraten zu finden.

– 110–

(3)

Spezialfall: Gaußsche Ausgleichspolynome

W¨ahlt man als Ansatzfunktionenuj(x) =x^j⁻¹, so ergibt sich das Polynom

u(x) = Xn

j=1

zjx^j⁻¹

Die Vollrangbedingungrang(A) =nist für paarweise verschiedene Stützstellenxjerfüllt, da die erstennZeilen vonAdie folgende Vandermondsche Determinantehaben:

det









1 x1 . . . x₁ⁿ⁻¹

1 x2 . . . x₂ⁿ⁻¹

... ... ...

1 xn . . . xnⁿ⁻¹









= Yn

k=2 k−1

Y

j=1

(xk−xj)6= 0.

– 111–

Zur Berechnung der L¨osung mit kleinsten Fehler-Quadraten muß die NormalgleichungA^>A z=A^>ygel¨ost werden.

Lemma E.2

Die Normalenmatrix A^>A∈ Rⁿ^×ⁿist symmetrisch und positiv semi-definit.

Unter der Vollrangvorraussetzung ist A^>A sogar positiv definit.

Bemerkung:

Wegen der positiven Definitheit der MatrixA^>Akann man das Normal- gleichungssystem mit dem sogenanntenCholesky- Verfahren l¨osen.

Dieses ist eine pivotierungsfreie Version des Gaußschen Verfahrens, das die Symmetrie der Matrix ausnutzt und dadurch den

Berechnungsaufwand halbiert aufn³/6 Multiplikationen gefolgt von Additionen/Subtraktionen.

Allerdings kostet die Berechnung vonA^TAausAbereitsm n² Operationen, was durch dieQRZerlegung vermieden werden kann.

– 112–

QR Faktorisierung

Wendet man das in AbschnittB.7behandelte Gram-Schmidt Orthogo- nalisierungsverfahren auf dienSpaltenvektorenajvonAan so ergibt sich daraus eine Folge von ebenso vielen orthonormalen Vektorenqj. Ausserdem existiert nach Konstruktion derqjdie Darstellung

aj = Xj

k=1

qkrkj f¨urj= 1, . . . ,n

wobei die diagonalen Elementerjjf¨urj= 1, . . .nalle positiv sind. Fasst man nun dieqjals Spalten zu einer orthogonalen Matrix

Q= [q1,q2, . . . ,qn]∈R^m×nzusammen und erg¨anzt die Koeffizientenrkj

durch Nullen zu einer oberhalb dreiecksf¨ormigen MatrixR∈Rⁿ×n, so hat man f¨urAdie Faktorisierung

A=Q R mit Q^TQ=I∈Rⁿ×n

– 113–

Vereinfachte Normalengleichung

Aus der Orthogonalit¨at ergibt sich unmittelbar

A^TA= (QR)^T(QR) = R^TQ^TQR =R^TR und die Normalengleichung reduziert sich erst zu

R^TRx_∗ =R^TQ^Tb und letztlich zu

Rx_∗ =Q^Tb was sehr billig l¨osbar ist.

– 114–

(4)

Zur Berechnung der QR Zerlegung

IEs l¨asst sich leicht pr¨ufen, dass die Zerlegung vonA∈R^m×nin das Produkt einer orthogonalen MatrixQund einer DreiecksmatrixR mit positiven Diagonalelementen eindeutig ist.

IEs gibt ausser dem Gram-Schmidt Verfahren andere Methoden, mit denen die QR Zerlegung berechnet werden kann. Zum Beispiel k¨onnte manRaus der Cholesky Faktorisierung vonA^TAgewinnen und dannQ=AR⁻¹setzen.

IAls effektiv und gegen¨uber Rundungsfehlern sehr stabil gilt die sukkzessive Reduktion vonAmit Hilfe sogenannter elementarer Reflektoren oderHouseholdermatrizen.

Hinweis

Für die kleinen Aufgaben in Übung 3.1 kann das Gram-Schmidtsche Orthogonalisierungsverfahren angewandt oder noch einfacher die Normalengleichung explizit gebildet und mittels Gaußscher Elimination ohne Pivotierung gelöst werden.

– 115–