Minimierung ohne Nebenbedingungen

(1)

Optimierung

(2)

Optimierung

Häufige Aufgabe bei Parameterschätzung:

Minimierung der negativen log-Likelihood-Funktion F(a) oder der Summe der quadratischen Abweichungen S(a) und

Berechnung der Unsicherheit aus der zweiten Ableitung am Minimum

Optimierung:

➔ Bestimmung des Minimums eine Gütefunktion F(x = x₁, ..., x_n) (und deren Kovarianzmatrix am Minimum) mit oder ohne

Nebenbedingungen in Gleichungs- oder Ungleichungsform Optimalität:

 x* ist ein lokales Minimum, wenn

➢ F(x*) < F(x) für alle x ≠ x* in der Umgebung von x*

➔ Achtung: lokales Minimum muss nicht globales Minimum sein!

(3)

Problem lokaler Minima

● Minimierungs- algorithmen können gegen lokale Minima konvergieren

➢ Es gibt keine allgemeine Methode zum Finden des globalen Minimums

➔ Ausprobieren unterschied- licher

Startwerte

(4)

Minimierung ohne Nebenbedingungen

F(x) sei eine glatte Funktion (1. und 2. Ableitung stetig)

● Oft erfüllt, zumindest in Lösungsnähe

➔ Gradient:

➢ Notwendige Bedingung für Minimum (oder Maximum oder Sattelpunkt):

 d.h. dF/dx_i = 0 für alle i

g(x) = 0

(5)

Hesse-Matrix

➔ Hesse-Matrix (Matrix der 2. Ableitungen, n x n, symmetrisch):

➢ Taylor-Entwicklung:

F(x + ∆x) = F(x) + g^T∆x + ½ ∆x^TH∆x + …

● Liegt vielen Minimierungsalgorithmen zugrunde Hinreichende Bedingung für lokales Minimum:

g(x) = 0 und H(x) positiv definit

(6)

Spektrale Zerlegung

Für eine symmetrische Matrix H existieren n orthogonale Eigenvektoren u_i mit Eigenwerten _i:

➔ H u_i = _i u_i

Orthogonale Matrix U = (u₁, …, u_n) mit normierten Eigenvektoren als Spalten transformiert H in Diagonalmatrix:

Wegen U^{- 1} = U^T gilt:

➔ H = U D U^T = ∑_{i = 1 … n} _i u_iu_i^T

H^{- 1} hat identische Eigenvektoren mit Eigenwerten 1/_i

(7)

Eigenwerte der Hesse-Matrix

➔ Konditionszahl:  = _{m a x} / _{mi n}

Numerische Berechnung der inversen Matrix kann problematisch sein, wenn die Konditionszahl groß ist (H „fast“ singulär)

Hesse-Matrix bei g(x)=0:

 positiv definit (_i > 0)

➔ Minimum

 positive-semidefinit (_i >= 0)

➔ „Tal“, Lösungen oft instabil

 indefinit (_i > 0 und _j < 0)

➔ Sattelpunkt

(8)

Eindimensionale Minimierung: Suchmethode

Voraussetzung: Unimodale Funktion (eindeutiges Minimum) 1) Einschluss des Minimums

● Ausgangspunkt: Startwerte x₁ und x₂ mit F(x₁) > F(x₂)

● Iteration: x_k = x_{k – 1} +  (x_{k – 1} – x_{k – 2}) (z.B.  = 3)

● Abbruchbedingung: F(x_k) > F(x_{k – 1}) 2) Reduktion des Einschlussintervalls

● Ausgangspunkt: Tripel (x_{k – 2}, x_{k – 1}, x_k) mit F(x_{k – 1}) < F(x_{k – 2}), F(x_k)

● Testpunkt x_t zwischen x_{k – 1} und x_k (oder x_{k – 2} und x_{k – 1})

– Falls F(x_t) < F(x_{ik– 1}): Neues Triple (x_{k – 1}, x_t, x_ik)

– Falls F(x_t) > F(x_{ik– 1}): Neues Triple (x_{k – 2}, x_{k – 1}, x_t)

(9)

Methode des Goldenen Schnitts

Wahl des Testpunkts x_t zwischen x_A und x_B, so dass (x_B – x_t) / (x_B – x_A) = (x_t – x_A) / (x_B – x_t)

Lange Teilstrecke zu Gesamtstrecke = kurze zu lange Teilstrecke

➔ Verhältnis des goldenen Schnitts:  = (√5 -1) / 2

= 0.618034...

➢ Konstante Reduktion des Einschlussintervalls pro Iteration um Faktor 

● Sinnvoll  = 1/ zu wählen in 1. Phase der Suche

Suchmethode ist robust, da unabhängig vom

Verhalten der Funktion

(10)

Newton-Methode

➔ Anwendung auf Ableitung zur Minimum-Suche:

x_{k + 1} = x_k – F'(x_ik) / F''(x_k)

● Konvergenzverhalten nicht garantiert

Newton-Raphson-Methode zur Nullstellenbestimmung

(11)

Konvergenzverhalten

Iterationsmethode ist lokal konvergent von der Ordnung p, wenn es eine positive Konstante c (c < 1 für p = 1) gibt, so dass für alle

Startwerte x₀ in einer Umgebung des Fixpunktes x* gilt:

|x_{k + 1} – x*| < c |x_k – x*|^p

● Newton-Methode ist lokal quadratisch konvergent

(12)

Vergleich Suchmethode - Newton-Methode

●SuchmethodeItem Newton-Methode Verwendet nur Funktionswerte,

keine Ableitungen Verwendet nur 1. und 2.

Ableitung, keine Funktionswerte

Robust Konvergenz nicht garantiert

Lokal linear konvergent Lokal quadratisch konvergent

Robuste und schnelle Methode durch Kombination beider Methoden

(13)

Kombinierte Methode

Polynom-Interpolationsmethode: Bekanntes Minimum für Polynom durch berechnete Funktionswerte ergibt nächsten Testpunkt

➢ Parabolische Interpolation entspricht

Newton-Methode mit numerisch berechneten Ableitungen

● Bei sehr

asymmetrischer Intervallteilung:

Verwendung des goldenen Schnitts

(14)

Suchmethoden in mehreren Dimensionen

Gittermethode:

● k gleichverteilte Testwerte pro Dimension

➔ Erfordert kⁿ Berechnungen bei n Dimensionen

➢ Ungeeignet für große n Monte-Carlo-Methode:

● Funktionsberechnung an zufällig verteilten Testpunkten

➔ Auch bei großen n geeignet

➢ gut für Bestimmung von Startwerten Einfache Parametervariation:

● Eindimensionale Minimierung in einem Parameter

● Dann Minimierung in nächstem Parameter → Iteration

➔ I.A. nur schnelle Konvergenz wenn Minimierung in Richtung der Eigenvektoren der Hesse-Matrix

(15)

Beispiel einfache Parametervariation

➔ Langsame Konvergenz, da Suchrichtung nicht der Richtung der Eigenvektoren der Hesse-Matrix entspricht

(16)

Simplex-Methode

n+1 Punkte x₁ , ..., x_{n + 1} im Rⁿ

→ n-dimensionaler Polyeder oder Simplex

● Sortierung, so dass F(x₁) < … < F(x_{n + 1})

● Schwerpunktes der n besten Punkte: c = ∑_{i = 1 … n} x_i / n

● Spiegelung des schlechtesten Punktes an c: x_r = c +  (c – x_{n + 1})

➔ Falls F(x₁) < F(x_r) < F(x_n): x_r ersetzt x_{n + 1}

➔ Falls F(x_r) < F(x₁): gute Richtung

● Streckung: x_s = c +  (x_r – c),  > 1

➔ Falls F(x_s) < F(x_r): x_s ersetzt x_{n + 1} , ansonsten x_r ersetzt x_{n + 1}

● Falls F(x_r) > F(x_n): Simplex zu groß

● Abflachung: x_s = c –  (c – x_{n + 1}), 0 <  < 1

➔ Falls F(x_s) < F(x_{n + 1}): x_s ersetzt x_{n + 1}

● Ansonsten Kontraktion um x₁: x_j = x₁ +  (x_j – x₁), 0 <  < 1

(17)

Beispiel Simplex-Methode in 2 Dimensionen

Simplex passt sich Verlauf der Funktion an

Informationen aus vorher- gehenden Funktions-

berechnungen werden

genutzt, ohne Ableitungen zu verwenden

(18)

Methode des steilsten Abstiegs

∆x = -g

Einfach, aber ernsthafte Nachteile:

● Keine natürliche Schrittweite gegeben

● Nur lineare Konvergenz

 Insbesondere langsam wenn Konditionszahl von H groß:

c ≈ [( – 1)( + 1)]²

➔ Besser: Newton-Methode

(19)

Newton-Methode in mehreren Dimensionen

Quadratische Näherung:

● F(x + ∆x) ≈ F(x) + g^T∆x + ½ ∆x^TH∆x

● g(x + ∆x) ≈ g + H∆x

Bedingung für Minimum: g(x + ∆x) = 0

➔ Newton-Schritt: ∆x = -H^{– 1}g

(20)

Line-Search in Newton-Richtung

Funktionsverlauf in Newton-Richtung: f(z) = F(x + z ∆x)

● Quadratische Näherung: f(z) = F(x) + d(z²/2 – z) mit d = -g^T∆x

➔ Minimierung von f(z) bei jedem Schritt

(21)

Algorithmus mit Line-Search

● Definiere Startwert x₀

● Berechne Suchvektor ∆x, z.B. Newton-Vektor ∆x = -H^{– 1}g

● Minimiere Funktion in Richtung des Suchvektors (line search)

➔ Eindimensionale Minimierung von f(z) = F(x + z ∆x)

● Iteration: x_{k + 1} = x_k + z_{m i n}∆x

● Konvergenztest:

➔ x_{k + 1} ist Lösung bei erfolgreichem Konvergenztest,

 z.B. d <  und F_k – F_{k + 1} < 

 Empfehlung Blobel:  = 0.01

➔ Abbruch bei Erreichen eine Maximalzahl von Iterationen

(22)

Beispiel: Anpassung

einer Exponentialfunktion

Simplex + Newton

(23)

Modifizierte Newton-Methode

Falls Hesse-Matrix nicht positiv definit

➔ Verwende modifizierte Hesse-Matrix H' zur Berechnung des Newton-Vektors

● Spektrale Zerlegung

 Setze _i' = max(|_i|, ) + Rücktransformation

 Sehr aufwendig

● Addition der Einheitsmatrix I_n

 H' = H +  I_n

 H' positiv definit, falls  >|_{m i n}|

●  klein → nahe Newton-Richtung,

 groß → nahe steilstem Abstieg

(24)

Numerische Differentiation

➢ Vorwärts-Differenz: f'(x) = [f(x + h) – f(x)] / h

➢ Rückwärtz-Differenz: f'(x) = [f(x) – f(x – h)] / h

➢ Zentrale Differenz: f'(x) = [f(x + h) – f(x – h)] / 2h

➔ Erfordert eine Funktionsauswertung mehr

Abbruchfehler (durch Vernachlässigung höherer Ordnungen):

● Einseitige Ableitung ∝ h f''

● Zentrale Ableitung ∝ h² f'''

→ viel besser, insbesondere

in Minimum-Nähe Rundungsfehler:

● ∝ 1 / h

(25)

Methoden mit variabler Metrix

● Statt numerischer Berechnung der Hesse-Matrix (O(n²) Berechnungen erforderlich)

➔ Iterative Schätzung der Hesse-Matrix aus Änderung der Gradientenvektors

 z.B. BFGS-Formel

(26)

Nebenbedingungen als Gleichungen

Minimierung von F(x), mit m Bedingungen f₁(x) = … f_m(x) = 0

➔ z.B. Energie- und Impulserhaltung

➢ Parametertransformation

➔ z.B.  mit r = const, statt x und y

➢ Methode der Lagrange'schen Multiplikatoren

● (x, ) = F(x) + ∑_{i = 1 … m} _i f_i(x)

● Minimierung von : d/d_i = 0 = f_i(x) → Nebenbedingung erfüllt

➔ Zurückführung auf Minimierung ohne Nebenbedingungen, aber mit m zusätzlichen Dimensionen

➢ Alternative: Minimierungsalgorithmen, die Nebenbedingungen

berücksichtigen (z.B. durch projizierten Gradient und Hesse-Matrix bei linearen Nebenbedingungen)

(27)

Nebenbedingungen als Ungleichungen

Minimierung von F(x), mit m Bedingungen h_i(x) > 0, für i = 1, …, m

➔ z.B. Masse > 0 oder 0 < Wahrscheinlichkeit < 1

➢ Am günstigsten:

➢ Konvergenz weit weg von den Grenzen

➔ Geeignete Wahl der Startparameter

➢ Parametertransformation

● z.B. für a < x < b: x' = arcsin(2 (x – a) / (b – a) – 1)

● Kann zu (numerischen) Problemen führen

➔ Falls möglich, vermeiden

(28)

Kostenmethode

Häufige Nebenbedingung:

Parameterwert und Unsicherheit bekannt aus anderen Messungen:

x_i = x_i⁰ ± _i

➢ Addition einer Kosten-(oder Straf-/Penalty-)Funktion:

● ²-Fit: F'(x) = F(x) + (x_i – x_i⁰)²,/ _i²

● ML-Fit: F'(x) = F(x) – ln p(x_i, x_i⁰, _i) = F(x) + ½ (x_i – x_i⁰)²,/ _i²

➔ Entspricht zusätzlichem Datenpunkt für Parameter x_i

● Methode kann auch zur näherungsweisen Berücksichtigung von Nebenbedingungen in Gleichungs- oder Ungleichungsform

verwendet werden

(29)

Lösung von Gleichungssystemen

Lösung des Gleichungssystem

f₁(x) = … f_m(x) = 0

entspricht Minimierungsproblem nur mit Nebenbedingungen

➢ Zu minimierende Gütefunktion: F(x) = ∑_{i = 1 … m} f_i(x)

● F = 0 am Minimum bei lösbaren Gleichungssystemen

● Auch anwendbar bei überbestimmten Gleichungssystemen

– Ergebnis hängt dann von der Gewichtung ab

● Methode kann recht ineffizient gegenüber angepassten Algorithmen sein

(30)

Empfehlungen

➢ Nutzen Sie existierende, gut getestete Optimierungs- algorithmen

➢ Achten Sie darauf, dass es keine Unstetigkeiten gibt

➢ Versuchen Sie, numerische Probleme zu vermeiden (z.B. durch geeignete Skalierungen, doppelte Genauigkeit)

➢ Verifizieren Sie analytisch berechnete Ableitungen durch numerische

➢ Versuchen Sie, Parametergrenzen zu vermeiden

➢ Probieren Sie unterschiedliche Startwerte aus

➢ Achten Sie auf Fehler- und Warnmeldungen des Minimierungs- programms