6. Numerische L¨ osung des

(1)

6. Numerische L¨ osung des

Nullstellenproblems

(2)

Problemstellung

Zwischenwertsatz:

Sei f : [a, b] → R stetig und c ∈ R mit

f(a) ≤ c ≤ f(b) oder f(b) ≤ c ≤ f(a).

Dann gibt es ein x ∈ [a, b] mit f(x) = c.

Frage: Wie l¨asst sich x bestimmen?

Nullstellenproblem: c = 0.

(3)

Bisektionsverfahren

Einfache Methode: Unterteile Intervall in der Mitte und berechne den Wert. Der gesuchte Wert muss in einer der beiden Teilintervalle liegen.

F¨ur eine Nullstelle:

Gegeben sei f : [a₀, b₀] → R mit f(a₀) · f(b₀) < 0. Erzeuge rekursiv die Intervalle

[a_i+1, b_i+1] :=







ha_i, ^aⁱ⁺₂ ^bⁱⁱ falls f ^aⁱ⁺₂ ^bⁱ · f(a_i) ≤ 0

h_a

i+b_i

2 , b_iⁱ sonst

Die Nullstelle liegt im Intervall [a_i, b_i] und es gilt

i→∞lim (b_i − a_i) = lim

i→∞

b − a

2ⁱ = 0.

(4)

Fixpunktiteration (1)

Definition:

Eine Gleichung der Form F(x) = x heißt Fixpunktgleichung. Ihre L¨osungen, also ¯x mit F(¯x) = ¯x heißen Fixpunkte

Definition:

Gegeben sei F : [a, b] → R,

x₀ ∈ [a, b]. Die rekursive Folge x_n+1 := F(x_n), n = 0, 1, . . . heißt Fixpunktiteration von F zum Startwert x₀.

X X X X

X1

X2

X3

(5)

Fixpunktiteration (2)

Beispiel

Bestimme die Nullstelle von p(x) = x³ − x + 0.3.

Methode: F¨uhre die Fixpunktiteration x_n+1 = F(x_n) = x³_n+ 0.3, durch Ergebnis:

• Startwert x₀ = −1: konvergiert gegen x = 0.3389. . .

• Startwert x₀ = 0 : konvergiert gegen x = 0.3389 . . .

• Startwert x₀ = 1: divergiert

Z.B. kann die Gleichung x = 2 sin(x) + 1 nur iterativ gel¨ost werden!

(6)

Fixpunktiteration (3)

Satz

Sei F : [a, b] → R mit stetiger Ableitung F^′ und ¯x ∈ [a, b] ein Fixpunkt von F. Dann gilt f¨ur die Fixpunktiteration x_n+1 = F(x_n)

• Ist |F^′(¯x)| < 1, so konvergiert x_n gegen ¯x, falls der Startwert x₀ nahe genug bei ¯x liegt. Der Punkt ¯x heißt anziehender Fixpunkt.

• Ist |F^′(¯x)| > 1, so konvergiert x_n f¨ur keinen Startwert x₀ 6= ¯x. Der Punkt ¯x heißt abstoßender Fixpunkt.

In unserem Beispiel ist nur der Fixpunkt bei x = 0.3389 . . . anziehend.

Die anderen beiden Fixpunkte (liegen bei den anderen beiden Nullstel- len von p(x)) sind abstoßend.

(7)

Fixpunktiteration (4)

Sehr einfaches Anwendungsbeispiel

• Zur diskreten Zeit t_i sind k_i Menschen an einer Grippe erkrankt

• Die Zahl der Neuerkrankungen ist proportional zur Zahl der m¨ogli- chen Begegnungen zwischen kranken und gesunden Menschen.

• Ein zum Zeitpunkt t_i kranker Menschen ist zum Zeitpunkt t_i₊₁ wieder gesund.

• Die ¨Ubertragungsrate sei α, falls alle innerhalb eines Zeitintervalls miteinander in Kontakt sind.

• Frage: Wie entwickelt sich die Anzahl der Kranken?

• Antwort: Iteriere k_i+1 = αk_i(1 − k_i)

(8)

Fixpunktiteration (5)

• Iterationsfunktion: F(x) = αx(1 − x)

• anziehender Fixpunkt:

x¯ = F(¯x) = αx¯(1 − ¯x) ⇒ x¯ = α − 1

α oder x¯ = 0

• Geometrische Interpretation: Der Fixpunkt ist der Schnittpunkt der Kurven y = F(x) und y = x.

Die aktuellen Modelle zur Schweinegrippe oder Vogelgrippe funktio- nieren analog, sind nur erheblich komplizierter.

(9)

Banachscher Fixpunktsatz (1)

Sei F : [a, b] → [a, b] eine kontrahierende Abbildung, d.h. es existiere eine Konstante α < 1 mit

|F(x) − F(y)| ≤ α|x − y| f¨ur alle x, y ∈ [a, b]. Dann gilt

• F hat genau einen Fixpunkt ¯x in [a, b].

• Die Fixpunktiteration x_n₊₁ = F(x_n) konvergiert gegen ¯x f¨ur alle Startwerte x₀ ∈ [a, b].

• Es gelten die Fehlerabsch¨atzungen

|x_n − ¯x| ≤ _1−α^αⁿ |x₁ − x₀| a-periori-Absch¨atzung

|x_n − ¯x| ≤ ₁_−α^α |x_n − x_n−1| a-posteriori-Absch¨atzung

(10)

Banachscher Fixpunktsatz (2)

Beweis von Absch¨atzung 1: mit x_n+1 = F(x_n) gilt:

≤ α²|x_n−1 − x_n−2| ≤ . . . ≤ αⁿ|x₁ − x₀| Damit gilt f¨ur zwei Werte |x_n| und |x_k|

|x_n − x_k| = |(x_n − x_n−1) + (x_n−1 − x_n−2) + . . . + (x_k₊₁ − x_k)|

≤ |(x_n − x_n−₁)| + |(x_n−₁ − x_n−₂)| + . . . + |(x_k₊₁ − x_k)|

≤ (αⁿ⁻¹ + αⁿ⁻² + . . . + α^k) · |x₁ − x₀|

= (

n−1 X i=0

αⁱ −

k−1 X i=0

αⁱ) · |x₁ − x₀| = 1 − αⁿ

1 − α − 1 − α^k 1 − α

!

· |x₁ − x₀| F¨ur lim_n→∞ wird x_n → ¯x und αⁿ → 0 und damit

|¯x − x_k| ≤ α^k

1 − α|x₁ − x₀|

(11)

Newtonverfahren (1)

Gesucht ist die Nullstelle einer stetig differenzierbaren Funktion f : [a, b] → R, also f(¯x) = 0.

Zurückführung auf das Fixpunktproblem über Taylorentwicklung

f(x+h) = f(x) +f^′(x)·h+O(h²) mit x+h = ¯x und x = x_k und damit h = ¯x − x_k

0 = f(¯x) = f(x_k) + f^′(x_k)(¯x − x_k) + O((¯x − x_k)²).

x¯ = x_k − f(x_k)

f^′(x_k) + O((¯x − x_k)²)

Setze ¯x → x_k+1. Falls f^′(x_k) 6= 0 verwende die Iterationvorschrift unter Vernachl¨assigung des Terms 2. Ordnung

x_k₊₁ = x_k − f(x_k) f^′(x_k)

(12)

Newtonverfahren (2)

Geometrische Interpretation:

Ersetze f(x) lokal an der Stelle x_k durch die Tangente

t(x) = f(x_k) + f^′(x_k)(x − x_k) und bestimme die Nullstelle der Tangente. Verwende diesen Wert als N¨aherung der gesuchten Null- stelle.

x y

x x

Tangente

1 0

f(x) t(x) f(x )

0

Problem:

Ist die Ableitung “klein”, konvergiert das Verfahren eventuell nicht.

(13)

Newtonverfahren (3)

Da das Problem ist ¨aquivalent zum Fixpunktproblem ¯x = F(¯x) mit der Fixpunktfunktion

F(x) = x − f(x) f^′(x),

gelten die Aussagen ¨uber Iterationsgleichungen wie z.B. der Banach- sche Fixpunktsatz.

Definition Konvergenzordnung:

Sei x_n eine Folge mit lim_n→∞ = ¯x. Dann hat das Verfahren die

Konvergenzordnung q ≥ 1, wenn es eine Konstante c > 0 gibt mit

|x_n+1 − x| ≤¯ c · |x_n − ¯x|^q Ist q = 1, wird zus¨atzlich verlangt: c < 1.

(14)

Newtonverfahren (4)

Das Newtonverfahren f¨ur eine stetig differenzierbare Funktion f mit einfacher Nullstelle ¯x ist lokal quadratisch konvergent.

Beweis:

Taylorentwicklung liefert

0 = f(¯x) = f(x_k) + f^′(x_k)(¯x − x_k) + 1

2f^′′(z)(¯x − x_k)² mit einer Zwischenstelle z.

(¯x − x_k) + f(x_k)

f^′(x_k) = (¯x − x_k₊₁) = −1 2

f^′′(z)

f^′(x_k)(¯x − x_k)²

|¯x − x_k₊₁| =

1 2

f^′′(z) f^′(x_k)

· |¯x − x_k|² = C|¯x − x_k|² C ist beschr¨ankt, falls f^′(x) 6= 0 in der Umgebung von ¯x

(15)

Sekantenverfahren

Anstatt die Ableitung zu berech- nen, verwende einen Differenzen- quotient. Mit

f^′(x_k) ≈ f(x_k) − f(x_k−₁)

x_k − x_k−₁ = f_D^′ (x_k) und

S(x) = f(x_k) + f_D^′ (x_k)(x − x_k) folgt

x_k+1 = x_k − x_k − x_k−1

f(x_k) − f(x_k−1) · f(x_k)

x y

x₀ f(x)

t(x) f(x )₀

x₁

f(x )1 x₂

Sekante

• Vorteil: Berechnung der Ableitungen f¨allt weg.

• Nachteil: Es werden zwei Startwerte ben¨otigt und die Konvergenz ist langsamer.

(16)

Newton-Verfahren f¨ ur Polynome

Betrachte Polynom mit n reelle Nullstellen ξ₁ > ξ₂ > . . . > ξ_n.

Das Newton-Verfahren konvergiert f¨ur x₀ > ξ₁ gegen die gr¨oßte Null- stelle.

Methode f¨ur alle Nullstellen:

• Bestimme die gr¨oßte Nullstelle und f¨uhre Polynomdivision mit (x− ξ₁) durch.

• F¨uhre die Prozedur so lange durch, bis alle Nullstellen gefunden wurden.

• Achtung: Polynomdivision kann zu großen Rundungsfehlern f¨uhren (es gibt Tricks, diese zu vermeiden).

(17)

Newtonverfahren in mehreren Dimensionen (1)

Im Allgemeinen liegen mehrere Funktionen f ⁼ ^f1, f₂, . . . , f_n, abh¨angig von mehreren Variablen x ⁼ ^x1, x₂, . . . , x_n vor.

Frage: Wo liegt die Stelle ¯x^{, an der} f ^{Null wird?}

Antwort: Verallgemeinere das Newton-Verfahren unter der Verwen- dung der so genannten Jacobi-Matrix, die die Ableitungen der Funk- tionen nach allen Variablen enth¨alt.

J =







∂f₁

∂x₁ · · · _∂x^∂f¹

n

... . . . ...

∂f_n

∂x₁ · · · _∂x^∂fⁿ

n







(18)

Newtonverfahren in mehreren Dimensionen (2)

Jetzt: Anstelle f¨ur die Variable x

x^(k+1) = x^(k) − (f^′(x^(k)))⁻¹ · f(x^(k)) lautet nun die Iterationsvorschrift f¨ur den Vektor x

x^(k+1) ⁼ x^(k) ⁻ ^J⁻¹f⁽x^(k)⁾

Ben¨otigt wird die Berechnung der inversen Jacobi-Matrix:

J · J⁻¹ = I

ergibt n² Gleichungen f¨ur n² Unbekannte in J⁻¹. (da gibt es viel bessere Verfahren)

(19)

Newtonverfahren in mehreren Dimensionen (3)

Einfaches Beispiel aus Knorrenschild Bestimme die Nullstelle von

f^(x1, x₂) = 2x₁ + 4x₂ 4x₁ + 8x³₂

!

oder 2x₁ + 4x₂ = 0 4x₁ + 8x³₂ = 0 Jacobi-Matrix:

J = 2 4

4 24x²₂

!

Iterationsvorschrift

x^(k+1) ⁼ x^(k)^−J⁻¹f⁽x^(k)⁾ ^oder ^J^·δ^(k) ⁼ ^J^·(x^(k+1)⁻x^(k)^{) =} ⁻f⁽x^(k)⁾

(20)

Newtonverfahren in mehreren Dimensionen (4)

W¨ahle z.B. den Startvektor

x⁽⁰⁾ ⁼ ⁴₂

!

Damit folgt:

J(x⁽⁰⁾^{) =} ²_{4 96}⁴

!

und f⁽⁰⁾ ⁼ f⁽⁴^,^{2) =} ¹⁶₈₀

!

L¨ose:

J·δ^(k) = −f⁽x^(k)⁾ ^⇔ ²_{4 96}⁴

!

·δ⁽⁰⁾ = − 16 80

!

⇔ δ⁽⁰⁾ = −⁷⁶₁₁

−₁₁⁶

!

Erste N¨aherung:

x⁽¹⁾ ⁼ x⁽⁰⁾ ⁺ ^δ⁽⁰⁾ ⁼ ⁻

32 11

−¹⁶₁₁

!

Nach 4 Iterationen wird die ersten der drei Nullstellen auf 3 Stellen genau gefunden.

(21)

Optimierungsproblem

H¨aufige Anwendungen: Gesucht ist das Minimum einer Funktion in Abh¨angigkeit von vielen Variablen.

Methode: Bestimme die Nullstelle der ersten Ableitung. In einer Va- riablen:

x_k+1 = x_k − f^′(x_k) f^′′(x_k) Mit mehreren Variablen ist gesucht

x₁min,...,x_n F(x₁, . . . , x_n)

Minimum ist dort, wo die Tangenten waagerecht sind.

(22)

Optimierungsproblem (1)

Das ist dort, wo der Gradientenvektor

∇F =







∂x∂F₁

...

∂x∂F_n







:=







f₁ ...

f_n





 := f

eine Nullstelle hat. Das Problem ist ¨aquivalent zum Newtonverfahren in mehreren Dimensionen. Berechnet werden muss die Ableitung von f ^bzw. ^∇F, also die 2. Ableitung von F, die Matrix mit den Elementen

∂f_i

∂x_j = ∂²F

∂x_i∂x_j

Die Matrix heißt Hesse-Matrix.

(23)

Optimierungsproblem (2)

Bei einem Optimierungsproblem, also der Suche nach einem Minimum (Maximum) gibt es im Allgemeinen nicht ein Minimum, sondern viele Minima.

Dann wir das Minimum dadurch gesucht, dass die Werte entlang des negativen Gradienten ge¨andert werden, und zwar mit einem variablen Vorfaktor, bis ein Minimum gefunden wurde (hoffentlich ein “gutes”).

In einer Dimension:

x_k+1 = x_k − ηf^′(x_k)

Zur zeit popul¨arste Anwendung: Neuronale Netze bzw. Maschine Lear- ning Algorithmen oder KI

(24)

Optimierungsproblem (3)

• Zu minimierende Funktion: Analog zur linearen Ausgleichsrech- nung ein Fehlerfunktional als quadratische Differenz zwischen be- rechneten Werten und “Trainingsdaten”.

• Da die Parameter nicht-linear in die Funktion eingehen, ist nur eine iterative L¨osung m¨oglich.

• Gesucht wird das Minimum des Fehlerfunktionals.

• Methode: Gehe entlang des negativen Gradienten in den nicht- linearen Paramtern, bis ein hoffentlich guten Minimum gefunden wurde.

w_kⁱ₊₁ = wⁱ_k − η∂E(w¹, . . . , wⁱ, . . . , wⁿ)

∂wⁱ

(25)

Anwendungen (1)

Diverse weitere Variationen dieser Verfahren existieren.

Einige Anwendungen:

• Neuronale Netze

• Optimierungsprobleme

• Iterationsvorschriften als chaotische Systeme, z.B. f¨ur Computer- grafiken

• Biologische Systeme

• Mein Vortrag in der Vortragsreihe WS 2008/2009 des FB03s, The- ma: “Hat eine Gleichung eine L¨osung? Ein Computerbeweis”

• Mein Vortrag in der Vortragsreihe SS 2016 des FB03s, Thema:

“Wie f¨angt eine Eule eine Maus: Eine biologisch motivierte Simu- lation”

(26)

Anwendungen (2)

Iterative Verfahren werden in vielen weiteren Bereichen angewendet, z.B. die Nobelpreisträger für Wirtschaftswissenschaften 2011, Thomas Sargent und Christopher Sims haben den Nobelpreis “für ihre empiri- sche Untersuchung von Ursache und Wirkung in der Makroökonomie”

bekommen.

Ihr Modell ist ein Satz linearer iterativer Gleichungen X_t = a₁ + a₂X_t−₁ + a₃Y_t−₁ + e_x,t

Y_t = a₄ + a₅X_t−1 + a₆Y_t−1 + e_y,t, um gesamtwirtschaftliche Vorg¨ange zu beschreiben.

(27)

Anwendungen (3)

Wurzelziehen und Division auf einen Rechner (C’t 2013, Heft 12)

• Es wird zuerst trickreich eine N¨aherung bestimmt, neuen Rechen-

einheiten verwenden einfach interne Tabellen. (FDIV-Bug des Pentium- Prozessors).

• Die Tabellen sind auf ca. 12 Stellen genau. Anschließend wird das Ergebnis per Newton-Iteration (bei der Division nach New- ton–Raphson) verbessert.

• Die Tabellen k¨onnen in den SSE-Einheiten per Pipeline direkt ver- wendet werden (Compiler-Flags).

• Falls viele Werte benötigt werden, kann das Nachschärfen über wenige Newton-Iterationen auch per Hand geschehen. Das Ergeb- nis ergibt sich dann bei gleicher Genauigkeit schneller als durch 1.0/x durch Verwendung der SSE-Einheiten.

(28)

Anwendungen (4)

Geht es um Performance wie z.B. bei Computersimulationen wird mit allen Tricks gearbeitet.

• Wurzelberechnung ¨uber f(x) = x² − a liefert x_n₊₁ = (x_n + a/x_n) · 0.5

• Wurzelberechnung ¨uber f(x) = 1 − a/x² liefert x_n+1 = x_n · (3 − x²_n/a) · 0.5

• Das 2. Verfahren ist schneller, falls viele Werte berechnet werden sollen, da nur eine Division ben¨otigt wird und dann das Ganze ¨uber SSE-Einheiten in einer Pipeline ablaufen kann.

• Wird die inverse Wurzel ben¨otigt, ist das sogar noch schneller:

f(x) = 1/x² − a liefert x_n+1 = x_n · (3 − a · x²_n) · 0.5 ohne Division.

Initialisierung ¨uber (siehe Wikipedia)

i = ∗(long∗)&x;i = 0x5f3759df − (i >> 1); x₀ = ∗(f loat∗)&i;