7. Iterative L¨ osung

(1)

7. Iterative L¨ osung

linearer Gleichungssysteme

(2)

Grundlagen und Wiederholung (1)

Die Grundlagen decken sich mit dem Stoff, der einen Teil des Kapitels 2 - Numerik ausmacht und bereits in Mathematik behandelt wurde.

Eine zentrale Rolle bei numerischen Berechnungen spielen lineare Glei- chungssysteme

• Es sind die am h¨aufigsten auftretenden numerischen Probleme

• Anwendungsgebiete sind z.B.

* fast alle naturwissenschaftlich-technischen Problemstellungen vom Wetterbericht bis zur W¨armeentwicklung auf einer Koch- platte oder der Planung der Leiterbahnen auf Mikrochips,

* Bildverarbeitung oder z.B Beleuchtungsprobleme in der Com- putergrafik,

* wirtschaftlichen Fragestellungen wie Versicherungskosten oder B¨orsenkursvorhersage.

(3)

Grundlagen und Wiederholung (2)

L¨osungsverfahren

• Die direkten Verfahren liefern eine mit Rundungsfehlern behaftete L¨osung nach endlich vielen Schritten.

• Die iterativen Verfahren beginnen mit einer Anfangsnäherung und produzieren eine verbesserte Näherungslösung nach endlich vielen Schritten.

• Falls m¨oglich wird das Problem mit einem direkten Verfahren berechnet und anschließend werden die Rundungsfehler mit einem iterativen Verfahren verringert.

(4)

Grundlagen und Wiederholung (3)

Problemstellung: Berechne den Vektor x = (x₁, x₂, . . . x_n) aus

a_1,1x₁ + a_1,2x₂ + · · ·a_1,nx_n = b₁ a₂_,₁x₁ + a₂_,₂x₂ + · · ·a₂_,nx_n = b₂

·

a_n,₁x₁ + a_n,₂x₂ + · · ·a_n,nx_n = b_n

oder in Matrix-Schreibweise

Ax = b

Bemerkung: Vektoren werden hier ohne Vektorpfeil geschrieben

(5)

Wiederholung Gauß-Verfahren (1)

Schulbeispiel:

E₁ : x₁ + x₂ + 3x₄ = 4 E₂ : − x₂ − x₃ − 5x₄ = −7 E₃ : − 4x₂ − x₃ − 7x₄ = −15 E₄ : 3x₂ + 3x₃ + 2x₄ = 8 Mit Matrix:

A =







1 1 0 3

0 −1 −1 −5 0 −4 −1 −7

0 3 3 2







, x =







x₁ x₂ x₃ x₄







, b =







4

−7

−15 8







(6)

Wiederholung Gauß-Verfahren (2)

Erlaubte Transformationen zur L¨osung des Gleichungssystems

• Multiplizieren einer Zeile (Gleichung) mit einer Zahl verschieden von Null

• Addieren eines Vielfachen einer Zeile zu einer anderen Zeile

• Vertauschen von Zeilen (Gleichungen) bzw. Spalten (Unbekann- ten, entspricht Umnummerierung)

Mit Hilfe dieser Transformationen reduziere Gleichungssystem auf ein Dreieckssystem.

(7)

Wiederholung Gauß-Verfahren (3)

Zweite Spalte des Schulbeispiels:







1 1 0 3

0 −1 −1 −5 0 −4 −1 −7

0 3 3 2







·







x₁ x₂ x₃ x₄







=







4

−7

−15 8







·

a_3,i = a_3,i − a_3,2/a_2,2 · a_2,i b₃ = b₃ − a_3,2/a_2,2 · b₂ a₄_,i = a₄_,i − a₄_,₂/a₂_,₂ · a₂_,i b₄ = b₄ − a₄_,₂/a₂_,₂ · b₂

(8)

Wiederholung Gauß-Verfahren (4)

Schulbeispiel wird zu

E₁ : x₁ + x₂ + 3x₄ = 4 E₂ : − x₂ − x₃ − 5x₄ = −7

E₃ : 3x₃ + 13x₄ = 13

E₄ : − 13x₄ = −13

oder allgemein







a₁_,₁ a₁_,₂ · · · a₁_,n a₂_,₂ · · · a₂_,n

. . . ...

a_n,n







·







x₁ x₂ ...

x_n







=







b₁ b₂ ...

b_n







·

(9)

Wiederholung Gauß-Verfahren (5)

Ein Dreieckssystem ist leicht zu l¨osen. Aus E₄: x₄ = 1

x₄ einsetzten in E₃:

3x₃ + 13 = 13 → x₃ = 0 x₃, x₄ einsetzten in E₂:

−x₂ − 5 = −7 → x₂ = 2 x₂, x₃, x₄ einsetzten in E₁:

x₁ + 2 + 3 = 4 → x₁ = −1 Der Gauß-Algorithmus ist von der Ordnung O(n³).

(10)

Norm von Vektoren und Matrizen

Unterschiedliche Definitionen von Normen sind m¨oglich, hier nur die sogenannte 2-Norm:

• 2-Norm oder euklidische Norm von Vektoren (L¨ange eines Vek- tors):

||x||₂ =

v u u t

n X i=1

x²_i

• 2-Norm oder Spektralnorm von Matrizen (Wurzel aus der Summe der Quadrate der Diagonalelemente bei einer Diagonalmatrix):

||A||₂ = max_x₆₌₀||Ax_||

||x_|| ⁼

q

ρ(A^TA)

(11)

Iterative Verfahren (1)

Da das Gauß-Verfahren

• O(n³) ist und damit oft zu lange dauert,

• viele Matrizen nur d¨unn besetzt sind, das Gauß-Verfahren aber die Matrix f¨ullt

• und das Gauß-Verfahren zu viele Rundungsfehler hat,

werden meist iterative Gleichungsl¨oser verwendet. Beispiele:

• alle Programme f¨ur Computergraphiken, wie z.B. PovRay,

• alle Programme f¨ur Computersimulationen wie im IMH.

(12)

Iterative Verfahren (2)

Idee: Fixpunktgleichung

Eine Gleichung der Form F(x) = x heißt Fixpunktgleichung. Ihre L¨osungen, also der Werte, der die Gleichung F(x) = x erf¨ullen, heißen Fixpunkte

Definition:

Gegeben sei F : [a, b] → R,

x₀ ∈ [a, b]. Die rekursive Folge x_n+1 := F(x_n), n = 0, 1, . . . heißt Fixpunktiteration von F zum Startwert x₀.

X0 X

1 X

2 X

3

X1

X2

X3

(13)

Iterative Verfahren (3)

Anwendungsbeispiel

Bestimme die Nullstelle von p(x) = x³−x+ 0.3 oder l¨ose die Gleichung x = x³ + 0.3.

Methode: F¨uhre die Fixpunktiteration x_n₊₁ = F(x_n) = x³_n+ 0.3, durch Ergebnis:

• Startwert x₀ = 0 : konvergiert gegen x = 0.3389 . . .

• Startwert x₀ = 1: divergiert

Z.B. kann die Gleichung x = 2 sin(x) + 1 nur iterativ gel¨ost werden!

(14)

Iterative Verfahren (4)

Iterative Lösungsverfahren konstruieren ganz allgemein eine Lösung aus einer Startlösung:

x⁽⁰⁾ → x⁽¹⁾ → x⁽²⁾ → . . .

Angewendet auf die Berechnung der Lösung eines linearen Gleichungs- systems ist die Konvergenz abhängig von den Eigenschaften der Matrix und den Details des iterativen Lösungsverfahrens.

Es gibt zwei Gruppen von Verfahren

• die “klassischen” Verfahren, das Jacobi- und das Gauß-Seidel- Iterationsverfahren und darauf aufbauend Relaxationsverfah- ren, entwickelt im sp¨aten 18. Jahrhundert, werden heute noch angewandt.

• Krylov Unterraum-Methoden, die allgemeiner und oft schneller sind, jedoch ist in vielen F¨allen die Konvergenz unklar.

(15)

Richardson Iterationsverfahren (1)

Richardson Iterationsverfahren:

Idee: Formuliere ein passendes Fixpunktproblem

b = Ax = (A − I)x + x _⇔ x = b + (I − A)x := F(x) Iterationsvorschrift:

x^(t+1) = b + (I − A)x^(t) = x^(t) + (b ₋ _Ax^(t)) = x^(t) + r^(t) F¨ur x⁽^t⁺¹⁾ = x⁽^t⁾ gilt r⁽^t⁾ = 0 oder b ₋ _Ax⁽^t⁾ = 0

Der gesuchte Vektor x ist der Fixpunkt der Gleichung und wir oft auch als ¯x bezeichnet.

Der Vektor r⁽^t⁾ heißt Rest- oder Residuenvektor (manchmal Residu- umsvektor oder kurz Residuum) und ist ein Maß f¨ur den Fehler.

(16)

Richardson Iterationsverfahren (2)

Abbruchbedingung der Iterationsverfahren: Der Betrag des Re- siduenvektors ||r⁽^t⁾_|| = ||b ₋ _Ax⁽^t⁾_|| = ||A(x ₋ x⁽^t⁾_)|| oder besser der relative Betrag ||r^(t)_||/||x^(t)_|| muss klein sein.

||x_|| steht f¨ur die 2-Norm oder der L¨ange des Vektors x

||x_|| =

v u u t

n X i=1

x²_i Fehlerbetrachtung im t-ten Schritt

x ₋ x^(t) = x ₋ x^(t−1) ₋ (b ₋ _Ax^(t−1))

= x ₋ x^(t−1) ₋ _(Ax ₋ _Ax^(t−1))

= (I − A)(x ₋ x⁽^t−¹⁾)

(17)

Richardson Iterationsverfahren (3)

Mit der 2-Norm

||x ₋ x^(t)_||₂ = ||(I − A)(x ₋ x^(t−1))||₂

≤ ||(I − A)||₂ · ||(x ₋ x^(t−1)_)||₂

≤ ||(I − A)||²₂ · ||(x ₋ x⁽^t−²⁾_)||₂

· · ·

≤ ||(I − A)||^t₂ · ||(x ₋ x⁽⁰⁾_)||₂ Konvergenz liegt sicher vor f¨ur

||(I − A)|| < 1 oder A ist fast eine Einheitsmatrix.

(Die 2-Norm der Matrix ist die “Spektralnorm” und wird hier nicht n¨aher betrachtet, siehe Kapitel 2 zu Matrixnorm)

(18)

Jacobi Iterationsverfahren (1)

Verbesserung:

In vielen praktischen Problemen sind die Matrixeintr¨age auf der Dia- gonalen groß. Betrachte dann das modifizierte Problem

D⁻¹Ax = D⁻¹b mit D = diag(A) Diese Änderung ändert die Lösung nicht!

D⁻¹A ≈ I bzw. ||(I− D⁻¹A)|| < 1 ist aber eher erf¨ullt als ||(I −A)|| < 1 Beispiel:

A =





5 2 1 2 7 4

−1 2 8



, D⁻¹ =





1/5 0 0

0 1/7 0

0 0 1/8



, I−D⁻¹A =





0 2/7 1/8 2/5 0 4/8

−1/5 2/7 0



,

Matrizen, deren gr¨oßte Eintr¨age auf der Diagonalen sind, kommen z.B.

bei Beleuchtungsproblemen (Kapitel 2) oder bei sogenannten partiel- len Differentialgleichungen vor (Kapitel 10).

(19)

Jacobi Iterationsverfahren (2)

Aus Ax = b wurde D⁻¹Ax = D⁻¹b, also, ersetze im Richardson- Verfahren A → D⁻¹A und b _→ _D⁻¹b:

x^(t+1) = x^(t) + (D⁻¹b ₋ _D⁻¹_Ax^(t)) oder

Dx⁽^t⁺¹⁾ = Dx⁽^t⁾ + (b ₋ _Ax⁽^t⁾) = b _{+ (D} ₋ _A)x⁽^t⁾ Das ist das Jacobiverfahren

Historisch wurde das Verfahren anders hergeleitet, so wie es auch meist in der Literatur zu finden ist.

Ersetze Ax _{durch (D} + A − D)x und forme den Ausdruck in eine Fix- punktgleichung um

Ax = Dx _{+ (A} ₋ _D)x = b Das f¨uhrt zur selben Iterationsvorschrift:

Dx^(t+1) = b _{+ (D} ₋ _A)x^(t)

(20)

Jacobi Iterationsverfahren (3)

Elementweise geschrieben:

a_jjx⁽_j^t⁺¹⁾ = b_j + a_jjx⁽_j^t⁾ − ^X

k

a_jkx⁽_k^t⁾

x^(t+1)_j = 1 a_jj



b_j − ^X

k6=j

a_jkx^(t)_k .





• Multipliziere die Matrix ohne Diagonalelemente mit x^(t)

• Ziehe das Ergebnis vom Vektor b ab

• Teile jedes Element durch das entsprechende Diagonalelement

• F¨uhre das solange durch, bis der Residuenvektor klein ist

(21)

Gauß-Seidel Verfahren (1)

Weitere Verbesserung: Zerlege die Matrix in 3 Teile:

• D: Diagonalteil von A

• −L: Unterdiagonalteil von A

• −U: Oberdiagonalteil von A L¨ose

b = Ax = (D − L − U)x = (D − L)x ₋ _Ux

¨

uber die Iterationsvorschrift

(D − L)x⁽^t⁺¹⁾ = b + Ux⁽^t⁾ = b − (A − (D − L))x⁽^t⁾

= (D − L)x⁽^t⁾ + (b − Ax⁽^t⁾) = (D − L)x⁽^t⁾ + r⁽^t⁾

(22)

Gauß-Seidel Verfahren (2)

Das Gauß-Seidel Verfahren lautet

x^(t+1) = x^(t) + (D − L)⁻¹(b ₋ _Ax^(t)) und ist gleich einer Richardson Iteration angewandt auf

(D − L)⁻¹Ax = (D − L)⁻¹b

Das Verfahren ist konvergent, falls ||I − (D − L)⁻¹A||₂ < 1

In vielen Anwendungen, basierend auf der diskretisierten Form soge- nannter partieller Differentialgleichungen, kommt eine Variante dieser Methode zum Einsatz (Kapitel 10).

(23)

Gauß-Seidel Verfahren (3)

Elementweise geschrieben:

(D − L)x^(t+1) = b + Ux^(t) a_jjx^(t+1)_j + ^X

k<j

a_jkx^(t+1)_k = b_j − ^X

k>j

a_jkx^(t)_k .

Berechnet x⁽₁^t⁺¹⁾, und damit x⁽₂^t⁺¹⁾ usw.

a₁₁x^(t+1)₁ = b₁ − ^X

k>1

a_1kx^(t)_k a₂₂x^(t+1)₂ + a₂₁x^(t+1)₁ = b₂ − ^X

k>2

a₂_kx^(t)_k a₃₃x⁽₃^t⁺¹⁾ + a₃₁x⁽₁^t⁺¹⁾ + a₃₂x⁽₂^t⁺¹⁾ = b₃ − ^X

k>3

a_3kx⁽_k^t⁾ ... = ...

(24)

Relaxationsverfahren

Die Wahl der Matrix, mit der die urspr¨unglich Fixpunktgleichung modifiziert wird, ist im Prinzip beliebig (siehe Pr¨akonditionierung)

Das SOR (successive over-relaxation) Verfahren modifiziert das Gauß- Seidel Verfahren durch

(D − L) → (D

ω − L) Eingesetzt und multipliziert mit ω folgt

(D − ωL) x^(t+1) = [(1 − ω)D + ωU]x^(t) + ωb

Die richtige Wahl vom ω kann den Algorithmus stark beschleunigen.

(25)

Pr¨ akonditionierung

Verallgemeinerung der obigen Methoden: Anstatt das Originalproblem zu l¨osen, betrachte

M⁻¹Ax = M⁻¹b

M sollte leicht zu invertieren sein und in der N¨ahe von A liegen, damit M⁻¹A leicht zu berechnen ist und in der N¨ahe der Einheitsmatrix liegt.

Die Richardson Iterationsvorschrift f¨ur das pr¨akonditionierte System lautet

x^(t+1) = (1−M⁻¹A)x^(t)+M⁻¹b = x^(t)+M⁻¹(b_−Ax^(t)) = x^(t)+M⁻¹r^(t) mit hoffentlich kleiner Iterationsmatrix C = 1 − M⁻¹A. Jacobi bzw.

Gauß-Seidel Verfahren entsprechen den Pr¨akonditionierungsmatrizen M = D bzw. M = D − L.

(26)

Krylov Unterraum-Methoden (1)

Problem:

Die bis jetzt vorgestellten Methoden konvergieren nur, wenn die Itera- tionsmatrix ||C|| = ||1 − M⁻¹A|| klein ist.

F¨ur das Jacobi-, Gauß-Seidel- und SOR-Verfahren bedeutet das, dass die Nebendiagonalelemente von A im Vergleich zu den Diagonalele- menten klein sein m¨ussen.

Krylov Unterraum-Methoden beruhen auf einer Verallgemeinerung der bisher vorgestellten Fixpunktgleichungen. Aus dem pr¨akonditio- niertem Richardson Iterationsverfahren wird

x⁽^t⁺¹⁾ = x⁽^t⁾ + M⁻¹r⁽^t⁾ _⇒ x⁽^t⁺¹⁾ = x⁽^t⁾ + α⁽^t⁾p⁽^t⁾_.

Je nach Wahl von α⁽^t⁾ und p⁽^t⁾ ergeben sich unterschiedliche Metho- den, wobei nur sicher gestellt werden muss, dass x⁽^t⁾ jede m¨ogliche Richtung annehmen kann, so dass die L¨osung gefunden werden kann, und dass der Betrag des Residuums ||b ₋ _Ax_k_|| immer kleiner wird.

(27)

Krylov Unterraum-Methoden (2)

Was ist ein Krylov Unterraum?

Beispiel: F¨ur die einfachste Iterationsvorschrift: Die Richardson Itera- tion

x⁽^t⁺¹⁾ = x⁽^t⁾ + r⁽^t⁾_. gilt

r^(t) = b ₋ _Ax^(t)

= b ₋ _A(x⁽^t−¹⁾ + r⁽^t−¹⁾)

= b ₋ _A(x⁽^t−¹⁾ + b ₋ _Ax⁽^t−¹⁾)

= (I − A)(b ₋ _Ax^(t−1))

= (I − A)r^(t−1)

= (I − A)²r^(t−2)

= . . . = (I − A)^tr⁽⁰⁾

(28)

Krylov Unterraum-Methoden (3)

Mit dem Startvektor x⁽⁰⁾ = 0 und damit r⁽⁰⁾ = b ₋ _Ax⁰ = b folgt x^(t+1) = x^(t) + r^(t)

= x^(t−1) +

t X j=t−1

r^(j)

= x⁽⁰⁾ +

t X j=0

r^(j)

=

t X j=0

(I − A)^j b

(29)

Krylov Unterraum-Methoden (4)

Die Iterationsl¨osung x^(t) = ^P^t−1_j=1(I − A)^j b ist somit Element des Un- terraums

x^(t) _{∈ {}b_{, A}b, . . . , A^t−1b_} = K_t(A,b)

Dieser Raum wird als Krylov Unterraum der Dimension t, K_t(A,b) bezeichnet.

Die Iterationsl¨osung x_t liegt bei einem Krylov-Unterraumverfahren in K_t(A,b).

Je nachdem, wie die Iterationsl¨osung innerhalb des Unterraums bestimmt wird, gibt es verschiedene Iterations-Strategien.

(30)

Krylov Unterraum-Methoden (5)

Die bekanntesten sind

• Ritz-Galerkin Ansatz: r⁽^t⁾ orthogonal zu K_t(A,b) (z.B. CG).

Das bedeutet genauer:

x_t _∈ _K_t und r_t = (b ₋ _Ax_t) ∈ K_t^⊥

• Petrov-Galerkin Ansatz: r^(t) orthogonal zu einem allgemeinen Un- terraum L_t (z.B. BI-CG oder QMR))

• Minimierung von ||r⁽^t⁾_||₂ (z.B. MINRES oder GMRES)

• Hybride Verfahren (z.B. Bi-CGSTAB)

• Minimierung des Fehlers ||x ₋ x⁽^t⁾_||₂ (z.B. GMERR)

Es werden laufend neue Verfahren, angepasst an spezielle Probleme entwickelt.

(31)

Einschub: Schreibweisen f¨ ur Vektoren und Matrizen

• Vektoren werden mit einem Vektorpfeil nur geschrieben, wenn es sich um Vektoren im Raum handelt, ansonsten meist durch “fetten Schriftsatz” gekennzeichnet.

• Ein Skalarprodukt zweier Vektoren wird geschrieben als

* a_◦b oder a_·b, h¨aufig bei Ingenieuren und in der Schule verwendet

* ha_,b_i oder (a_,b), Bra-Ket Schreibweise, beliebt bei z.B. Physi- kern und angewandten Mathematikern

* a^Tb, Matrix-Schreibweise, beliebt bei Mathematikern

• Dementsprechend gilt z.B.

a _◦ _(Mb) ≡ a^T_Mb _≡ (a_{, M}b)

(32)

CG (1)

Das konjugierte Gradientenverfahren (CG) ist Grundlage vieler moder- ner Iterationsverfahren (entwickelt 1952 von Stiefel und Hestens).

• Es konvergiert (falls keine Rundungsfehler vorliegen) f¨ur positiv definite und symmetrische Matrizen

a(x) = x^T_Ax = (x_{, A}x) > 0; A_i,j = A_j,i

der Gr¨oße n × n in n Schritten und ist somit eine schnelle und sichere Methode zur L¨osung des Gleichungssystems.

• Die Rundungsfehler f¨uhren bei großen Systemen jedoch dazu, dass man in vielen F¨allen nicht n sondern ca. 3n Schritte anwendet.

• Es ist das einzige iterative Verfahren, f¨ur das die Konvergenz im Allgemeinen bewiesen wurde.

• Da jeder Schritt einer Matrixmultiplikation entspricht, lohnt sich das Verfahren besonders f¨ur d¨unn besetzte Matrizen.

(33)

CG (2)

Grundlage ist ein Optimierungsproblem. Die L¨osung von Ax = b

ist ein Minimum der Funktion f(x) = 1

2(x_{, A}x) − (b_,x)

und umgekehrt. Begründung: Sie x der Lösungsvektor von Ax = b, so gilt für einen beliebigen Vektor x + p

f(x + p) = 1

2(x + p_{, A(}x + p)) − (b_,x + p)

= f(x) + (p_,_(Ax ₋ b)) + 1

2 (p_{, A}p) = f(x) + 1

2 (p_{, A}p) > f(x) Das Verfahren setzt sich aus 2 Teilen zusammen: die Methode des

“steilsten Abstiegs” und die Methode der “konjugierten Richtung”.

(34)

CG (3)

Die Methode des “steepest descent” der Gradientenverfahren:

• Richtung: Beginnt man mit einem Vektor x + p und m¨ochte entlang des steilsten Abstiegs das Minimum erreichen, so muss man entlang des Negativen der Ableitung der Funktion f(x) nach x gehen, also entlang

−f^′(x) = −(Ax ₋ b) = r_.

Das Residuum gibt die Richtung des steilsten Abstiegs an.

• Relaxationsfaktor: Betrachte die Funktion f(x+αp) und bestimmt f¨ur einen Vektor p das Minimum im Parameter α:

df(x + αp)

dα = d

dα(f(x) + (αp_,(Ax ₋ b)) + 1

2 α²(p_{, A}p))

= (p_,_(Ax ₋ b)) + α(p_{, A}p) = 0 oder

α_opt = (p_,r) (p_{, A}p)

(35)

CG (4)

Algorithmus: Ausgangspunkt ist eine verallgemeinerte Richardson Ite- rationsvorschrift x⁽ⁱ⁺¹⁾ = x⁽ⁱ⁾ + α_ip⁽ⁱ⁾.

• Verwende die Richtung des steilsten Abstiegs p = r und α_opt.

• Setze x⁽⁰⁾ und berechne r⁽⁰⁾ = b ₋ _Ax⁽⁰⁾

• F¨uhre folgende Schritte durch:

α_i = (r⁽ⁱ⁾_,r⁽ⁱ⁾) (r⁽ⁱ⁾_{, A}r⁽ⁱ⁾) x⁽ⁱ⁺¹⁾ = x⁽ⁱ⁾ + α_ir⁽ⁱ⁾

r⁽ⁱ⁺¹⁾ = b ₋ _Ax⁽ⁱ⁺¹⁾ = r⁽ⁱ⁾ ₋ _α_i_Ar⁽ⁱ⁾

Das Verfahren konvergiert immer für positiv definite und symmetrische Matrizen, aber meist sehr langsam, da die Richtung des steilsten Abstiegs zu einer oszillierenden Bewegung der Lösung führen kann.

(36)

CG (5)

Beispiel aus G.Opfer:

Bestimme die L¨osung des Gleichungssystem 1 0

0 10

!

· x₁ x₂

!

= 0

0

!

mit der Methode des steilsten Abstiegs. Das ¨aquivalente System ist:

Bestimme das Minimum der Funktion f(x) = 1

2(x_{, A}x) − (b_,x)

= 1 2

x₁ x₂ · 1 0 0 10

!

· x₁ x₂

!

− 0 0 · x₁ x₂

!

= 1

2(x²₁ + 10x²₂)

(37)

CG (6)

W¨ahle als Startvektor x⁽⁰⁾^T = (1.0, 0.1)

Der L¨osungsvektor oszilliert zur L¨osung

-0.1 -0.08 -0.06 -0.04 -0.02 0 0.02 0.04 0.06 0.08 0.1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

min(x_1^2 + 10 x_2^2)

(38)

CG (7)

Die Methode der “konjugierten Richtung”:

Ausgangspunkt f¨ur Methode des “steepest descent” war die Funktion f. Als Richtung wurde der Gradient festgelegt und die L¨ange des Gradientenvektors durch das Minimum der Funktion f

f(x + αp) = f(x) + α(p_,(Ax ₋ b)) + 1

2 α² (p_{, A}p)

= f(x) + α(p_{, A}x) + 1

2 α² (p_{, A}p) − α(p_,b)

als Funktion von α bestimmt. Verfahren zur Vermeidung der Oszilla- tionen (nur zum Verst¨andnis, ohne Beweise):

• Die Richtungen, in der sich x⁽ⁱ⁾ entwickelt, seien in einem Unter- raum P⁽ⁱ⁾ =< p⁽⁰⁾, p⁽¹⁾, . . . p⁽ⁱ⁻¹⁾ >

(39)

CG (8)

• Der Vektor x⁽ⁱ⁾ l¨asst sich dann schreiben als x⁽ⁱ⁾ = x⁽ⁱ⁻¹⁾ + α⁽ⁱ⁻¹⁾p⁽ⁱ⁻¹⁾ = x⁽⁰⁾ +

i−1 X j=0

α⁽^j⁾p⁽^j⁾

• Wähle als nächste Richtung zur Berechnung von x⁽ⁱ⁺¹⁾ nicht den Gradienten, sondern eine Richtung p⁽ⁱ⁾, so dass der 2. Summand in f(x + αp) für alle Beträge von x in Richtung x⁽ⁱ⁾ wegfällt

(p⁽ⁱ⁾_{, A}x⁽ⁱ⁾) = 0

• Da x⁽ⁱ⁾ eine Linearkombination der x^(j)_{, j} = 1, . . . , i−1 ist, bedeutet das

(p⁽ⁱ⁾_{, A}p⁽^j⁾) = 0 f¨ur j ≤ i

(40)

CG (9)

• Die Vektoren p⁽⁰⁾_,p⁽¹⁾_{, . . . ,}p⁽ⁱ⁾ heißen paarweise zu A-konjugierte Richtungen, da gilt

(p⁽^k⁾_{, A}p⁽^j⁾) = 0 f¨ur k 6= j

• Bestimme nun, wie gehabt, das optimale α.

α_opt = (p⁽ⁱ⁾_,r⁽ⁱ⁾) (p⁽ⁱ⁾_{, A}p⁽ⁱ⁾)

• und berechne damit

x⁽ⁱ⁺¹⁾ = x⁽ⁱ⁾ + αp⁽ⁱ⁾

(41)

CG (10)

Algorithmus: (bis jetzt)

Verwende einen Satz von konjugierten Suchrichtungen p_i. Setze x⁽⁰⁾ und r⁽⁰⁾ = b ₋ _Ax⁽⁰⁾

Dann f¨uhre folgende Schritte durch:

α_i = (r⁽ⁱ⁾_,p⁽ⁱ⁾) (p⁽ⁱ⁾_{, A}p⁽ⁱ⁾) x⁽ⁱ⁺¹⁾ = x⁽ⁱ⁾ + α_ip⁽ⁱ⁾

r⁽ⁱ⁺¹⁾ = b ₋ _Ax⁽ⁱ⁺¹⁾ = r⁽ⁱ⁾ ₋ _α_i_Ap⁽ⁱ⁾

Die verbleibende Aufgabe ist es, die Suchrichtungen p⁽ⁱ⁾ günstig zu wählen, dass sich schnell eine gute Näherung ergibt.

(42)

CG (11)

Die “konjugierte Gradienten-Methode” von Hestens und Stiefel Hier werden die konjugierten Richtungen aus den Restvektoren kon- struiert werden.

p⁽⁰⁾ = r⁽⁰⁾

p⁽ⁱ⁾ = r⁽ⁱ⁾ + β⁽ⁱ⁾p⁽ⁱ⁻¹⁾_.

Ist β⁽ⁱ⁾ = 0, ergibt sich die Methode des Gradientenverfahren. Die Koeffizienten β⁽ⁱ⁾ werden so gew¨ahlt, dass die Richtungen p⁽ⁱ⁾ wie gefordert zueinander konjugiert sind.

0 = (p⁽^m⁾_{, A}p⁽ⁱ⁾) = (r⁽^m⁾_{, A}p⁽ⁱ⁾)+β⁽^m⁾(p⁽^m−¹⁾_{, A}p⁽ⁱ⁾) f¨ur i = 0, . . . , m−1

(43)

CG (12)

Da

(p⁽^m−¹⁾_{, A}p⁽ⁱ⁾) = 0 f¨ur i < m − 1 folgt

β⁽^m−¹⁾ = − (r⁽^m⁾, Ap⁽^m−¹⁾) (p^(m−1), Ap^(m−1))

Ohne Beweis: Jetzt gilt f¨ur den neuen Residuenvektor (r⁽ⁱ⁺¹⁾_,p^(j)) = 0 f¨ur j = 0, . . . , i,

d.h. der Vektor steht senkrecht auf dem Raum P⁽ⁱ⁾. Da sich der Vek- torraum bei jedem Iterationsschritt um eine Dimension vergr¨oßert, ist sicher gestellt, dass das Verfahren nach n Schritten eine L¨osung findet.

Nach einigen Umrechnungen ergibt sich CG-Algorithmus.

(44)

CG (13)

Endg¨ultiger Algorithmus (ohne Beweis!):

Starte mit p⁽⁰⁾ = r⁽⁰⁾ = b_−Ax⁽⁰⁾. Dann f¨uhre folgende Schritte durch:

α⁽ⁱ⁻¹⁾ = |r⁽ⁱ⁻¹⁾_|²

(p⁽ⁱ⁻¹⁾_{, A}p⁽ⁱ⁻¹⁾)

x⁽ⁱ⁾ = x⁽ⁱ⁻¹⁾ + α⁽ⁱ⁻¹⁾p⁽ⁱ⁻¹⁾ r⁽ⁱ⁾ = r⁽ⁱ⁻¹⁾ − α⁽ⁱ⁻¹⁾Ap⁽ⁱ⁻¹⁾ β⁽ⁱ⁾ = |r⁽ⁱ⁾_|²

|r⁽ⁱ⁻¹⁾_|²

p⁽ⁱ⁾ = r⁽ⁱ⁾ + β⁽ⁱ⁾p⁽ⁱ⁻¹⁾

(45)

CG (14)

Nochmal das Beispiel aus G.Opfer

1 0 0 10

!

· x₁ x₂

!

= 0

0

!

Wähle als Startvektor wieder x⁽⁰⁾^T = (1.0,0.1) Der Lösungsvektor oszilliert nicht mehr und die Lösung wird in 2 Schritten erreicht.

-0.1 -0.08 -0.06 -0.04 -0.02 0 0.02 0.04 0.06 0.08 0.1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

min(x_1^2 + 10 x_2^2)

(46)

CG (15)

Rechenaufwand pro Iteration 1 Matrixmultiplikation A,

2 Skalarprodukte, 3 AXPYs

Es werden (theoretisch) n Iterationen ben¨otigt.

Einfache Erweiterung f¨ur nicht-symmetrische Matrizen

Ist die Matrix nicht symmetrisch und positiv definite, betrachte A^TAx = A^Tb

und konstruiere die L¨osung in K_i(A^TA, A^Tb) unter Verdoppelung der Anzahl der Matrix-Vektor Multiplikationen (geht besser durch Erwei- terung des Krylov-Unterraums).