Stationäre Verfahren: Konvergenzaussagen für Matrixklassen

Kleiner Einschub: Etwas Heuristik zu dieser Aussage Sei

(L x)(t) =f(t), (

(L x)(t) =x^(m)(t) +∑_m₋₁

k=0 a_k(t)x^(k)(t))

Rx= 0 (264)

eine Randwertaufgabe m-ter Ordnung und

h⁻^mL_hx_h =f_h (265)

eine Diskretisierung davon zur Schrittweiteh= 1/(n+ 1). Um die Argumenta-tion zu erleichtern, nehmen wir einmal für die MatrixL_h ∈Rⁿ^×ⁿ an, dass ihre Diagonale einen konstanten Wert enthält, der auch noch h-unabhängig ist:

Diagonale(L_h) = αI.

Dann ist die Iterations-Matrix des Jacobi-Verfahrens zu (265) gegeben durch G_J =α⁻¹(αI−L_h) =I−α⁻¹h^m(h⁻^mL_h).

Mit der Diskretisierung möchte man ja die Randwertaufgabe (264) approxi-mieren. Wir ziehen daraus den (zugegeben ﬂinken) Schluß, dass die Eigenwerte λ_h,1, . . . , λ_h,nder Matrixh⁻^mL_h die erstenn Eigenwerteλ₁, . . . , λ_nder zu (264) gehörigen Eigenwertaufgabe

(L x)(t) =λx(t),

Rx = 0

approximieren. Für die Eigenwerte solcher Eigenwertaufgaben der Ordnungm gilt normalerweise

λ_j =O(j^m).

Damit schließen wir, dass tendenziell gelten sollte spec(G_J)≈{

1−α⁻¹h^m,1−α⁻¹h^m 2^m, . . . ,1−α⁻¹h^m n^m ≈1−α⁻¹} . Dies ergibt (auch wenn wir noch versuchen α geeignet zu variieren (gedämpfte Jacobi-Iteration)) auf jeden Fall

ρ(G_J)−→^h^→⁰ 1 wie h^m −→0.

Weil sich die Eigenwerte und Eigenvektoren der Matrix (262) explizit angeben lassen, ist dies Problem ideal geeignet, um erste Ideen über das Verhalten von Iterationsverfahren zu erhalten. Man kann nämlich - wie oben gesehen - über die Spektralzerlegung der System-matrix selbst oft auch Spektralanalysen des Iterationsprozesses¹⁸⁵ vornehmen.

Wir haben das obige System (262) aber aus zwei weiteren Gründen als Beispiel ausge-wählt. Denn es gehört gleichzeitig zu zwei wichtigen Klassen von Matrizen, für die Konver-genzaussagen zu den Standard-Iterationsmethoden bekannt sind. Einerseits ist die Matrix

„SPD“¹⁸⁶ und andererseits ist sie „schwach diagonaldominant“ und „nicht zerfal-lend“ (bzw.anderslautend aber dasselbe bezeichnend: „irreduzibel“ ), vgl. hierzu Deﬁnitio-nen 5.5 und 5.7.

Die Konsequenzen dieser letzten Eigenschaften behandeln wir im nächsten Unterabschnitt.

Hier wird für die Systemmatrix weder Symmetrie noch positive Deﬁnitheit vorausgesetzt.

In den zuhörigen Konvergenzbeweisen für die beiden Splitting-Verfahren nach Jacobi und Gauss-Seidel, muss der Rechenﬂuss en detail analysiert werden.

Unter der Voraussetzung der positiven Deﬁnitheit vonAlassen sich für diese Verfahren als auch gleich für overrelaxierte oder gedämpfte Versionen elegantere Beweise führen. Dies geschieht im übernächsten Unterabschnitt.

5.1.1 Diagonaldominanz und schwache Diagonaldominanz

Wir wollen in diesem Abschnitt über Kriterien berichten, welche an der Systemmatrix erkennen lassen, ob die Standard-Verfahren für Gleichungssysteme wie (262) konvergieren.

Einerseits hatten wir als leicht kontrollierbare und für die Konvergenz der Jacobi-Iteration ausreichende Eigenschaft schon auf der Seite 52 die folgende Eigenschaft der starken Zeilen-Diagonaldominanz erkannt:

Deﬁnition 5.3 (Starke Zeilen Diagonaldominanz)

A= (a_ij)∈R^(n,n) heißt „stark zeilen-diagonal-dominant“, wenn

|a_ii| >∑

k̸=i

|a_ik| ∀i= 1, . . . , n (266)

Auf Seite 52 hatten wir auch schon festgestellt, dass die starke Spaltendiagonaldominanz hinreichend für die Konvergenz der Jacobi-Iteration ist.

Deﬁnition 5.4 (Starke Spalten Diagonaldominanz)

A= (a_ij)∈R^(n,n) heißt „stark spalten-diagonal-dominant“, wenn

|a_jj|>

∑n i=1,i̸=j

|a_i,j|, j = 1, . . . , n. (267)

Leider sind beide Eigenschaften bei der Matrix (262) nicht erfüllt. Hier gelten die Be-dingungen (266) und auch (267) nur noch in dem Sinne „schwach“, dass dort anstelle einen <-Zeichens fast überall das Gleichheitszeichen gilt. Nur in zwei Zeilen (bzw. Spal-ten) bleibt das<-Zeichen erhalten. Die einfach Bildung der ∞-Norm der Iterationsmatrix bringt uns hier nicht die beobachte Konvergenz sowohl vom Jacobi- als auch vom Gauss-Seidel-Verfahren.

Für Abhilfe sorgt hier das Zusammenwirken dieser „schwache Diagonaldominanz“ mit der sogenannten „Irreduzibilität“ der Systemmatrix:

Deﬁnition 5.5 (Schwache Zeilen-Diagonaldominanz)

A= (a_ij)∈R^(n,n) heißt „schwach Zeilen-diagonal-dominant“, wenn

|a_ii| ≥∑

k̸=i

|a_ik| ∀i= 1, . . . , n (268)

aber auch

|a_pp| >∑

k̸=p

|a_pk| für mindestens ein p∈ {1, . . . , n}, (269)

Anmerkung:Wenn die beiden Bedingungen (268, 269) gelten, so sagt man auch, dass die Matrix das „schwache Zeilensummenkriterium“ erfüllt.

Deﬁnition 5.6 (Schwache Spalten-Diagonaldominanz)

A = (a_ij) ∈ R^(n,n) heißt „schwach Spalten-diagonal-dominant“, wenn A^T schwach Zeilen-diagonal-dominant ist.

Deﬁnition 5.7 (Reduzibilität und Irreduzibilität)

Eine Matrix A ∈ R^(n,n) heißt „reduzibel“ , wenn es eine Permutationsmatrix P gibt, mit der

P^TAP =

(A˜₁₁ A˜₁₂ 0 A˜₂₂

)

wird, wobei A˜_ii∈R^pⁱ^×^pⁱ, i= 1,2 sind mit p₁ >0, p₂ >0und p₁+p₂ =n.

Andernfalls ist A irreduzibel¹⁸⁷. Anmerkungen 5.8

1. Anstelle der Bezeichnung „reduzibel“ verwendet man auch „zerfallend“ oder „zerleg-bar“.

2. Eine alternative äquivalente Deﬁnition der Reduzibilität ist die Folgende:

Eine Matrix A ∈ R^(n,n) heißt reduzibel, wenn es nichtleere Teilmengen N₁ und N₂ der Indexmenge N :={1,2,3, . . . , n} gibt mit den Eigenschaften

– (i)N1∩N2 = ∅; – (ii) N1∪N2 = N;

– (iii) aij = 0 für alle i∈N1 und j ∈N2

3. Wir werden zeigen, dass schwache Diagonaldominanz zusammen mit der Irreduzibi-lität hinreichend für die Konvergenz sowohl der Jacobi- als auch der Gauss-Seidel-Iterationen sind.

Überzeugen Sie sich durch Konstruktuion von Beispielen, dass man auf keine der drei Eigenschaften (268), (269) und Irreduzibilität verzichten kann, ohne den Verlust der Konvergenz des Jacobi-Verfahrens zu verlieren. (Dies gilt auch für das Gauss-Seidel-Verfahren, ist aber schwieriger zu analysieren.)

4. Die Reduzibilität einer Matrix bedeutet, dass es eine Gruppe von Komponenten des Lösungsvektors gibt, die im System nicht von den komplementären Komponenten abhängen. (Nach Anwendung der obigen Permutation sind dies gerade die letzten p₂ Komponenten.) Der folgende Satz sichert die Konvergenz der Jacobi-Iteration für schwach diagonal-dominante Matrizen, die gleichzeitig irreduzibel sind. Diese letzte Forderung ist für die Anwendungen nicht einschränkend. Ist nämlich eine Matrix reduzibel, so kann ein Teilsystem des Problems unabhängig vom Rest bearbeitet werden. Das ist sicher kein Nachteil. Nach Elimination der entsprechenden Variablen ist das Restsystem entweder irreduzibel, oder es kann weiter reduziert werden.

5. Es ist von Vorteil, die Irreduzibilität einer Matrix über einen zugehörigen gerichte-ten Adjazenz-Graphen zu interpretieren. Wie beim ungerichtegerichte-ten Adjazenzgraphen symmetrischer Matrizen¹⁸⁸ wird der i–ten Zeile der Matrix A∈ Rⁿ^×ⁿ ein Knoten v_i zugeordnet, i = 1, . . . , n. Im gerichteten Adjazenzgraphen GG(A) von A wird nun

der Knoten vi mit dem Knoten vj durch die gerichtete Kante (vi, vj) verbunden¹⁸⁹, wenna_ij ̸= 0 ist¹⁹⁰.

Eine Matrix ist nun genau dann irreduzibel, wenn es in ihrem gerichteten Adjazenz-Graphen zu je zwei Knoten vi und vj stets einen gerichteten verbindenden Weg¹⁹¹ gibt¹⁹².

6. Für die spätere Verwendung schließen wir, dass es bei irreduziben MatrizenM zu zwei nicht leeren und disjunkten KnotenmengeJ, K ⊂ {1, . . . , n} mit J∪K ={1, . . . , n} stets zwei Indizes j ∈ J und k ∈ K gibt mit m_jk ̸= 0. Wählt man nämlich zwei beliebigen Indizesˆj ∈J und kˆ∈K, so gibt es einen gerichteten Weg inGG(M)von ˆj nach K. Dieser Weg muss irgendwannˆ J verlassen und in K eintreten. Hier ﬁndet man die Indizesj und k.

Beispiel 5.9 (Reduzibilität und Irreduzibilität)

∗ bedeutet im weiteren stets ein Nicht-Null-Element. Unter den Matrizen

A₁ :=







∗ 0 ∗ 0 0 0 ∗ 0 ∗ 0

∗ 0 ∗ 0 ∗ 0 ∗ 0 ∗ 0 0 0 ∗ 0 ∗





, A₂ :=







∗ 0 0 0 ∗

∗ ∗ 0 0 0 0 ∗ ∗ 0 0 0 0 ∗ ∗ 0 0 0 0 ∗ ∗





, A₃ :=







∗ ∗ 0 0 0

∗ ∗ ∗ 0 0 0 ∗ ∗ ∗ 0 0 0 ∗ ∗ ∗ 0 0 0 ∗ ∗







istA₁reduzibel, die anderen beiden sind irreduzibel. Ihre gerichteten GraphenGG(A_k), k = 1, ..,3 sind in der folgenden Abbildung dargestellt.

0 1 2 3 4 5 6

−1

−0.8

−0.6

−0.4

−0.2 0 0.2 0.4 0.6 0.8 1

1 3 5 2 4

GG(A1)

−1 −0.8 −0.6−0.4−0.2 0 0.2 0.4 0.6 0.8 1

−1

−0.8

−0.6

−0.4

−0.2 0 0.2 0.4 0.6 0.8 1

4 3

GG(A₂) 5

0 1 2 3 4 5 6

−1

−0.8

−0.6

−0.4

−0.2 0 0.2 0.4 0.6 0.8 1

1 2 3 4 5

GG(A₃)

Abbildung 96: Gerichtete Graphen

Wie man übrigens aus dem Graphen sofort abliest, zerfälltA₁ in zwei unabhängige jeweils irreduzible Untersysteme.

Satz 5.10 (Eine zweite Konvergenz-Aussage für die Jacobi-Iteration )

Ist die System-Matrix A ∈ Cⁿ^×ⁿ schwach diagonal-dominant und irreduzibel so ist das Jacobi-Verfahren durchführbar und konvergent.

189Wichtig: Anders als beim ungerichteten Graphen kommt es hier bei der Kante(vi, vj)auf die Reihen-folge der Knoten an.

190Im unsymmetrischen Fall muß mit a_ij ̸= 0 nicht notwendig auch a_ji ̸= 0 sein. Dieser strukturellen Unsymmetrie wird im Graphen mit der Einführung einer Richtung der Kanten Rechnung getragen.

191Dabei erklären wir einen solchen gerichteten Weg nicht genauer, sondern gehen davon aus, dass diese Notation anschaulich klar ist.

192Die Forderung schließt ein, dass es sowohl einen Hinweg als auch einen Rückweg gibt; denn mitv_i und vj sind auchvj undvi „ je zwei Knoten“.

Bevor wir auf die Konvergenz eingehen, wollen wir erst einmal zeigen, dass die Vorausset-zungen der letzen Konvergenzaussage implizieren, dass das Verfahren überhaupt ausführ-bar ist (dass also die Diagonalelemente ungleich Null sind). Dabei lernen wir zugleich auch noch, dass dann die Systemnmatrix zwingend regulär ist.

Satz 5.11 (Satz über schwach diagonaldominante, irreduzible Matrizen )

Eine quadratische schwach diagonaldominante und irreduzible Matrix M ist regulär und hat lauter nichtverschwindende Diagonalelemente.

Beweis: Wenn M nicht regulär ist, gibt es einen Vektor x ̸= 0 mit M x = 0. Das heißt, dass

m_iix_i =−

∑n l=1,l̸=i

m_ilx_l, i= 1, . . . , n, und mit der Dreiecksungleichung folgt hieraus

|m_ii| |x_i| ≤

∑n l=1,l̸=i

|m_il| |x_l|, i= 1, . . . , n. (270)

Wir deﬁnieren nun Indexmengen

J :={j | |x_j|=∥x∥∞} und K :={k| |x_k|<∥x∥∞}. Es ist trivialerweise J ̸=∅, und es ist ebenfalls K ̸=∅, weil sonst

|xi|=∥x∥∞ für alle i= 1, . . . , n wäre, was nach (270) bedeutete, dass

|m_ii| ≤

∑n l=1,l̸=i

|m_il|, i= 1, . . . , n,

Dies widerspräche aber (269). Weil J und K beide nicht leer sind und M irreduzibel ist, gibt es j ∈J und k ∈K mit m_jk ̸= 0. Damit ergibt sich

|m_jj| ≤ ∑_n

l=1,l̸=j|m_jl|^|_|_x^x_j^l^|_| =∑_n

l=1,l̸=j|m_jl|_∥^|_x^x_∥^l_∞^|

= ∑_n

l∈J,l̸=j|m_jl|^∥_∥^x_x^∥_∥^∞_∞ +∑_n

l∈K,l̸=j,k|m_jl|_∥^|_x^x_∥^l_∞^| +|m_jk|_∥^|_x^x_∥^k_∞^|

< ∑n

l=1,l̸=j|m_jl|, da _∥^|_x^x_∥^k^|

∞ <1 und m_lk ̸= 0. Die gewonnene Ungleichung

|m_jj|<

∑n l=1,l̸=j

|m_jl|

widerspricht nun aber (268), weshalb M nicht singulär sein kann, was der erste Teil der Behauptung ist.

Dass die Diagonalelemente alle von Null verschieden sind, schließt man so. Wäre das

Dia-wie gerade gezeigt - nicht der Fall ist.

2 Einen eleganten Beweis für die Konvergenzaussagen ﬁndet man etwas weiter unten. Die-ser ist aber ein wenig indirekt und macht Gebrauch von der letzten Implikation „schwach diagonal-dominant und irreduzibel ⇒ regulär“. Es gibt andere, rechentechnisch aufwendi-gere Beweise, bei denen man aber die Wirkungsweise der Voraussetzungen besser versteht.

Wegen ihrer Länge werden wir hier die Grundidee dieser Beweise nur veranschaulichen.

Beweisidee zum letzten Konvergenzsatz:

Nach (96) gilt für die Fehlervektoren¹⁹³ e^[k] :=x^k−x^∗ die Rekursion e^[k+1]=G_Je^[k],

wobei G_J := I −D⁻¹A = (g_ij)ⁿ_i,j=1 die Iterationsmatrix des Jacobi- oder Gesamtschritt-verfahrens bezeichne. Da die Betragssummen der Zeilen von G_J nach Voraussetzung der schwachen Diagonaldominanz alle kleiner oder gleich 1 sind, gilt für die i–te Komponente von e^[k+1] sicherlich

|e^[k+1]_i |=

∑n j=1

g_ije^[k]_j ≤

∑n j=1

|g_ij| · ∥e^[k]∥∞ ≤ ∥e^[k]∥∞. Der Fehlervektor wird also in der Maximum-Norm sicher nicht größer.

Nach Voraussetzung gibt es mindestens eine Zeile vonGJ, deren Betragssumme echt kleiner als 1 ist. Sei dies die m–te Zeile:

∑n j=1

|g_mj|=:W <1.

Dann wird die m–te Komponente des Fehlervektors e^[k+1] sogar mindestens um den Wert (1−W)∥e^[k]∥_∞ kleiner als ∥e^[k]∥_∞. Diese Verkleinerung wirkt sich beim nächsten Iterati-onsschritt in allen Gleichungen aus, welche auf diem–te Komponente des Iterationsvektors zugreifen, deren zugeordnete Knoten im Adjazenzgraphen vonAalso direkt mitv_m verbun-den sind. Hier bewirken sie garantierte Reduktion der entsprechenverbun-den Fehlerkomponenten unter∥e^[k]∥∞. In den nächsten Iterationen breitet sich diese Reduktion nun entlang der We-ge im Adjazenzgraphen aus. Ist L die maximale Länge eines einfachen Verbindungsweges zwischen zwei Knoten in GG(A), so hat diese Reduktion nach spätestens LSchritten alle Komponenten erfaßt, und es tritt eine echte Fehlerverkleinerung∥e^[k+L]∥∞<∥e^[k]∥∞ein¹⁹⁴. Wollen wir die Idee einprägsam formulieren, so können wir etwa festhalten:

In den „stark-diagonaldominanten Zeilen wird Fehler aus dem System direkt abgeführt“.

Die Fehler der anderen Zeilen „ﬂießen über den zusammenhängenden Adjazenzgraphen in diese Fehlersenken ab.“

Es folgt nun der angekündigte indirekte Beweis:

193Die im Satz mitbewiesene Regularität von A (und damit die eindeutige Existenz der Lösung x^∗) nehmen wir hier der Einfachheit halber einmal an.

194Hier muß man natürlich noch insofern Vorsicht walten lassen, als dass ja bekanntlich nicht jede monoton fallende nichtnegative Folge auch schon Nullfolge ist. Der Grundgedanke sollte aber so doch klar geworden sein.

Beweis von Satz 5.10:

Wir zielen darauf, für die Iterationsmatrix G_J =D⁻¹(L+R) =D⁻¹(D−A) der Jacobi-Iteration direkt ρ(G_J)<1nachzuweisen. Dazu werden wir zeigen, dass für alle λ∈C mit

|λ| ≥1 die Matrix

M(λ) :=G_J −λI

regulär ist. Damit wäre dann gezeigt, dass alle Eigenwerte von G_J im Inneren des komple-xen Einheitskreises liegen müssen.

Für den Nachweis der Regularität benutzen wir Satz 5.11, nach dem wir nur zu zeigen haben, dass M(λ) schwach diagonal-dominant und irreduzibel ist. Letzteres folg aber so-fort daraus, dass Irreduzibilität und Reduzibilität Eigenschaften sind, die nur von den Nichtdiagonalelementen einer Matrix bestimmt sind. Da die Nichtdiagonalelemente von D⁻¹(D−A)für dieselben Indexpaare von Null verschieden sind wie die vonA, ist G_J mit A irreduzibel. Wenn wir die Nichtdiagonalelemente

m_jk =−a_jk a_jj

über die Zeile aufsummieren, ergeben sich wegen der schwachen Diagonaldominanz vonA die Ungleichungen

∑n k=1,k̸=j

a_jk a_jj

≤1 für alle j = 1, . . . , n, mit dem <-Zeichen für mindestens einen Index aus {1, . . . , n}.

Da |λ| ≥ 1 ist und außerdem −λ überall auf der Diagonale von M(λ) steht, können wir die letzten Ungleichung wie folgt fortsetzen

∑n k=1,k̸=j

a_jk a_jj

≤1≤ |λ|=|m_jj| für alle j = 1, . . . , n

und ebenfalls dem <-Zeichen für mindestens einen Index aus {1, . . . , n}. D.H. aber das M(λ) tatsächlich schwach diagonal-dominant ist, und wir sind fertig.

2 Korollar 5.12

Die Aussage des vorigen Konvergenzsatzes gilt natürlich auch wieder mit dem analogen schwachen Spaltensummenkriterium. Zum Nachweis geht man wieder genau so vor wie in Bemerkung 4 auf der Seite 52.

Die starke und die schwache Zeilen-Diagonal-Dominanz (mit Irreduzibilität) sind auch hin-reichend für die Konvergenz des Gauss-Seidel-Verfahrens. Wir zeigen dies in den nächsten beiden Sätzen.

Satz 5.13 (Konvergenz-Satz für das Gauss-Seidel-Verfahren) Erfüllt A das starke Zeilensummenkriterium, so gilt

∥G_GS∥_∞≤ ∥G_J∥_∞<1,

wobei GJ und GGS die Iterationsmatrizen von Jacobi- bzw. Gauss-Seidel-Verfahren

be-Beweis:

Die Durchführbarkeit des Verfahrens haben wir hier gar nicht erst erwähnt, da die starke Diagonaldominanz nach Satz 5.11 sofort impliziert, dass alle Diagonalelemente vonA von Null verschieden sind.

Zum Beginn erinnern wir daran, dass bei starker Diagonaldominanz

∥GJ∥∞= max

1≤i≤n

∑n j=1,j̸=i

|a_ij| a_ii| <1 gilt.

Seiy∈Rⁿ beliebig undz :=G_GSy. Durch vollständige Induktion werden wir gleich zeigen, dass

|zi| ≤ ∥GJ∥∞∥y∥∞, für alle i= 1, . . . , n (271) gilt. Maximumbildung über i zeigt, dass dann

∥GGSy∥∞=∥z∥∞≤ ∥GJ∥∞∥y∥∞

also

∥G_GS∥_∞ ≤ ∥G_J∥_∞ <1 ist.

Für i= 1 ist (271) klar, denn es ist

a₁₁z₁ =−

∑n k=2

a_1ky_k und mithin

|z₁| ≤

∑n k=2

|a1k|

|a₁₁||y_k| ≤

∑n k=2

|a1k|

|a₁₁|∥y∥_∞ ≤ ∥G_J∥_∞∥y∥_∞.

Der Induktionsschluss ergibt sich, indem wir die i-te Gleichung von z =G_GSy bzw. äqui-valent (D−L)z = Ry komponentenweise aufschreiben, wobei wir annehmen, dass (271) bisi−1 gezeigt ist. Aus

a_iiz_i =−

i−1

∑

k=1

a_ikz_k−

∑n k=i+1

a_iky_k ergibt sich dann

|z_i| ≤ ∑i−1 k=1

|a_ik|

|aii| |z_k|+∑n k=i+1

|a_ik|

|aii||y_k|

≤ ∑i−1 k=1

|aik|

|aii| ∥| {z }GJ∥∞

∥y∥∞+∑n k=i+1

|aik|

|aii|∥y∥∞

≤ ∑n

k=1,k̸=i |aik|

|aii|∥y∥_∞≤ ∥G_J∥_∞∥y∥_∞ Damit ist alles gezeigt.

Anmerkungen 5.14

Man könnte geneigt sein, das Ergebnis des letzten Satzes dahingehend zu interpretie-ren, dass das Gauss-Seidel-Verfahren stets und bedingungslos schneller konvergiert als das Jacobi-Verfahren. Wir bemerken aber, dass dazu nach dem Satz 3.9 über die asymptotische Konvergenzrate von Seite 48 die Aussage ρ(G_GS) ≤ ρ(G_J) <1 erforderlich wäre. Hierfür sind i.a. aber schärfere Voraussetzungen nötig. Wäre z.B. GJ elementweise größer oder

gleich Null, so erhielte man sie etwa aus dem Satz von Stein-Rosenberg¹⁹⁵. Dieser sagt, dass unter dieser Voraussetzung stets genau eine der folgenden vier Aussagen gilt:

(1) ρ(G_GS) =ρ(G_J) = 0;

(2) 0< ρ(G_GS)< ρ(G_J)<1;

(3) ρ(G_GS) =ρ(G_J) = 1;

(4) ρ(G_GS)> ρ(G_J)>1.

Es ist naheliegend, nun auch noch nach der Konvergenz des Gauss-Seidel-Verfahrens un-ter den Voraussetzungen der schwachen Diagonaldominaz und Irreduzibilität zu fragen.

Tatsächlich läst sich aus dies mit einem Beweis ähnlich dem zum Satz 5.11 zeigen.

Satz 5.15 (GS-Konvergenz bei Diagonaldominanz und Irreduzibilität)

Ist die System-Matrix A ∈ Cⁿ^×ⁿ schwach diagonal-dominant und irreduzibel so ist das Gauss-Seidel-Verfahren durchführbar und konvergent.

Beweis:

Die Wohldeﬁniertheit des Verfahrens ist klar, weil die Diagonalelemente nach Satz 5.11 von Null verschieden sind. Wie beim Beweis von Satz 5.10 betrachten wir die Matrix

M(λ) = (D−L)⁻¹R−λI für |λ| ≥1 und wollen wieder zeigen, dassM(λ) regulär ist.

Nun ist M(λ) = (D −L)⁻¹R − λI genau dann regulär wenn M˜ := (D −L)M(λ) = R−λD+λL regulär ist. Oﬀenbar istM˜ =R−λD+λL mitA=−R+D−Lirreduzibel.

Da nach

∑n k=1,k̸=j

|m˜_jk|=|λ|

j−1

∑

k=1

|a_jk|+

∑n k=j+1

|a_jk| ≤λ|

∑n k=1,k̸=j

|a_jk| ≤ |λ||a_jj|=|m˜_jj|für j = 1, . . . , n

mit strikter Ungleichung für mindestens ein j gilt, ist M˜ auch schwach diagonaldominent,

nach Satz 5.11 also regulär. 2

5.1.2 SPD-Systeme

Bei der Wahl der Splitting Matrix eines Splitting-Verfahrens besteht die Kunst darin, unter den leicht numerisch behandelbaren Matrizen B eine solche auszusuchen, die alle Spektralwerte von A über G = I −B⁻¹A in das Innere des Einheitskreises treibt und möglichst dicht bei Null versammelt.

Dies wird umso einfacher machbar sein, je netter das Spektrum vonA selbst aussieht. Das Spektrum symmetrischer Matrizen z.B. liegt inR, die mögliche Ausdehnung ist damit schon mal „um eine Dimension“ verkleiner. Für positiv deﬁnite Matrizen steht sogar nur noch eine Hälfte der reellen Achse zu Verfügung, weshalb mit ihnen besonders leicht umzugehen ist.

Betrachten wir z.B. das Richardson–Verfahren B =τ I, xⁿ⁺¹ = (I− 1

τA)xⁿ+ 1

τb, (272)

so sieht man, dass das Spektrum von Gτ =I− ¹_τA gerade durch spec(G_τ) =

{ 1−λ

τ :λ ∈spec(A) }

gegeben ist. Die optimale Wahl erhält man, indem manτ so wählt, dass die Funktion gτ(λ) = 1− λ

in der Mitte des Intervalles [λ_min, λ_min] ihre Nullstelle hat, wobeiλ_min und λ_max den betragskleinsten bzw. -größten Eigenwert von A bezeichnen. Das ist oﬀenbar für

τopt = λ_max+λ_min 2 der Fall, und dort wird

ρ(G) = λ_max−λ_min

λ_max+λ_min = K −1 K + 1 mit der spektralen Konditionszahl

K = λ_max λ_min

Wie die Zeichnung 97 zeigt, nimmt die mit ρ(K)verbundenen Konvergenzrate mit zuneh-mender Kondition ab.

−5 0 5 10 15 20 25 30

−0.2 0 0.2 0.4 0.6 0.8 1 1.2

Kondition der Matrix

ρ(G)

Abbildung 97: Konvergenzrate und Kondition

Wie wir unten sehen werden, ist dies Verhalten typisch für alle Iterationsverfahren.

Zunächst wollen wir aber einige Konvergenzresultate für positiv deﬁnite Systemmatrix A festhalten. Die Beweise aller Resultate lassen sich eleganter führen, wenn man es gewohnt ist, mit durch SPD-Matrizen deﬁnierten inneren Produkten zu rechnen¹⁹⁶.

Wir schreiben die Beweise hier so auf, wie sie mit der Linearen Algebra der ersten zwei Semester der TUHH verstehbar sind.

Relativ häuﬁg anwendbar ist der folgende Satz.

196Vgl. dazu etwas [DW] S. 156-162

Satz 5.16 (Konvergenz bei hinreichend großer Splitting-Matrix)

Sind sowohl die SystemmatrixA ∈R^(n,n) als auch die SplittingmatrixB ∈R^(n,n) SPD und ist die Splitting-Matrix in folgendem Sinne wenigstens „halb so groß“ wie A:

v^TAv <2v^TBv für alle v ∈Rⁿ (273) so ist ρ(I−B⁻¹A)<1.

Beweis: Wir wollen das Spektrum von G = I −B⁻¹A untersuchen. G ist keine symme-trische Matrix, was die Untersuchungen schwieriger zu machen droht. G ist aber wegen der SPD-Eigenschaft von B eine sogenannte „symmetrisierbare Matrix“ (vgl. hierzu gege-benenfalls [HY]).

Durch Ähnlichkeitstransformation wird ausG eine symmetrische Matrix G−→G˜ :=B^1/2GB⁻^1/2 =I −B⁻^1/2AB⁻^1/2, die dasselbe Spektrum hat wie G.

Sei nun (λ, x) ein Eigenpaar vonG˜ mit x^Tx= 1. Dann ist

λ=λx^Tx=x^TGx˜ =x^Tx−x^TB⁻^1/2AB⁻^1/2x=: 1−α. (274) Setzen wirv :=B⁻^1/2x, so ergibt sich wegen der positiven Deﬁnitheit vonAundB erstens

α=x^TB⁻^1/2AB⁻^1/2x >0, und zweitens wegen (273) die obere Abschätzung

α=x^TB^−1/2AB^−1/2x <2x^TB^−1/2BB^−1/2x= 2x^Tx= 2.

Mit (274) schließen wir aus α∈(0,2), dass

λ∈(−1,1).

2 Die erste Anwendung formulieren wir als

Aufgabe 5.17 Zeigen Sie:

Sei A ∈ R^(n,n) SPD und sei λ_max der größte Eigenwert von A. Dann konvergiert das Richardsonverfahren (272), wenn

τ > λ_max/2 ist.

Auch die Konvergenz des Jacobi-Verfahrens bei starker Diagonaldominanz ist im SPD-Fall schnell mit Satz 5.16 zeigbar:

Satz 5.18 (Jacobi konvergiert für stark-diagonaldominante SPD-Matrix)

Sei A∈R^(n,n) SPD und stark diagonaldominant¹⁹⁷. Dann konvergiert die Jacobi-Iteration zur Lösung von Ax=b.

Beweis: Es ist B = D mit der Diagonalmatrix D von A, die selbst auch positiv deﬁnit ist. Dann schätzt man ab

x^TAx=x^TD^1/2D⁻^1/2AD⁻^1/2D^1/2x≤ρ(D⁻^1/2AD⁻^1/2)·x^TD^1/2D^1/2x=ρ(D⁻¹A)x^TDx.

ρ(D⁻¹A)≤ ∥D⁻¹A∥∞<2, haben wir

x^TAx <2x^TBx

gezeigt. 2

Satz 5.19 (GS konvergiert für alle SPD-Systeme)

Das Gauss-Seidel-Verfahren konvergiert für jedes Gleichungssystem mit SPD Systemmatrix A.

Beweis: Die Iterationsmatrix zum Gauss-Seidelverfahren war G = (D−L)⁻¹L^T bei der Zerlegung A=D−L−L^T. Sei (x, λ) ein Eigenpaar¹⁹⁸ von G. Dann ist

[Gx=λx]⇐⇒[L^Tx=λ(D−L)x].

Durch Multiplikation mit x¯^T und Auﬂösen nach λ erhält man¹⁹⁹ λ= x¯^TL^Tx

x^TDx−x¯^TLx

Seix¯^TL^Tx=a+ibmita, b∈Rundi² =−1. Dann istx¯^TLx=a−ib. Weiter seid= ¯x^TDx.

Da D SPD ist, ist d >0. mit den eingeführten Größen ist λ = a+ib

d−a+ib und daher

|λ|² = a²+b² (d−a)² +b²

Der Beweis ist erbracht, wenn wir (d−a)² > a² zeigen können.

Aus der positiven Deﬁnitheit vonA selbst erhalten wir

0<x¯^TAx= ¯x^TDx−x¯^TL^Tx−x¯^TLx=d−2a.

Wenn a negativ ist, so ist sicher(d−a)> a > 0. Ista andererseits positiv, so folgt aus d >2a

dass

(d−a)>2a−a =a

ist, und der Beweis ist beendet. 2

Mit dem letzten Satz kommt man schnell zu einem konvergenten Iterationsverfahren für jedes lineare Gleichungssystem

Ax=b

198möglicherweise komplex

199Dass der Nenner im nächsten Ausdruck immer von Null verschieden ist, ergibt sich gleich aus der weiteren Rechnung.

dessen Systemmatrix regulär ist. Man setzt nämlich einfach x=A^Ty

und gelangt zu dem Gleichungssystem

AA^Ty=b (275)

mit SPD-Systemmatrix A := AA^T, für welches das Gauss-Seidel-Verfahren - wie gerade bewiesen - konvergiert.

Man kann nun das Gauss-Seidel mit der MatrixAund einer Folge vony-Werteny₀, y₁, y₂, . . . ausführen und am Ende aus dem letztenykeine Approximationxk :=A^Tykgewinnen. Man kann die ganze Iteration aber auch direkt in denx-Werten schreiben. wie dies in der näch-sten Aufgabe geschieht:

Aufgabe 5.20

Zeigen Sie: Für i ∈ {1, . . . , n} sei a_i := A^Te_i das Transponierte der i-ten Zeile von A.

Dann lässt sich ein Schritt des Gauss-Seidel-Verfahrens für (275) in der folgenden Form schreiben, wenn man während der Iteration bei jedem Update einer Komponente von y gleich wieder alles in die zugehörigen x-Vektoren umrechnet.

For i=1:n

x=x−(a^T_i a_i)⁻¹(

a^T_i x−b_i)

·a_i; end

Anmerkung: Man beachte, dass im i-ten Unterschritt jeweils der ganze x-Vektor ange-passt wird.

Wir wenden uns jetzt noch einigen Aussagen über die SOR-Verfahren zu und haben für diese deren Iterationsmatrix

G_SOR =I −ω(D−ωL)⁻¹A zu untersuchen.

Allgemeiner betrachten wir²⁰⁰ gleich die allgemeineren Iterationsmatrizen G(ω, τ) :=I−τ(D−ωL)⁻¹A.

Je nach Parameterwahl sind in dieser Klasse enthalten G(0,1) Jacobi-Iteration

G(0, τ) τ-extrapolierte Jacobi-Iteration G(1,1) Gauss-Seidel-Iteration

G(1, τ) τ-extrapoliertes Gauss-Seidel G(ω, ω) ω-Sor

Wir merken an, dass sich die G(ω, τ)-Methode wegen G(ω, τ) = τ

ωG(ω, ω) + (1− τ ω)I

allgemein als gedämpfte Overrelaxation interpretieren läßt²⁰¹.

Wir interessieren uns hier vorwiegend für die SOR-Iteration und ihre gedämpfte Variante-Fall²⁰².

Für den SOR-Fall beweisen wir zunächst den folgenden einfachen Satz, der die bei Deﬁni-tion des SOR-Verfahrens getroﬀene Einschränkung ω∈(0,2)begründet.

Satz 5.21 (Sinnvoller Overrelaxationsparameter-Bereich) Für beliebige Matrizen A mit regulärer Diagonale gilt

ρ(G(ω, ω)) ≥ |ω−1| ∀ω,

so dass als Relaxationsparameter ω nur Werte aus (0,2) in Frage kommen.

Beweis: Es ist det(I −ωL) = 1, so dass für das charakteristische Polynom φ(λ) von G(ω, ω)gilt

φ(λ) : =det(λI−G(ω, ω))

=det((I−ωL)(λI−G(ω, ω)))

=det((I−ωL) [λI−(I−ωL)⁻¹{(1−ω)I+ωR}])

=det((I−ωL)λ−(1−ω)I−ωR). Die Matrix

V(λ, ω) := (I−ωL)λ−(1−ω)I−ωR

wird für λ= 0 zur unteren Dreiecksmatrix, so dass sich einerseits ergibt

|φ(0)|=|ω−1|ⁿ. (276)

Auf der anderen Seite ist φ(0) aber auch das Produkt der Eigenwerte von G(ω, ω) φ(0) =

∏n i=1

λ_i(G(ω, ω)). (277)

Aus (276) und (277) folgt nun sofort die Behauptung.

2 Für die in diesem Abschnitt im Vordergrund stehenden SPD-Matrizen erhält man im ganzen Parameterbereich (0,2) Konvergenz. Etwas allgemeiner haben wir den folgenden Satz.

Satz 5.22 (Konvergenzsatz für SOR im SPD-Fall) Sei A∈Cⁿ^×ⁿ hermitesche und positiv deﬁnit²⁰³. Dann ist

ρ(G(ω, τ)) <1, ∀0< τ ≤ω < 2.

201Gedämpfte Relaxationsverfahren sind später bei sogenannten Mehrgitter-Verfahren von Interesse

202Für die anderen Fälle haben wir ja teilweise schon gesonderte Konvergenzresultate geliefert.

Beweis:

Sicherheitshalber wiederholen wir, was hermitesch und positiv deﬁnit für komplexe Matri-zen bedeuten: A=A^H := ¯A^T, x^HAx >0,∀x̸= 0.

Um Übersicht über die Teilschlüsse zu behalten, teilen wir den Beweis in drei Unterab-schnitte auf:

Abschnitt A. Die Splitting-Matrix B =B(ω, τ)von G(ω, τ) ist B = 1

τD−ω τE.

Dafür rechnet man aus

B+B^H −A = 1

τD−ω τE+ 1

τD−ω

τF −(D−E−F)

= 2−ω τ D+

(ω τ −1

) A Da A und D positiv deﬁnit sind und

2−ω τ >0,

(ω τ −1

)≥0,

istB +B^H −A positiv deﬁnit.

Abschnitt B. Wir zeigen hierRe(spec(A⁻¹(2B−A)))>0.

Sei dazu xein Eigenvektor vonA⁻¹(2B−A)mit Eigenwertλ. Dann hat man (2B−A)x= λAx, woraus

x^H(2B−A)x=λx^HAx (278)

und durch Übergang zum konjugiert Komplexen

-x^H(2B^H −A)x= ¯λx^HAx (279)

folgen. Durch Addition von (278) und (279) ergibt sich x^H(B+B^H −A)

| {z }

pos.def.

x=Re(λ)x^H (A)

|{z}

pos.def.

was Re(λ)>0 bedeutet.

Abschnitt C.Zu Q:=A⁻¹(2B−A) = 2A⁻¹B−I existiert (Q+I)⁻¹ = (2A⁻¹B)⁻¹, und es ist

(Q−I)(Q+I)⁻¹ =I−B⁻¹A=G(ω, τ).

Ist µein Eigenwert von G(ω, τ)und xzugehöriger Eigenvektor, so ist (Q−I) (Q+I)⁻¹x

| {z }

y̸=0

=G(ω, τ)x=µx,

so dass

(Q−I)y=µ(Q+I)y bzw.

(1−µ)Qy = (1 +µ)y ist. Wegen y̸= 0 ist sicher µ̸= 1, und wir haben daher weiter

Also ist

λ = 1 +µ 1−µ

Eigenwert von Q=A⁻¹(2B−A) und hat damit nach B. positiven Realteil.

Umgekehrt ist nun µ= ^λ_λ+1⁻¹ und

|µ|² = |λ|²+ 1−2Re(λ)

|λ|²+ 1 + 2Re(λ).

und daher |µ|<1. 2

5.1.3 Konsistente Ordnung

Das grundsätzliche Wissen, dass das SOR-Verfahren konvergiert, ist natürlich schon sehr schön. Allein hätte man wohl gern näher gewusst, wie man denn den Overrelaxationspa-rameter bestmöglich wählen sollte.

Eine geschlossene Theorie existiert hier nur für eine recht enge Klasse von Matrizen, die sogenannten „konsistent geordneten“ Matrizen. Dies sind mit der Standard-Zerlegung A=D(I−E−F)diejenigen Matrizen A, bei denen die Eigenwerte der Matrix

J(α) := αE+α⁻¹F nicht von α̸= 0 abhängen.

Solche Matrizen gibt es, wie die folgende Aufgabe zeigt.

Aufgabe 5.23

Alle Block-Tridiagonal-Matrizen, deren Blöcke wiederum Diagonalmatrizen sind, sind kon-sistent geordnet.

Tatsächlich ist diese Klasse relativ klein. In den Anwendungen gehören zu ihnen u.a. die Finite-Diﬀerenzen-Diskretisierungen einfacher elliptischer Diﬀerentialgleichungen, wenn man die Variablen auch noch in bestimmter Weise sortiert. Färbt man das Gitter der Abbildung 6 z.B. wie ein Schachbrett ein und wählt man analog der Reihenfolge der Standardnumerie-rung zeilenweise von unten nach oben und in den Zeilen von links nach rechts die Variablen zunächst auf den schwarzen Feldern und dann auf den weißen Feldern, so gelangt man zu einer 2×2-Blockmatrix mit Diagonalmatrizen als Diagonalblöcke.

Für die Klasse der konsistent geordneten Matrizen gibt es zwei sehr hübsche Resultate, die wir hier ohne Beweis angeben (Beweise hierzu ﬁndet man etwa bei [STBU] ).

Satz 5.24 (Vergleichssatz für Jacobi- und Gauss-Seidel-Verfahren) Wenn A konsistent geordnet ist, so gilt

ρ(G_GS) = ρ(G_J)².

Für konsistent geordnete Matrizen konvergiert das Gauss-Seidel-Verfahren also asympto-tisch doppelt so schnell wie das Jacobi-Verfahren, wenn letzteres denn konvergiert.

Im Dokument Numerik großer nichtlinearer Systeme (Seite 179-196)