Gegeben: Datenpunkte (tj, yj), j = 1, . . . , M Ferner seien vorgegeben “Ansatz-funktionen”ϕ1(t), . . . , ϕn(t), z.B. ϕi(t) = ti−1.
Es sei M ≥n. (In der Regel ist M n.) Gesucht sind Koeffizienten (x1, . . . , xn), so daß
( M X
j=1
(yj −(
n
X
i=1
xi ·ϕi(tj)))2 )
= min
x1,...,xn
d.h. die Summe der Abweichungsquadrate der Ordinaten ist zu minimieren.
Mit den Setzungen rj =yj −
n
X
i=1
xiϕi(tj) also~r=
r1
... rM
Residuenvektor ist also folgendes Problem zu l¨osen
M
X
j=1
rj2
=k~rk22 = min!
x1,...,xn
.
4.6.1 L¨osungsansatz mittels Differentialrechnung: Gauß-sche Normal-gleichungen
Man setze
s(x1, . . . , xn) :=
M
X
j=1
(yj −(
n
X
i=1
xi·ϕi(tj)))2 (=k~rk22)
(sist also die ”Fehlerquadratsumme”). Das notwendige Extremalkriterium lautet:
∂
∂xks(x1, . . . , xn) = 0 f¨ur k = 1, . . . , n
Mit Hilfe der Kettenregel ergibt sich die partielle Ableitung
∂
∂xks(x1, . . . , xn) =
M
X
j=1
2 (yj −(
n
X
i=1
xi·ϕi(tj)))
| {z }
=rj
(−ϕk(tj)) = 0 f¨ur k = 1, . . . , n
Setzt man
~ ϕk =
ϕk(t1) ... ϕk(tM)
dann ergibt sich diese partielle Ableitung aus
−2·PM
j=1rj·ϕk(tj) = 0 |: (−2)
⇔
M
X
j=1
rj ·ϕk(tj) = 0
⇔ ~rT ·ϕ~k = 0 f¨ur k = 1, . . . , n Wir f¨uhren die Matrix aus den Ansatzfunktionen, ausgewertet auf dem Gitter der t1, . . . , tM, ein:
Φ = (~ϕ1, . . . , ~ϕn)∈RM×n . Dann liest sich die notwendige Extremalbedingung als
ΦT~r= 0∈Rn Mit
~y =
y1
... yM
~x=
x1
... xn
und ΦT~r = 0 erhalten wir
~r = ~y−Φ~x ⇒(~y−Φ~x)TΦ =~0 |()T
⇔ΦT(~y−Φ~x) =~0 |+ ΦTΦ~x
⇔ ΦTΦ~x= ΦT~y Gauß’sches
Normalgleichungssystem
Die Matrix ΦTΦ ∈ Rn×n ist symmetrisch und ~x ∈ Rn, ΦT~y ∈ Rn. Falls die Spaltenϕ~1, . . . , ~ϕn von Φ linear unabh¨angig sind, dann gilt:
Φ~u=~0⇔~u=~0 .
Dann ist ΦTΦ positiv definit, d.h. ~uT(ΦTΦ)~u >0 f¨ur ~u6=~0. Beweis:
~
uT(ΦTΦ)~u = (~uTΦT)(Φ~u) = (Φ~u)T(Φ~u) =kΦ~uk22>0
⇔ Φ~u6=~0∀~u6=~0 .
~xergibt~r als “optimales Residuum” mit
ΦT~r =~0 d.h.~r⊥{~ϕ1, . . . , ~ϕn} .
D.h. dasoptimale Residuum ist orthogonal zum Bildraum von Φ, (der Menge aller Linearkombinationen der Spalten von Φ.). Wir betrachten die 2. Ableitung:
∂2 hinreichende Optimalkriterium erf¨ullt.
Zur Erinnerung: Ists: Rn→R,∇s= (∂x∂s
positiv definit, so istxeine strenge lokale Minimalstelle von s.
Beispiel:
Die gesuchte Funktion ist also 3.157t+ 0.65.
Dieser eigentlich elegante Zugang leidet unter einem Problem: Die Matrix ΦTΦ ist oft sehr schlecht konditioniert. Die Rundungsfehler bei der Aufstellung der Normalgleichungen haben einen großen Einfluß auf die berechnete L¨osung.
Wir stellen uns folgende Frage:
Kann man den Cholesky-Faktor LT der Zerlegung ΦTΦ = LLT (mit L = ...
... ) direkt berechnen, ohne ΦTΦ zu bilden? Die Antwort lautet ”ja” und der n¨achste Abschnitt zeigt den Weg dazu. Man kann dann die schlechte Kondition des Nor-malgleichungssystems weitgehend vermeiden.
4.6.2 QR-Zerlegung
Annahme: Gegeben sei eine unit¨are M ×M Matrix Q, so daß Q·Φ = R0
∈ RM×n.
M M M
M n n
0 R
...
...
... · ...
...
... = ...
0 Dann folgt
Φ =QT R
0
, weil Q unit¨ar, gilt Q−1 =QT und
ΦTΦ = (RT|0)QQT
| {z }
IM
R 0
=RTR .
Bemerkung 4.11. Mit ΦTΦ = LLT (Cholesky) folgt hieraus nun R = DLT, wobei D eine Diagonalmatrix mit Elementen ±1 (im Reellen) ist. 2
Definition 4.9. Sei Q∈ RM×M unit¨ar und Φ∈RM×n mit M ≥n. Eine Zerle-gung der Form
QΦ =
R
· · · 0
∈RM×n
mit einer oberen Dreiecksmatrix R ∈ Rn×n nennen wir QR-Zerlegung. F¨ur M =n gilt QΦ =R.
2 Q wird konstruktiv in n Schritten gebildet. Falls M = n ben¨otigt man n −1 Schritte. Bei diesem Rechengang wirdQ aber nicht explizit aufgestellt, weil dies den Aufwand nur unn¨otig vergr¨ossern w¨urde. Stattdessen konstruiert man Q als ein Produkt von n bzw. n−1 einfachen unit¨aren Matrizen.
Wir wenden uns zun¨achst dem Spezialfalln = 1 zu:
Sei Φ = (ϕ~1)∈RM×1. Dann erreichen wir Q·Φ =
∗ 0 ... 0
mit ∗ = R∈R1×1
| ∗ | = k~ϕ1k2 wenn wir Q als geeignete Spiegelung w¨ahlen. Q = In− ~uT2~u~u~uT beschreibt eine Spiegelung an der Hyperebene H im RM mit Normalenvektor~u:
Denn
~
x=λ~u: Q~x = (In− 2
~
uT~u~u~uT)~x
= ~x− 2
~
uT~u~u(~uT~x)
= ~x− 2
~
uT~u(~uT~x)~u
= λ~u− 2
~
uT~u(~uTλ~u)~u
= λ~u−2λ~u
= −λ~u=−~x
~x⊥~u: ~uT~x = 0
⇒Q~x = ~x Man bezeichnet diese Matrizen auch als
Householdermatrix:
U =I− 2
~
uH~u~u~uH
(benannt nach A.S. Householder, der sie zuerst in diesem Zusammenhang benutz-te.)
Zu einer gegebenen Spalte~xwollen wir nun solch eine Spiegelung, d.h.~u konstru-ieren, die diese in ein Vielfaches des ersten Koordinateneinheitsvektors ¨uberf¨uhrt.
Ist~xgegeben, so kann man ein solches ~usofort angeben: x= (x1, . . . , xn)T
~u =
(|x1|+k~xk2)σ x2
... xn
Dabei istσ das verallgemeinerte Vorzeichen vonx1: σ= sign 0(z)def=
1 z = 0 z/|z| sonst.
Beispiel 4.14. Wir nehmen
~x = (−8,3,1,5,−1)T . Dann leistet offenbar
~
u = (−18,3,1,5,−1)T das Gew¨unschte, denn
~
uT~u = 360, ~uT~x = 180, also ~x− 2
~
uT~u(~uT~x)~u = (10,0,0,0,0)T .
Diese Methode wird nun systematisch auf Φ angewendet: Die erste Transformation U1 transformiert die erste Spalte von Φ auf ein Vielfaches des 1. Einheitsvektors. U1 wird auf alle Spalten von Φ angewendet und auf den Vektor der Messwerte~y. Danach wird die gleiche Vorgehensweise wiederholt, jetzt mit den Komponenten 2, . . . , M der zweiten Spalte vonU1Φ . Dies definiertU2. AuchU2 wird auf alle ¨ubrigen Spalten von U1Φ angewendet und aufU1~y usw.
Allgemein lautet der Algorithmus:
Hier werden im Schritt i die Spalten in zwei Teilspalten zerlegt: Die erste Teilspalte, gekennzeichnet durch die Doppel-Tilde, ¨andert sich nicht (die ersten i−1 Zeilen des Systems bleiben unge¨andert) und die zweite Teilspalte (Tilde) wird mit der Househol-dermatrix multipliziert, wobei deren Struktur explizit ausgenutzt wird.
Beispiel 4.15.
Durch ~u1 wird U1 gegeben: Schliesslich hat man
Un. . . U1(Φ~x−~y) =
worin ~c1 die ersten n Komponenten der transformierten rechten Seite sind. Die L¨osung der Ausgleichsaufgabe bestimmt sich dann aus
R~x = ~c1
und die L¨ange des optimalen Residuenvektors ist||~c2||2. Mit allgemeinen Bezeich-nungen haben wir
Satz 4.13. QR Zerlegung und Anwendung Es sei A ∈ Rm×n mit m ≥ n. Dann existiert eine orthonormale Matrix Q ∈ Rm×m mit QA =
R
· · · 0
, R n×n obere Dreiecksmatrix. Ist A vom Rang n, dann ist R in-vertierbar und die Aufgabe:
Bestimme~x∗ :
kA~x∗ −~bk22 ≤ kA~x−~bk22 f¨ur alle ~x∈Rn besitzt eine eindeutig bestimmte L¨osung ~x∗, die sich aus
R~x∗ =~c1 errechnet, wo Q~b =
~c1
· · ·
~c2
mit~c1 ∈Rn.
(R ist in diesem Falle regul¨ar) 2
Beispiel 4.16.
(A,b)= [ -4 1 , 4.5 ] [ 2 2 , -1.0 ] [ 2 2 , 2.0 ] [ 1 1 , -1.5 ] ; u_1= [ -9 , 2 , 2 , 1 ]’ ;
U_1 = I - (2/(u_1’u_1))*u_1*u_1’ ;
U_1(A,b) = [ 5.0000 1.0000 , -3.5000 ] [ 0.0000 2.0000 , 0.7778 ] [ 0.0000 2.0000 , 3.7778 ] [ 0.0000 1.0000 , -0.6111 ] ; u_2= [ 0 , 5 , 2 , 1 ]’ ;
U_2= I - (2/(u_2’*u_2))*u_2*u_2’ ;
U_2*U_1*(A,b) = [ 5.0000 1.0000 , -3.5000 ] [ 0.0000 -3.0000 , -2.8333 ] [ 0.0000 0.0000 , 2.3333 ] [ 0.0000 0.0000 , -1.3333 ] ; x2= (-2.8333)/(-3.0000)= 0.9444 ;
x1= (-3.5000 - 0.9444)/5.0000 = -0.8889 ;
Residuenlaenge = 2.6874
2 NUMAWWW lineare Gleichungssyteme, QR-Zerlegung
Bemerkung: Die Methode der kleinsten Quadrate ist nat¨urlich nicht auf Messda-ten mit einem “freien” Parameter (im Beispielt) beschr¨ankt. Man kann sie w¨ ort-lich auch auf ganz allgemeine Ans¨atze
yi = a1φ1(ξi, ηi, . . .) +. . .+anφn(ξi, ηi, . . .) , i= 1, . . . N anwenden, wobeiξ, η, . . . die “Messstellen” repr¨asentieren.
4.7 Zusammenfassung
Das Standardverfahren zur L¨osung linearer Gleichunggsysteme ist der Gauss’sche Algorithmus. Um den Einfluss von Rundungsfehlern auf die berechnete L¨osung unter Kontrolle zu halten, ist die Anwendung von Pivotisierungsregeln unerl¨asslich, mit Ausnahme spezieller Matrizen, insbesondere der hermitisch positiv definiten.
Dieser Algorithmus erzeugt eine Faktorisierung P A = LR bzw.
P AQ = LR
mit Permutationsmatrizen P und Q (die durch Permutationsvektoren repr¨ asen-tiert werden) und einer unteren Dreiecksmatrix L mit Diagonale (1, . . . ,1), engl
”unit lower triangular”, und einer oberen Dreiecksmatrix R. Auf der Diagonalen von R stehen dann die Pivotelemente. Es ist daher
det(A) = ±detR = ±
n
Y
i=1
ρi,i
Diese Zerlegung ersetzt die Information ¨uber A gleichwertig und erlaubt z.B.
die sp¨atere L¨osung von Gleichungssystemen mit A bei beliebiger rechter Seite b.
Ist A hermitisch und positiv definit, dann kann man zweckm¨assig die Cholesky-Zerlegung
A = LLH
mit einer unteren DreiecksmatrixLmit positiven reellen Diagonalelementen ver-wenden. Der Gauss’sche Algorithmus erlaubt die Ber¨ucksichtigung von Besetzt-heitsstrukturen (Bandstruktur, Hessenbergstruktur, auch ”sparsity”). Der Fehle-reinfluss bei der Anwendung dieses Algorithmus oder allgemeiner von Datenfeh-lern in Matrix und Inhomogenit¨at wird beschrieben durch die sogenannte ”Kondi-tionszahl” der Matrix. Wir haben (etwas vergr¨obert) die Aussage ”normrelativer
Fehler in der L¨osung kleinergleich Summe der normrelativen Fehler in Matrix und rechter Seite, multipliziert mit der Konditionszahl”. Die Konditionszahl ist stets gr¨ossergleich eins und oft sehr gross gegen eins. Lineare Ausgleichsaufgaben kann man ¨uber die Normalgleichungen mit Hilfe der Choleskyzerlegung l¨osen. Wegen des u.U. sehr verst¨arkten Fehlereinflusses sollte man aber besser den Weg ¨uber die QR-Zerlegung der Ansatzmatrix gehen. Die QR-Zerlegung vermittelt zugleich eine Berechnung von Orthogonalbasen von Bildraum R(A) und Kern N(AH).