3. Lineare Ausgleichsrechnung
Ausgleichsrechnung (1)
Definition 3.1 (Ausgleichsproblem)
Gegeben sind n Wertepaare (xi, yi), i = 1, . . . , n mit xi 6= xj f¨ur i 6=
j. Gesucht ist eine stetige Funktion f, die in einem gewissen Sinne bestm¨oglich die Wertepaare ann¨ahert, d.h. dass m¨oglichst genau gilt:
f(xi) ≈ yi f¨ur i = 1, . . . , n.
• Hat die zu bestimmende Funktion genau so viele Parameter wie es Wertepaare gibt, lassen sich die Parameter so bestimmen, dass f(xi) = yi gilt, und man spricht von Interpolation.
• Daraus folgt, bei Ausgleichsproblemen gibt es weniger Parameter als Wertepaare.
• Es handelt sich um ein Optimierungsproblem.
Ausgleichsrechnung (2)
Definition 3.2 (Fehlerfunktional)
Gegeben sei eine Menge F von stetigen Funktionen sowie n Wertepaa- re (xi, yi), i = 1, . . . , n. Ein Element von f ∈ F heißt Ausgleichsfunktion von F zu den gegebenen Wertepaaren, falls das Fehlerfunktional
E(f) =
n X i=1
(f(xi) − yi)2
f¨ur f minimal wird, d.h. E(f) = min{E(g)|g ∈ F}. Die Menge F nennt man auch die Menge der Ansatzfunktionen.
Das entspricht dem aus der Statistik-Vorlesung bekannten Verfahren der kleinsten Quadrate (Least-Square Fitting), siehe auch Statistik Vorlesung und ¨Ubung 3.1, Prof. Dalitz
Ausgleichsrechnung (3)
Beispiel: Komplexit¨atsberechnung
• Bei einem Sortierproblem wird die Laufzeit yn = y(xn) in Abh¨angig- keit der Eingabel¨ange xn, n = 1, . . . ,20 f¨ur 20 verschiedene Einga- bel¨angen gemessen.
• Aufgabe: Bestimme numerische die Komplexit¨at des Algorithmus.
• Annahme: Die Rechenzeit R(xn) l¨asst sich beschreiben durch R(xn) = a + b · xn + c · log(xn) · xn + d · x2n
• L¨osungsmethode: Bestimme a, b, c und d so, dass E(a, b, c, d) =
20 X n=1
(yn − (a + b · xn + c · log(xn) · xn + d · x2n))2 minimal wird.
• Lese aus der L¨osung von a, b, c und d die Komplexit¨at ab.
Ausgleichsrechnung (4)
Beispiel: B¨orsenkursvorhersage
• Gegeben sind die B¨orsenwerte einer Aktie, jeweils morgens um 7:00 Uhr ¨uber 3 Jahre.
• Frage: Wie entwickelt sich die Aktie?
• Hauptproblem: Wie sieht die funktionelle Abh¨angigkeit von Gr¨oßen wie
* dem Gewinn/Verlust der Firma,
* dem Kauf- und Verkaufsverhalten der Aktion¨are,
* dem Bruttosozialprodukt
* ....,den letzten Wahlergebnissen, dem Wetter usw. aus?
Ansatzfunktionen (1)
Generell gilt:
Das Ergebnis h¨angt von der angenommenen Funktionsmenge ab, mit der die Ausgleichsrechnung durchgef¨uhrt wurde.
Graphik aus http://de.wikipedia.org/wiki/Ausgleichungsrechnung
Ansatzfunktionen (2)
L¨osbarkeit des Ausgleichsproblems
• Bei gegebener Funktionsmenge muss das Minimum des Fehler- funktionals E(f) bestimmt werden.
• Das ist im allgemeinen nur m¨oglich, wenn die Parameter linear in die Funktion f eingehen. Beispiel:
* F¨ur f(x) = a1 sin(a2x) cos(a3x) log(a4x) lassen sich die Para- meter a1, a2, a3 und a4 nicht einfach bestimmen, so dass die Abweichung von gegebenen Werte (xi, yi) minimal wird.
* F¨ur f(x) = a1 sin(x) + a2 sin(2x) + a3 sin(3x) + a4 sin(4x) (Teil einer Fourier-Entwicklung) ist eine Bestimmung von a1, a2, a3 und a4 m¨oglich, da die Parameter linear in f eingehen.
Lineare Problemstellung (1)
• Gegebene Messwerte sind (xi, yi), i = 1, . . . , n
• Gegebene Ansatzfunktionen sind gk(x), k = 1, . . . , p
• Gesuchte Funktion ist
f(x) = a1g1(x) + a2g2(x) + . . . + apgp(x) = Ppk=1 akgk(x)
• Bestimme ak so, dass f(xi) m¨oglichst Nahe bei yi liegt, f(xi) ≈ yi Matrixschreibweise: Definiere die n × p Matrix
G =
g1(x1) · · · gp(x1)
... ...
g1(xn) · · · gp(xn)
und die Vektor a = (a1, . . . ap), y = (y1, . . . yn) und f = (f(x1), . . . f(xn))
Lineare Problemstellung (2)
• Das Problem lautet in dieser Notation
g1(x1) · · · gp(x1)
... ...
g1(xn) · · · gp(xn)
a1 ...
ap
=
f(x1) ...
f(xn)
≈
y1 ...
yn
oder
Ga = f ≈ y
• Das Gleichungssystem Ga = y ist i.A. nicht l¨osbar, da p < n ist und es damit mehr Gleichungen als Unbekannte gibt.
• Frage: Was ist die “beste” L¨osung f¨ur a?
• L¨osung: Berechne das Fehlerfunktional (siehe Definition 3.2) bzw.
minimiere die Abweichung ||f − y||2 = ||Ga − y||2.
Lineare Problemstellung (3)
• Es galt
f(xj) =
p X k=1
akgk(xj) :=
p X k=1
gj,kak
• Gesucht ist also das Minimum von E(a) =
n X j=1
(f(xj) − yj)2
=
n X j=1
p X k=1
gj,kak − yj
2
= (Ga − y) · (Ga − y)
= ||Ga − y||22
Lineare Problemstellung (4)
Das Minimum der quadratischen Funktion E(a) =
n X j=1
p X k=1
gj,kak − yj
2
in ai liegt an der Stelle, an der die Ableitungen gleich Null ist.
0 = dE
dai = 2
n X j=1
(
p X k=1
gj,kak − yj) · gj,i f¨ur i = 1, . . . , p oder
n X j=1
gj,i
p X k=1
gj,kak =
n X j=1
gj,iyj
In Matrixschreibweise:
GTGa = GTy
Die Gleichung heißt Normalengleichung zu G und y
Ausgleichsgerade (1)
Beispiel 1: Gegeben sind die Messwerte (xi, yi) (von physikalischen Experimenten bis hin zur der Entwicklung des ¨Olpreises)
Frage: Unter der Annahme einer linearen Abh¨angigkeit von x, also g1 = 1 und g2 = x, wie sieht die bestm¨ogliche Gerade y ≈ f(x) = a1 + a2x entlang der Punkte (xi, yi) aus? In Matrixschreibweise:
a1 + a2x1 ...
a1 + a2xn
=
1 x1 ... ...
1 xn
a1 a2
=
f(x1) ...
f(xn)
≈
y1 ...
yn
oder
Ga = f ≈ y
Ausgleichsgerade (2)
• G ist eine n × 2-Matrix
• a ist 2-komponentiger Vektor
• f(x) und y sind n-komponentige Vektoren
Die “beste” L¨osung f¨ur a ergibt sich aus der Normalengleichung.
GTGa =
1 . . . 1 x1 . . . xn
1 x1 ... ...
1 xn
a1 a2
=
n Pnj=1 xj
Pn
j=1 xj Pnj=1x2j
a1 a2
= GTy =
1 . . . 1 x1 . . . xn
y1 ...
yn
=
Pn
j=1yj
Pn
j=1xjyj
Ausgleichsgerade (3)
Beispiel, die mittlere Temperatur im Monat Mai in den letzten Jahren war 1996: 11.8, 2000: 15.7, 2004: 12.6, 2008: 16.2, 2012: 15.2 Grad Frage: gibt es eine aufsteigende oder absteigende Tendenz?
Antwort: Lege eine Gerade durch die Punkte oder l¨ose das System
1 1 1 1 1
1996 2000 2004 2008 2012
1 1996 1 2000 1 2004 1 2008 1 2012
a
1
a2
=
1 1 1 1 1
1996 2000 2004 2008 2012
11.8 15.7 12.6 16.2 15.2
Lineares Ausgleichsproblem (1)
Beispiel 2:
• Gegeben sind die t¨agliche Aktienkurs-Werte (ti, Euroi) einer auf- strebenden Aktiengesellschaft.
• Die Wirtschaftsexperten glauben, dass sich die Werte gut durch die Summe aus einer steigenden quadratischen, einer schwanken- den sinus-Funktion und einer mit der Zeit fallenden Funktion be- schreiben l¨asst:
Euroi ≈ f(t) = a1t2 + a2 sin(t) + a3 t , also g1 = t2, g2 = sin(t) und g3 = 1t.
• Frage: Was sind die optimalen Koeffizienten, so dass die Aktien- kursvorhersage hoffentlich m¨oglichst gut ist?
Lineares Ausgleichsproblem (2)
a1t21 + a2 sin(t1) + at3
1
...
a1t2n + a2 sin(tn) + at3
n
=
t21 sin(t1) t1
1
... ...
t2n sin(tn) t1
n
a1 a2 a3
=
f(t1) ...
f(tn)
≈
Euro1 ...
Euron
oder wie gehabt:
Ga = f ≈ y
Lineares Ausgleichsproblem (3)
Die “beste” L¨osung f¨ur a ergibt sich wieder aus der Normalenglei- chung.
GTGa =
t21 . . . t2n sin(t1) . . . sin(tn)
1
t1 . . . t1
n
t21 sin(t1) t1
1
... ...
t2n sin(tn) t1
n
a1 a2 a3
= GTy =
t21 . . . t2n sin(t1) . . . sin(tn)
1
t1 . . . t1
n
Euro1 ...
Euron
=
Pn
i t2i Euroi
Pn
i sin(ti)Euroi
Pn i
Euroi ti
Zu l¨osen ist also ein 3 × 3-Gleichungssystem
Nichtlineare Ausgleichsprobleme (1)
In vielen praktischen Problemen soll eine Funktion durch Daten gelegt werden, bei der die Parameter nicht-linear auftreten. Das Minimum des Fehlerfunktionales ist dann gegeben durch
0 = dE(a1, . . . , ap)
dak = d
dak
n X i=1
(f(xi, a1, . . . , ap) − yi)2
= 2(
n X i=1
(f(xi, a1, . . . , ap) − yi))df(xi, a1, . . . , ap) dak
Beispiel:
f(x) = a1ea2x
Hier k¨onnte man sich auch durch logarithmieren der Gleichung behel- fen (siehe ¨Ubungsaufgabe), besser w¨are es jedoch, ein nicht-lineares Gleichungssystem zu l¨osen.
Nichtlineare Ausgleichsprobleme (2)
Das Fehlerfunktional lautet in diesem Fall E(a1, a2) =
n X i=1
(f(xi, a1, a2) − yi)2 =
n X i=1
(a1ea2xi − yi)2
und soll ein Minimum annehmen. Die L¨osung ergibt sich wie gehabt an den Stellen, an denen die Ableitung zu Null wird.
0 = dE
da1 = −2
n X i=1
(a1ea2xi − yi)ea2xi 0 = dE
da2 = −2
n X i=1
(a1ea2xi − yi)a1ea2xixi
Gel¨ost werden diese Systeme durch das sogenannte Gauß-Newton- Verfahren (zum Newton-Verfahren siehe Kapitel 6).
Hier nur das Prinzip: Starte mit “geratenen” Werten f¨ur ak und ver- bessere die Werte iterativ.
Nichtlineare Ausgleichsprobleme (3)
Die zur Zeit ber¨uhmtesten nichtlinearen Ausgleichsprobleme sind Neuronale Netze
oder deep neural networks oder deep learning mit sogenanntem ¨uber- wachtem Lernen.
• Es gibt nicht eine Variable (x oder t), sondern viele xj, j = 1 . . . , m, und davon p S¨atze xj,1, . . . , xj,p, z.B. Pixel eines Bilds.
• Es gibt nicht einen zugeh¨oringen y-Wert (Geld oder Tempera- tur oder was anderes), sondern viele yi, i = 1 . . . , n, zu jedem der p S¨atze von Eingabewerten einen Satz von Ausgabewerten yi,1, . . . , yi,p, z.B. f¨ur unterschiedliche Objekte im Bild.
• Gesucht werden Parameter ak, k = 1 . . . , o von nicht-linearen Funk- tionen, so dass das Fehlerfunktional minimal ist.
Nichtlineare Ausgleichsprobleme (4)
Beispiel: p Eingabepaare x1, x2, zu denen jeweils ein Ausgabewert y geh¨ort.
E =
p X i=1
(f(x1,i, x2,i, a1, . . . , ao)−yi)2
F¨ur eine konkrete Wahl von f: x_1 x_2
w_11
w_31 w_32
w_12 w_21 w_22 w_42 w_41
w_51 y
E =
p X i=1
(tanh ( tanh(x1,iw1,1 + x2,iw2,1 + w3,1 ) w4,1 +
tanh(x1,iw1,2 + x2,iw2,2 + w3,2 ) w4,2 + w5,1) − y12 9 Parameter: wi,j.
Nichtlineare Ausgleichsprobleme (5)
Urspr¨unglich wurde die Funktion aus der Funktionsweise von Neuronen motiviert.
• Die Eingabe sind z.B. die Reize von Rezeptoren im Auge.
• Die Parameter wi,j, die mit einem Produkt verbunden sind, sind die Verbindungsst¨arken von Neuronen untereinander.
• Die Parameter wi,j, die als Summand auftregen, sind die Schwell- werte, ab denen ein Neuron reagiert.
• Die tanh-Funktion beschreibt die nichtlineare Reaktion eines Neu- rons auf eine Anregung
Heute sind bei neuronalen Netzen viele weitere Ans¨atze gebr¨auchlich, die keine Entsprechung zu biologischen Neuronen mehr haben.