3. Lineare Ausgleichsrechnung

(1)

3. Lineare Ausgleichsrechnung

(2)

Ausgleichsrechnung (1)

Definition 3.1 (Ausgleichsproblem)

Gegeben sind n Wertepaare (x_i, y_i), i = 1, . . . , n mit x_i 6= x_j f¨ur i 6=

j. Gesucht ist eine stetige Funktion f, die in einem gewissen Sinne bestmöglich die Wertepaare annähert, d.h. dass möglichst genau gilt:

f(x_i) ≈ y_i f¨ur i = 1, . . . , n.

• Hat die zu bestimmende Funktion genau so viele Parameter wie es Wertepaare gibt, lassen sich die Parameter so bestimmen, dass f(x_i) = y_i gilt, und man spricht von Interpolation.

• Daraus folgt, bei Ausgleichsproblemen gibt es weniger Parameter als Wertepaare.

• Es handelt sich um ein Optimierungsproblem.

(3)

Ausgleichsrechnung (2)

Definition 3.2 (Fehlerfunktional)

Gegeben sei eine Menge F von stetigen Funktionen sowie n Wertepaa- re (x_i, y_i), i = 1, . . . , n. Ein Element von f ∈ F heißt Ausgleichsfunktion von F zu den gegebenen Wertepaaren, falls das Fehlerfunktional

E(f) =

n X i=1

(f(x_i) − y_i)²

f¨ur f minimal wird, d.h. E(f) = min{E(g)|g ∈ F}. Die Menge F nennt man auch die Menge der Ansatzfunktionen.

Das entspricht dem aus der Statistik-Vorlesung bekannten Verfahren der kleinsten Quadrate (Least-Square Fitting), siehe auch Statistik Vorlesung und ¨Ubung 3.1, Prof. Dalitz

(4)

Ausgleichsrechnung (3)

Beispiel: Komplexit¨atsberechnung

• Bei einem Sortierproblem wird die Laufzeit y_n = y(x_n) in Abhängig- keit der Eingabelänge x_n, n = 1, . . . ,20 für 20 verschiedene Einga- belängen gemessen.

• Aufgabe: Bestimme numerische die Komplexit¨at des Algorithmus.

• Annahme: Die Rechenzeit R(x_n) l¨asst sich beschreiben durch R(x_n) = a + b · x_n + c · log(x_n) · x_n + d · x²_n

• L¨osungsmethode: Bestimme a, b, c und d so, dass E(a, b, c, d) =

20 X n=1

(y_n − (a + b · x_n + c · log(x_n) · x_n + d · x²_n))² minimal wird.

• Lese aus der L¨osung von a, b, c und d die Komplexit¨at ab.

(5)

Ausgleichsrechnung (4)

Beispiel: B¨orsenkursvorhersage

• Gegeben sind die B¨orsenwerte einer Aktie, jeweils morgens um 7:00 Uhr ¨uber 3 Jahre.

• Frage: Wie entwickelt sich die Aktie?

• Hauptproblem: Wie sieht die funktionelle Abh¨angigkeit von Gr¨oßen wie

* dem Gewinn/Verlust der Firma,

* dem Kauf- und Verkaufsverhalten der Aktion¨are,

* dem Bruttosozialprodukt

* ....,den letzten Wahlergebnissen, dem Wetter usw. aus?

(6)

Ansatzfunktionen (1)

Generell gilt:

Das Ergebnis h¨angt von der angenommenen Funktionsmenge ab, mit der die Ausgleichsrechnung durchgef¨uhrt wurde.

Graphik aus http://de.wikipedia.org/wiki/Ausgleichungsrechnung

(7)

Ansatzfunktionen (2)

L¨osbarkeit des Ausgleichsproblems

• Bei gegebener Funktionsmenge muss das Minimum des Fehler- funktionals E(f) bestimmt werden.

• Das ist im allgemeinen nur m¨oglich, wenn die Parameter linear in die Funktion f eingehen. Beispiel:

* F¨ur f(x) = a₁ sin(a₂x) cos(a₃x) log(a₄x) lassen sich die Para- meter a₁, a₂, a₃ und a₄ nicht einfach bestimmen, so dass die Abweichung von gegebenen Werte (x_i, y_i) minimal wird.

* F¨ur f(x) = a₁ sin(x) + a₂ sin(2x) + a₃ sin(3x) + a₄ sin(4x) (Teil einer Fourier-Entwicklung) ist eine Bestimmung von a₁, a₂, a₃ und a₄ m¨oglich, da die Parameter linear in f eingehen.

(8)

Lineare Problemstellung (1)

• Gegebene Messwerte sind (x_i, y_i), i = 1, . . . , n

• Gegebene Ansatzfunktionen sind g_k(x), k = 1, . . . , p

• Gesuchte Funktion ist

f(x) = a₁g₁(x) + a₂g₂(x) + . . . + a_pg_p(x) = ^P^p_k=1 a_kg_k(x)

• Bestimme a_k so, dass f(x_i) m¨oglichst Nahe bei y_i liegt, f(x_i) ≈ y_i Matrixschreibweise: Definiere die n × p Matrix

G =







g₁(x₁) · · · g_p(x₁)

... ...

g₁(x_n) · · · g_p(x_n)







und die Vektor a = (a₁, . . . a_p), y = (y₁, . . . y_n) und f = (f(x₁), . . . f(x_n))

(9)

Lineare Problemstellung (2)

• Das Problem lautet in dieser Notation







g₁(x₁) · · · g_p(x₁)

... ...

g₁(x_n) · · · g_p(x_n)













a₁ ...

a_p







=







f(x₁) ...

f(x_n)







≈







y₁ ...

y_n







oder

Ga = f ≈ y

• Das Gleichungssystem Ga = y ist i.A. nicht l¨osbar, da p < n ist und es damit mehr Gleichungen als Unbekannte gibt.

• Frage: Was ist die “beste” L¨osung f¨ur a?

• L¨osung: Berechne das Fehlerfunktional (siehe Definition 3.2) bzw.

minimiere die Abweichung ||f − y||₂ = ||Ga − y||₂.

(10)

Lineare Problemstellung (3)

• Es galt

f(x_j) =

p X k=1

a_kg_k(x_j) :=

p X k=1

g_j,ka_k

• Gesucht ist also das Minimum von E(a) =

n X j=1

(f(x_j) − y_j)²

=

n X j=1



 p X k=1

g_j,ka_k − y_j



 2

= (Ga ₋ y) · (Ga ₋ y)

= ||Ga − y||²₂

(11)

Lineare Problemstellung (4)

Das Minimum der quadratischen Funktion E(a) =

n X j=1



 p X k=1

g_j,ka_k − y_j



 2

in a_i liegt an der Stelle, an der die Ableitungen gleich Null ist.

0 = dE

da_i = 2

n X j=1

(

p X k=1

g_j,ka_k − y_j) · g_j,i f¨ur i = 1, . . . , p oder

n X j=1

g_j,i

p X k=1

g_j,ka_k =

n X j=1

g_j,iy_j

In Matrixschreibweise:

G^TGa = G^Ty

Die Gleichung heißt Normalengleichung zu G und y

(12)

Ausgleichsgerade (1)

Beispiel 1: Gegeben sind die Messwerte (x_i, y_i) (von physikalischen Experimenten bis hin zur der Entwicklung des ¨Olpreises)

Frage: Unter der Annahme einer linearen Abh¨angigkeit von x, also g₁ = 1 und g₂ = x, wie sieht die bestm¨ogliche Gerade y ≈ f(x) = a₁ + a₂x entlang der Punkte (x_i, y_i) aus? In Matrixschreibweise:







a₁ + a₂x₁ ...

a₁ + a₂x_n







=







1 x₁ ... ...

1 x_n











a₁ a₂



 =







f(x₁) ...

f(x_n)







≈







y₁ ...

y_n







oder

Ga = f _≈ y

(13)

Ausgleichsgerade (2)

• G ist eine n × 2-Matrix

• a ist 2-komponentiger Vektor

• f(x) und y sind n-komponentige Vektoren

Die “beste” L¨osung f¨ur a ergibt sich aus der Normalengleichung.

G^TGa =





1 . . . 1 x₁ . . . x_n











1 x₁ ... ...

1 x_n











a₁ a₂



 =





n ^Pⁿ_j=1 x_j

P_n

j=1 x_j ^Pⁿ_j=1x²_j









a₁ a₂





= G^Ty =





1 . . . 1 x₁ . . . x_n











y₁ ...

y_n







=





P_n

j=1y_j

P_n

j=1x_jy_j





(14)

Ausgleichsgerade (3)

Beispiel, die mittlere Temperatur im Monat Mai in den letzten Jahren war 1996: 11.8, 2000: 15.7, 2004: 12.6, 2008: 16.2, 2012: 15.2 Grad Frage: gibt es eine aufsteigende oder absteigende Tendenz?

Antwort: Lege eine Gerade durch die Punkte oder l¨ose das System

₁ ₁ ₁ ₁ ₁

1996 2000 2004 2008 2012







1 1996 1 2000 1 2004 1 2008 1 2012





 _a

1

a2

=

₁ ₁ ₁ ₁ ₁

1996 2000 2004 2008 2012







11.8 15.7 12.6 16.2 15.2







(15)

Lineares Ausgleichsproblem (1)

Beispiel 2:

• Gegeben sind die t¨agliche Aktienkurs-Werte (t_i, Euro_i) einer auf- strebenden Aktiengesellschaft.

• Die Wirtschaftsexperten glauben, dass sich die Werte gut durch die Summe aus einer steigenden quadratischen, einer schwanken- den sinus-Funktion und einer mit der Zeit fallenden Funktion beschreiben l¨asst:

Euro_i ≈ f(t) = a₁t² + a₂ sin(t) + a₃ t , also g₁ = t², g₂ = sin(t) und g₃ = ¹_t.

• Frage: Was sind die optimalen Koeffizienten, so dass die Aktien- kursvorhersage hoffentlich m¨oglichst gut ist?

(16)

Lineares Ausgleichsproblem (2)







a₁t²₁ + a₂ sin(t₁) + ^a_t³

1

...

a₁t²_n + a₂ sin(t_n) + ^a_t³

n







=







t²₁ sin(t₁) _t¹

1

... ...

t²_n sin(t_n) _t¹

n













a₁ a₂ a₃







=







f(t₁) ...

f(t_n)







≈







Euro₁ ...

Euro_n







oder wie gehabt:

Ga = f ≈ y

(17)

Lineares Ausgleichsproblem (3)

Die “beste” L¨osung f¨ur a ergibt sich wieder aus der Normalenglei- chung.

G^TGa =







t²₁ . . . t²_n sin(t₁) . . . sin(t_n)

1

t₁ . . . _t¹

n













t²₁ sin(t₁) _t¹

1

... ...

t²_n sin(t_n) _t¹

n













a₁ a₂ a₃







= G^Ty =







t²₁ . . . t²_n sin(t₁) . . . sin(t_n)

1

t₁ . . . _t¹

n













Euro₁ ...

Euro_n







=







P_n

i t²_i Euro_i

P_n

i sin(t_i)Euro_i

P_n i

Euro_i t_i







Zu l¨osen ist also ein 3 × 3-Gleichungssystem

(18)

Nichtlineare Ausgleichsprobleme (1)

In vielen praktischen Problemen soll eine Funktion durch Daten gelegt werden, bei der die Parameter nicht-linear auftreten. Das Minimum des Fehlerfunktionales ist dann gegeben durch

0 = dE(a₁, . . . , a_p)

da_k = d

da_k



 n X i=1

(f(x_i, a₁, . . . , a_p) − y_i)²





= 2(

n X i=1

(f(x_i, a₁, . . . , a_p) − y_i))df(x_i, a₁, . . . , a_p) da_k

Beispiel:

f(x) = a₁e^a²^x

Hier könnte man sich auch durch logarithmieren der Gleichung behel- fen (siehe Übungsaufgabe), besser wäre es jedoch, ein nicht-lineares Gleichungssystem zu lösen.

(19)

Nichtlineare Ausgleichsprobleme (2)

Das Fehlerfunktional lautet in diesem Fall E(a₁, a₂) =

n X i=1

(f(x_i, a₁, a₂) − y_i)² =

n X i=1

(a₁e^a²^xⁱ − y_i)²

und soll ein Minimum annehmen. Die L¨osung ergibt sich wie gehabt an den Stellen, an denen die Ableitung zu Null wird.

0 = dE

da₁ = −2

n X i=1

(a₁e^a²^xⁱ − y_i)e^a²^xⁱ 0 = dE

da₂ = −2

n X i=1

(a₁e^a²^xⁱ − y_i)a₁e^a²^xⁱx_i

Gel¨ost werden diese Systeme durch das sogenannte Gauß-Newton- Verfahren (zum Newton-Verfahren siehe Kapitel 6).

Hier nur das Prinzip: Starte mit “geratenen” Werten f¨ur a_k und ver- bessere die Werte iterativ.

(20)

Nichtlineare Ausgleichsprobleme (3)

Die zur Zeit ber¨uhmtesten nichtlinearen Ausgleichsprobleme sind Neuronale Netze

oder deep neural networks oder deep learning mit sogenanntem ¨uber- wachtem Lernen.

• Es gibt nicht eine Variable (x oder t), sondern viele x_j, j = 1 . . . , m, und davon p S¨atze x_j,1, . . . , x_j,p, z.B. Pixel eines Bilds.

• Es gibt nicht einen zugehöringen y-Wert (Geld oder Tempera- tur oder was anderes), sondern viele y_i, i = 1 . . . , n, zu jedem der p Sätze von Eingabewerten einen Satz von Ausgabewerten y_i,1, . . . , y_i,p, z.B. für unterschiedliche Objekte im Bild.

• Gesucht werden Parameter a_k, k = 1 . . . , o von nicht-linearen Funk- tionen, so dass das Fehlerfunktional minimal ist.

(21)

Nichtlineare Ausgleichsprobleme (4)

Beispiel: p Eingabepaare x₁, x₂, zu denen jeweils ein Ausgabewert y geh¨ort.

E =

p X i=1

(f(x_1,i, x_2,i, a₁, . . . , a_o)−y_i)²

F¨ur eine konkrete Wahl von f: ^x_1 ^x_2

w_11

w_31 w_32

w_12 w_21 w_22 w_42 w_41

w_51 y

E =

p X i=1

(tanh ( tanh(x_1,iw_1,1 + x_2,iw_2,1 + w_3,1 ) w_4,1 +

tanh(x_1,iw_1,2 + x_2,iw_2,2 + w_3,2 ) w_4,2 + w_5,1) − y₁² 9 Parameter: w_i,j.

(22)

Nichtlineare Ausgleichsprobleme (5)

Urspr¨unglich wurde die Funktion aus der Funktionsweise von Neuronen motiviert.

• Die Eingabe sind z.B. die Reize von Rezeptoren im Auge.

• Die Parameter w_i,j, die mit einem Produkt verbunden sind, sind die Verbindungsst¨arken von Neuronen untereinander.

• Die Parameter w_i,j, die als Summand auftregen, sind die Schwell- werte, ab denen ein Neuron reagiert.

• Die tanh-Funktion beschreibt die nichtlineare Reaktion eines Neu- rons auf eine Anregung

Heute sind bei neuronalen Netzen viele weitere Ans¨atze gebr¨auchlich, die keine Entsprechung zu biologischen Neuronen mehr haben.