Wissensentdeckung in Datenbanken Optimierung, Überanpassung Nico Piatkowski und Uwe Ligges

(1)

Optimierung Overfitting

Wissensentdeckung in Datenbanken

Optimierung, Überanpassung

Nico Piatkowski und Uwe Ligges

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

04.05.2017

1 von 15

(2)

-1 -0.5 0 0.5 1

Function value

z

T₀ T₁ T₂ T₃ T₄

0 0.5 1 1.5 2 2.5 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Err(f;x,y)

f(x) y = +1 y = -1

0 0.5 1 1.5 2 2.5 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

MSE(f;x,y)

f(x) y = +1 y = -1

0 0.5 1 1.5 2 2.5 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Hinge(f;x,y)

f(x) y = +1

y = -1

Optimierung Overfitting

Überblick

Was bisher geschah...

Modellklassen Verlustfunktionen Heute

Optimierung

Overfitting

(3)

-1 -0.5 0 0.5 1

Function value

z

T₀ T₁ T₂ T₃ T₄

0 0.5 1 1.5 2 2.5 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Err(f;x,y)

f(x) y = +1 y = -1

0 0.5 1 1.5 2 2.5 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

MSE(f;x,y)

f(x) y = +1 y = -1

0 0.5 1 1.5 2 2.5 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Hinge(f;x,y)

f(x) y = +1

y = -1

Optimierung Overfitting

Überblick

Was bisher geschah...

Modellklassen Verlustfunktionen Heute

Optimierung Overfitting

2 von 15

(4)

Optimierung Overfitting

Differenzierbarkeit

Die Funktion f ∶ R ⁿ → R ist partiell differenzierbar an β _i , falls

∀ β ∈ R ⁿ ∶ ∂f ( β )

∂β _i = lim

h → 0

f ( β + he _i ) − f ( β ) h

Der Vektor

∇ f ( β ) =

⎛ ⎜⎜

⎜⎜ ⎜

⎝

∂f ( β )

∂β ₁

∂f ( β )

∂β ₂

. . .

∂f ( β )

∂β _n

⎞ ⎟⎟

⎟⎟ ⎟

⎠

heißt Gradient von f an der Stelle β.

(5)

Optimierung Overfitting

Differenzierbarkeit

Die Funktion f ∶ R ⁿ → R ist partiell differenzierbar an β _i , falls

∀ β ∈ R ⁿ ∶ ∂f ( β )

∂β _i = lim

h → 0

f ( β + he _i ) − f ( β ) h

Der Vektor

∇ f ( β ) =

⎛ ⎜⎜

⎜⎜ ⎜

⎝

∂f ( β )

∂β ₁

∂f ( β )

∂β ₂

. . .

∂f ( β )

∂β _n

⎞ ⎟⎟

⎟⎟ ⎟

⎠ heißt Gradient von f an der Stelle β.

3 von 15

(6)

Optimierung Overfitting

Konvexität

f konvex, gdw.

∀ a, b ∈ R ⁿ ∶ f ( a ) ≥ f ( b ) + ⟨∇ f ( b ) , a − b ⟩

f konvex, gdw.

∀ a,b ∈ R ⁿ ∶ ⟨∇ f ( a ) − ∇ f ( b ) , a − b ⟩ ≥ 0

≡ Gradient ist monotoner Operator

f konvex ⇒ Jedes lokale Minimum ist ein globales Minimum

(Neue Literatur im Moodle: Stephen Boyd und Lieven Vandenberghe: Convex Optimization)

(7)

Optimierung Overfitting

Konvexität

f konvex, gdw.

∀ a, b ∈ R ⁿ ∶ f ( a ) ≥ f ( b ) + ⟨∇ f ( b ) , a − b ⟩

f konvex, gdw.

∀ a,b ∈ R ⁿ ∶ ⟨∇ f ( a ) − ∇ f ( b ) , a − b ⟩ ≥ 0

≡ Gradient ist monotoner Operator

f konvex ⇒ Jedes lokale Minimum ist ein globales Minimum

(Neue Literatur im Moodle: Stephen Boyd und Lieven Vandenberghe: Convex Optimization)

4 von 15

(8)

Optimierung Overfitting

Konvexität

f konvex, gdw.

∀ a, b ∈ R ⁿ ∶ f ( a ) ≥ f ( b ) + ⟨∇ f ( b ) , a − b ⟩

f konvex, gdw.

∀ a,b ∈ R ⁿ ∶ ⟨∇ f ( a ) − ∇ f ( b ) , a − b ⟩ ≥ 0

≡ Gradient ist monotoner Operator

f konvex ⇒ Jedes lokale Minimum ist ein globales Minimum

(Neue Literatur im Moodle: Stephen Boyd und Lieven Vandenberghe: Convex Optimization)

(9)

1.15 1.2 1.25 1.3 1.35

0 0.2 0.4 0.6 0.8 1

f(x)

x

log(exp(x)+exp(1-x))

Optimierung Overfitting

Konvexität (II)

5 von 15

(10)

Optimierung Overfitting

Lipschitz-Stetigkeit für R ⁿ → R ^m

f heißt Lipschitz-Stetig mit Konstante L > 0, falls

∀ a, b ∈ R ⁿ ∶ ∣ f ( a ) − f ( b )∣ ≤ L ∥ a − b ∥ ²

Hilfreich bei f ∶ R ⁿ → R ^m : Falls

K = sup

c ∈R ⁿ ∥∇ f ( c )∥ 2 < ∞ ,

dann ist f Lipschitz stetig mit Konstante K > 0.

(11)

Optimierung Overfitting

Lipschitz-Stetigkeit für R ⁿ → R ^m

f heißt Lipschitz-Stetig mit Konstante L > 0, falls

∀ a, b ∈ R ⁿ ∶ ∣ f ( a ) − f ( b )∣ ≤ L ∥ a − b ∥ ²

Hilfreich bei f ∶ R ⁿ → R ^m : Falls

K = sup

c ∈R ⁿ ∥∇ f ( c )∥ 2 < ∞ , dann ist f Lipschitz stetig mit Konstante K > 0.

6 von 15

(12)

Optimierung Overfitting

Konvexität + Lipschitz stetige Gradienten

∀ a, b ∈ R ⁿ ∶ ∥∇ f ( a ) − ∇ f ( b )∥ 2 ≤ L ∥ a − b ∥ 2

Multiplikation mit ∥ a − b ∥ 2 und Cauchy-Schwarz Ungl.:

∀ a, b ∈ R ⁿ ∶ ⟨∇ f ( a ) − ∇ f ( b ) , a − b ⟩ ≤ L ∥ a − b ∥ ² 2

Substitution von g ( x ) = ( L / 2 )∥ x ∥ ² 2 − f ( x ) mit

∇ g ( x ) = Lx − ∇ f ( x ) zeigt g ist konvex. Substitution von g ( x ) in

∀ a, b ∈ R ⁿ ∶ g ( a ) ≥ g ( b ) + ⟨∇ g ( b ) , a − b ⟩ führt zu

f ( a ) ≤ f ( b ) + ⟨∇ f ( b ) , a − b ⟩ + ( L / 2 )∥ a − b ∥ ² 2 (1)

(13)

Optimierung Overfitting

Konvexität + Lipschitz stetige Gradienten

∀ a, b ∈ R ⁿ ∶ ∥∇ f ( a ) − ∇ f ( b )∥ 2 ≤ L ∥ a − b ∥ 2

Multiplikation mit ∥ a − b ∥ 2 und Cauchy-Schwarz Ungl.:

∀ a, b ∈ R ⁿ ∶ ⟨∇ f ( a ) − ∇ f ( b ) , a − b ⟩ ≤ L ∥ a − b ∥ ² 2

Substitution von g ( x ) = ( L / 2 )∥ x ∥ ² 2 − f ( x ) mit

∇ g ( x ) = Lx − ∇ f ( x ) zeigt g ist konvex. Substitution von g ( x ) in

∀ a, b ∈ R ⁿ ∶ g ( a ) ≥ g ( b ) + ⟨∇ g ( b ) , a − b ⟩ führt zu

f ( a ) ≤ f ( b ) + ⟨∇ f ( b ) , a − b ⟩ + ( L / 2 )∥ a − b ∥ ² 2 (1)

7 von 15

(14)

Optimierung Overfitting

Konvexität + Lipschitz stetige Gradienten

∀ a, b ∈ R ⁿ ∶ ∥∇ f ( a ) − ∇ f ( b )∥ 2 ≤ L ∥ a − b ∥ 2

Multiplikation mit ∥ a − b ∥ 2 und Cauchy-Schwarz Ungl.:

∀ a, b ∈ R ⁿ ∶ ⟨∇ f ( a ) − ∇ f ( b ) , a − b ⟩ ≤ L ∥ a − b ∥ ² 2

Substitution von g ( x ) = ( L / 2 )∥ x ∥ ² 2 − f ( x ) mit

∇ g ( x ) = Lx − ∇ f ( x ) zeigt g ist konvex. Substitution von g ( x ) in

∀ a, b ∈ R ⁿ ∶ g ( a ) ≥ g ( b ) + ⟨∇ g ( b ) , a − b ⟩ führt zu

f ( a ) ≤ f ( b ) + ⟨∇ f ( b ) , a − b ⟩ + ( L / 2 )∥ a − b ∥ ² 2 (1)

(15)

Optimierung Overfitting

Konvexität + Lipschitz stetige Gradienten

∀ a, b ∈ R ⁿ ∶ ∥∇ f ( a ) − ∇ f ( b )∥ 2 ≤ L ∥ a − b ∥ 2

Multiplikation mit ∥ a − b ∥ 2 und Cauchy-Schwarz Ungl.:

∀ a, b ∈ R ⁿ ∶ ⟨∇ f ( a ) − ∇ f ( b ) , a − b ⟩ ≤ L ∥ a − b ∥ ² 2

Substitution von g ( x ) = ( L / 2 )∥ x ∥ ² 2 − f ( x ) mit

∇ g ( x ) = Lx − ∇ f ( x ) zeigt g ist konvex. Substitution von g ( x ) in

∀ a, b ∈ R ⁿ ∶ g ( a ) ≥ g ( b ) + ⟨∇ g ( b ) , a − b ⟩ führt zu

f ( a ) ≤ f ( b ) + ⟨∇ f ( b ) , a − b ⟩ + ( L / 2 )∥ a − b ∥ ² 2 (1)

7 von 15

(16)

Optimierung Overfitting

Methoden

Spezialisiert für bestimmte Modellklassen

Stützvektormethode und Sequential Minimal Optimization Markov Random Fields und Iterative Proportional Fitting

Generisch

Erster Ordnung, mit Gradient Einfache Implementierung Geringer Ressourcenverbrauch Vergleichsweise langsame Konvergenz Zweiter Ordnung, mit Hesse-Matrix

Hoher Ressourcenverbrauch Schnelle Konvergenz

Proximal-Point Methoden Erster Ordnung

Unterstützung für Nebenbedingungen und nicht-überall differenzierbare Funktionen

Heuristiken, mit Glück (Evolutionäre Algorithmen,

Randomisierte Suche)

(17)

Optimierung Overfitting

Methoden

Spezialisiert für bestimmte Modellklassen

Stützvektormethode und Sequential Minimal Optimization Markov Random Fields und Iterative Proportional Fitting Generisch

Erster Ordnung, mit Gradient Einfache Implementierung Geringer Ressourcenverbrauch Vergleichsweise langsame Konvergenz Zweiter Ordnung, mit Hesse-Matrix

Hoher Ressourcenverbrauch Schnelle Konvergenz

Proximal-Point Methoden Erster Ordnung

Unterstützung für Nebenbedingungen und nicht-überall differenzierbare Funktionen

Heuristiken, mit Glück (Evolutionäre Algorithmen, Randomisierte Suche)

8 von 15

(18)

Optimierung Overfitting

Methoden

Spezialisiert für bestimmte Modellklassen

Stützvektormethode und Sequential Minimal Optimization Markov Random Fields und Iterative Proportional Fitting Generisch

Erster Ordnung, mit Gradient Einfache Implementierung Geringer Ressourcenverbrauch Vergleichsweise langsame Konvergenz Zweiter Ordnung, mit Hesse-Matrix

Hoher Ressourcenverbrauch Schnelle Konvergenz

Proximal-Point Methoden Erster Ordnung

Unterstützung für Nebenbedingungen und nicht-überall differenzierbare Funktionen

Heuristiken, mit Glück (Evolutionäre Algorithmen,

Randomisierte Suche)

(19)

Optimierung Overfitting

Methoden

Spezialisiert für bestimmte Modellklassen

Stützvektormethode und Sequential Minimal Optimization Markov Random Fields und Iterative Proportional Fitting Generisch

Erster Ordnung, mit Gradient Einfache Implementierung Geringer Ressourcenverbrauch Vergleichsweise langsame Konvergenz Zweiter Ordnung, mit Hesse-Matrix

Hoher Ressourcenverbrauch Schnelle Konvergenz

Proximal-Point Methoden Erster Ordnung

Unterstützung für Nebenbedingungen und nicht-überall differenzierbare Funktionen

Heuristiken, mit Glück (Evolutionäre Algorithmen, Randomisierte Suche)

8 von 15

(20)

Optimierung Overfitting

Methoden

Spezialisiert für bestimmte Modellklassen

Stützvektormethode und Sequential Minimal Optimization Markov Random Fields und Iterative Proportional Fitting Generisch

Erster Ordnung, mit Gradient Einfache Implementierung Geringer Ressourcenverbrauch Vergleichsweise langsame Konvergenz Zweiter Ordnung, mit Hesse-Matrix

Hoher Ressourcenverbrauch Schnelle Konvergenz

Proximal-Point Methoden Erster Ordnung

Unterstützung für Nebenbedingungen und nicht-überall differenzierbare Funktionen

Heuristiken, mit Glück (Evolutionäre Algorithmen,

Randomisierte Suche)

(21)

Optimierung Overfitting

Gradientenabstieg

Jetzt: Modelle repräsentiert durch Parameter vektor β ∈ R ⁿ . Lernen von β mittels Gradientenabstieg:

1 Wähle beliebigen Startwert β ⁰ sowie η ₀ , η ₁ , η ₂ , . . . ,

2 Erzeuge Sequenz von Modellen β ⁰ ,β ¹ , β ² , . . . mittels β ^t ⁺ ¹ = β ^t − η t ∇ ` ( β ^t ; D)

Sei ` ( β; D) eine konvexe Funktion (in β), mit Lipschitz stetigem Gradienten (Konstante L) und η _t = η = 1 / L. Dann gilt nach t Schritten: ` ( β ^t ; D) − ` ( β ^∗ ; D) ≤ 2t ^L ∥ β ⁰ − β ^∗ ∥ ² 2 .

9 von 15

(22)

Optimierung Overfitting

Gradientenabstieg

Jetzt: Modelle repräsentiert durch Parameter vektor β ∈ R ⁿ . Lernen von β mittels Gradientenabstieg:

1 Wähle beliebigen Startwert β ⁰ sowie η ₀ , η ₁ , η ₂ , . . . ,

2 Erzeuge Sequenz von Modellen β ⁰ ,β ¹ , β ² , . . . mittels β ^t ⁺ ¹ = β ^t − η t ∇ ` ( β ^t ; D)

Sei ` ( β; D) eine konvexe Funktion (in β), mit Lipschitz stetigem

Gradienten (Konstante L) und η _t = η = 1 / L. Dann gilt nach t

Schritten: ` ( β ^t ; D) − ` ( β ^∗ ; D) ≤ 2t ^L ∥ β ⁰ − β ^∗ ∥ ² 2 .

(23)

Optimierung Overfitting

Gradientenabstieg—Konvergenz

Sei ` ( β; D) eine konvexe Funktion (in β), mit Lipschitz stetigem Gradienten (Konstante L) und η _t = η = 1 / L. Dann gilt nach t Schritten,

` ( β ^t ; D) − ` ( β ^∗ ; D) ≤ L

2t ∥ β ⁰ − β ^∗ ∥ ² 2 .

Also erfordert ` ( β ^t ; D) − ` ( β ^∗ ; D) ≤ höchstens O( L / ) Schritte.

10 von 15

(24)

Optimierung Overfitting

Gradientenabstieg—Konvergenz (II)

Beweis. Substitution von a = β ^t ⁺ ¹ und b = β ^t in (1),

` ( β ^t ⁺ ¹ ; D) ≤ ` ( β ^t ; D) − ( η − ( Lη ² )/ 2 )∥∇ ` ( β ^t ; D)∥ ² 2

≤ ` ( β ^∗ ; D) + ⟨∇ ` ( β ^t ; D) , β ^t − β ^∗ ⟩ − ( η / 2 )∥∇ ` ( β ^t ; D)∥ ² 2

= ` ( β ^∗ ; D) + ( 1 /( 2η ))(∥ β ^t − β ^∗ ∥ ² 2 − ∥ β ^t ⁺ ¹ − β ^∗ ∥ ² 2 ) (2) Die Sequenz der Funktionswerte ` ( β ^t ; D) ist monoton fallend (erste Umformung).

Damit ist ` ( β ^t ; D) − ` ( β ^∗ ; D) kleiner als die übrigen Folgeglieder

` ( β ^j ; D) − ` ( β ^∗ ; D) mit j < t.

(25)

Optimierung Overfitting

Gradientenabstieg—Konvergenz (II)

Beweis. Substitution von a = β ^t ⁺ ¹ und b = β ^t in (1),

` ( β ^t ⁺ ¹ ; D) ≤ ` ( β ^t ; D) − ( η − ( Lη ² )/ 2 )∥∇ ` ( β ^t ; D)∥ ² 2

≤ ` ( β ^∗ ; D) + ⟨∇ ` ( β ^t ; D) , β ^t − β ^∗ ⟩ − ( η / 2 )∥∇ ` ( β ^t ; D)∥ ² 2

= ` ( β ^∗ ; D) + ( 1 /( 2η ))(∥ β ^t − β ^∗ ∥ ² 2 − ∥ β ^t ⁺ ¹ − β ^∗ ∥ ² 2 ) (2) Die Sequenz der Funktionswerte ` ( β ^t ; D) ist monoton fallend (erste Umformung).

Damit ist ` ( β ^t ; D) − ` ( β ^∗ ; D) kleiner als die übrigen Folgeglieder

` ( β ^j ; D) − ` ( β ^∗ ; D) mit j < t.

11 von 15

(26)

Optimierung Overfitting

Gradientenabstieg—Konvergenz (III)

Das Minimum ` ( β ^t ; D) − ` ( β ^∗ ; D) ist kleiner als der Mittelwert der vorherigen Folgeglieder ` ( β ^j ; D) − ` ( β ^∗ ; D) . Darum

` ( β ^t ; D) − ` ( β ^∗ ; D) ≤ 1 t

t − 1 j=1 ∑

` ( β ^j ; D) − ` ( β ^∗ ; D) ≤ L ∥ β ⁰ − β ^∗ ∥ ² 2

2t .

Die letzte Ungleichung folgt aus η t = η = 1 / L und (2). ∎

(27)

Optimierung Overfitting

Überanpassung

13 von 15

(28)

0 0.2 0.4 0.6 0.8 1

Bias Varianz

Error

Complexity

Optimierung Overfitting

Bias und Varianz

(29)

Optimierung Overfitting

Regularisierung

Intuition:

Modell passt sich ggf. an das Rauschen in den Daten an Optimum der Verlustfunktion ` ( f ; D) liefert möglicher suboptimale Vorhersagen

Idee: bestrafe Überanpassung mittels Regularisierung R ∶ M → R

f ^∗ = arg min

f ∈M ` ( f ; D) + λR ( f ) Der Parameter λ > 0 bestimmt den Einfluss der Regularisierung.

Oft: R ( f ) = ∥ f ∥ ^q

15 von 15

Wissensentdeckung in Datenbanken Optimierung, Überanpassung Nico Piatkowski und Uwe Ligges

Optimierung Overfitting