Wissensentdeckung in Datenbanken Deep Learning Nico Piatkowski und Uwe Ligges

(1)

Wissensentdeckung in Datenbanken

Deep Learning

Nico Piatkowski und Uwe Ligges

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

20.07.2017

(2)

Überblick

Künstliche Neuronale Netze Motivation

Formales Modell Aktivierungsfunktionen Vorhersage

Parameterscätzung

Varianten

Faltungsnetze Rekurrente Netze Autoencoder

(3)

Motivation

(4)

Motivation

(5)

Motivation (Deep Vs. Not-Deep)

x y

Beispiel für “Eingabeneuronen” (x): Pixel (Farbwerte) einer Bilddatei, Wortvektoren (bag-of-words, TF-IDF), . . .

(6)

Formalisierung

Künstliches Neuronales Netzf:

GraphG= (V, E). Knoten heißenNeuronen Jedes Neuron liegt in einerSchicht

L∶V → {0,1,2, . . . , K},

EineAktivierungsfunktionpro Knoten:a_v∶R→R,∀v∈V Schicht0heißtEingabeschicht, SchichtK heißt

Ausgabeschicht

Jedes Neuronvauf Schichtk>0(d.h.L(v) =k) repräsentiert eine Funktionv∶ X^v → Y^v:

Eingabe ist eine gewichtete Summe der Ausgaben alle Neuronen auf Schichtek−1

Ausgabe ist eine Reele Zahl

(7)

Formalisierung

Künstliches Neuronales Netzf:

GraphG= (V, E). Knoten heißenNeuronen Jedes Neuron liegt in einerSchicht

L∶V → {0,1,2, . . . , K},

EineAktivierungsfunktionpro Knoten:a_v∶R→R,∀v∈V Schicht0heißtEingabeschicht, SchichtK heißt

Ausgabeschicht

Jedes Neuronvauf Schichtk>0(d.h.L(v) =k) repräsentiert eine Funktionv∶ X^v → Y^v:

Eingabe ist eine gewichtete Summe der Ausgaben alle Neuronen auf Schichtek−1

Ausgabe ist eine Reele Zahl

(8)

Formalisierung (II)

Jedes Neuronvauf SchichtL(v) >0repräsentiert eine Funktionv∶ Xk−1→ X^v

Notation: Ausgabe von Neuronvist out(v). out(v) =a_v⎛

⎝ ∑

w∶L(w)=L(v)−1

β_vwout(w)⎞

⎠

Xk−1 ist der gemeinsame Ausgaberaum aller Neuronen auf Ebenek−1

X^v ist der Ausgaberaum vonv

Dann ist das gesamte Netz eine Funktionf ∶ X⁰→ X^K

(9)

-1 -0.5 0 0.5 1

Output

Input

-1 -0.5 0 0.5 1

Output

Input

-1 -0.5 0 0.5 1

Output

Aktivierungsfunktionen an Neuronv∈V

Sigmoid:

a^sig_v (z) = 1 1+exp(−z) Tangens Hyperbolicus (tanh):

a^tanh_v (z) = exp(z) −exp(−z) exp(z) +exp(−z) Rectified linear unit (ReLU):

a^ReLU_v (z) =max{0, z}

(10)

Parameter lernen

Neuronales Netz ist eine Modellfunktionf.

Grundsätzlich sind alle aus der Vorlesung bekannten Verlustfunktionen`(f,D)möglich.

Allgemein:

Die Anzahl der Parameter eines Neuronsvist gleich der Anzahl der Neuronen in SchichtL(v) −1

Berechnung des Gradienten∇`(f,D)durch Anwendung der Kettenregel (Backpropagation)

Optimierung mittels stochastischem Gradientenabstieg β^t+1=β^t+η∇`(β^t, S)

S⊂ D, Extremfall:S= {(x,y)}(nur ein Datenpunkt pro Gradientenschritt)

(11)

3 224 224

11 11

Input

(stride 4)

92 55 55

+ max pooling 5

5

Conv 1

256 27 27

+ max pooling 3

3

Conv 2

384 13 13

3 3

Conv 3 384 13 13

3 3

Conv 4 256 13 13

+ max pooling

Conv 5

2×2048 1000

Full 1 & 2 Out

Beispiel: “AlexNet”

Gewinner der ImageNet 2012 Challenge

(12)

Representationslernen mittel Faltung

Abbildung:Gelernte Filter in AlexNet Schicht “Conv1”: Gabor Filter &

Color Blobs

Beobachtung:Tiefe des Netzes erhöht Abstraktionsgrad der internen Representation

Erste Schichten:Allgemein, lokale Representation Tiefe Schichten:Spezifisch, globale Representation