Wissensentdeckung in Datenbanken
Deep Learning
Nico Piatkowski und Uwe Ligges
Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund
20.07.2017
Überblick
Künstliche Neuronale Netze Motivation
Formales Modell Aktivierungsfunktionen Vorhersage
Parameterscätzung
Varianten
Faltungsnetze Rekurrente Netze Autoencoder
Motivation
Motivation
Motivation (Deep Vs. Not-Deep)
x y
Beispiel für “Eingabeneuronen” (x): Pixel (Farbwerte) einer Bilddatei, Wortvektoren (bag-of-words, TF-IDF), . . .
Formalisierung
Künstliches Neuronales Netzf:
GraphG= (V, E). Knoten heißenNeuronen Jedes Neuron liegt in einerSchicht
L∶V → {0,1,2, . . . , K},
EineAktivierungsfunktionpro Knoten:av∶R→R,∀v∈V Schicht0heißtEingabeschicht, SchichtK heißt
Ausgabeschicht
Jedes Neuronvauf Schichtk>0(d.h.L(v) =k) repräsentiert eine Funktionv∶ Xv → Yv:
Eingabe ist eine gewichtete Summe der Ausgaben alle Neuronen auf Schichtek−1
Ausgabe ist eine Reele Zahl
Formalisierung
Künstliches Neuronales Netzf:
GraphG= (V, E). Knoten heißenNeuronen Jedes Neuron liegt in einerSchicht
L∶V → {0,1,2, . . . , K},
EineAktivierungsfunktionpro Knoten:av∶R→R,∀v∈V Schicht0heißtEingabeschicht, SchichtK heißt
Ausgabeschicht
Jedes Neuronvauf Schichtk>0(d.h.L(v) =k) repräsentiert eine Funktionv∶ Xv → Yv:
Eingabe ist eine gewichtete Summe der Ausgaben alle Neuronen auf Schichtek−1
Ausgabe ist eine Reele Zahl
Formalisierung (II)
Jedes Neuronvauf SchichtL(v) >0repräsentiert eine Funktionv∶ Xk−1→ Xv
Notation: Ausgabe von Neuronvist out(v). out(v) =av⎛
⎝ ∑
w∶L(w)=L(v)−1
βvwout(w)⎞
⎠
Xk−1 ist der gemeinsame Ausgaberaum aller Neuronen auf Ebenek−1
Xv ist der Ausgaberaum vonv
Dann ist das gesamte Netz eine Funktionf ∶ X0→ XK
-1 -0.5 0 0.5 1
-1 -0.5 0 0.5 1
Output
Input
-1 -0.5 0 0.5 1
-1 -0.5 0 0.5 1
Output
Input
-1 -0.5 0 0.5 1
-1 -0.5 0 0.5 1
Output
Aktivierungsfunktionen an Neuronv∈V
Sigmoid:
asigv (z) = 1 1+exp(−z) Tangens Hyperbolicus (tanh):
atanhv (z) = exp(z) −exp(−z) exp(z) +exp(−z) Rectified linear unit (ReLU):
aReLUv (z) =max{0, z}
Parameter lernen
Neuronales Netz ist eine Modellfunktionf.
Grundsätzlich sind alle aus der Vorlesung bekannten Verlustfunktionen`(f,D)möglich.
Allgemein:
Die Anzahl der Parameter eines Neuronsvist gleich der Anzahl der Neuronen in SchichtL(v) −1
Berechnung des Gradienten∇`(f,D)durch Anwendung der Kettenregel (Backpropagation)
Optimierung mittels stochastischem Gradientenabstieg βt+1=βt+η∇`(βt, S)
S⊂ D, Extremfall:S= {(x,y)}(nur ein Datenpunkt pro Gradientenschritt)
3 224 224
11 11
Input
(stride 4)
92 55 55
+ max pooling 5
5
Conv 1
256 27 27
+ max pooling 3
3
Conv 2
384 13 13
3 3
Conv 3 384 13 13
3 3
Conv 4 256 13 13
+ max pooling
Conv 5
2×2048 1000
Full 1 & 2 Out
Beispiel: “AlexNet”
Gewinner der ImageNet 2012 Challenge
Representationslernen mittel Faltung
Abbildung:Gelernte Filter in AlexNet Schicht “Conv1”: Gabor Filter &
Color Blobs
Beobachtung:Tiefe des Netzes erhöht Abstraktionsgrad der internen Representation
Erste Schichten:Allgemein, lokale Representation Tiefe Schichten:Spezifisch, globale Representation