• Keine Ergebnisse gefunden

Wissensentdeckung in Datenbanken Deep Learning Nico Piatkowski und Uwe Ligges

N/A
N/A
Protected

Academic year: 2022

Aktie "Wissensentdeckung in Datenbanken Deep Learning Nico Piatkowski und Uwe Ligges"

Copied!
12
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Wissensentdeckung in Datenbanken

Deep Learning

Nico Piatkowski und Uwe Ligges

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

20.07.2017

(2)

Überblick

Künstliche Neuronale Netze Motivation

Formales Modell Aktivierungsfunktionen Vorhersage

Parameterscätzung

Varianten

Faltungsnetze Rekurrente Netze Autoencoder

(3)

Motivation

(4)

Motivation

(5)

Motivation (Deep Vs. Not-Deep)

x y

Beispiel für “Eingabeneuronen” (x): Pixel (Farbwerte) einer Bilddatei, Wortvektoren (bag-of-words, TF-IDF), . . .

(6)

Formalisierung

Künstliches Neuronales Netzf:

GraphG= (V, E). Knoten heißenNeuronen Jedes Neuron liegt in einerSchicht

L∶V → {0,1,2, . . . , K},

EineAktivierungsfunktionpro Knoten:av∶R→R,∀v∈V Schicht0heißtEingabeschicht, SchichtK heißt

Ausgabeschicht

Jedes Neuronvauf Schichtk>0(d.h.L(v) =k) repräsentiert eine Funktionv∶ Xv → Yv:

Eingabe ist eine gewichtete Summe der Ausgaben alle Neuronen auf Schichtek−1

Ausgabe ist eine Reele Zahl

(7)

Formalisierung

Künstliches Neuronales Netzf:

GraphG= (V, E). Knoten heißenNeuronen Jedes Neuron liegt in einerSchicht

L∶V → {0,1,2, . . . , K},

EineAktivierungsfunktionpro Knoten:av∶R→R,∀v∈V Schicht0heißtEingabeschicht, SchichtK heißt

Ausgabeschicht

Jedes Neuronvauf Schichtk>0(d.h.L(v) =k) repräsentiert eine Funktionv∶ Xv → Yv:

Eingabe ist eine gewichtete Summe der Ausgaben alle Neuronen auf Schichtek−1

Ausgabe ist eine Reele Zahl

(8)

Formalisierung (II)

Jedes Neuronvauf SchichtL(v) >0repräsentiert eine Funktionv∶ Xk−1→ Xv

Notation: Ausgabe von Neuronvist out(v). out(v) =av

⎝ ∑

w∶L(w)=L(v)−1

βvwout(w)⎞

Xk−1 ist der gemeinsame Ausgaberaum aller Neuronen auf Ebenek−1

Xv ist der Ausgaberaum vonv

Dann ist das gesamte Netz eine Funktionf ∶ X0→ XK

(9)

-1 -0.5 0 0.5 1

-1 -0.5 0 0.5 1

Output

Input

-1 -0.5 0 0.5 1

-1 -0.5 0 0.5 1

Output

Input

-1 -0.5 0 0.5 1

-1 -0.5 0 0.5 1

Output

Aktivierungsfunktionen an Neuronv∈V

Sigmoid:

asigv (z) = 1 1+exp(−z) Tangens Hyperbolicus (tanh):

atanhv (z) = exp(z) −exp(−z) exp(z) +exp(−z) Rectified linear unit (ReLU):

aReLUv (z) =max{0, z}

(10)

Parameter lernen

Neuronales Netz ist eine Modellfunktionf.

Grundsätzlich sind alle aus der Vorlesung bekannten Verlustfunktionen`(f,D)möglich.

Allgemein:

Die Anzahl der Parameter eines Neuronsvist gleich der Anzahl der Neuronen in SchichtL(v) −1

Berechnung des Gradienten∇`(f,D)durch Anwendung der Kettenregel (Backpropagation)

Optimierung mittels stochastischem Gradientenabstieg βt+1t+η∇`(βt, S)

S⊂ D, Extremfall:S= {(x,y)}(nur ein Datenpunkt pro Gradientenschritt)

(11)

3 224 224

11 11

Input

(stride 4)

92 55 55

+ max pooling 5

5

Conv 1

256 27 27

+ max pooling 3

3

Conv 2

384 13 13

3 3

Conv 3 384 13 13

3 3

Conv 4 256 13 13

+ max pooling

Conv 5

2×2048 1000

Full 1 & 2 Out

Beispiel: “AlexNet”

Gewinner der ImageNet 2012 Challenge

(12)

Representationslernen mittel Faltung

Abbildung:Gelernte Filter in AlexNet Schicht “Conv1”: Gabor Filter &

Color Blobs

Beobachtung:Tiefe des Netzes erhöht Abstraktionsgrad der internen Representation

Erste Schichten:Allgemein, lokale Representation Tiefe Schichten:Spezifisch, globale Representation

Referenzen

ÄHNLICHE DOKUMENTE

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität

Vorhersage der App-Nutzung kann dann für eine verbessert Batterielaufzeitprognose verwendet werden (auch: E-Auto, Roboter, Drohnen, usw.). E [Batterie Nutzung zur Zeit t

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund..

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität

(1) Die Zielfunktion von probabilistischen Modellen ist die (mittlere) negative Log-Likelihood (02.05.). (2) Die Parameter β des graphischen Modells lernen wir mittels

Neue Verlustfunktion(?) = neuer Algorithmus Kategorisierung der Punkte eines Datensatzes:. Kernpunkte

Es gibt m Klassen von Neuronen—alle Neuronen einer Klasse c verwenden den gleichen Gewichtsvektor β c Jedes Neuron jeder Klasse (=Filter) ist mit einem anderen h × h Ausschnitt

The Elements of Statistical Learning; 14.3.6, 14.3.7 Graphical Models, Exponential Families, and Variational Inference; Example 3.5.. Merkmalsauswahl, Greedy Selection,