• Keine Ergebnisse gefunden

How artificial neural networks work

N/A
N/A
Protected

Academic year: 2022

Aktie "How artificial neural networks work"

Copied!
23
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

How does artificial intelligence accomplish the feat of learning?

Ingo Blechschmidt

with thanks to Tim Baumann and Philipp Wacker

University of Augsburg 36th Chaos Communication Congress

(2)

Successes How? Why not sooner? Onwards Recommendations

1 Successes of AI

2 How artificial neural networks work Architecture

Learning by gradient descent A look into the hidden layer

3 Why not sooner?

4 Challenges for the future

5 Recommendations

2 / 12

(3)

Part I

Recent successes of artificial intelligence

Speech

synthesis AlphaGo Style transfer Jam with Magenta

(4)

Successes How? Why not sooner? Onwards Recommendations Architecture Learning by gradient descent Hidden layer

Part II

How artificial neural networks work

1 Architecture of a simple net

2 Valuation by a cost function

3 Error minimization using gradient descent

4 / 12

(5)

The MNIST database

70 000 images consisting of 28×28 pixels

(6)

Successes How? Why not sooner? Onwards Recommendations Architecture Learning by gradient descent Hidden layer

Architecture of a simple net

input 1

input 2

input 3

input 4

output 1

output 2 hidden

layer hidden layer input

layer output

layer

6 / 12

(7)

Architecture of a simple net

input 1

input 2

input 3

input 4

output 1

output 2 hidden

layer hidden layer input

layer output

layer

(8)

Successes How? Why not sooner? Onwards Recommendations Architecture Learning by gradient descent Hidden layer

Architecture of a simple net

0.1 input 1

0.7 input 2

0.2 input 3

0.4 input 4

output 1

output 2 hidden

layer hidden layer input

layer output

layer

6 / 12

(9)

Architecture of a simple net

0.1 input 1

0.7 input 2

0.2 input 3

0.4 input 4

output 1

output 2 3

4 1 5

hidden

layer hidden layer input

layer output

layer

(10)

Successes How? Why not sooner? Onwards Recommendations Architecture Learning by gradient descent Hidden layer

Architecture of a simple net

0.1 input 1

0.7 input 2

0.2 input 3

0.4 input 4

y output 1

output 2 3

4 1 5

hidden

layer hidden layer input

layer output

layer

y=σ(0.1·3+0.7·4+0.2·1+0.4·5+b)

6 / 12

(11)

The curious importance of minimization

one unknown:x

(12)

Successes How? Why not sooner? Onwards Recommendations Architecture Learning by gradient descent Hidden layer

The curious importance of minimization

two unknowns:x,y

7 / 12

(13)

The curious importance of minimization

Leibniz (* 1646, † 1716) Newton (* 1643, † 1727)

arbitrarily many unknowns

(14)

Successes How? Why not sooner? Onwards Recommendations Architecture Learning by gradient descent Hidden layer

The feat of learning

1 Calculate for all of the 60 000 training cases the activations of the ten output neurons.

2 Sum for all of the resulting 600 000 activations the individualquadratic errorsto obtain thetotal costs:

(0.1−0)2+ (0.7−1)2+ (0.1−0)2+· · ·+ (0.2−0)2

| {z }

first test case (should be a one)

+ (0.3−1)2+ (0.2−0)2+ (0.2−0)2+· · ·+ (0.1−0)2

| {z }

second test case (should be a zero)

+· · ·

3 Change the weights and biases slightly in the direction of thesteepest descentto very slightly improve

performance.

4 Go to step 1. 8 / 12

(15)

wichten und Biases.

1. Wir berechnen für jede der 60 000 Trainingsfälle die Aktivierungen der zehn Ausgabe- neuronen. So erhalten wir insgesamt 600 000 Zahlen zwischen 0 und 1. Für jedes dieser Ergebnisse wissen wir, welchen Wert wir uns eigentlich wünschen (jeweils 0 oder 1 – etwa soll Ausgabeneuron Nr. 5 bei Eingabe einer handschriftlichen Sieben idealerweise überhaupt nicht feuern).

2. Für jede dieser 600 000 Ergebnisse berechnen wir denquadratischen Fehler (tatsächliches ErgebnisWunschergebnis)2

und summieren all diese Quadrate auf. (Interessiert dich, wieso man hier quadriert?

Schreibe eine Mail aniblech@speicherleck.de.)

3. Je größer diese Summe ist, desto schlechter funktioniert das Netzwerk auf den Trainings- daten. Wir möchten daher die Summeminimieren. Die Summe hängt von den Gewichten der künstlichen Synapsen und den Biases der Neuronen ab; diese Abhängigkeit heißt auchKostenfunktion.

4. Durch Bestimmung desGradientenwissen wir, wie wir die Gewichte und Biases ändern müssen, um eine kleine Reduktion der Kostenfunktion zu erreichen. So erhalten wir neue Gewichte und Biases. Anschließend beginnen wir wieder bei Schritt 1. Auf diese Weise folgen wir zu jedem Zeitpunkt der Richtung des steilsten Abstiegs im hochdimen- sionalen Kostengebirge.

Sobald wir mit der Leistung des Netzes auf den Validierungsdatensätzen zufrieden sind, beenden wir das Training. DasWunder der Generalisierungsetzt ein: Das Netz klassifiziert auch neu geschriebene Ziffern, die nicht Teil des Trainingdatensatzes waren, sehr häufig richtig.

(16)

Successes How? Why not sooner? Onwards Recommendations Architecture Learning by gradient descent Hidden layer

A look into the hidden layer

9 / 12

(17)

nur einer einzigen verborgenen Schicht mit 30 Neuronen trainiert. Die Grafik zeigt die Gewichte der Synapsen zwischen den 28×28 Eingabe- neuronen und diesen 30 Neuronen. Das Netz hat eine Erkennungsrate von 95 %.

Verwendet man 100 Neuronen, so erreicht man 97 %; das ist fast eine Halbierung der Fehlerrate.

Demo zum Selbstprobieren:

• Python-Code zur Erkennung

• Python-Code zum Training

(18)

Successes How? Why not sooner? Onwards Recommendations

Part III

Why not sooner?

1 More computational power

2 Availability of large data sets for training

3 Mathematical breakthrough: Convolutional Neural Networks

10 / 12

(19)

Successes How? Why not sooner? Onwards Recommendations

Part III

Why not sooner?

1 More computational power

2 Availability of large data sets for training

(20)

Successes How? Why not sooner? Onwards Recommendations

Part III

Why not sooner?

1 More computational power

2 Availability of large data sets for training

3 Mathematical breakthrough: Convolutional Neural Networks

10 / 12

(21)

Part IV

Challenges for the future

Extend neural nets to further tasks

Understand the inner workings of a trained net Develop resistence againstadversarial examples Solve ethical challenges with self-driving cars Answer existential questions regarding strong AI

(22)

Wieein künstliches neuronales Netzwerk funktioniert, ist – anders als bei herkömmlichem Programmcode – nicht klar. (Wie beim Menschen auch.) Dazu wird momentan aktiv geforscht. Zwei Einstiegspunkte zu solchen Untersuchungen sind:

• Inceptionism: Going Deeper into Neural Networksvon Alexander Mordvintsev, Christopher Olah und Mike Tyka

• Visualizing and Understanding Convolutional Networksvon Matthew Zeiler und Rob Fergus

(23)

Part V

Recommendations

HBO seriesWestworldabout androids who pass the Turing test and develop consciousness

Talks by Joscha Bach on previous congresses

The Unreasonable Effectiveness of Recurrent Neural Networks by Andrej Karpathy

TensorFlow – AI development without prerequisites in maths Neural Networks and Deep Learning by Michael Nielsen

Referenzen

ÄHNLICHE DOKUMENTE

Based on the hardware design, we can then go on implementing the feed-forward orthosis con- troller in chapter 8, which learns the users’ in- dividual gait from observed samples

The output of this auditory front-end is then used as training patterns in a phoneme recognition task to compare generalization performance of multi-spike tempotron learning and the

In particular, second order stochastic gradient and averaged stochastic gradient are asymptotically efficient after a single pass on the training set.. Keywords: Stochastic

component spectral dataset” and X ii refers to the “spectral model dataset.” The concentration data based on experimental low-field NMR spectra and reference values from the high-

In this paper, we will extend on an idea proposed by Garcez and Gabbay (2004) and show how first-order logic programs can be represented by fibred neural networks.. The idea is to use

We can now also obtain that the notion of reduced program coincides with that of minimal program, which shows that Algorithm 3 also extracts the least program in terms of

Other important frameworks were identified and implemented to perform tasks that complement the artificial neural network’s functionality: A framework was created to build a

Diese Durchschnitt er- setzen wir nun durch ein Zufallsexperiment: Wir ziehen einen einzelnen Datenpunkt z i und betrachten nur die partielle Ableitung, die sich f¨ ur diesen