Geometrische Interpretation

(1)

Mustererkennung: Neuron

D. Schlesinger () Mustererkennung: Neuron 1 / 11

(2)

Neuron

x1 x2 x3 . . . xn

y

f(·)

w1 wn

b

Inputx∈Rⁿ, Gewichtew∈Rⁿ, Schwellwertb∈R, Aktivierungy⁰=

P

iwixi=hw,xi, Outputy=f(y⁰−b) =f(hw,xi −b)

1

y⁰

f(y⁰) =

n

₁ _wenn_y0>0 0 sonst Step-Funktion

1

y⁰

f(y⁰) = _1+exp(−y¹ 0)

Sigmoid-Funktion (differenzierbar)

Kurz (Swellwertneuron):hx,wi≶b

(3)

Geometrische Interpretation

x x

₂

x

1

w b

hx, wi

hx,wi=kxk · kwk ·cosφ Seiwnormiert, d.h.kwk= 1

⇒ kxk ·cosφ– Länge der Projektion vonxaufw

⇒Trennebenehx,wi=const

Neuron realisiert einenlinearen Klassifikator

(4)

Spezialfall – Boolsche Funktionen

Input:x= (x1,x2),xi∈ {0,1}.

Gesucht ist das Neuron (wundb), dassy=x1&x2realisiert.

x1 x2 y

0 0 0

0 1 0

1 0 0

1 1 1

x1

x2

1 1 0 w1=w2= 1,b= 1.5 ODER, Andere boolsche Funktionen, XOR geht nicht!!!

(5)

Lernaufgabe

Gegeben: Lernstichprobe (x¹,y¹),(x²,y²), . . . ,(x^L,y^L)

,x^l∈Rⁿ,y^l∈ {0,1}

Gesucht:w∈Rⁿ,b∈Rso dassf(hx^l,wi −b) =y^lfür allel= 1, . . . ,L Für einen Schwellwertneuron – System linearer Ungleichungen:

n

_hxl,wi>b wenny^l= 1, hx^l,wi<b wenny^l= 0.

x

1

x

2

Es gibt (im Allgemeinen) mehrere Lösungen!!!

(6)

„Vorbereitungen“

Vorbereitung 1:

wundbzu einem Parametervektor ˜w:

x= (x1,x2, . . . ,xn)⇒

˜

x= (x1,x2, . . . ,xn,1) w= (w1,w2, . . . ,wn)⇒

˜

w= (w1,w2, . . . ,wn,−b)

⇓

hx^l,wi≷b⇒ h˜x^l,wi˜ ≷0 Vorbereitung 2:

alles zum einheitlichen System:

ˆ

x^l= ˜x^l fürlmity^l= 1 ˆ

x^l=−˜x^lfürlmity^l= 0

x

1

x

2

ˆ x

^l

˜ w

n

_hxl,wi>b wenn y^l= 1

hx^l,wi<b wenn y^l= 0 ⇒ hˆx^l,wi˜ >0 ∀l

(7)

Perzeptron Algorithmus

Algorithmus zur Lösung des Systems linearer Ungleichungen hx^l,wi>0 für allel= 1, . . . ,L.

1) Suche eine noch nicht erfüllte Gleichung, d.h. einlso dasshx^l,wi ≤0 gilt;

2) Wenn nicht gefunden – Ende,

sonst, aktualisierew^neu=w^alt+x^l, gehe zu 1).

x2

w^alt x^l

w^neu

x1

– Der Algorithmus terminiert, wenn eine Lösung existiert.

Wenn keine Lösung existiert, hält er nie an.

– Die Lösung ist (bis auf eine Skalierung und unter Umständen) ein Punk in der konvexen Hülle der Lernstichprobe

(8)

Beweis der Konvergenz

kw⁽ⁿ⁺¹⁾k²=kw⁽ⁿ⁾+xⁱk²=kw⁽ⁿ⁾k²+ 2hw⁽ⁿ⁾,xⁱi+kxⁱk²≤ kw⁽ⁿ⁾k²+D²

⇒ kw⁽ⁿ⁾k ≤√

nD weil hw⁽ⁿ⁾,xⁱi ≤0 (nicht erfüllt)

hw⁽ⁿ⁺¹⁾,w^∗i

kw^∗k =hw⁽ⁿ⁾,w^∗i

kw^∗k +hxⁱ,w^∗i

kw^∗k ≥hw⁽ⁿ⁾,w^∗i kw^∗k +

⇒hw⁽ⁿ⁾,w^∗i

kw^∗k ≥n weil hxⁱ,w^∗i>0 (erfüllt)

1≥ hw⁽ⁿ⁾,w^∗i kw^∗k · kw⁽ⁿ⁾k≥√

n

D wegen Cauchy-Schwarz Ungleichung

⇒n≤D² ²

Wenn eine Lösungw^∗existiert,

konvergiert der Algorithmus nach höchstensD²/² Schritten.

D= maxlkx^lk, = minlhx^l,w^∗i/kw^∗k– der Margin.

(9)

Beispielaufgabe

Entscheidungsregel für eine reelwertige Größex∈Rsei ein Polynomk-tes Grades, d.h.

anxⁿ+an−1xⁿ⁻¹+. . .+a1x+a0=

X

i

aixⁱ≷0

Man lerne die unbekannten Koeffizientenai des Polynoms anhand einer klassifizierten Lernstichprobe (x^l,y^l). . .

,x^l∈R,y^l∈ {0,1}.

Man überführe die Aufgabe in eine Perzeptron-Aufgabe.

Obwohl die Entscheidungsregel bezüglichxnicht mehr linear ist, ist sie immer noch linear bezüglich der Parameterai

⇒System linearer Ungleichungen w= (an,an−1, . . . ,a1,a0)

˜

x= (xⁿ,xⁿ⁻¹, . . . ,x,1) – und das für jedesl (einn+ 1-dimensionaler Vektor)

P

iaixⁱ=h˜x,wi ⇒Perzeptron Aufgabe.

Allgemein: durch eine geeignete Transformation des Raums lassen sich viele nicht-lineare Entscheidungsregel mit dem Perzeptron Algorithmus lernen.

(10)

Kosinec Algorithmus

x₁ x₂

Es existieren mehrere Lösungen

⇓

Man suche nach einem

„Streifen“ maximaler Breite, der die Lernstichprobe separiert.

(Max-margin, large-margin training)

x₁ x₂

˜ w Nach „Vorbereitung 1“ und

„Vorbereitung 2“:

min

l

hx^l,wi kwk →max

w

Vergleiche mit Perceptron min

l

hx^l,wi kwk >0

(11)

Kosinec Algorithmus

x

₁

x

2

w

^alt

w

^new

x

^l

ε

ε-genauer Algorithmus:

1 Suche einx^l so dass ^hx_kwk^l^,wi<kwk −εgilt;

2 Wenn nich gefunden – Ende.

3 Sucheγ^∗= arg minγkwâlt+γ(x^l−wâlt)k², aktualisierew^neu=wâlt+γ(x^l−wâlt), gehe zu 1.

Terminiert nach einer endlichen Anzahl der Schritte beiε >0 (Beweis ähnlich dem Perzeptron Algorithmus)

Terminiert nicht unbedingt beiε= 0.