• Keine Ergebnisse gefunden

1 Einbettungen und Feature Space

N/A
N/A
Protected

Academic year: 2022

Aktie "1 Einbettungen und Feature Space"

Copied!
4
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

AGML, Sommersemester 2020 Vorlesung 11 (4 Seiten)

Kernel-Funktionen

Thomas Kesselheim Letzte Aktualisierung: 29. Mai 2020 In vielen F¨allen kann man mittels linearer Klassifikation keine gen¨ugend guten Vorhersagen treffen. Wir werden uns heute komplexere Klassifikatoren anschauen. Die zugrundeliegenden Optimierungsprobleme k¨onnen wir allerdings auf lineare Klassifikation zur¨uckf¨uhren.

Beispiel 11.1. Uns seien folgende Trainingsdaten gegeben:

xi yi

−2 −1

−1 −1

1 +1

2 +1

3 −1

Hier ist lineare Klassifikation, also die Wahl einer Schwellenwertfunktion, offensichtlich keine sonderlich gute Idee. Es ist relativ offensichtlich, dass eigentlich ein Intervall gesucht wird. Interessant ist, dass ein Algorithmus dieses Intervall auch mittels linearer Klassikation finden kann, wenn wir als Merkmale (xi, x2i)∈R2 ansehen.

(xi, x2i) yi (−2,4) −1 (−1,1) −1 (1,1) +1 (2,4) +1

(3,9) −1 x

x2

Durch Hinzunahme einer Dimension gibt es nun also eine Gerade, die die Punkte separiert.

1 Einbettungen und Feature Space

Anstatt lineare Klassifikation ¨uber dem MerkmalsraumX betrachten wir diese nun ¨uber einem Feature Space F; zun¨achst ist F =Rn, wobei n∈N unterschiedliche groß sein kann. Dazu ist uns eine Einbettungψ:X →F gegeben.

Beispiel 11.2. • Im oben Beispiel istX =R, F =R2, ψ(x) = (x, x2).

• Eine Einbettung, ¨uber die wir schon implizit gesprochen haben, ist die folgende. Ist X = Rd, k¨onnen wir F =Rd+1 und ψ(x) = (x,1) betrachten. Das heißt, wir f¨ugen jedem x- Vektor als letzte Komponente eine 1 an. Jetzt k¨onnen wir uns auf lineare Klassifikation mittels Hyperebenen beschr¨anken, die durch den Ursprung gehen.

• Allgemeiner k¨onnen wir polynomielle Einbettungen betrachten. Sei daf¨ur X = Rd und k∈N fest. Nun definieren wir ψ(x) als den Vektor, dessen Komponenten alle m¨oglichen Formen Qd

i=1xjii =xj11·xj22 ·. . .·xjdd mit0≤ji ≤k f¨ur alle i hat. Die Dimension vonF ist n= (k+ 1)d, kann also leicht sehr groß werden. Konkret k¨onnen wir d= 2 und k= 2 anschauen, dann ist ψ(x1, x2) = (1, x1, x21, x2, x1x2, x21x2, x22, x1x22, x21x22).

(2)

AGML, Sommersemester 2020 Vorlesung 11 (Seite 2 von 4)

• Es k¨onnte aber auch X die Menge aller E-Mails sein undF k¨onnte ein Vektor irgendwel- cher Eigenschaften sein, beispielsweise wie oft das gewisse W¨orter vorkommen.

Der Lernalgorithmus, der eine Einbettung ψ benutzt, k¨onnte also wie folgt aussehen:

1. Berechne die Einbettung der Trainingsdaten. Sei die eingebettete Trainingsmenge ˆS ent- sprechend definiert als (ψ(x1), y1), . . . ,(ψ(xm), ym).

2. Finde einen m¨oglichst guten linearen Klassifikatorhw:F → {−1,+1}, mit Trainingsmen- ge ˆS.

3. Gib Hypotheseh:X→ {−1,+1} zur¨uck mit h(x) =

(+1 fallshw, ψ(x)i ≥0

−1 sonst .

Im zweiten Schritt k¨onnten wir beispielsweise das Hard- oder das Soft-SVM-Problem aufF mit Trainingsmenge ˆS l¨osen.

Je nachdem, wie ψ gew¨ahlt wird, also welche Features dem Algorithmus zur Verf¨ugung stehen, werden die Ergebnisse besser oder schlechter. Deren Auswahl h¨angt von der Anwendung ab. Hier steckt ein bisschen die Kunst des Maschinellen Lernens.

2 Repr¨ asentationssatz

Ob der Algorithmus, der die Einbettung nutzt, eine sinnvolle Laufzeit hat, h¨angt maßgeblich von der Dimensionndes Feature Space ab. Diese kann jedoch sehr hoch sein, wie beispielsweise bei der oben genannten polynomiellen Einbettung. Wir werden nun einen Satz zeigen, mit dessen Hilfe sich die Laufzeit jedoch drastisch reduzieren l¨asst.

Daf¨ur nehmen wir an, dass wir im zweiten Schritt einen Vektor w ∈ Rn suchen, der eine Funktion f:Rn→Rminimiert, die die Form

f(w) =f1(kwk) +f2(hw, ψ(x1)i, . . . ,hw, ψ(xm)i) (1) hat, wobeif1:R→R monoton steigend undf2:Rm →R eine beliebige Funktion ist. Wichtig ist, dass beide Funktionen nur in einer sehr eingeschr¨ankten Art von w abh¨angen. Die erste h¨angt lediglich von der Norm von w ab, die zweite lediglich von den Skalarprodukten von w mitx1, . . . ,xm.

Alle Arten zur linearen Klassifikation, die wir bislang kennengelernt haben, lassen sich so darstellen.

• Bei Soft-SVM ist dies relativ offensichtlich. Hier k¨onnten wir f1(a) =λa2, f2(a1, . . . , am) = 1

m

m

X

i=1

max{0,1−yiai} w¨ahlen.

• Um Hard-SVM zu erfassen, nutzen wir f1(a) =a2, f2(a1, . . . , am) =

(0 fallsyiai ≥1 f¨ur alle i

∞ sonst .

Die Funktionf2 bringt also in diesem Fall die Nebenbedingungen zum Ausdruck.

(3)

AGML, Sommersemester 2020 Vorlesung 11 (Seite 3 von 4)

• Auch die Zielfunktion, die Anzahl falsch klassifizierter Punkte l¨asst sich in dieser Form schreiben. Hier istf1(a) = 0 f¨ur alle aund f2(a1, . . . , am) =|{i|yiai ≤0}|.

Satz 11.3. F¨ur jede Auswahl von Datenpunkten x1, . . . ,xm ∈X, Einbettungsfunktionψ:X → F, und jede Funktion f der Form wie in Gleichung (1) gibt es α1, . . . , αm, sodass der Vektor w0 =Pm

i=1αiψ(xi) die Funktionf minimiert.

Das heißt, dass es umf zu minimieren ausreicht, nur die Linearkombinationen vonψ(x1), . . . ψ(xm) zu betrachten.

Beweis von Satz 11.3. Sei w ∈ F eine optimale L¨osung des Optimierungsproblems. Die Vek- toren ψ(x1), . . . , ψ(xm) erzeugen eine Unterraum U von F von Dimension h¨ochstens m. Wir betrachten nun eine Orthonormalbasisb1, . . . ,bk dieses UnterraumsU. (Diese k¨onnte man bei- spielsweise mit dem Gram-Schmidtschen Orthogonalisierungsverfahren bestimmen.) Das heißt hbj,bji= 1 undhbj,bj0i= 0 f¨urj6=j0. Außerdem l¨asst sich jedesψ(xi) als Linearkombination von b1, . . . ,bk darstellen. Weil es sich um eine Orthonomalbasis handelt, ist dies besonders einfach. Es gilt

ψ(xi) =

k

X

j=1

hψ(xi),bjibj .

Nun betrachten wir die Projektion von w auf U. Diese berechnet sich in ¨ahnlicher Weise als

w0=

k

X

j=1

hw,bjibj .

Es giltw0 ∈U, denn U umfasst ja genau alle Linearkombinationen vonb1, . . . ,bk. Wir k¨onnen w0 aber auch als Linearkombination vonψ(x1), . . . , ψ(xm) schreiben, denn auch diese Vektoren erzeugenU. Das heißt, es gibt α1, . . . , αm∈Rmit

w0=

m

X

i=1

αiψ(xi) .

Wir behaupten nun, dass f(w0) ≤ f(w). Betrachten wir zun¨achst das Skalarprodukt von w0 mit einem beliebigen bj0. Es gilt

hw0,bj0i=

* k X

j=1

hw,bjibj,bj0 +

=

k

X

j=1

hw,bji · hbj,bj0i=hw,bj0i . Somit gilt also auch

hw0, ψ(xi)i=

* w0,

k

X

j=1

hψ(xi),bjibj +

=

k

X

j=1

hψ(xi),bji·hw0,bji=

k

X

j=1

hψ(xi),bji·hw,bji=hw, ψ(xi)i . Das heißt, dass f2(hw0, ψ(x1)i, . . . ,hw0, ψ(xm)i) =f2(hw, ψ(x1)i, . . . ,hw, ψ(xm)i).

Eine analoge Rechnung liefert unshw0,w0i=hw,w0i. Definieren wir uns alsoc=w−w0, stellen wir fest, dass hw0,ci=hw0,wi − hw0,w0i= 0. Somit gilt auch, dass

kwk2 =hw0+c,w0+ci=hw0,w0i+hc,ci=kw0k2+kck2 .

Dies bedeutet also auch, dass kw0k ≤ kwk und damit f1(kw0k) ≤ f1(kwk) aufgrund der Monotonie.

Insgesamt gilt also f(w0)≤f(w).

Aufgrund von Satz 11.3 k¨onnen wir uns also darauf beschr¨ankenα∈Rm zu finden anstatt w∈Rn. Dies ist von enormem Nutzen, wenn nm.

(4)

AGML, Sommersemester 2020 Vorlesung 11 (Seite 4 von 4)

3 Effiziente Berechnung

Wie finden wir also einen Vektorα∈Rm, so dassf(Pm

i=1αiψ(xi)) minimiert wird? Weiterhin hatf die Form aus Gleichung (1). Das heißt,fh¨angt nur von der Norm und den Skalarprodukten ab. Diese k¨onnen wir auch direkt durchα ausdr¨ucken. Gilt n¨amlichw =Pm

i=1αiψ(xi), dann auch

hw, ψ(xj)i=

* m X

i=1

αiψ(xi), ψ(xj) +

=

m

X

i=1

αihψ(xi), ψ(xj)i und

kwk=p

hw,wi= v u u t

* m X

i=1

αiψ(xi),

m

X

j=1

αjψ(xj) +

= v u u t

m

X

i=1 m

X

j=1

αiαjhψ(xi), ψ(xj)i . Definieren wir uns also eine neue Funktion K: X×X → R ¨uber K(xi,xj) = hψ(xi), ψ(xj)i, dann lassen sich diese Ausdr¨ucke schreiben als

hw, ψ(xj)i=

m

X

i=1

αiK(xi,xj) und

kwk= v u u t

m

X

i=1 m

X

j=1

αiαjK(xi,xj) . Somit gilt also

f

m

X

i=1

αiψ(xi)

!

=f1

 v u u t

m

X

i=1 m

X

j=1

αiαjK(xi,xj)

+f2

m

X

i=1

αiK(xi,x1), . . . ,

m

X

i=1

αiK(xi,xm)

! .

Insgesamt m¨ussten wir also, umf zu berechnen und auch zu minimieren, lediglichK(xi,xj) f¨ur alle Paareiundjausrechnen. Die einzelnen Werte vonψ(xi) sind nicht gar nicht erforderlich.

Das heißt, wir rechnen nicht einmal m2 anstatt m·n Werte aus. F¨ur große n kann dies ein enormer Vorteil sein.

Beispiel 11.4. Betrachten wir wieder die polynomielle Einbettung des X =Rd. Relativ einfa- ches Nachrechnen ergibt, dass K(xi,xj) = (1 +hxi,xji)k. Das heißt, diese Werte lassen sich relativ leicht ausrechnen. Eine Bestimmung der m Vektoren ψ(x1), . . . , ψ(xm) mit je (k+ 1)d Eintr¨agen ist nicht erforderlich.

4 Kernels

Wie wir gesehen haben, ist es also nur n¨otig, die FunktionK:X×X →Rauszurechnen. Eine solche Funktion nennt sich Kernel. Sie ersetzt gewissermaßen das Skalarprodukt aufX.

In der Tat ist es nicht einmal erforderlich, dass der Feature SpaceF eine endliche Dimension hat, denn die Funktionψ: X→F muss nicht explizit ausgewertet werden. Der RaumF muss lediglich ein reeller Vektorraum sein, auf dem ein Skalarprodukt definiert ist, ein sogenannter Hilbertraum.

Referenzen

• Understanding Machine Learning, Kapitel 16

Referenzen

ÄHNLICHE DOKUMENTE

(Was passiert, wenn Sie versuchen, dies bereits für n ≥ 1 zu

[r]

Es ist eine gute Übung (aber durchaus etwas schwerer), die Behauptung erst einmal zu „finden“ wenn sie nicht angegeben ist.. Zum Beispiel: in Aufgabe 6) muss die Formel für

[r]

Technische Universit¨at Graz WS 2021/2022. Institut f¨ ur Angewandte Mathematik

[r]

Berechnen Sie für die Ziehung beim Lotto 6 aus 49 (Ziehen ohne Zurücklegen) die W’, dass Ihre Glückszahl (welche das ist, spielt für die Rechnung keine Rolle) als eine der

Lineare Algebra II Pr¨ asenzaufgaben, Teil 1?.