1 Einbettungen und Feature Space

(1)

AGML, Sommersemester 2020 Vorlesung 11 (4 Seiten)

Kernel-Funktionen

Thomas Kesselheim Letzte Aktualisierung: 29. Mai 2020 In vielen Fällen kann man mittels linearer Klassifikation keine genügend guten Vorhersagen treffen. Wir werden uns heute komplexere Klassifikatoren anschauen. Die zugrundeliegenden Optimierungsprobleme können wir allerdings auf lineare Klassifikation zurückführen.

Beispiel 11.1. Uns seien folgende Trainingsdaten gegeben:

xi yi

−2 −1

−1 −1

1 +1

2 +1

3 −1

Hier ist lineare Klassifikation, also die Wahl einer Schwellenwertfunktion, offensichtlich keine sonderlich gute Idee. Es ist relativ offensichtlich, dass eigentlich ein Intervall gesucht wird. Interessant ist, dass ein Algorithmus dieses Intervall auch mittels linearer Klassikation finden kann, wenn wir als Merkmale (x_i, x²_i)∈R² ansehen.

(x_i, x²_i) y_i (−2,4) −1 (−1,1) −1 (1,1) +1 (2,4) +1

(3,9) −1 x

x²

Durch Hinzunahme einer Dimension gibt es nun also eine Gerade, die die Punkte separiert.

1 Einbettungen und Feature Space

Anstatt lineare Klassifikation über dem MerkmalsraumX betrachten wir diese nun über einem Feature Space F; zunächst ist F =Rⁿ, wobei n∈N unterschiedliche groß sein kann. Dazu ist uns eine Einbettungψ:X →F gegeben.

Beispiel 11.2. • Im oben Beispiel istX =R, F =R², ψ(x) = (x, x²).

• Eine Einbettung, über die wir schon implizit gesprochen haben, ist die folgende. Ist X = R^d, können wir F =R^d+1 und ψ(x) = (x,1) betrachten. Das heißt, wir fügen jedem x- Vektor als letzte Komponente eine 1 an. Jetzt können wir uns auf lineare Klassifikation mittels Hyperebenen beschränken, die durch den Ursprung gehen.

• Allgemeiner können wir polynomielle Einbettungen betrachten. Sei dafür X = R^d und k∈N fest. Nun definieren wir ψ(x) als den Vektor, dessen Komponenten alle möglichen Formen Qd

i=1x^j_iⁱ =x^j₁¹·x^j₂² ·. . .·x^j_d^d mit0≤ji ≤k f¨ur alle i hat. Die Dimension vonF ist n= (k+ 1)^d, kann also leicht sehr groß werden. Konkret k¨onnen wir d= 2 und k= 2 anschauen, dann ist ψ(x1, x2) = (1, x1, x²₁, x2, x1x2, x²₁x2, x²₂, x1x²₂, x²₁x²₂).

(2)

AGML, Sommersemester 2020 Vorlesung 11 (Seite 2 von 4)

• Es könnte aber auch X die Menge aller E-Mails sein undF könnte ein Vektor irgendwel- cher Eigenschaften sein, beispielsweise wie oft das gewisse Wörter vorkommen.

Der Lernalgorithmus, der eine Einbettung ψ benutzt, k¨onnte also wie folgt aussehen:

1. Berechne die Einbettung der Trainingsdaten. Sei die eingebettete Trainingsmenge ˆS ent- sprechend definiert als (ψ(x1), y1), . . . ,(ψ(xm), ym).

2. Finde einen m¨oglichst guten linearen Klassifikatorh_w:F → {−1,+1}, mit Trainingsmen- ge ˆS.

3. Gib Hypotheseh:X→ {−1,+1} zur¨uck mit h(x) =

(+1 fallshw, ψ(x)i ≥0

−1 sonst .

Im zweiten Schritt k¨onnten wir beispielsweise das Hard- oder das Soft-SVM-Problem aufF mit Trainingsmenge ˆS l¨osen.

Je nachdem, wie ψ gewählt wird, also welche Features dem Algorithmus zur Verfügung stehen, werden die Ergebnisse besser oder schlechter. Deren Auswahl hängt von der Anwendung ab. Hier steckt ein bisschen die Kunst des Maschinellen Lernens.

2 Repr¨ asentationssatz

Ob der Algorithmus, der die Einbettung nutzt, eine sinnvolle Laufzeit hat, h¨angt maßgeblich von der Dimensionndes Feature Space ab. Diese kann jedoch sehr hoch sein, wie beispielsweise bei der oben genannten polynomiellen Einbettung. Wir werden nun einen Satz zeigen, mit dessen Hilfe sich die Laufzeit jedoch drastisch reduzieren l¨asst.

Daf¨ur nehmen wir an, dass wir im zweiten Schritt einen Vektor w ∈ Rⁿ suchen, der eine Funktion f:Rⁿ→Rminimiert, die die Form

f(w) =f1(kwk) +f2(hw, ψ(x₁)i, . . . ,hw, ψ(x_m)i) (1) hat, wobeif₁:R→R monoton steigend undf₂:R^m →R eine beliebige Funktion ist. Wichtig ist, dass beide Funktionen nur in einer sehr eingeschränkten Art von w abhängen. Die erste hängt lediglich von der Norm von w ab, die zweite lediglich von den Skalarprodukten von w mitx₁, . . . ,x_m.

Alle Arten zur linearen Klassifikation, die wir bislang kennengelernt haben, lassen sich so darstellen.

• Bei Soft-SVM ist dies relativ offensichtlich. Hier k¨onnten wir f1(a) =λa², f2(a1, . . . , am) = 1

m

X

i=1

max{0,1−yiai} w¨ahlen.

• Um Hard-SVM zu erfassen, nutzen wir f₁(a) =a², f₂(a₁, . . . , a_m) =

(0 fallsy_ia_i ≥1 f¨ur alle i

∞ sonst .

Die Funktionf2 bringt also in diesem Fall die Nebenbedingungen zum Ausdruck.

(3)

• Auch die Zielfunktion, die Anzahl falsch klassifizierter Punkte l¨asst sich in dieser Form schreiben. Hier istf₁(a) = 0 f¨ur alle aund f₂(a₁, . . . , a_m) =|{i|y_ia_i ≤0}|.

Satz 11.3. F¨ur jede Auswahl von Datenpunkten x1, . . . ,xm ∈X, Einbettungsfunktionψ:X → F, und jede Funktion f der Form wie in Gleichung (1) gibt es α₁, . . . , α_m, sodass der Vektor w⁰ =Pm

i=1αiψ(xi) die Funktionf minimiert.

Das heißt, dass es umf zu minimieren ausreicht, nur die Linearkombinationen vonψ(x₁), . . . ψ(x_m) zu betrachten.

Beweis von Satz 11.3. Sei w^∗ ∈ F eine optimale Lösung des Optimierungsproblems. Die Vek- toren ψ(x₁), . . . , ψ(x_m) erzeugen eine Unterraum U von F von Dimension höchstens m. Wir betrachten nun eine Orthonormalbasisb1, . . . ,bk dieses UnterraumsU. (Diese könnte man beispielsweise mit dem Gram-Schmidtschen Orthogonalisierungsverfahren bestimmen.) Das heißt hb_j,b_ji= 1 undhb_j,b_j⁰i= 0 fürj6=j⁰. Außerdem lässt sich jedesψ(x_i) als Linearkombination von b1, . . . ,bk darstellen. Weil es sich um eine Orthonomalbasis handelt, ist dies besonders einfach. Es gilt

ψ(x_i) =

k

X

j=1

hψ(x_i),b_jib_j .

Nun betrachten wir die Projektion von w^∗ auf U. Diese berechnet sich in ¨ahnlicher Weise als

w⁰=

k

X

j=1

hw^∗,b_jib_j .

Es giltw⁰ ∈U, denn U umfasst ja genau alle Linearkombinationen vonb1, . . . ,bk. Wir k¨onnen w⁰ aber auch als Linearkombination vonψ(x1), . . . , ψ(xm) schreiben, denn auch diese Vektoren erzeugenU. Das heißt, es gibt α₁, . . . , α_m∈Rmit

w⁰=

m

X

i=1

α_iψ(x_i) .

Wir behaupten nun, dass f(w⁰) ≤ f(w^∗). Betrachten wir zun¨achst das Skalarprodukt von w⁰ mit einem beliebigen b_j⁰. Es gilt

hw⁰,b_j⁰i=

* _k X

j=1

hw^∗,bjib_j,b_j⁰ +

=

k

X

j=1

hw^∗,bji · hb_j,b_j⁰i=hw^∗,b_j⁰i . Somit gilt also auch

hw⁰, ψ(xi)i=

* w⁰,

k

X

j=1

hψ(x_i),bjib_j +

=

k

X

j=1

hψ(x_i),bji·hw⁰,bji=

k

X

j=1

hψ(x_i),bji·hw^∗,bji=hw^∗, ψ(xi)i . Das heißt, dass f₂(hw⁰, ψ(x₁)i, . . . ,hw⁰, ψ(x_m)i) =f₂(hw^∗, ψ(x₁)i, . . . ,hw^∗, ψ(x_m)i).

Eine analoge Rechnung liefert unshw⁰,w⁰i=hw^∗,w⁰i. Definieren wir uns alsoc=w^∗−w⁰, stellen wir fest, dass hw⁰,ci=hw⁰,w^∗i − hw⁰,w⁰i= 0. Somit gilt auch, dass

kw^∗k² =hw⁰+c,w⁰+ci=hw⁰,w⁰i+hc,ci=kw⁰k²+kck² .

Dies bedeutet also auch, dass kw⁰k ≤ kw^∗k und damit f1(kw⁰k) ≤ f1(kw^∗k) aufgrund der Monotonie.

Insgesamt gilt also f(w⁰)≤f(w^∗).

Aufgrund von Satz 11.3 k¨onnen wir uns also darauf beschr¨ankenα∈R^m zu finden anstatt w∈Rⁿ. Dies ist von enormem Nutzen, wenn nm.

(4)

3 Effiziente Berechnung

Wie finden wir also einen Vektorα∈R^m, so dassf(Pm

i=1α_iψ(x_i)) minimiert wird? Weiterhin hatf die Form aus Gleichung (1). Das heißt,fhängt nur von der Norm und den Skalarprodukten ab. Diese können wir auch direkt durchα ausdrücken. Gilt nämlichw =P_m

i=1α_iψ(x_i), dann auch

hw, ψ(x_j)i=

* _m X

i=1

α_iψ(x_i), ψ(x_j) +

=

m

X

i=1

α_ihψ(x_i), ψ(x_j)i und

kwk=p

hw,wi= v u u t

* _m X

i=1

α_iψ(x_i),

m

X

j=1

α_jψ(x_j) +

= v u u t

m

X

i=1 m

X

j=1

α_iα_jhψ(x_i), ψ(x_j)i . Definieren wir uns also eine neue Funktion K: X×X → R ¨uber K(x_i,x_j) = hψ(x_i), ψ(x_j)i, dann lassen sich diese Ausdr¨ucke schreiben als

hw, ψ(x_j)i=

m

X

i=1

α_iK(x_i,x_j) und

kwk= v u u t

m

X

i=1 m

X

j=1

α_iα_jK(x_i,x_j) . Somit gilt also

f

m

X

i=1

α_iψ(x_i)

!

=f₁



 v u u t

m

X

i=1 m

X

j=1

α_iα_jK(x_i,x_j)



+f₂

m

X

i=1

α_iK(x_i,x₁), . . . ,

m

X

i=1

α_iK(x_i,x_m)

! .

Insgesamt m¨ussten wir also, umf zu berechnen und auch zu minimieren, lediglichK(x_i,x_j) f¨ur alle Paareiundjausrechnen. Die einzelnen Werte vonψ(xi) sind nicht gar nicht erforderlich.

Das heißt, wir rechnen nicht einmal m² anstatt m·n Werte aus. F¨ur große n kann dies ein enormer Vorteil sein.

Beispiel 11.4. Betrachten wir wieder die polynomielle Einbettung des X =R^d. Relativ einfa- ches Nachrechnen ergibt, dass K(x_i,x_j) = (1 +hx_i,x_ji)^k. Das heißt, diese Werte lassen sich relativ leicht ausrechnen. Eine Bestimmung der m Vektoren ψ(x1), . . . , ψ(xm) mit je (k+ 1)^d Eintr¨agen ist nicht erforderlich.

4 Kernels

Wie wir gesehen haben, ist es also nur n¨otig, die FunktionK:X×X →Rauszurechnen. Eine solche Funktion nennt sich Kernel. Sie ersetzt gewissermaßen das Skalarprodukt aufX.

In der Tat ist es nicht einmal erforderlich, dass der Feature SpaceF eine endliche Dimension hat, denn die Funktionψ: X→F muss nicht explizit ausgewertet werden. Der RaumF muss lediglich ein reeller Vektorraum sein, auf dem ein Skalarprodukt definiert ist, ein sogenannter Hilbertraum.

Referenzen

• Understanding Machine Learning, Kapitel 16