Vorlesung Maschinelles Lernen

(1)

Überblick Lernaufgaben Primales Problem Duales Problem Optimierung der SVMstruct Anwendungen

Vorlesung Maschinelles Lernen

Strukturelle Modelle – SVMstruct

Katharina Morik

LS 8 Künstliche Intelligenz Fakultät für Informatik Technische Universität Dortmund

16.12.2008

1 von 35

Gliederung

1 Überblick Lernaufgaben

2 Primales Problem

3 Duales Problem

4 Optimierung der SVMstruct

5 Anwendungen

2 von 35

Jenseits des Bag of Words

Bisher haben wir Texte als Anzahl und Häufigkeit von Wörtern repräsentiert.

Damit haben wir die Struktur der Sprache ignoriert.

Grammatik Koreferenz Eigennamen

Semantische Relationen

Es gibt eine ganze Reihe von Ansätzen des maschinellen Lernens, um (sprachliche) Strukturen zu behandeln.

Wir besprechen hier nur die SVM bezogenen Ansätze.

3 von 35

Lernaufgabe Named Entity Recognition

Wortfolgen, die sich auf ein individuelles Objekt beziehen, werdenNamed Entities(NE) genannt.

Eigennamen, Ortsnamen, Firmennamen sind z.B. NEs.

Gegeben Beispiele von Sätzen, in denen NEs annotiert sind, lerne die Entscheidungsfunktion, die für jedes Wort angibt, ob es zu einer bestimmten NE gehört, oder nicht.

Beispiel:

Johann Sebastian Bach publiziert im Henle Verlag München.

Per Per Per 0 0 Org Org Place

4 von 35

(2)

Anwendungen

Wenn wir in Dokumenten die NEs automatisch annotieren, können wir sie im Text markieren, so dass die Benutzer schneller interessante Stellen auffinden;

können wir alle Sätze zu einer Person, Firma, einem Ort herausschreiben und so eine Zusammenfassung für einen Text erstellen;

eine weitere Lernaufgabe aufsetzen:Relationenzwischen NEs lernen, z.B. Fusion von Firmenf usion(Org1, Org2), Mitglied im Aufsichtsratauf sicht(Org, P er).

Letztlich erstellen wir eine Datenbank aus einer

Dokumentensammlung. Auf diese Datenbank wenden wir dann unsere Lernverfahren wie gehabt an.

5 von 35

Part of Speech Tagging

UnterPart-of-speech Taggingversteht man die Zuordnung von Wörtern eines Textes zu Wortarten (engl.: part of speech).

Beispiel:

Die Noten erscheinen bei Henle.

Det N V Prep N

6 von 35

Full Parsing

Syntaxregeln produzieren einen Syntaxbaum für einen Satz, dessen Wurzel das StartsymbolSist und die Blätter sind die Wortarten (präterminalen Knoten), denen dann die Wörter zugeordnet sind.Full Parsingerstellt

Syntaxbäume für Sätze.

Beispiel:

S→N P, V P V P →V, N P N P →Det, N N P →P rep, N

7 von 35

Lernaufgaben Part of Speech Tagging, Full Parsing Gegeben ist eine Menge von Sätzen.

Part of Speech Tagging: Gegeben eine Menge von Sätzen, bei denen zu jedem Wort die Wortart angegeben ist, lerne eine Entscheidungsfunktion, die bei beliebigen Sätzen jedem Wort eine Wortart zuordnet.

Full Parsing Learning: Gegeben eine Menge von Sätzen, eine Menge von Syntaxregeln und die Anzahl von Regelanwendungen für jeden Satz, lerne eine

Entscheidungsfunktion, die beliebigen Sätzen die Anzahl von Regelanwendungen zuordnet (discriminant model).

Zur Abgrenzung: Es sind gegeben eine Menge von syntaktisch korrekten Sätzen (positive Beispiele) und eine Menge von synaktisch falschen Sätzen (negative Sätze), bei denen jeweils die Wortarten annotiert sind, lerne Syntaxregeln, die gerade die syntaktisch korrekten Sätze produzieren (generative model).

8 von 35

(3)

Support Vector Machines für alles...

Bisher haben wir zwei Lernaufgaben fürSupport Vector Machinesbetrachtet:

Binäre Klassifikation SVM zur Regression

Aktuelles Übungsblatt:Mehrklassen-Problem

Jetzt:Lernen von Funktionen für beliebige Ausgaben (Bäume, Graphen) mit Hilfe derSVMstruct.

9 von 35

SVMstruct

Strukturelle Modelle

SeiXdie Menge der Beispiele. Ist die Ausgabe-VariableY nicht ein Skalar, sondern eine Struktur (z.B. eine Folge, ein Baum, ein Graph), so heißt das Modell

f :X →Y strukturelles Modell.

Large Margin Methods for Structured and Interdependent Output Variables,I. Tsochantaridis, T. Joachims, T. Hofmann, Y. Altun,J. of Machine Learning Research, Vol. 6, p. 1453 – 1484, 2005

Training Linear SVMs in Linear Time,Thorsten Joachims, Proc. KDD 2006

10 von 35

Lernaufgabe der SVMstruct

Lernaufgabe SVMstruct

SeiY =Y1×. . .×Yq eine Menge und!y∈Y eineKonfiguration inY und

T ={(!x1,!y1), . . . ,(!xn,!yn)}⊂X×Y eine Menge von Beobachtungen.

Ziel:Finde eine Funktion

F :X×Y →R so daß

f(!x,β) = arg max!

! y∈Y

F(!x,!y;β)!

11 von 35

SVMstruct

Es sei eineβ-parametrisierte Schar von Funktionen! Fβ! :X×Y →R

gegeben, die die Ähnlichkeit zwischen!xund!yausdrücken.

Gesucht ist nun einβ!^∗derart, daß f(x,β!^∗) = arg max

! y∈Y

Fβ!^∗(!x,!y)

jeweils zu einem!x, das am besten passende!y∈Y liefert.

12 von 35

(4)

Merkmalsabbildung am Beispiel der ParseTrees

Ψ(!x,!y) =





 1 1 1 0 ...

0 1







S→NP, VP NP→Det, N NP→Prep, N NP→Adj, N ...

Prep→in Prep→bei Annahme:F(!x,!y;β) =! %β,! Ψ(!x,!y)&

Wir lernen also über input-/output-Kombinationen die Ranking-FunktionF :X×Y →R.

13 von 35

Primales Problem –β!

Wie bei der SVM mit einfacher Ausgabevariabley, mussβ! bestimmt werden:

minβ!

1

2'β!'² (1)

Aber was sind hier die Nebenbedingungen? Grundidee:

Alle%β,! Ψ(!x,y!i)&erhalten ein Gewicht, so dass eine

Rangfolge (ranking) entsteht.

Der Abstand zwischen der besten und der zweitbesten Lösung soll maximal sein!

Obwohl wir auf diese Weisen|Y|−nNebenbedingungen erhalten, interessieren uns eigentlich immer nur die erst- und zweitbesten!yundy!i.

14 von 35

Primales Problem – Nebenbedingungen

Für jedes dernBeispielex!i mit jedem der|Y|möglicheny!i

müssen wir feststellen, wie groß der Abstand zu allen anderenΨ(!xi,!y)ist. Diesen Abstand notieren wir:

δΨi(!y)≡Ψ(x!i,y!i)−Ψ(x!i,!y)

Wir erhaltenn|Y|−nlineare Nebenbedingungen für das primale Problem:

∀i,∀!y∈Y\y!i:%β,! δΨi(!y)& ≥1 (2)

15 von 35

Primales Problem SVMstruct

Bei linear trennbaren Daten ist das primale Optimierungsproblem der SVMstruct:

Primales Problem SVM

SV M0: minβ! 1

2'β!'² (1) unter den Bedingungen

∀i,∀!y∈Y\!yi:%β,! δΨi(!y)& ≥1 (2)

16 von 35

(5)

SVMstruct mit Ausnahmen – slack rescaling

Ein StraftermC für alle Beispiele!x, bei denen die

Nebenbedingungen verletzt sind, und die Relaxierung durchξ führt zu dem Minimierungsproblem:

Slack Rescaling SVM

SV M1: minβ,ξ! 1

2'β!'²+_N^C 'N

i=1ξi (3)

unter den Bedingungen

∀i,∀!y∈Y\!yi :%β,! δΨi(!y)& ≥1−ξi,ξi≥0 (4) C ist linear in denξi.

17 von 35

SVMstruct mit Ausnahmen – margin rescaling

Verletzungen der Nebenbedingungen können auch durch einen quadratischen Term bestraft werden.

Margin rescaling SVM

SV M2: minβ,ξ! 1

2'β!'²+ _2N^C 'N

i=1ξ_i² (5)

unter den Bedingungen

∀i,∀!y∈Y\y!i:%β,! δΨi(!y)& ≥1−ξi,ξi ≥0 (6)

18 von 35

Empirisches Risiko und Slack Rescaling

Auch bei strukturellen Modellen geht es darum, den Fehler zu minimieren. Der erwartete Fehler bei irgend einer

Verlustfunktion∆ist für eine Menge von BeispielenT R_T(f) =1

2 (N i=1

∆(!yi, f(x!i)) (7) Um die Verletzung der Nebenbedingung für ein!y,=y!ibei großem Verlust∆(!yi,!y)stärker zu bestrafen als bei geringerem, passen wir die Nebenbedingungen an:

SV M1 : minβ,ξ! 1

2'β'! ²+_N^C 'N i=1ξi

∀i,∀!y∈Y\y!i:%β,! δΨi(!y)& ≥1− _∆(!^ξ_yⁱ_i_,!_y) (8) SV M2 : min!β,ξ

1

2'β'! ²+_2N^C 'N i=1ξ_i²

∀i,∀!y∈Y\!yi:%β,! δΨi(!y)& ≥1−√ ^ξⁱ

∆(!y_i,!y) (9)

19 von 35

Obere Schranke des empirischen Fehlers

Satz

Seienξ_i^∗(β)! die optimalen Schlupfvariablen für ein gegebenes β, dann ist!

R_T(β)! ≤ 1 N

(N i=1

ξ_i^∗

20 von 35

(6)

Obere Schranke des empirischen Fehlers

Beweis:

Wir wissen:

ξ_i^∗= max )

0,max

! y#=y!_i

*∆(y!i,!y)+

1− %β,! δΨi(!y)&,-.

Sei!y^∗=f(!xi,β), es ergeben sich zwei Fälle!

1. Fall:!y^∗=!y : Es ist∆(!yi, f(!xi,β)) = 0! ≤ξ_i^∗ 2. Fall:!y^∗,=!y : ⇒ %!yi,δΨi(!y^∗)& ≤0

⇒_∆(!^ξ_y^∗ⁱ_i_,!_y) ≥1⇔∆(y!i,!y)≤ξ_i^∗ Da die Schranke für jedes Beispiel gilt, gilt sie auch für den

Durchschnitt. !

21 von 35

Hinführung zum dualen Problem

Wir wollen auch hier das duale Problem formulieren.

Bisher war es:

LD(!α) = (N i=1

αi−1 2

(N i=1

(N j=1

yiyjαiαj%!xi,!xj&

Jetzt sindy!i,y!jnicht mehr einfach Werte, sondern Strukturen.

Für jedes derNBeispielex!i mit jedem der|Y |möglichen

!

yimüssen wir feststellen, wie groß der Abstand zu allen anderenΨ(x!i,!y)ist.

Wir haben also nicht mehr einαje Beispiel inX, sondern einαfür jedes Paar inX×Y.

Erst sehen wir uns den Raum an, in dem optimiert wird, dann dieα.

22 von 35

Raum, in dem SVMstruct optimiert

Bei der klassischen SVM haben wir beim dualen Problem füri, j= 1, ..., Ndas Skalarprodukt%x!i,x!j&gerechnet.

Jetzt müssen wir füri, j= 1, ..., N rechnen

J_(i!_y)(jy!^")≡ %δΨi(!y),δΨj(y!^$)&.

!

x1 ... x!j ... x!N

!

x1 − ... ... ... ...

... ... ... ... ... ...

!

xi ... ... %δΨi(!y),δΨj(y!^$)& ... ...

... ... ... ... ... ...

!

xN ... ... ... ... −

23 von 35

MatrixJ

In derN×N Matrix sind die Einträge%δΨi(!y),δΨj(y!^$)&. Wir erinnern uns:δΨi(!y)≡Ψ(x!i,y!i)−Ψ(!xi,!y)

Statt einer einfachen Matrix haben wir einen Tensor, d.h.

der Eintrag in dieN×N Matrix ist eine|Y |×| Y |Matrix J:

!

y1 ... y_|Y!_|

!

y1 − ... Ψ(!x,y!1)−Ψ(!x,y!_|Y_|)

... ... ... ...

!

y_|Y_| Ψ(!x,y_|Y!_|)−Ψ(!x,y!1) ... −

Jist eine Kernfunktion überX×Y:

J_(i!_y)(jy!^")=%δΨi(!y),δΨj(y!^$)&

24 von 35

(7)

αi!y und optimalesβ

Stattαifürx!i, haben wirαij mitj = 1, ...,|Y |



 αi1

...

αim





Das optimaleβ!ist

!ˆ β =

(N i=1

|Y|

(

! y#=y!_i

α(i!y)(Ψ(x!i,y!i)−Ψ(x!i,!y))

= (N

i=1

|Y|

(

! y#=y!_i

α(i!y)δΨi(!y) (10)

25 von 35

Duales Problem der SVMstruct

SVMstruct bei linear separierbaren Beispielen:

LD(α) =−1 2

(N i,!y#=y!_i

(N

j,y!^"#=!yi

αi!yα_j,y!^"J_(i!_y)(jy!^")+

(N i,!y#=y!_i

αi!y (11) Für die Slack RescalingSV M1mit Ausnahmen muss zusätzlich gelten:

(N

! y#=y!i

αi!y≤ C

N,∀i= 1, ..., N

Für die Margin RescalingSV M2mit Ausnahmen wird

J_(i!_y)(jy!^")unter Verwendung der IndikatorfunktionI(a, b) = 1

fallsa=b, sonst 0 zu:

%δΨi(!y),δΨj(y!^$)&+I(i, j)N C

Immer soll!αmaximiert werden. _{26 von 35}

Die SVMstruct stellt ein schwieriges Optimierungsproblem!

BeiN |Y |−NNebenbedingungen und vermutlich sehr großem|Y |ist normale Optimierung durch quadratische Programmierung nicht möglich.

Es sollen nun deutlich weniger Nebenbedingungen wirklich bearbeitet werden.

Beobachtung: Es gibt immer eineTeilmengevon

Nebenbedingungen, so dass die damit errechnete Lösung auchalleNebenbedingungen erfüllt mit einer

Ungenauigkeit von nur&.

27 von 35

SVMstruct: Algorithmus zum Optimieren – Idee

Für jedes Beispielx!igibt es einen working setSi, in dem die verletzten Nebenbedingungen gespeichert sind.

Zunächst sindSileer, das Problem unbeschränkt.

Für jedes Beispielx!iwird die am schlimmsten verletzte Nebenbedingung bzgl.y!_i^∗festgestellt undSihinzugefügt.

Das Problem wird zunehmend stärker beschränkt.

Optimiereα

bezüglich aller working sets gemeinsam oder

nur für einS_i, wobei dieα_j!_ymitj,=ieingefroren werden.

Wenn keinSimehr verändert wurde, STOP.

28 von 35

(8)

SVMstruct: Algorithmus zum Optimieren

1 Input:T ={(x!1,y!1), ...,(x!N,y!N)}, C,&

2 Si:={}für allei= 1, ..., N

3 Solange einSi sich in der Iteration ändert:

4 fori= 1, ..., Ndo

5 Kosten:H(!y)







1− %δΨi(!y),β!& SV M0

(1− %δΨi(!y),β!&)∆(!yi,!y) SV M1(s.8) (1− %δΨi(!y),β!&)∆(!yi,!y) SV M2(s.9) wobeiβ!≡'

j

'

y!^"∈S_jα_jy!^"δΨj(y!^$)

6 y!^∗:= arg max_!_y_∈_Y H(!y)– schwieriger Schritt!

7 ξi :=max{0, max_!_y_∈_S_iH(!y)}

8 ifH(y!^∗)>ξi+&then

9 Si:=Si∪{y!^∗}

10 αS :=optimiere duales Problem fürS=∪Si

29 von 35

Full Parsing Learning mit SVMstruct

Probabilistische kontextfreie Grammatik: Regeln nl[Ci →Cj, Ck],βl. Dabei gibtβldie logarithmierte

Wahrscheinlichkeit dafür an, dass ein KnotenCimit Regel nlexpandiert wird.

Lernaufgabe: Gegeben Paare(!x,!y), wobei!x=x1, ..., xp

ein Satz (Kette von Wortarten) ist und!yein Syntaxbaum, lerneX→Y, wobei nur in den Beispielen vorkommende Regeln verwendet werden.

Formuliert als Maximierungsproblem:

h(!x) = arg max

! y∈Y

P(!y|!x) =argmax!y∈Y



 (

n_l∈rules(!y)

βl



 rules(!y)ist die Menge der Regeln, die in!yverwendet sind.

30 von 35

Full Parsing Learning mit SVMstruct

Es ergibt sich:%β,! Ψ(!x,!y)&='

n_l∈rules(!y)βl

Den schwierigen Schritty!^∗ :=argmax!y∈Y%β,! Ψ(!x,!y)&löst nun ein Parser, der sowohl den besten als auch den zweitbesten Syntaxbaum für!xliefert. Somit können die Beispielebei der Optimierung (Schritt 6) effizient bearbeitet werden.

Das Lernergebnis ordnetbisher nicht gesehenen Sätzen!x die richtigen Syntaxbäume zu. Dabei erweitert es die Fähigkeit der Grammatik – nicht die Menge der Regeln.

31 von 35

Experiment

Trainingsmenge: 4098 Sätze mit maximalp= 10Wörtern (dargestellt durch ihre Wortart)

Testmenge: 163 Sätze mit maximalp= 10

Maximum likelihood zum Lernen ergibt:86,8%precision, 85,2%recall,86%F1measure

SV M2mit slack rescaling ergibt:88,9%precision,88,1%

recall,88,5%F1measure

Der Unterschied des F-measures ist signifikant.

SV M2hat in 12 Iterationen insgesamt 8043 Nebenbedingungen behandelt.

Das Lernen dauerte insgesamt 3,4 Stunden, wovon die SV M210,5%verwendete.

32 von 35

(9)

Andere Anwendungen der SVMstruct

Wenn man die SVMstruct anwenden will, muss man die MerkmalsabbildungΨ(!x,!y)definieren und ggf.

implementieren

die Verlustfunktion implementieren∆(!yi,!y) die Selektion verletzter Bedingungen (Schritt 6 des Algorithmus’) implementieren.

Klassifikation mit Taxonomien Named Entity Recognition Mehrklassen-Klassifikation ...

33 von 35

Was wissen Sie jetzt?

Sie wissen, was strukturelle Modelle sind:Y kann mehr sein als nur ein Wert.

Ψ(!x,!y)erweitert die üblichen Beispiele so, dass nun wieder ein Skalarprodukt%β,! Ψ(!x,!y)&gerechnet werden kann.

Das Problem sind dieN×|Y |−NNebenbedingungen, weil wir jedes Beispiel mit jedem anderen nicht nur

bezüglich einesy, sondern bezüglich der|Y |möglichen!y vergleichen müssen.

Dabei wird dieser Vergleich alsjoint kernelaufgefasst:

%δΨi(!y),δΨj(y!^$)&. Es gibt noch viele andere Arbeiten zu string kernels, tree kernels, die Sie hier nicht kennen gelernt haben.

34 von 35

Sie wissen noch mehr!

Der Ansatz von Joachims besteht darin,

dass als margin der Abstand zwischen der besten und der zweitbesten Lösung maximiert wird,

dass nur wenige der Nebenbedingungen wirklich behandelt werden müssen,

dass beliebige Verlustfunktionen∆in den

Nebenbedingungen und in der Auswahl der am stärksten verletzten Nebenbedingung verwendet werden können.

35 von 35