31.5.2012 StrukturelleModelle–SVMstructKatharinaMorik VorlesungMaschinellesLernen

(1)

Überblick Lernaufgaben Primales Problem Duales Problem Optimierung der SVMstruct Anwendungen

Vorlesung Maschinelles Lernen

Strukturelle Modelle – SVMstruct

Katharina Morik

LS 8 Informatik Technische Universität Dortmund

31.5. 2012

(2)

Gliederung

1 Überblick Lernaufgaben

2 Primales Problem

3 Duales Problem

4 Optimierung der SVMstruct

5 Anwendungen

(3)

Jenseits des Bag of Words

Bisher haben wir Texte als Anzahl und Häufigkeit von Wörtern repräsentiert.

Damit haben wir die Struktur der Sprache ignoriert.

Grammatik Koreferenz Eigennamen

Semantische Relationen

Es gibt eine ganze Reihe von Ansätzen des maschinellen Lernens, um (sprachliche) Strukturen zu behandeln.

Wir besprechen hier nur die SVM bezogenen Ansätze.

(4)

Lernaufgabe Named Entity Recognition

Wortfolgen, die sich auf ein individuelles Objekt beziehen, werdenNamed Entities(NE) genannt.

Eigennamen, Ortsnamen, Firmennamen sind z.B. NEs.

Gegeben Beispiele von Sätzen, in denen NEs annotiert sind, lerne die Entscheidungsfunktion, die für jedes Wort angibt, ob es zu einer bestimmten NE gehört, oder nicht.

Beispiel:

Johann Sebastian Bach publiziert im Henle Verlag München.

Per Per Per 0 0 Org Org Place

(5)

Anwendungen

Wenn wir in Dokumenten die NEs automatisch annotieren, können wir sie im Text markieren, so dass die Benutzer schneller interessante Stellen auffinden;

können wir alle Sätze zu einer Person, Firma, einem Ort herausschreiben und so eine Zusammenfassung für einen Text erstellen;

eine weitere Lernaufgabe aufsetzen:Relationenzwischen NEs lernen, z.B. Fusion von Firmenf usion(Org₁, Org₂), Mitglied im Aufsichtsratauf sicht(Org, P er).

Letztlich erstellen wir eine Datenbank aus einer

Dokumentensammlung. Auf diese Datenbank wenden wir dann unsere Lernverfahren wie gehabt an.

(6)

Part of Speech Tagging

UnterPart-of-speech Taggingversteht man die Zuordnung von Wörtern eines Textes zu Wortarten (engl.: part of speech).

Beispiel:

Die Noten erscheinen bei Henle.

Det N V Prep N

(7)

Full Parsing

Syntaxregeln produzieren einen Syntaxbaum für einen Satz, dessen Wurzel das StartsymbolSist und die Blätter sind die Wortarten (präterminalen Knoten), denen dann die Wörter zugeordnet sind.Full Parsingerstellt

Syntaxbäume für Sätze.

Beispiel:

S →N P, V P V P →V, N P N P →Det, N N P →P rep, N

(8)

Lernaufgaben Part of Speech Tagging, Full Parsing

Part of Speech Tagging: Gegeben eine Menge von Sätzen, bei denen zu jedem Wort die Wortart angegeben ist, lerne eine Entscheidungsfunktion, die bei beliebigen Sätzen jedem Wort eine Wortart zuordnet.

Full Parsing Learning: Gegeben eine Menge von Sätzen, eine Menge von Syntaxregeln und die Anzahl von

Regelanwendungen für jeden Satz, lerne eine

Entscheidungsfunktion, die beliebigen Sätzen die Anzahl von Regelanwendungen zuordnet (discriminant model).

Zur Abgrenzung: Es sind

Gegeben eine Menge von syntaktisch korrekten Sätzen (positive Beispiele) und eine Menge von synaktisch falschen Sätzen (negative Sätze), bei denen jeweils die Wortarten annotiert sind, lerne Syntaxregeln, die gerade die syntaktisch korrekten Sätze produzieren (generative model).

(9)

Support Vector Machines für alles...

Bisher haben wir zwei Lernaufgaben fürSupport Vector Machinesbetrachtet:

Binäre Klassifikation SVM zur Regression

Aktuelles Übungsblatt:Mehrklassen-Problem

Jetzt:Lernen von Funktionen für beliebige strukturelle Ausgaben (Bäume, Graphen) mit Hilfe derSVMstruct.

(10)

SVMstruct

Strukturelle Modelle

SeiXdie Menge der Beispiele. Ist die Ausgabe-VariableY nicht ein Skalar, sondern eine Struktur (z.B. eine Folge, ein Baum, ein Graph), so heißt das Modell

f :X →Y strukturelles Modell.

Large Margin Methods for Structured and Interdependent Output Variables,I. Tsochantaridis, T. Joachims, T. Hofmann, Y. Altun,J. of Machine Learning Research, Vol. 6, p. 1453 – 1484, 2005

Training Linear SVMs in Linear Time,Thorsten Joachims, Proc. KDD 2006

(11)

Lernaufgabe der SVMstruct

Lernaufgabe SVMstruct

SeiY =Y1×. . .×Yqeine Menge und~y∈Y eineKonfiguration inY und

T ={(~x₁, ~y₁), . . . ,(~x_n, ~y_n)} ⊂X×Y eine Menge von Beobachtungen.

Ziel:Finde eine Funktionf mit f :X →Y

(12)

SVMstruct

Es sei eineβ-parametrisierte Schar von Funktionen~ F_β_~ :X×Y →R

gegeben, die die Ähnlichkeit zwischen~xund~yausdrücken.

Gesucht ist nun einβ~^∗ derart, daß f(x, ~β^∗) = arg max

~ y∈Y

F_β_~∗(~x, ~y)

jeweils zu einem~x, das am besten passende~y ∈Y liefert.

Hinweis:In der Literatur wird fürF_β_~(~x, ~y)meistF(x,y;w) geschrieben.

(13)

Wie brauchen also eine Art Kostenfunktion, die uns die

Ähnlichkeit zwischen~xund~y liefert. Sei dazuΨeine Abbildung Ψ :X×Y → F

von(~x, ~y)auf eine gemeinsame RepräsentationΨ(~x, ~y).

Die AbbildungΨhängt dabei vom konkreten Problem ab, eine Darstellung für Parse-Trees liefert z.B.

Ψ(~x, ~y) =





 1 1 1 0 ... 0 1







S→NP, VP NP→Det, N NP→Prep, N

NP→Adj, N ... Prep→in Prep→bei

(14)

Merkmalsabbildung am Beispiel der ParseTrees

Ψ(~x, ~y) =





 1 1 1 0 ... 0 1







S→NP, VP NP→Det, N NP→Prep, N

NP→Adj, N ... Prep→in Prep→bei

Wir nehmen im Folgenden an, daßF linear inΨ(~x, ~y)ist, d.h.

F_β_~(~x, ~y) =hβ,~ Ψ(~x, ~y)i

Wir lernen also über input-/output-Kombinationen die Ranking-Funktion

F :X×Y →R.

(15)

Was hat das mit SVM zu tun?

Wo ist jetzt die SVM-Idee hier?

Mit der FunktionF_β_~∗haben wir eine Ordnung auf den Paaren (~x, ~y), so daß wir jedem neuen~x⁰ ein~y⁰ zuordnen können:

f(~x⁰, ~β^∗) =~y⁰ = arg max

~y∈Y

F_β_~∗(~x⁰, ~y)

Wir wählen also immer das am besten bzgl.F_β_~∗ passende~y!

Lernen vonβ~^∗ über Optimierung mit der SVM:

Maximiere den Abstand (Margin) zwischen der besten und der zweit-besten Lösung!

(16)

Primales Problem

Wir suchen also eine Hyperebene, die das Beste von allen anderen Beispielen trennt.

Dazu sollf(~x_i, ~β)für~x_i ∈ T jeweils das “richtige~y_i” vorhersagen, d.h.

∀i : max

~y∈Y\~yi

nhβ,~ Ψ(~x_i, ~y)io

<hβ,~ Ψ(~x_i, ~y_i)i

⇒ ∀i,∀~y∈Y \~y_i : hβ,~ Ψ(~x_i, ~y)i<hβ,~ Ψ(~x_i, ~y_i)i

⇒ ∀i,∀~y∈Y \~y_i : hβ,~ Ψ(~x_i, ~y_i)−Ψ(~x_i, ~y)i>0

(17)

Primales Problem

Sind die Nebenbedingungen

∀i,∀~y∈Y \~yi : hβ,~ Ψ(~xi, ~yi)−Ψ(~xi, ~y)i>0 erfüllbar, führt dies typischerweise zu einer Menge optimaler Lösungen.

Eine eindeutige Lösung läßt sich jetzt finden, indem man das Maximum Margin-Prinzip der SVM nutzt undβ~ mit||β|| ≤~ 1so wählt, dass der Abstand zum nächstbestenβ~⁰ maximal wird, also

~ˆy_i= arg max

~ y6=~yi

hβ,~ Ψ(~xi, ~y)i

(18)

Primales Problem

Schließlich führt das zum primalen Problem derSVMstruct:

Primales Problem Minimiere

LP(β) =~ 1

2||β||~ (1)

unter den Nebenbedingungen

∀i,∀~y∈Y \~y_i : hβ, δΨ~ _i(~y_i)i ≥1 (2) mitδΨ_i(~y) = Ψ(~x_i, ~y_i)−Ψ(~x_i, ~y)

Die SVMstruct optimiert also unter Beachtung vonn|Y| −n Nebenbedingungen.

(19)

SVMstruct mit Ausnahmen – slack rescaling

Ein StraftermCfür alle Beispiele~x, bei denen die

Nebenbedingungen verletzt sind, und die Relaxierung durchξ führt zu dem Minimierungsproblem:

Slack Rescaling SVM

SV M1: min_β,ξ_~ ¹₂kβk~ ²+_N^C PN

i=1ξi (3)

unter den Bedingungen

∀i,∀~y∈Y\~y_i :hβ, δΨ~ _i(~y)i ≥1−ξ_i, ξ_i ≥0 (4) Cist linear in denξ_i.

(20)

SVMstruct mit Ausnahmen – margin rescaling

Verletzungen der Nebenbedingungen können auch durch einen quadratischen Term bestraft werden.

Margin rescaling SVM

SV M2: min_β,ξ_~ ¹₂kβk~ ²+_2N^C PN

i=1ξ²_i (5)

unter den Bedingungen

∀i,∀~y∈Y\~y_i :hβ, δΨ~ _i(~y)i ≥1−ξ_i, ξ_i ≥0 (6)

(21)

Empirisches Risiko und Slack Rescaling

Auch bei strukturellen Modellen geht es darum, den Fehler zu minimieren. Der erwartete Fehler bei irgend einer

Verlustfunktion∆ist für eine Menge von BeispielenT RT(f) = 1

2

N

X

i=1

∆(~yi, f(x~i)) (7) Um die Verletzung der Nebenbedingung für ein~y6=y~_i bei großem Verlust∆(~y_i, ~y)stärker zu bestrafen als bei geringerem, passen wir die Nebenbedingungen an:

SV M1 : min_β,ξ_~ ¹₂kβk~ ²+_N^C PN i=1ξi

∀i,∀~y∈Y\~yi :hβ, δΨ~ i(~y)i ≥1−_∆(~_y^ξⁱ

i,~y) (8)

SV M2 : min_β,ξ_~ ¹₂kβk~ ²+_2N^C PN i=1ξ²_i

∀i,∀~y ∈Y\y~_i :hβ, δΨ~ _i(~y)i ≥1−√ ^ξⁱ

∆(~yi,~y) (9)

(22)

Obere Schranke des empirischen Fehlers

Satz

Seienξ_i^∗(β)~ die optimalen Schlupfvariablen für ein gegebenes β, dann ist~

RT(β~)≤ 1 N

N

X

i=1

ξ^∗_i

(23)

Obere Schranke des empirischen Fehlers

Beweis:

Wir wissen:

ξ_i^∗ = max

0,max

~y6=~yi

n

∆(~y_i, ~y)h

1− hβ, δΨ~ _i(~y)iio

Sei~y^∗ =f(~xi, ~β), es ergeben sich zwei Fälle

1. Fall:~y^∗ =~y : Es ist∆(~y_i, f(~x_i, ~β)) = 0≤ξ_i^∗ 2. Fall:~y^∗ 6=~y : ⇒ h~y_i, δΨ_i(~y^∗)i ≤0

⇒ _∆(~^ξ_y^∗ⁱ

i,~y) ≥1⇔∆(~yi, ~y)≤ξ_i^∗ Da die Schranke für jedes Beispiel gilt, gilt sie auch für den

Durchschnitt.

(24)

Hinführung zum dualen Problem

Wir wollen auch hier das duale Problem formulieren.

Bisher war es:

L_D(~α) =

N

X

i=1

α_i−1 2

N

X

i=1 N

X

j=1

y_iy_jα_iα_jh~x_i, ~x_ji

Jetzt sindy~i, ~yj nicht mehr einfach Werte, sondern Strukturen.

Für jedes derN Beispielex~_i mit jedem der|Y |möglichen

~

yi müssen wir feststellen, wie groß der Abstand zu allen anderenΨ(x~i, ~y)ist.

Wir haben also nicht mehr einαje Beispiel inX, sondern einαfür jedes Paar inX×Y.

Erst sehen wir uns den Raum an, in dem optimiert wird, dann dieα.

(25)

Raum, in dem SVMstruct optimiert

Bei der klassischen SVM haben wir beim dualen Problem füri, j= 1, ..., N das Skalarprodukthx~_i, ~x_jigerechnet.

Jetzt müssen wir füri, j= 1, ..., N rechnen J_(i~_{y)(j ~}_y0)≡ hδΨ_i(~y), δΨ_j(y~⁰)i.

~

x1 ... x~j ... x~N

~

x₁ − ... ... ... ...

... ... ... ... ... ...

~

xi ... ... hδΨ_i(~y), δΨj(y~⁰)i ... ...

... ... ... ... ... ...

~

xN ... ... ... ... −

Dabei isthδΨ_j(~y), δΨ_i(y~⁰)iwieder eine Matrix!

(26)

MatrixJ

In derN×N Matrix sind die EinträgehδΨ_i(~y), δΨj(y~⁰)i.

Wir erinnern uns:δΨ_i(~y)≡Ψ(x~_i, ~y_i)−Ψ(x~_i, ~y)

Statt einer einfachen Matrix haben wir einen Tensor, d.h.

der Eintrag in dieN ×N Matrix ist eine|Y | × |Y |Matrix J:

~

y1 ... y~|Y|

~

y1 − ... Ψ(~x, ~y1)−Ψ(~x, ~y|Y|)

... ... ... ...

~

y|Y| Ψ(~x, ~y|Y|)−Ψ(~x, ~y1) ... −

Jist eine Kernfunktion überX×Y: J_(i~_{y)(j ~}_y0)=hδΨ_i(~y), δΨj(y~⁰)i

(27)

α_i~_y und optimalesβ

Stattαi fürx~i, haben wirαij mitj = 1, ...,|Y |



 αi1

...

α_im





Das optimaleβ~ ist

~ˆ

β =

N

X

i=1

|Y|

X

~y6=~yi

α_(i~_y)(Ψ(x~_i, ~y_i)−Ψ(~x_i, ~y))

=

N

X

i=1

|Y|

X

~y6=~yi

α_(i~_y)δΨ_i(~y) (10)

(28)

Duales Problem der SVMstruct

SVMstruct bei linear separierbaren Beispielen:

LD(α) =−1 2

N

X

i,~y6=~yi

N

X

j, ~y⁰6=~yi

α_i~_yα_{j, ~}_y0J_(i~_{y)(j ~}_y0)+

N

X

i,~y6=~yi

α_i~_y (11) Für die Slack RescalingSV M₁ mit Ausnahmen muss zusätzlich gelten:

N

X

~y6=~yi

α_i~_y ≤ C

N,∀i= 1, ..., N

Für die Margin RescalingSV M₂mit Ausnahmen wird J_(i~_{y)(j ~}_y0)unter Verwendung der IndikatorfunktionI(a, b) = 1 fallsa=b, sonst 0 zu:

hδΨ_i(~y), δΨj(y~⁰)i+I(i, j)N C Immer sollα~ maximiert werden.

(29)

Die SVMstruct stellt ein schwieriges Optimierungsproblem!

BeiN |Y | −N Nebenbedingungen und vermutlich sehr großem|Y |ist normale Optimierung durch quadratische Programmierung nicht möglich.

Es sollen nun deutlich weniger Nebenbedingungen wirklich bearbeitet werden.

Beobachtung: Es gibt immer eineTeilmengevon

Nebenbedingungen, so dass die damit errechnete Lösung auchalleNebenbedingungen erfüllt mit einer

Ungenauigkeit von nur.

(30)

SVMstruct: Algorithmus zum Optimieren – Idee

Für jedes Beispielx~_i gibt es einen working setS_i, in dem die verletzten Nebenbedingungen gespeichert sind.

Zunächst sindS_ileer, das Problem unbeschränkt.

Für jedes Beispielx~i wird die am schlimmsten verletzte Nebenbedingung bzgl.y~^∗_i festgestellt undS_i hinzugefügt.

Das Problem wird zunehmend stärker beschränkt.

Optimiereα

bezüglich aller working sets gemeinsam oder

nur für einSi, wobei dieαj~ymitj 6=ieingefroren werden.

Wenn keinSi mehr verändert wurde, STOP.

(31)

SVMstruct: Algorithmus zum Optimieren

1 Input:T ={(x~₁, ~y₁), ...,(x~_N, ~y_N)}, C,

2 Si :={}für allei= 1, ..., N

3 Solange einS_i sich in der Iteration ändert:

4 fori= 1, ..., N do

5 Kosten:H(~y)







1− hδΨ_i(~y), ~βi SV M₀ (1− hδΨ_i(~y), ~βi)∆(y~_i, ~y) SV M₁ (s.8) (1− hδΨ_i(~y), ~βi)∆(y~_i, ~y) SV M₂ (s.9) wobeiβ~ ≡P

j

P

y~⁰∈Sjα_{j ~}_y0δΨ_j(y~⁰)

6 y~^∗ := arg max_~_y∈Y H(~y)– schwieriger Schritt!

7 ξ_i :=max{0, max_~_y∈S_iH(~y)}

8 ifH(y~^∗)> ξ_i+then

9 Si :=Si∪ {y~^∗}

10 α_S:=optimiere duales Problem fürS =∪S_i

(32)

Full Parsing Learning mit SVMstruct

Probabilistische kontextfreie Grammatik: Regeln n_l[C_i →C_j, C_k], β_l. Dabei gibtβ_ldie logarithmierte

Wahrscheinlichkeit dafür an, dass ein KnotenC_i mit Regel nlexpandiert wird.

Lernaufgabe: Gegeben Paare(~x, ~y), wobei~x=x₁, ..., x_p ein Satz (Kette von Wortarten) ist und~y ein Syntaxbaum, lerneX→Y, wobei nur in den Beispielen vorkommende Regeln verwendet werden.

Formuliert als Maximierungsproblem:

h(~x) = arg max

~y∈Y

P(~y|~x) =argmax_~_y∈Y





 X

nl∈rules(~y)

β_l





 rules(~y)ist die Menge der Regeln, die in~y verwendet sind.

(33)

Full Parsing Learning mit SVMstruct

Es ergibt sich:hβ,~ Ψ(~x, ~y)i=P

nl∈rules(~y)β_l

Den schwierigen Schritty~^∗:=argmax_~y∈Yhβ,~ Ψ(~x, ~y)ilöst nun ein Parser, der sowohl den besten als auch den zweitbesten Syntaxbaum für~xliefert. Somit können die Beispielebei der Optimierung (Schritt 6) effizient bearbeitet werden.

Das Lernergebnis ordnetbisher nicht gesehenen Sätzen~x die richtigen Syntaxbäume zu. Dabei erweitert es die Fähigkeit der Grammatik – nicht die Menge der Regeln.

(34)

Experiment

Trainingsmenge: 4098 Sätze mit maximalp= 10Wörtern (dargestellt durch ihre Wortart)

Testmenge: 163 Sätze mit maximalp= 10

Maximum likelihood zum Lernen ergibt:86,8%precision, 85,2%recall,86%F₁ measure

SV M2 mit slack rescaling ergibt:88,9%precision,88,1%

recall,88,5%F₁ measure

Der Unterschied des F-measures ist signifikant.

SV M2 hat in 12 Iterationen insgesamt 8043 Nebenbedingungen behandelt.

Das Lernen dauerte insgesamt 3,4 Stunden, wovon die SV M₂ 10,5%verwendete.

(35)

Andere Anwendungen der SVMstruct

Wenn man die SVMstruct anwenden will, muss man die MerkmalsabbildungΨ(~x, ~y)definieren und ggf.

implementieren

die Verlustfunktion implementieren∆(y~i, ~y)

die Selektion verletzter Bedingungen (Schritt 6 des Algorithmus’) implementieren.

Klassifikation mit Taxonomien Named Entity Recognition Mehrklassen-Klassifikation ...

(36)

Was wissen Sie jetzt?

Sie wissen, was strukturelle Modelle sind:Y kann mehr sein als nur ein Wert.

Ψ(~x, ~y)erweitert die üblichen Beispiele so, dass nun wieder ein Skalarprodukthβ,~ Ψ(~x, ~y)igerechnet werden kann.

Das Problem sind dieN× |Y | −N Nebenbedingungen, weil wir jedes Beispiel mit jedem anderen nicht nur

bezüglich einesy, sondern bezüglich der|Y |möglichen~y vergleichen müssen.

Dabei wird dieser Vergleich alsjoint kernelaufgefasst:

hδΨ_i(~y), δΨj(y~⁰)i. Es gibt noch viele andere Arbeiten zu string kernels, tree kernels, die Sie hier nicht kennen gelernt haben.

(37)

Sie wissen noch mehr!

Der Ansatz von Joachims besteht darin,

dass als margin der Abstand zwischen der besten und der zweitbesten Lösung maximiert wird,

dass nur wenige der Nebenbedingungen wirklich behandelt werden müssen,

dass beliebige Verlustfunktionen∆in den

Nebenbedingungen und in der Auswahl der am stärksten verletzten Nebenbedingung verwendet werden können.