• Keine Ergebnisse gefunden

Unsupervised Discovery of Scenario-Level Patterns for Information Extraction

N/A
N/A
Protected

Academic year: 2022

Aktie "Unsupervised Discovery of Scenario-Level Patterns for Information Extraction"

Copied!
29
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Unsupervised Discovery of Scenario-Level Patterns for Information Extraction

Roman Yangarber, Ralph Grishman, Pasi Tapanainen, Silja Huttunen

(2000)

Universität Dortmund

(2)

Übersicht

1. Grundlagen der Informationsextraktion 2. Pattern Matching

3. Vorstellung des IE-Systems von Yangarber, Grishman, Tapanainen, Huttunen

4. Algorithmus zur Pattern-Generierung

5. Auswertung und Ergebnisse der MUC-6 6. Stellungnahme

7. Literaturverzeichnis

(3)

1. Aufgabe der

Informationsextraktion

ÿ Selektive Extraktion der Semantik aus natürlichsprachlichen Texten

ÿ Unterteilung in semantische Objekte:

ÿ Einheiten

ÿ Beziehungen

ÿ Ereignisse

ÿ Speicherung der extrahierten Informationen in relationaler Datenbank

(4)

1. Begriffe aus der IE-Literatur

ÿ Subject domain

Klasse von Textdokumenten, die verarbeitet werden sollen

ÿ Scenario

Festgelegtes Thema, das innerhalb einer Domain von Interesse ist

Beispiel: Management succession (MUC-6)

ÿ MUC

Message Understanding Conference

(5)

2. Pattern Matching

ÿ Pattern = Regulärer Ausdruck

ÿ Universale Komponente

ÿ Domain- und Szenario-spezifische Komponente

ÿ Speicherung in Pattern Base

ÿ Probleme:

ÿ Übertragbarkeit

ÿ Leistung

(6)

2. Arbeitsweise herkömmlicher Pattern-Matching-Systeme

ÿ Auswahl geeigneter Beispielsätze aus dem Text durch den Benutzer

ÿ Generalisierung in Patterns durch das IE- System

ÿ Probleme:

ÿ Verantwortung des Benutzers, zu jeder syntaktischen bzw. semantischen Konstruktion Beispiele zu finden

ÿ Sehr großer Zeitaufwand!

(7)

3. Message Understanding Conference

ÿ MUC-6:

ÿ 15. - 17. November 1995

ÿ Columbia, Maryland, USA

ÿ Scenario: “Management Succession”

(8)

3. Aufbau des neu entwickelten IE-Systems

Datenbankverwalter Pattern-Matcher

Lexikon Konzept- basis

Prädikaten- basis

Pattern- Basis

(9)

3. Lösungsansatz: Automatische Pattern-Generierung

ÿ Idee:

1. Zum Szenario relevante Dokumente enthalten gute Patterns.

2. Gute Patterns sind in zum Szenario relevanten Dokumenten zu finden.

ÿ Festlegung von wenigen Seed-Patterns

ÿ Automatische Generierung neuer Patterns durch die initialen Seed-Patterns

(10)

4. Algorithmus:

Vorgehensweise

ÿ Gegeben:

ÿ Großer Korpus unkommentierter und unklassifizierter Dokumente

ÿ Menge von initialen Seed-Patterns

ÿ (möglicherweise leere) Menge von Konzeptklassen

ÿ Partitionierung des Korpus durch die Seed- Patterns:

ÿ Menge R: mindestens ein Pattern gefunden

ÿ Menge ¬R: kein Pattern gefunden

ÿ Generierung neuer Patterns

(11)

4. Algorithmus:

Preprocessing

ÿ Anwendung eines Namenserkennungsmoduls

ÿ Ersetzung jedes Namens durch seinen Klassenbegriff

Beispiele: C-Person, C-Company, …

ÿ Ersetzung aller numerischen Werte durch einen Klassenbegriff

(12)

4. Algorithmus:

Syntaktische Analyse

ÿ Anwendung eines Syntaxanalyse-Tools

ÿ Transformierung jedes Satzes in syntaktische Normalform, d. h. Prädikat-Argument-Struktur

ÿ Repräsentation eines Satzes als Tupel:

ÿ Subjekt, z. B. „John sleeps“

ÿ Verb, z. B. „John sleeps“

ÿ Objekt, z. B. „John is appointed by Company“

ÿ Phrase bezogen auf Subjekt oder Objekt, z. B.

Company named John Smith president“

(13)

4. Algorithmus:

Generalisierung

ÿ Reduzierung der Tupel zu Paaren

Beispiele: Verb – Objekt, Subjekt – Verb, …

ÿ Suche nach szenario-relevanten Paaren

ÿ Erstellen oder Erweiterung von Konzeptklassen Beispiel: company {hire / fire / expel} person

ÿ Neue Partitionierung der Dokumentenmenge durch die neue Patternsammlung

(14)

4. Algorithmus:

Suche nach neuen Patterns

ÿ MUC-6: Szenario „Management Succession“

ÿ Vorgegebene Seed Patterns:

--- C-Resign

C-Person

C-Person C-Appoint

C-Company

Direktes Objekt Verb

Subjekt

C-Appoint = {appoint, elect, promote, name}

C-Resign = {resign, depart, quit, step-down}

(15)

4. Algorithmus:

Suche nach neuen Patterns

ÿ Berechnung des Scores nach jedem Iterationsschritt:

H = {Dokumente, in denen p gefunden wird}

R = {relevante Dokumente}

( )

p P

( )

p H R

L = c log

( ) p H R

P

= (bedingte Wahrscheinlichkeit)

(16)

4. Algorithmus:

Suche nach neuen Patterns

ÿ Auswahlkriterien:

ÿ Verwerfen zu häufiger Patterns, für die gilt:

ÿ Verwerfen zu seltener Patterns, für die gilt:

ÿ Auswahl des Patterns mit dem höchsten Score

ÿ Hinzufügen zu den Seed Patterns

ÿ Iteration des Verfahrens

10 R U

H >

< 2

R

H

(17)

4. Algorithmus:

Bewertung der Dokumente

ÿ Seed Patterns: Relevanz 1

ÿ Zuweisung eines Precision-Maßes nach i Iterationen:

ÿ Precision-Maß für Klassen von Patterns:

( ) ( )

( )

( )

d

p

p H i

p H d

i+ = 1

ÿ

Rel

Prec 1

( )

K i

( )

d

i+ = 1

ÿ

Rel

Prec 1

(18)

4. Algorithmus:

Bewertung der Dokumente

ÿ Anpassen der Relevanz-Scores nach Hinzunahme des neuen Patterns:

ÿ Motivation:

ÿ Monotones Wachstum der Relevanz-Scores

( ) (

i

( )

i

( )

d

)

i 1

d max Rel d , Prec

1

K

Rel

+

=

+

(19)

5. Wichtige Bewertungsmaße

ÿ Precision:

ÿ Recall:

ÿ F-Maß:

H R H

= Pre

R R H

= Rec

( )

(20)

5. Auswertung

ÿ Haupt-Entwicklungs-Korpus der MUC-6: 5963 Dokumente

ÿ Bestimmung eines Test-Korpus von 100 Trainings-Dokumenten

ÿ Zufällige Auswahl von 150 weiteren Dokumenten aus dem Haupt-Korpus

ÿ Benutzte Seed-Patterns:

ÿ <C-Company> <C-Appoint> <C-Person>

ÿ <C-Person> <C-Resign>

(21)

5. Precision-/Recall-Kurven

(22)

5. Precision-/Recall-Kurven

ÿ Nach der ersten Iteration (Seed Patterns):

ÿ 184 von 5963 Dokumenten gefunden

ÿ Precision: 93%

ÿ Recall: 11%

ÿ Nach 80 Iterationen:

ÿ 982 relevante Dokumente gefunden

ÿ Precision: 80%

ÿ Recall: 78%

(23)

5. Precision-/Recall-Kurven

(24)

5. Precision-/Recall-Kurven

(25)

5. Auswertung der Patterns

ÿ Einfaches Performance-Maß:

Vergleich Anzahl gefundener Patterns vs. Systeme der anderen MUC-Teilnehmer

ÿ 75 verschiedene Patterns

ÿ 30 verschiedene Verben

ÿ Exklusive Entdeckung von 8 Verben, z. B.:

ÿ Company – bring – person – as – officer

(26)

5. Vergleich verschiedener Patterns

73,91 79%

69%

von Hand – nun im System benutzt

61,93 71%

54%

von Hand - MUC

61,18 76%

51%

Seed Patterns + generierte Patterns

41,32 78%

28%

Seed Patterns

F-Maß Precision

Recall Pattern-Basis

(27)

6. Stellungnahme

ÿ Pattern Matching verbreitetes Mittel zur Informationsextraktion

ÿ Neu: Lernverfahren zur automatischen Pattern- Generierung

ÿ Unmarkierte Texte

ÿ Nachteil der mangelnden Universalität

ÿ Interessanter Ansatz für zukünftige IE-Systeme

(28)

Vielen Dank …

… für Eure

Aufmerksamkeit!

(29)

7. Literaturverzeichnis

ÿ R. Yangarber, R. Grishman, P. Tapanainen, S.

Huttunen: „Unsupervised discovery of scenario- level patterns for information extraction“.

Proceedings of the Sixth Conference on Applied Natural Language Processing, (ANLP-NAACL 2000), 2000.

ÿ R. Yangarber, R. Grishman: „Machine Learning of Extraction Patterns from Unannotated

Referenzen

ÄHNLICHE DOKUMENTE

Further, inducing a set of rules from the evaluation measure time series of a single rule provides only weak means of generalization (if one is not willing to run another rule

We demonstrated performance gains on both languages for OOV words and observed the best results when replacing non-numeric words, which have been unseen in the training data, using

• The document collection can be given a priori (Closed Information Extraction). e.g., a specific document, all files on my

Manning, Prabhakar Raghavan and Hinrich Schuetze, Introduction to Information Retrieval, Cambridge University Press.. (good information retrieval textbook, preview copies

Task Recurrent Neural Network for Joint Entity and Relation Extraction; Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical

We will describe a new approach to develop and implement an end-to-end system to extract fine-grained geospatial relations by using a supervised machine learning approach

Information extraction can be regarded as a pragmatic approach to semantic understanding of natural language texts. Ontology is very important for modeling and specifying

In order to evaluate the performance of the relation ex- traction component, we manually annotated 550 sen- tences of the test corpus by tagging all NEs and verbs and