Web IE: Übersicht. Yeong Su Lee Centrum für Informations- und Sprachverarbeitung (CIS), LMU Web IE: Übersicht 1

(1)

Web IE: Übersicht

Yeong Su Lee

Centrum für Informations- und

Sprachverarbeitung (CIS), LMU

(2)

Überblick

●

IE

●

Web IE

●

Von IE zur WG

●

Techniken zur WG

●

Methoden zur WG

(3)

Unterschiede zu IR

●

IR

– Anfrage: Schlüsselwort

– Erschließung relevanter Dokumente

●

IE

– Anfrage: Schlüsselwort oder Schablone (Template oder Scenario)

– Herausziehen bestimmter relevanter Informationen

– Domänen-spezifisch

– Informationen strukturieren

(4)

IE: Definition

● Definition

– Instantiierung einer bestimmten Klassen von Ereignissen oder Relationen aus Texten.

– Strukturierte Repräsentation der ausgesuchten Informationen.

– Integration der Informationen

● Eingabe: Schablone und Texte

● Ausgabe: Instantiierte Schablone

● Versucht nicht den Input-Text zu verstehen, sondern analysiert nur den Teilbereich des Textes, in dem

(5)

IE - Beispiel

● Text aus MUC-3

19 March – A bomb went off this morning near a power tower in San Salvador leaving a large part of the city without energy, but no

casualities have been reported. According to unofficial sources, the bomb – allegedly detonated by urban guerrilla commandos – blew up a power tower in the northwestern part of San Salvador at 0650 (1250 GMT)

● Ausgefüllte Schablone

INCIDENT TYPE bombing

DATE March 19

LOCATION El Salvador: San Salvador (city) PERPETRATOR urban guerrilla commandos

PHYSICAL TARGET power tower

HUMAN TARGET -

EFFECT ON PT destroyed

EFFECT ON HT no injury or death

INSTRUMENT bomb

aus Grishman(1997)

(6)

Kurze Geschichte der IE

●

Subsprache von Z. Harris

● MUC-Konferenzen

● RISE: Zusammenstellung der IE-Tools und -Projekte von I. Muslea

● Domain-spezifische Web IE

● Open Domain Web IE: Neue Tendenz

(7)

Subsprache von Z. Harris

● Submenge der allgemeinen Sprachinventare

● Domain-spezifische Wortklasse, semantische Relationen, spezialisierte Syntax

● Abgeschlossen unter syntaktischen Operationen

● Tabularische Darstellung der Informationen aus subsprachlichen Texten

● Kernel-Satz für ein spezifisches Domain

● Wetterberichte, Reparatur-Handbücher des Flugzeugs, Werbungstexte, ...

● Subsprache der medizinischen Texte von N. Sager

(8)

Message Understanding Conferences(MUC)

● von DARPA unterstützt (87-97, 7 Konferenzen)

● Vordefinierte Domänen-spezifische Aufgabe

● Evaluationsstandard:

– Recall

– Präzision

– F-Score

● System nicht anwendbar auf neue Domänen

● Flache Texte

● Traditionelle NLP-Aufgabe

(9)

MUC-Themen

● Konferenz Jahr Textgattung Themengebiet (Domain)

● MUC-1 1987 mil. Meldungen Flottenoperationen

● MUC-2 1989 mil. Meldungen Flottenoperationen

● MUC-3 1991 Nachrichten Terroristische Aktivitäten

● MUC-4 1992 Nachrichten Terroristische Aktivitäten

● MUC-5 1993 Nachrichten Joint Ventures, Chipproduktion

● MUC-6 1995 Nachrichten Führungswechsel in der Wirtschaft

● MUC-7 1997 Nachrichten Flugzeugabstürze, Raumfahrzeuge, Raketenstarts

● Ab MUC-6: Eigennamenerkennung zusätzlich

– Personen, Orte, Organisationen, Zeitpunkte, und Maße

Daten aus Wikipedia: http://de.wikipedia.org/wiki/Message_Understanding_Conference

(10)

Evaluation der IE-Systeme

●

Recall

R = Korrekte Antworte / Alle mögliche korrekte Antworte

●

Präzision

P = Korrekte Antworte / Alle extrahierte Antworte

●

F-Score: zu Gunsten von Recall über Präzision

(β² + 1)PR / β²P + R

– F1-Score für β = 1: Gewichtung von Recall und Präzision ist gleich

(11)

Denkansätze zur IE

●

Wissens-basierte IE

– Von Hand geschrieben

– Muster werden von menschlichen Experten entdeckt

– Kosten- und Zeitaufwand ist groß

– Immer noch beste Qualität

●

Automatische IE durch Maschinelles Lernen

– Trainginsdaten

– Statistische und Logische Methoden

– Regeln aus Trainings-Daten lernen

– Interaktion mit dem Benutzer

(12)

Vorgehensweise einer IE-Aufgabe

●

Domain auswählen

●

Spezifikation der IE-Schablone

●

Texte auswählen

●

Referenzwerte durch Experten festlegen

●

System führt Aufgabe durch

●

Vergleich der Systemausgaben mit den

Refernzwerten

(13)

Gegenstände der IE

● Entitäten

Personen, Organisation, Lokative, und Temporale, Maße, ...

● Koreferenz

Tony Bridge, Mr. Bridge, T. Bridge

● Rekord

– Eigenschaften der EN: Name, Titel, Rang

– Beziehungen zwischen ENs

– Einheit: Produkte-Beschreibung, Seminar-Ankündigung, Gaststätte-Führung, Adresse, ...

● Scenario

– Firmen-Übernahme: Welche Firma, Von wem, Für Wie Viel, Wann, ...

(14)

Anwendungen von IE

● IE

– Verbesserung der Indizes

– als Post-Filter der Suche

● Textklassifikation verfeinern

● Textzusammenfassung durch Hervorhebung und Exzerpt

● Frage-Beantwortung als Komponente

– wer, was, wo, wann, ...

● Datenbank/Ontologie-Aufbau aus Texten

– is-a oder such-as Relation, Teil-Ganze Relation

(15)

Überblick

●

IE

●

Web IE

●

Von IE zur WG

●

Techniken zur WG

●

Methoden zur WG

(16)

Zeitliche Übersicht von IR, IE, und Web

1985 2000

IR IE

WWW Web IR

1990

Früh 60e 1. IR Conf.

50-60er Subsprache v. Harris

1987 1. MUC

1989 HTML

1994 Netscape

1995

AltaVista 1998 Google 1945

V. Bush

(17)

Text-Sorten und IE

● Nicht-strukturierte Texte

– flache Texte

– Grammatikalisch

– NLP notwendig

● Semi-strukturierte Texte

– HTML-Texte

– Nicht immer grammatikalisch

– Keine direkte NLP-Anwendung

● Strukturierte Texte

– DB-basierte relationale Daten

– Keine NLP-Anwendung notwendig

(18)

Besonderheiten der Web-Dokumenten

● Unermesslich groß

● Täglich neue Web-Domain

● Schnelle Quellcode-Änderungen

● HTML-basiert

– Gelinkt

● Gesuchte Informationen aus mehreren Webseiten

– (Semi-)Strukturiert

● Ausnutzen der Struktur-Infos

– Für Präsentation

● Nicht voll grammatikalisch

(19)

Web IE vs. Traditionelle IE

●

Traditionelle IE

– Flache Texte

– NLP-Techniken wie Lexikon und Grammatik

– POS-Tagging

– Top-Down Parsing

●

Web IE

– Semi-strukturierte bis strukturierte Texte

– Maschinelles Lernen und Pattern-Auffindung Techniken, aber auch komplexe

– Reguläre Ausdrücke - Wortfolge

– Bottom-Up Parsing

(20)

Ebene der Web IE

●

Feld-Ebene

– Entitäten ausfüllen

– RAPIER, SRV

●

Rekord-Ebene

– Rekord-Grenze erkennen und Rekord extrahieren

– Meistens: Minerva, XWRAP, WHISK, WIEN, ...

●

Seite-Ebene

– Aus ganzen Seiten

– RoadRunner, EXALG

(21)

Anwendungsbereiche der Web IE

● Anwendungsbereiche aus IE

● Domain-spezifische Mehrwerte-Dienste

– Produktbeschreibung

– Restaurantsführung

– Seminarankündigung

– Jobanzeige

– Firmeninformation

– ...

(22)

Überblick

●

IE

●

Web IE

●

Von IE zur WG

●

Techniken zur WG

●

Methoden zur WG

(23)

Von IE zur Wrapper Generierung (WG)

● Hintergrund

– Informationen sind immer mehr strukturiert (Back-End-Template)

– Unabhängig von der traditionellen IE-Gemeinde entwickelt

● WG-Systeme generieren typisch Delimiter-basierte Extraktions-Patterns ohne linguistische Einschränkung

● WG-Applikation: online Daten extrahieren auf Basis von Benutzer- Anfrage

● Für eine typische Web-Anwendung des Wrappers

– Anfrage -> Fetchen der relevanten Seiten -> Extrahieren der angeforderten Informationen -> Ausgabe

– Meistens Domain-spezifisch

– Schnell ausführbar, da online bearbeitet wird

● Weitere Aufgabe: Skalierbarkeit, Flexibilität

(24)

Definition des Wrappers

● Definition

– eine Prozedur, die einen bestimmten relevanten Inhalt aus Informationsquelle extrahiert und ihn in einer selbst-

beschreibenden Repräsentation liefert.

– Gegeben eine Webseite S mit einer Menge der impliziten Objekte, dann entscheide eine Funktion W, die eine

Datenquelle R aus den Objekten in S inferiert. Die Funktion W muss auch die Daten aus den ähnlichen Seiten S‘ zu S erkennen können.Evaluation des Wrappers

–

(25)

Überblick

●

IE

●

Web IE

●

Von IE zur WG

●

Techniken zur WG

●

Methoden zur WG

(26)

Techniken zur WG

●

Sprache zur WG

●

NLP-basierte Technik zur WG

●

Beispiel-basierte Technik zur WG

●

HTML-basierte Technik zur WG

●

Technik der Wrapper-Induktion zur WG

●

Ontologie-basierte Web IE

(27)

Sprache zur WG

●

Spezielle Sprache für WG

●

Benutzer soll diese Sprache lernen, um einen Wrapper zu generieren

●

Minerva, TSIMMIS, Web-OQL, FLORID, ...

●

Beispiel: TSIMMIS

– Benutzer soll CONFIG-Datei editieren in Form von [variablen, source, pattern], wo variablen die

Ergebnisse der Extraktion enthalten, source input- Datei ist, und pattern die Extraktions-Daten inner- halb des sources matcht.

(28)

●

verwendet NLP-Techniken

●

geeignet für Webseiten aus flachen Texten

●

Typische Vorgehensweise

– Tokenisierung -> Lexikalische und Morphologische Analyse -> Eigennamenerkennung -> POS Tagging -> Parsing -> Analyse der Koreferenten -> Domain- spezifische Analyse -> Schablone ausfüllen

●

RAPIER, SRV, WHISK, TextRunner, ...

NLP-basierte Technik zur WG

(29)

Beispiel-basierte Technik zur WG

●

Daten-Bereich, der mit der Target-Struktur übereinstimmt, aus der Webseite lokalisieren

●

Einfache Primitive wie Tupel, Liste, etc. werden angeboten

●

Delimiter-basierte Extraktions-Regel aufbauen

●

NoDoSE, DEByE, ...

(30)

HTML-basierte Technik zur WG

●

Ausnutzen der HTML

●

Baumstruktur bilden

●

Extraktions-Regel wird auf den Baum angewendet

●

Keine NLP

●

W4F, XWRAP, RoadRunner, Lixto, ...

(31)

Technik der Wrapper-Induktion zur WG

●

Keine NLP

●

Maschinelles Lernen

●

Induktives Lernen

●

Trainings-Daten

●

Delimiter-basierte Extraktionsregel

●

WIEN, SoftMealy, STALKER

(32)

Ontologie-basierte Web IE

● Domain-spezifische IE und Subsprache

– IE ist mehr oder weniger wissensbasiert

– Entitäten-Lexikon, PAS, Hierarchie

– Aufbau der Ontologie profitiert von der IE

● Relationale Extraktion

– is-a Relation:

● such NP as {{NP, }+ {or|and}}? NP

● NP { , } including {{NP, }+ {or|and}}? NP

– part-of Relation:

● {N|Npl}‘s POSSESIVE {N|Npl}

● NP consists of NP

– Synonymie

(33)

Zusammenfassung der Web IE-Tools

IE-Systeme, Text-Sorten, und Automatiseirungsgrad

Ontologie-basierte Tools

Sprache für Wrapper- Entwicklung

NLP-basierte Tools

Wrapper-Induktions

Tools Modell-basierte Tools

HTML-basierte Tools

Automatisierung

Flexibilitaät

Manuell

HTMLText

(34)

Überblick

●

IE

●

Web IE

●

Von IE zur WG

●

Techniken zur WG

●

Methoden zur WG

(35)

Methoden zur WG

● Manuelle WG

– Benutzer soll über Programm- und Rechner-Erfahrungen verfügen

– Teuer und Zeitaufwendig

– WG-Tools

● TSIMMIS, Minerva, Web-OQL, W4F, ...

● Automatische WG

– Überwachte WG

– Nicht-überwachte WG

– Semi-überwachte WG

(36)

Automatische WG

● Überwachte WG

– Braucht klassifizierte Trainings-Daten

– GUI

– SRV, RAPIER, WHISK, WIEN, STALKER, SoftMealy, NoDoSE, Lixto, ...

● Nicht-überwachte WG

– Keine klassifizierte Trainings-Daten und keine Benutzer-Interaktion

– RoadRunner, EXALG, DEPTA, TextRunner, ...

● Semi-überwachte WG

– Braucht einen Teil von klassifizierten Trainings-Daten und große nicht- klassifizierte Daten

– GUI: Benutzer soll nach dem Training des Systems den Target-Pattern

(37)

Überwachte WG

●

Klassifikationsproblem

●

Lernprozess

●

Algorithmen

– Decision Tree Induktion

– Rule Induktion

– Assoziationsregel

– Bayes Klassifikation

– Support Vector Maschine

Trainings-

Daten Lern- Model Genauigkeit

Algorithmus

Test- Daten

(38)

Beispiel für Klassifikation

● Trainings-Daten

ID String Strasse

1 Rindermarkt Ja

2 Viktualienmarkt Ja

3 Kaufmarkt Nein

4 Mediamarkt Nein

5 Kfz-Markt Nein

● Test-Daten

6 PC-Markt ?

.+?markt

Strasse: 2 Keine Str: 3

(39)

Nicht-überwachte WG

● Clusterings-Problem

● Centroid und Ähnlichkeitsmaße

● Algorithmen

– K-means Clustering

– Bottom-up Clustering

– Top-Down Clustering

● Beispiel

table tr

td td

str Rindermarkt

table tr

td td

Viktualienmark str

table tr tr

td

td td td

elek auto

Mediamarkt Kfz-Markt

(40)

Tools-Ressourcen

● RISE, http://www.isi.edu/info-agent/RISE/projects.html

● GATE, http://gate.ac.uk

● KIM, http://www.ontotext.com/kim/

● RaodRunner, http://www.dia.uniroma3.it/db/roadRunner/

● KnowItAll,

http://www.cs.washington.edu/research/knowitall/

● XWrap Elite,

http://www.cc.gatech.edu/projects/disl/XWRAPElite/

(41)

Literatur

R. Grishman, Information Extraction: Techniques and Challenges. 1997.

I. Muslea, Extraction Patterns for Information Extraction Tasks: A Survey. 1999.

L. Eikvil, Information Extraction from World Wide Web - A Survey -. 1999.

R. Grishman, Adaptive Information Extraction and Sublanguage Analysis. 2001.

Alberto H.F. Laender et al, A Brief Survey of Web Data Extraction Tools. 2002.

K. Kaiser & S. Miksch, Information Extraction: A Survey. 2005.

C.-H. Chang et al, A Survey of Web Information Extraction Systems. 2006 B. Liu, Web Data Mining. Springer, Berlin. 2007.

M. Lesk, The Seven Ages of Information Retrieval. 1996.

K.-U. Carstensen, Informationsextraktionssysteme (IES). Natürlichsprachliche Systeme I. SS2005.

http://www.ifi.unizh.ch/cl/carstens/Materialien/CarstensenNatS1IES.pdf

W. Gatterbauer, Web Information Extraction: Short Introduction to the Proseminar. WS2005.

http://education.dbai.tuwien.ac.at/wie/WS05/