Web IE: Übersicht
Yeong Su Lee
Centrum für Informations- und
Sprachverarbeitung (CIS), LMU
Überblick
●
IE
●
Web IE
●
Von IE zur WG
●
Techniken zur WG
●
Methoden zur WG
Unterschiede zu IR
●
IR
– Anfrage: Schlüsselwort
– Erschließung relevanter Dokumente
●
IE
– Anfrage: Schlüsselwort oder Schablone (Template oder Scenario)
– Herausziehen bestimmter relevanter Informationen
– Domänen-spezifisch
– Informationen strukturieren
IE: Definition
● Definition
– Instantiierung einer bestimmten Klassen von Ereignissen oder Relationen aus Texten.
– Strukturierte Repräsentation der ausgesuchten Informationen.
– Integration der Informationen
● Eingabe: Schablone und Texte
● Ausgabe: Instantiierte Schablone
● Versucht nicht den Input-Text zu verstehen, sondern analysiert nur den Teilbereich des Textes, in dem
IE - Beispiel
● Text aus MUC-3
19 March – A bomb went off this morning near a power tower in San Salvador leaving a large part of the city without energy, but no
casualities have been reported. According to unofficial sources, the bomb – allegedly detonated by urban guerrilla commandos – blew up a power tower in the northwestern part of San Salvador at 0650 (1250 GMT)
● Ausgefüllte Schablone
INCIDENT TYPE bombing
DATE March 19
LOCATION El Salvador: San Salvador (city) PERPETRATOR urban guerrilla commandos
PHYSICAL TARGET power tower
HUMAN TARGET -
EFFECT ON PT destroyed
EFFECT ON HT no injury or death
INSTRUMENT bomb
aus Grishman(1997)
Kurze Geschichte der IE
●
Subsprache von Z. Harris
● MUC-Konferenzen
● RISE: Zusammenstellung der IE-Tools und -Projekte von I. Muslea
● Domain-spezifische Web IE
● Open Domain Web IE: Neue Tendenz
Subsprache von Z. Harris
● Submenge der allgemeinen Sprachinventare
● Domain-spezifische Wortklasse, semantische Relationen, spezialisierte Syntax
● Abgeschlossen unter syntaktischen Operationen
● Tabularische Darstellung der Informationen aus subsprachlichen Texten
● Kernel-Satz für ein spezifisches Domain
● Wetterberichte, Reparatur-Handbücher des Flugzeugs, Werbungstexte, ...
● Subsprache der medizinischen Texte von N. Sager
Message Understanding Conferences(MUC)
● von DARPA unterstützt (87-97, 7 Konferenzen)
● Vordefinierte Domänen-spezifische Aufgabe
● Evaluationsstandard:
– Recall
– Präzision
– F-Score
● System nicht anwendbar auf neue Domänen
● Flache Texte
● Traditionelle NLP-Aufgabe
MUC-Themen
● Konferenz Jahr Textgattung Themengebiet (Domain)
● MUC-1 1987 mil. Meldungen Flottenoperationen
● MUC-2 1989 mil. Meldungen Flottenoperationen
● MUC-3 1991 Nachrichten Terroristische Aktivitäten
● MUC-4 1992 Nachrichten Terroristische Aktivitäten
● MUC-5 1993 Nachrichten Joint Ventures, Chipproduktion
● MUC-6 1995 Nachrichten Führungswechsel in der Wirtschaft
● MUC-7 1997 Nachrichten Flugzeugabstürze, Raumfahrzeuge, Raketenstarts
● Ab MUC-6: Eigennamenerkennung zusätzlich
– Personen, Orte, Organisationen, Zeitpunkte, und Maße
Daten aus Wikipedia: http://de.wikipedia.org/wiki/Message_Understanding_Conference
Evaluation der IE-Systeme
●
Recall
R = Korrekte Antworte / Alle mögliche korrekte Antworte
●
Präzision
P = Korrekte Antworte / Alle extrahierte Antworte
●
F-Score: zu Gunsten von Recall über Präzision
(β² + 1)PR / β²P + R
– F1-Score für β = 1: Gewichtung von Recall und Präzision ist gleich
Denkansätze zur IE
●
Wissens-basierte IE
– Von Hand geschrieben
– Muster werden von menschlichen Experten entdeckt
– Kosten- und Zeitaufwand ist groß
– Immer noch beste Qualität
●
Automatische IE durch Maschinelles Lernen
– Trainginsdaten
– Statistische und Logische Methoden
– Regeln aus Trainings-Daten lernen
– Interaktion mit dem Benutzer
Vorgehensweise einer IE-Aufgabe
●
Domain auswählen
●
Spezifikation der IE-Schablone
●
Texte auswählen
●
Referenzwerte durch Experten festlegen
●
System führt Aufgabe durch
●
Vergleich der Systemausgaben mit den
Refernzwerten
Gegenstände der IE
● Entitäten
Personen, Organisation, Lokative, und Temporale, Maße, ...
● Koreferenz
Tony Bridge, Mr. Bridge, T. Bridge
● Rekord
– Eigenschaften der EN: Name, Titel, Rang
– Beziehungen zwischen ENs
– Einheit: Produkte-Beschreibung, Seminar-Ankündigung, Gaststätte-Führung, Adresse, ...
● Scenario
– Firmen-Übernahme: Welche Firma, Von wem, Für Wie Viel, Wann, ...
Anwendungen von IE
● IE
– Verbesserung der Indizes
– als Post-Filter der Suche
● Textklassifikation verfeinern
● Textzusammenfassung durch Hervorhebung und Exzerpt
● Frage-Beantwortung als Komponente
– wer, was, wo, wann, ...
● Datenbank/Ontologie-Aufbau aus Texten
– is-a oder such-as Relation, Teil-Ganze Relation
Überblick
●
IE
●
Web IE
●
Von IE zur WG
●
Techniken zur WG
●
Methoden zur WG
Zeitliche Übersicht von IR, IE, und Web
1985 2000
IR IE
WWW Web IR
1990
Früh 60e 1. IR Conf.
50-60er Subsprache v. Harris
1987 1. MUC
1989 HTML
1994 Netscape
1995
AltaVista 1998 Google 1945
V. Bush
Text-Sorten und IE
● Nicht-strukturierte Texte
– flache Texte
– Grammatikalisch
– NLP notwendig
● Semi-strukturierte Texte
– HTML-Texte
– Nicht immer grammatikalisch
– Keine direkte NLP-Anwendung
● Strukturierte Texte
– DB-basierte relationale Daten
– Keine NLP-Anwendung notwendig
Besonderheiten der Web-Dokumenten
● Unermesslich groß
● Täglich neue Web-Domain
● Schnelle Quellcode-Änderungen
● HTML-basiert
– Gelinkt
● Gesuchte Informationen aus mehreren Webseiten
– (Semi-)Strukturiert
● Ausnutzen der Struktur-Infos
– Für Präsentation
● Nicht voll grammatikalisch
Web IE vs. Traditionelle IE
●
Traditionelle IE
– Flache Texte
– NLP-Techniken wie Lexikon und Grammatik
– POS-Tagging
– Top-Down Parsing
●
Web IE
– Semi-strukturierte bis strukturierte Texte
– Maschinelles Lernen und Pattern-Auffindung Techniken, aber auch komplexe
– Reguläre Ausdrücke - Wortfolge
– Bottom-Up Parsing
Ebene der Web IE
●
Feld-Ebene
– Entitäten ausfüllen
– RAPIER, SRV
●
Rekord-Ebene
– Rekord-Grenze erkennen und Rekord extrahieren
– Meistens: Minerva, XWRAP, WHISK, WIEN, ...
●
Seite-Ebene
– Aus ganzen Seiten
– RoadRunner, EXALG
Anwendungsbereiche der Web IE
● Anwendungsbereiche aus IE
● Domain-spezifische Mehrwerte-Dienste
– Produktbeschreibung
– Restaurantsführung
– Seminarankündigung
– Jobanzeige
– Firmeninformation
– ...
Überblick
●
IE
●
Web IE
●
Von IE zur WG
●
Techniken zur WG
●
Methoden zur WG
Von IE zur Wrapper Generierung (WG)
● Hintergrund
– Informationen sind immer mehr strukturiert (Back-End-Template)
– Unabhängig von der traditionellen IE-Gemeinde entwickelt
● WG-Systeme generieren typisch Delimiter-basierte Extraktions-Patterns ohne linguistische Einschränkung
● WG-Applikation: online Daten extrahieren auf Basis von Benutzer- Anfrage
● Für eine typische Web-Anwendung des Wrappers
– Anfrage -> Fetchen der relevanten Seiten -> Extrahieren der angeforderten Informationen -> Ausgabe
– Meistens Domain-spezifisch
– Schnell ausführbar, da online bearbeitet wird
● Weitere Aufgabe: Skalierbarkeit, Flexibilität
Definition des Wrappers
● Definition
– eine Prozedur, die einen bestimmten relevanten Inhalt aus Informationsquelle extrahiert und ihn in einer selbst-
beschreibenden Repräsentation liefert.
– Gegeben eine Webseite S mit einer Menge der impliziten Objekte, dann entscheide eine Funktion W, die eine
Datenquelle R aus den Objekten in S inferiert. Die Funktion W muss auch die Daten aus den ähnlichen Seiten S‘ zu S erkennen können.Evaluation des Wrappers
–
Überblick
●
IE
●
Web IE
●
Von IE zur WG
●
Techniken zur WG
●
Methoden zur WG
Techniken zur WG
●
Sprache zur WG
●
NLP-basierte Technik zur WG
●
Beispiel-basierte Technik zur WG
●
HTML-basierte Technik zur WG
●
Technik der Wrapper-Induktion zur WG
●
Ontologie-basierte Web IE
Sprache zur WG
●
Spezielle Sprache für WG
●
Benutzer soll diese Sprache lernen, um einen Wrapper zu generieren
●
Minerva, TSIMMIS, Web-OQL, FLORID, ...
●
Beispiel: TSIMMIS
– Benutzer soll CONFIG-Datei editieren in Form von [variablen, source, pattern], wo variablen die
Ergebnisse der Extraktion enthalten, source input- Datei ist, und pattern die Extraktions-Daten inner- halb des sources matcht.
●
verwendet NLP-Techniken
●
geeignet für Webseiten aus flachen Texten
●
Typische Vorgehensweise
– Tokenisierung -> Lexikalische und Morphologische Analyse -> Eigennamenerkennung -> POS Tagging -> Parsing -> Analyse der Koreferenten -> Domain- spezifische Analyse -> Schablone ausfüllen
●
RAPIER, SRV, WHISK, TextRunner, ...
NLP-basierte Technik zur WG
Beispiel-basierte Technik zur WG
●
Daten-Bereich, der mit der Target-Struktur übereinstimmt, aus der Webseite lokalisieren
●
Einfache Primitive wie Tupel, Liste, etc. werden angeboten
●
Delimiter-basierte Extraktions-Regel aufbauen
●
NoDoSE, DEByE, ...
HTML-basierte Technik zur WG
●
Ausnutzen der HTML
●
Baumstruktur bilden
●
Extraktions-Regel wird auf den Baum angewendet
●
Keine NLP
●
W4F, XWRAP, RoadRunner, Lixto, ...
Technik der Wrapper-Induktion zur WG
●
Keine NLP
●
Maschinelles Lernen
●
Induktives Lernen
●
Trainings-Daten
●
Delimiter-basierte Extraktionsregel
●
WIEN, SoftMealy, STALKER
Ontologie-basierte Web IE
● Domain-spezifische IE und Subsprache
– IE ist mehr oder weniger wissensbasiert
– Entitäten-Lexikon, PAS, Hierarchie
– Aufbau der Ontologie profitiert von der IE
● Relationale Extraktion
– is-a Relation:
● such NP as {{NP, }+ {or|and}}? NP
● NP { , } including {{NP, }+ {or|and}}? NP
– part-of Relation:
● {N|Npl}‘s POSSESIVE {N|Npl}
● NP consists of NP
– Synonymie
Zusammenfassung der Web IE-Tools
IE-Systeme, Text-Sorten, und Automatiseirungsgrad
Ontologie-basierte Tools
Sprache für Wrapper- Entwicklung
NLP-basierte Tools
Wrapper-Induktions
Tools Modell-basierte Tools
HTML-basierte Tools
Automatisierung
Flexibilitaät
Manuell
HTMLText
Überblick
●
IE
●
Web IE
●
Von IE zur WG
●
Techniken zur WG
●
Methoden zur WG
Methoden zur WG
● Manuelle WG
– Benutzer soll über Programm- und Rechner-Erfahrungen verfügen
– Teuer und Zeitaufwendig
– WG-Tools
● TSIMMIS, Minerva, Web-OQL, W4F, ...
● Automatische WG
– Überwachte WG
– Nicht-überwachte WG
– Semi-überwachte WG
Automatische WG
● Überwachte WG
– Braucht klassifizierte Trainings-Daten
– GUI
– SRV, RAPIER, WHISK, WIEN, STALKER, SoftMealy, NoDoSE, Lixto, ...
● Nicht-überwachte WG
– Keine klassifizierte Trainings-Daten und keine Benutzer-Interaktion
– RoadRunner, EXALG, DEPTA, TextRunner, ...
● Semi-überwachte WG
– Braucht einen Teil von klassifizierten Trainings-Daten und große nicht- klassifizierte Daten
– GUI: Benutzer soll nach dem Training des Systems den Target-Pattern
Überwachte WG
●
Klassifikationsproblem
●
Lernprozess
●
Algorithmen
– Decision Tree Induktion
– Rule Induktion
– Assoziationsregel
– Bayes Klassifikation
– Support Vector Maschine
Trainings-
Daten Lern- Model Genauigkeit
Algorithmus
Test- Daten
Beispiel für Klassifikation
● Trainings-Daten
ID String Strasse
1 Rindermarkt Ja
2 Viktualienmarkt Ja
3 Kaufmarkt Nein
4 Mediamarkt Nein
5 Kfz-Markt Nein
● Test-Daten
6 PC-Markt ?
.+?markt
Strasse: 2 Keine Str: 3
Nicht-überwachte WG
● Clusterings-Problem
● Centroid und Ähnlichkeitsmaße
● Algorithmen
– K-means Clustering
– Bottom-up Clustering
– Top-Down Clustering
● Beispiel
table tr
td td
str Rindermarkt
table tr
td td
Viktualienmark str
table tr tr
td
td td td
elek auto
Mediamarkt Kfz-Markt
Tools-Ressourcen
● RISE, http://www.isi.edu/info-agent/RISE/projects.html
● GATE, http://gate.ac.uk
● KIM, http://www.ontotext.com/kim/
● RaodRunner, http://www.dia.uniroma3.it/db/roadRunner/
● KnowItAll,
http://www.cs.washington.edu/research/knowitall/
● XWrap Elite,
http://www.cc.gatech.edu/projects/disl/XWRAPElite/
Literatur
R. Grishman, Information Extraction: Techniques and Challenges. 1997.
I. Muslea, Extraction Patterns for Information Extraction Tasks: A Survey. 1999.
L. Eikvil, Information Extraction from World Wide Web - A Survey -. 1999.
R. Grishman, Adaptive Information Extraction and Sublanguage Analysis. 2001.
Alberto H.F. Laender et al, A Brief Survey of Web Data Extraction Tools. 2002.
K. Kaiser & S. Miksch, Information Extraction: A Survey. 2005.
C.-H. Chang et al, A Survey of Web Information Extraction Systems. 2006 B. Liu, Web Data Mining. Springer, Berlin. 2007.
M. Lesk, The Seven Ages of Information Retrieval. 1996.
K.-U. Carstensen, Informationsextraktionssysteme (IES). Natürlichsprachliche Systeme I. SS2005.
http://www.ifi.unizh.ch/cl/carstens/Materialien/CarstensenNatS1IES.pdf
W. Gatterbauer, Web Information Extraction: Short Introduction to the Proseminar. WS2005.
http://education.dbai.tuwien.ac.at/wie/WS05/