• Keine Ergebnisse gefunden

Web IE: Übersicht. Yeong Su Lee Centrum für Informations- und Sprachverarbeitung (CIS), LMU Web IE: Übersicht 1

N/A
N/A
Protected

Academic year: 2022

Aktie "Web IE: Übersicht. Yeong Su Lee Centrum für Informations- und Sprachverarbeitung (CIS), LMU Web IE: Übersicht 1"

Copied!
41
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Web IE: Übersicht

Yeong Su Lee

Centrum für Informations- und

Sprachverarbeitung (CIS), LMU

(2)

Überblick

IE

Web IE

Von IE zur WG

Techniken zur WG

Methoden zur WG

(3)

Unterschiede zu IR

IR

Anfrage: Schlüsselwort

Erschließung relevanter Dokumente

IE

Anfrage: Schlüsselwort oder Schablone (Template oder Scenario)

Herausziehen bestimmter relevanter Informationen

Domänen-spezifisch

Informationen strukturieren

(4)

IE: Definition

Definition

Instantiierung einer bestimmten Klassen von Ereignissen oder Relationen aus Texten.

Strukturierte Repräsentation der ausgesuchten Informationen.

Integration der Informationen

Eingabe: Schablone und Texte

Ausgabe: Instantiierte Schablone

Versucht nicht den Input-Text zu verstehen, sondern analysiert nur den Teilbereich des Textes, in dem

(5)

IE - Beispiel

Text aus MUC-3

19 March – A bomb went off this morning near a power tower in San Salvador leaving a large part of the city without energy, but no

casualities have been reported. According to unofficial sources, the bomb – allegedly detonated by urban guerrilla commandos – blew up a power tower in the northwestern part of San Salvador at 0650 (1250 GMT)

Ausgefüllte Schablone

INCIDENT TYPE bombing

DATE March 19

LOCATION El Salvador: San Salvador (city) PERPETRATOR urban guerrilla commandos

PHYSICAL TARGET power tower

HUMAN TARGET -

EFFECT ON PT destroyed

EFFECT ON HT no injury or death

INSTRUMENT bomb

aus Grishman(1997)

(6)

Kurze Geschichte der IE

Subsprache von Z. Harris

MUC-Konferenzen

RISE: Zusammenstellung der IE-Tools und -Projekte von I. Muslea

Domain-spezifische Web IE

Open Domain Web IE: Neue Tendenz

(7)

Subsprache von Z. Harris

Submenge der allgemeinen Sprachinventare

Domain-spezifische Wortklasse, semantische Relationen, spezialisierte Syntax

Abgeschlossen unter syntaktischen Operationen

Tabularische Darstellung der Informationen aus subsprachlichen Texten

Kernel-Satz für ein spezifisches Domain

Wetterberichte, Reparatur-Handbücher des Flugzeugs, Werbungstexte, ...

Subsprache der medizinischen Texte von N. Sager

(8)

Message Understanding Conferences(MUC)

von DARPA unterstützt (87-97, 7 Konferenzen)

Vordefinierte Domänen-spezifische Aufgabe

Evaluationsstandard:

Recall

Präzision

F-Score

System nicht anwendbar auf neue Domänen

Flache Texte

Traditionelle NLP-Aufgabe

(9)

MUC-Themen

Konferenz Jahr Textgattung Themengebiet (Domain)

MUC-1 1987 mil. Meldungen Flottenoperationen

MUC-2 1989 mil. Meldungen Flottenoperationen

MUC-3 1991 Nachrichten Terroristische Aktivitäten

MUC-4 1992 Nachrichten Terroristische Aktivitäten

MUC-5 1993 Nachrichten Joint Ventures, Chipproduktion

MUC-6 1995 Nachrichten Führungswechsel in der Wirtschaft

MUC-7 1997 Nachrichten Flugzeugabstürze, Raumfahrzeuge, Raketenstarts

Ab MUC-6: Eigennamenerkennung zusätzlich

Personen, Orte, Organisationen, Zeitpunkte, und Maße

Daten aus Wikipedia: http://de.wikipedia.org/wiki/Message_Understanding_Conference

(10)

Evaluation der IE-Systeme

Recall

R = Korrekte Antworte / Alle mögliche korrekte Antworte

Präzision

P = Korrekte Antworte / Alle extrahierte Antworte

F-Score: zu Gunsten von Recall über Präzision

(β² + 1)PR / β²P + R

F1-Score für β = 1: Gewichtung von Recall und Präzision ist gleich

(11)

Denkansätze zur IE

Wissens-basierte IE

Von Hand geschrieben

Muster werden von menschlichen Experten entdeckt

Kosten- und Zeitaufwand ist groß

Immer noch beste Qualität

Automatische IE durch Maschinelles Lernen

Trainginsdaten

Statistische und Logische Methoden

Regeln aus Trainings-Daten lernen

Interaktion mit dem Benutzer

(12)

Vorgehensweise einer IE-Aufgabe

Domain auswählen

Spezifikation der IE-Schablone

Texte auswählen

Referenzwerte durch Experten festlegen

System führt Aufgabe durch

Vergleich der Systemausgaben mit den

Refernzwerten

(13)

Gegenstände der IE

Entitäten

Personen, Organisation, Lokative, und Temporale, Maße, ...

Koreferenz

Tony Bridge, Mr. Bridge, T. Bridge

Rekord

Eigenschaften der EN: Name, Titel, Rang

Beziehungen zwischen ENs

Einheit: Produkte-Beschreibung, Seminar-Ankündigung, Gaststätte-Führung, Adresse, ...

Scenario

Firmen-Übernahme: Welche Firma, Von wem, Für Wie Viel, Wann, ...

(14)

Anwendungen von IE

IE

Verbesserung der Indizes

als Post-Filter der Suche

Textklassifikation verfeinern

Textzusammenfassung durch Hervorhebung und Exzerpt

Frage-Beantwortung als Komponente

wer, was, wo, wann, ...

Datenbank/Ontologie-Aufbau aus Texten

is-a oder such-as Relation, Teil-Ganze Relation

(15)

Überblick

IE

Web IE

Von IE zur WG

Techniken zur WG

Methoden zur WG

(16)

Zeitliche Übersicht von IR, IE, und Web

1985 2000

IR IE

WWW Web IR

1990

Früh 60e 1. IR Conf.

50-60er Subsprache v. Harris

1987 1. MUC

1989 HTML

1994 Netscape

1995

AltaVista 1998 Google 1945

V. Bush

(17)

Text-Sorten und IE

Nicht-strukturierte Texte

flache Texte

Grammatikalisch

NLP notwendig

Semi-strukturierte Texte

HTML-Texte

Nicht immer grammatikalisch

Keine direkte NLP-Anwendung

Strukturierte Texte

DB-basierte relationale Daten

Keine NLP-Anwendung notwendig

(18)

Besonderheiten der Web-Dokumenten

Unermesslich groß

Täglich neue Web-Domain

Schnelle Quellcode-Änderungen

HTML-basiert

Gelinkt

Gesuchte Informationen aus mehreren Webseiten

(Semi-)Strukturiert

Ausnutzen der Struktur-Infos

Für Präsentation

Nicht voll grammatikalisch

(19)

Web IE vs. Traditionelle IE

Traditionelle IE

Flache Texte

NLP-Techniken wie Lexikon und Grammatik

POS-Tagging

Top-Down Parsing

Web IE

Semi-strukturierte bis strukturierte Texte

Maschinelles Lernen und Pattern-Auffindung Techniken, aber auch komplexe

Reguläre Ausdrücke - Wortfolge

Bottom-Up Parsing

(20)

Ebene der Web IE

Feld-Ebene

Entitäten ausfüllen

RAPIER, SRV

Rekord-Ebene

Rekord-Grenze erkennen und Rekord extrahieren

Meistens: Minerva, XWRAP, WHISK, WIEN, ...

Seite-Ebene

Aus ganzen Seiten

RoadRunner, EXALG

(21)

Anwendungsbereiche der Web IE

Anwendungsbereiche aus IE

Domain-spezifische Mehrwerte-Dienste

Produktbeschreibung

Restaurantsführung

Seminarankündigung

Jobanzeige

Firmeninformation

...

(22)

Überblick

IE

Web IE

Von IE zur WG

Techniken zur WG

Methoden zur WG

(23)

Von IE zur Wrapper Generierung (WG)

Hintergrund

Informationen sind immer mehr strukturiert (Back-End-Template)

Unabhängig von der traditionellen IE-Gemeinde entwickelt

WG-Systeme generieren typisch Delimiter-basierte Extraktions-Patterns ohne linguistische Einschränkung

WG-Applikation: online Daten extrahieren auf Basis von Benutzer- Anfrage

Für eine typische Web-Anwendung des Wrappers

Anfrage -> Fetchen der relevanten Seiten -> Extrahieren der angeforderten Informationen -> Ausgabe

Meistens Domain-spezifisch

Schnell ausführbar, da online bearbeitet wird

Weitere Aufgabe: Skalierbarkeit, Flexibilität

(24)

Definition des Wrappers

Definition

eine Prozedur, die einen bestimmten relevanten Inhalt aus Informationsquelle extrahiert und ihn in einer selbst-

beschreibenden Repräsentation liefert.

Gegeben eine Webseite S mit einer Menge der impliziten Objekte, dann entscheide eine Funktion W, die eine

Datenquelle R aus den Objekten in S inferiert. Die Funktion W muss auch die Daten aus den ähnlichen Seiten S‘ zu S erkennen können.Evaluation des Wrappers

(25)

Überblick

IE

Web IE

Von IE zur WG

Techniken zur WG

Methoden zur WG

(26)

Techniken zur WG

Sprache zur WG

NLP-basierte Technik zur WG

Beispiel-basierte Technik zur WG

HTML-basierte Technik zur WG

Technik der Wrapper-Induktion zur WG

Ontologie-basierte Web IE

(27)

Sprache zur WG

Spezielle Sprache für WG

Benutzer soll diese Sprache lernen, um einen Wrapper zu generieren

Minerva, TSIMMIS, Web-OQL, FLORID, ...

Beispiel: TSIMMIS

Benutzer soll CONFIG-Datei editieren in Form von [variablen, source, pattern], wo variablen die

Ergebnisse der Extraktion enthalten, source input- Datei ist, und pattern die Extraktions-Daten inner- halb des sources matcht.

(28)

verwendet NLP-Techniken

geeignet für Webseiten aus flachen Texten

Typische Vorgehensweise

Tokenisierung -> Lexikalische und Morphologische Analyse -> Eigennamenerkennung -> POS Tagging -> Parsing -> Analyse der Koreferenten -> Domain- spezifische Analyse -> Schablone ausfüllen

RAPIER, SRV, WHISK, TextRunner, ...

NLP-basierte Technik zur WG

(29)

Beispiel-basierte Technik zur WG

Daten-Bereich, der mit der Target-Struktur übereinstimmt, aus der Webseite lokalisieren

Einfache Primitive wie Tupel, Liste, etc. werden angeboten

Delimiter-basierte Extraktions-Regel aufbauen

NoDoSE, DEByE, ...

(30)

HTML-basierte Technik zur WG

Ausnutzen der HTML

Baumstruktur bilden

Extraktions-Regel wird auf den Baum angewendet

Keine NLP

W4F, XWRAP, RoadRunner, Lixto, ...

(31)

Technik der Wrapper-Induktion zur WG

Keine NLP

Maschinelles Lernen

Induktives Lernen

Trainings-Daten

Delimiter-basierte Extraktionsregel

WIEN, SoftMealy, STALKER

(32)

Ontologie-basierte Web IE

Domain-spezifische IE und Subsprache

IE ist mehr oder weniger wissensbasiert

Entitäten-Lexikon, PAS, Hierarchie

Aufbau der Ontologie profitiert von der IE

Relationale Extraktion

is-a Relation:

such NP as {{NP, }+ {or|and}}? NP

NP { , } including {{NP, }+ {or|and}}? NP

part-of Relation:

{N|Npl}‘s POSSESIVE {N|Npl}

NP consists of NP

Synonymie

(33)

Zusammenfassung der Web IE-Tools

IE-Systeme, Text-Sorten, und Automatiseirungsgrad

Ontologie-basierte Tools

Sprache für Wrapper- Entwicklung

NLP-basierte Tools

Wrapper-Induktions

Tools Modell-basierte Tools

HTML-basierte Tools

Automatisierung

Flexibilitt

Manuell

HTMLText

(34)

Überblick

IE

Web IE

Von IE zur WG

Techniken zur WG

Methoden zur WG

(35)

Methoden zur WG

Manuelle WG

Benutzer soll über Programm- und Rechner-Erfahrungen verfügen

Teuer und Zeitaufwendig

WG-Tools

TSIMMIS, Minerva, Web-OQL, W4F, ...

Automatische WG

Überwachte WG

Nicht-überwachte WG

Semi-überwachte WG

(36)

Automatische WG

Überwachte WG

Braucht klassifizierte Trainings-Daten

GUI

SRV, RAPIER, WHISK, WIEN, STALKER, SoftMealy, NoDoSE, Lixto, ...

Nicht-überwachte WG

Keine klassifizierte Trainings-Daten und keine Benutzer-Interaktion

RoadRunner, EXALG, DEPTA, TextRunner, ...

Semi-überwachte WG

Braucht einen Teil von klassifizierten Trainings-Daten und große nicht- klassifizierte Daten

GUI: Benutzer soll nach dem Training des Systems den Target-Pattern

(37)

Überwachte WG

Klassifikationsproblem

Lernprozess

Algorithmen

Decision Tree Induktion

Rule Induktion

Assoziationsregel

Bayes Klassifikation

Support Vector Maschine

Trainings-

Daten Lern- Model Genauigkeit

Algorithmus

Test- Daten

(38)

Beispiel für Klassifikation

Trainings-Daten

ID String Strasse

1 Rindermarkt Ja

2 Viktualienmarkt Ja

3 Kaufmarkt Nein

4 Mediamarkt Nein

5 Kfz-Markt Nein

Test-Daten

6 PC-Markt ?

.+?markt

Strasse: 2 Keine Str: 3

(39)

Nicht-überwachte WG

Clusterings-Problem

Centroid und Ähnlichkeitsmaße

Algorithmen

K-means Clustering

Bottom-up Clustering

Top-Down Clustering

Beispiel

table tr

td td

str Rindermarkt

table tr

td td

Viktualienmark str

table tr tr

td

td td td

elek auto

Mediamarkt Kfz-Markt

(40)

Tools-Ressourcen

RISE, http://www.isi.edu/info-agent/RISE/projects.html

GATE, http://gate.ac.uk

KIM, http://www.ontotext.com/kim/

RaodRunner, http://www.dia.uniroma3.it/db/roadRunner/

KnowItAll,

http://www.cs.washington.edu/research/knowitall/

XWrap Elite,

http://www.cc.gatech.edu/projects/disl/XWRAPElite/

(41)

Literatur

R. Grishman, Information Extraction: Techniques and Challenges. 1997.

I. Muslea, Extraction Patterns for Information Extraction Tasks: A Survey. 1999.

L. Eikvil, Information Extraction from World Wide Web - A Survey -. 1999.

R. Grishman, Adaptive Information Extraction and Sublanguage Analysis. 2001.

Alberto H.F. Laender et al, A Brief Survey of Web Data Extraction Tools. 2002.

K. Kaiser & S. Miksch, Information Extraction: A Survey. 2005.

C.-H. Chang et al, A Survey of Web Information Extraction Systems. 2006 B. Liu, Web Data Mining. Springer, Berlin. 2007.

M. Lesk, The Seven Ages of Information Retrieval. 1996.

K.-U. Carstensen, Informationsextraktionssysteme (IES). Natürlichsprachliche Systeme I. SS2005.

http://www.ifi.unizh.ch/cl/carstens/Materialien/CarstensenNatS1IES.pdf

W. Gatterbauer, Web Information Extraction: Short Introduction to the Proseminar. WS2005.

http://education.dbai.tuwien.ac.at/wie/WS05/

Referenzen

ÄHNLICHE DOKUMENTE

• The first student will present the problem, the motivation and a single paper.. • The first presentation starts with what the overall problem is, and why it is interesting to solve

As a result of its success and growth, machine learning is evolving into a collection of related disciplines: inductive concept acquisition, analytic learning in problem

Open Information Extraction/Machine Reading aims at information extraction from the entire Web. Vision of Open

• The document collection can be given a priori (Closed Information Extraction). e.g., a specific document, all files on my

Named Entity Recognition (NER) is the process of finding entities (people, cities, organizations, dates, ...) in a text. Elvis Presley was born in 1935 in East Tupelo,

Manning, Prabhakar Raghavan and Hinrich Schuetze, Introduction to Information Retrieval, Cambridge University Press?. (good information retrieval textbook, preview copies

Recall = # of correct answers given by system total # of possible correct answers in text. Slide

• PART I: basic information extraction (through Named Entity Recognition). • History of IE,