• Keine Ergebnisse gefunden

Learning to Construct Learning to Construct Knowledge Bases from the Knowledge Bases from the World Wide Web World Wide Web

N/A
N/A
Protected

Academic year: 2022

Aktie "Learning to Construct Learning to Construct Knowledge Bases from the Knowledge Bases from the World Wide Web World Wide Web"

Copied!
35
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Learning to Construct Learning to Construct

Knowledge Bases from the Knowledge Bases from the

World Wide Web World Wide Web

Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

Sean Slattery (2000)

Oliver Rohr

(2)

Gliederung Gliederung

• Überblick

• Problemspezifikation

• Erkennen von Klasseninstanzen

• Erkennen von Relationsinstanzen

• Extraktion aus Textsegmenten

• Fazit, Ausblick

(3)

Überblick Überblick

Funktion des Web-KB Systems Funktion des Web-KB Systems

Wissensbasis

WWW Web-KB System

Erkennungsfunktionen Daten

(4)

Überblick Überblick

Ontologie Ontologie

• Ontologie: Klassen und Relationen, die Informatikfachbereichsseiten beschreiben

(5)

Überblick Überblick

Training / Testing Training / Testing

• Training: es werden Erkennungsfunktionen zur Extraktion gelernt (ML). Trainingsmenge:

gelabelte Webseiten von 4 Fachbereichen an versch. Universitäten (8000 Seiten + 1400 Seitenpaare)

• Testing: System durchsucht selbsttätig das Web und extrahiert neue Instanzen von Klassen und Relationen (4127 Seiten + 10945 Hyperlinks)

(6)

Überblick Überblick

Anwendung Anwendung

• Breitensuche auf dem Graphen aus Seiten und Hyperlinks:

erkannte Klasse Klasse other ...

(7)
(8)

Problemspezifikation Problemspezifikation

• gegeben:

– initiale Wissensbasis bestehend aus Ontologie (und optional Instanzen)

– Trainingsbeispiele, die Instanzen von Klassen und Relationen beschreiben

• gesucht:

– Erkennungsfunktionen zur selbständigen Extraktion von Instanzen aus dem Web (Erweiterung der

Wissensbasis)

(9)

Problemspezifikation Problemspezifikation

• Annahmen:

– Klassen werden durch Hypertextsegmente beschrieben (1 Textabschnitt, 1 Seite oder zusammenhängende Seiten), hier: nur 1 Seite – Relationen werden durch Hyperlinkpfade

beschrieben (Weg aus Seiten+Hyperlinks) oder durch Textsegmente oder durch andere gelernte Regeln, hier: nur binäre Relationen

(10)

Problemspezifikation Problemspezifikation

• offene Aufgaben

– Erkennen von Klasseninstanzen – Erkennen von Relationsinstanzen – Extraktion aus Textsegmenten

(11)

Erkennen von Klasseninstanzen Erkennen von Klasseninstanzen

statistische Textklassifikation statistische Textklassifikation

• Classifier

full-text

title / heading hyperlink

(12)

Erkennen von Klasseninstanzen Erkennen von Klasseninstanzen

statistische Textklassifikation statistische Textklassifikation

• Bewertung

– probabilistisches Model (unigram, bag-of-

words): Wörter sind unabhängig voneinenander – ordne Seite der Klasse zu, die - bzgl. der

vorkommenden Wörter - am wahrscheinlichsten ist

(13)
(14)

Erkennen von Klasseninstanzen Erkennen von Klasseninstanzen

statistische Textklassifikation statistische Textklassifikation

Verwendete Score-Funktion:

enstanden aus:

(15)
(16)

Accuracy / Coverage Tradeoff (full-text)

(17)

Erkennen von Klasseninstanzen Erkennen von Klasseninstanzen

logische Klassifikation logische Klassifikation

• Classifier werden als logische Regeln (Klauseln) gelernt

• FOIL: beginne mit leerer Klausel und füge per hill-climbing Suche neue Literale hinzu bis die Regel nur noch positive Instanzen abdeckt

(18)

Erkennen von Klasseninstanzen Erkennen von Klasseninstanzen

logische Klassifikation logische Klassifikation

• Hintergrundrelationen, z.B.

– has_word(Page)

– link_to(Page, Page)

• Beispiel-Regel:

(19)
(20)

Erkennen von Klasseninstanzen Erkennen von Klasseninstanzen

kombinierte Klassifikation kombinierte Klassifikation

• benutze alle 4 bisherigen Classfier (full-text, title/heading, hyperlink, logische Regeln)

und nehme die Klasse mit den meisten

Stimmen (bei Stimmgleichheit entscheidet die Zuverlässigkeit der Vorhersagen)

• Ergebnis etwas deprimierend (keine

einheitliche Verbesserung i.V. zu einzelnen Classifiern), zu einfache Kombination?

(21)
(22)

Erkennen von Relationsinstanzen Erkennen von Relationsinstanzen

• Hyperlinkpfade

• Hintergrundrelationen

class(Page)

– link_to(Hyperlink, Page, Page) – ...

(23)

Erkennen von Relationsinstanzen Erkennen von Relationsinstanzen

• Algo so ähnlich wie FOIL:

(1) Pfadteil der Klausel wird gelernt

(2) Literale werden hinzugefügt (hill-climbing)

(1)

(24)

Erkennen von Relationsinstanzen Erkennen von Relationsinstanzen

• Pfadfinder bei der Arbeit:

(25)

Erkennen von Relationsinstanzen Erkennen von Relationsinstanzen

• Beispiel:

A C D E B

(26)

Accuracy / Coverage Tradeoff bei gelernten Relationen

(27)

Extraktion aus Textsegmenten Extraktion aus Textsegmenten

• typische IE - Aufgabe

• IDL Lerner im Sinne FOILs: SRV (Sequence Rule with Validation)

• Eingabe für SRV:

– gelabelte Seiten (bzgl. der gesuchten Instanzen) – Features

• Ausgabe: IE Regeln

(28)

Extraktion aus Textsegmenten Extraktion aus Textsegmenten

• hill-climbing: Füge ein Literal hinzu, das soviel positive Instanzen (gelabelte

Segmente) wie möglich abdeckt und viele negative Instanzen (ungelabelte Segmente) ausschliesst

• beende Suche, wenn Regel gut genug ist

(29)

Extraktion aus Textsegmenten Extraktion aus Textsegmenten

• Beispiel:

(30)

Extraktion aus Textsegmenten Extraktion aus Textsegmenten

• Erkannter Name:

• Regel trotzdem gut, Accuracy bei 77%

(31)

Fazit Fazit

• Prototyp hat Accuracy von über 70% bei Coverage von ca. 30%

• Methoden lassen sich vermutlich in neuen Kombination in anderen Domänen

anwenden

• Aber: geignetste Methode hängt von der Darstellung der Instanzen ab

(32)

Fazit Fazit

• Prototyp gut an Webseiten angepasst:

– Sicht nach 'Außen': Betrachtung der Umgebung von Webseiten (logische Regeln)

– Sicht nach 'Innen': Betrachtung einzelner Textabschnitte von Webseiten (SRV-

Textextraktion)

(33)

Ausblick Ausblick

• viele potentielle Verbesserungen

– hierarchische Relation zwischen Klassen – kombiniere ungelabelte und gelabelte

Trainingsmenge

– mehr linguistische Struktur

– multiple Strategien zum Extrahieren von Textsegmenten

(34)

Links Links

• http://www.biostat.wisc.edu/~craven/papers /aij00.ps

• http://www.cs.cmu.edu/~webkb/

(35)

Erkennen von Klasseninstanzen Erkennen von Klasseninstanzen

statistische Textklassifikation statistische Textklassifikation

• Wortwahrscheinlichkeiten (Abschätzung)

Referenzen

ÄHNLICHE DOKUMENTE

Demzufolge ist Interaktivität eine Qualität, die für digitale Medien charakteristisch ist: Eine Handlung an einem Objekt resultiert in einer so schnellen

In this template the matching is achieved by using variables with the names of the attributes of the CSV table (or tables) that we want to import.. The system is flexible enough

Dieser Effekt ist damit zu erkl¨aren, dass mit zunehmender Batchgr¨oße einige Ziele der anderen Nutzer (nicht vom Opfer selbst) h¨aufiger vorkommen und durch den Algorithmus

abgeschlossenen Fließtext, wie er beispielsweise im Project Gutenberg 411 aufzuru- fen ist, sondern präsentiert das Tagebuch als Hypertext mit einer Vielzahl teil- weise

Additional sources of frustration were system crashes, the already pre- pared result sets, the inability to refine the search that had been deactivated for the evaluation, the

Neunundvierzig Probanden suchten in einem Wiki mit und ohne die Hilfe des Wiki-Sniffers nach Informationen zu ver- schiedenen Themen und beantworteten anschließend Fragen zu

(2008a) beschreiben eine Reihe von speziali- sierten Werkzeugen f¨ ur den Zugriff auf Wikipedia und stellen einen optimierten Ansatz vor, bei dem die Inhalte von Wikipedia

Eine Liste prominenter Architekten findet man bei ARCHiNET (http://www. archinet.de/a-prommi.htm) sowie bei PAIRC (http://www. arch.buffalo.edu/cgi-bin/pairc/archtcts).