• Keine Ergebnisse gefunden

3. F UNKTIONALITÄT EINES IE-S YSTEMS

N/A
N/A
Protected

Academic year: 2022

Aktie "3. F UNKTIONALITÄT EINES IE-S YSTEMS "

Copied!
22
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

I NFORMATIONSEXTRAKTION

22.12.09

Computerlinguistik

Referenten: Alice Holka, Sandra Pyka

1

(2)

I NFORMATIONSEXTRAKTION (IE)

1. Einleitung

2. Ziel der IE

3. Funktionalität eines IE-Systems

4. Beispiel

5. Übung

5. Übung

6. Aufbau

7. Architektur

8. Evaluation von IE-Systemen

9. Linguistische Tiefe

10. Schwierigkeiten von IE-Aufgaben

(3)

1. E INLEITUNG

Durch Ausweitung des Internets sind immer mehr Texte online verfügbar

Informationsüberflutung

Es wird immer schwieriger, relevante Informationen Es wird immer schwieriger, relevante Informationen zu finden, zu extrahieren und zu repräsentieren

Informationsextraktionssysteme (IE-Systeme) werden entwickelt, um Informationsüberflutung adäquat

meistern zu können

3

(4)

2. Z IEL DER IE

Relevante Informationen aus freien, elektronischen

Texten sollen gezielt aufgespürt und strukturiert werden

Analyse von Textpassagen, die relevante Informationen enthalten

≠ keine umfassende Analyse des gesamten Inhaltes

≠ keine umfassende Analyse des gesamten Inhaltes der Textdokumente

Irrelevante Informationen werden gleichzeitig

„Überlesen“

(5)

3. F UNKTIONALITÄT EINES IE-S YSTEMS

Eingabe:

Spezifikation des Typs der relevanten Informationen in Form von Templates (Menge von Merkmalen)

Durch domänspezifische Regeln wird dem System fest

Durch domänspezifische Regeln wird dem System fest vorgegebenen, was als relevant gilt

Die Regeln müssen detailliert und präzise festlegen, welche Typen von Informationen von dem IE-System extrahiert werden sollen

Menge von freien Textdokumenten

5

(6)

3. F UNKTIONALITÄT EINES IE-S YSTEMS

Ausgabe:

Antwortmuster werden erzeugt

Menge von instanziierten Templates

Strukturen in Form von Merkmal/Wert-Paaren (Tabelle)

Strukturen in Form von Merkmal/Wert-Paaren (Tabelle)

Templates mit als relevant bestimmten Textabschnitten gefüllt

(7)

4. B EISPIEL

Extraktion von Informationen über Personalwechsel aus Online- Dokumenten

Aufgabe:

Was soll extrahiert werden?

Was soll extrahiert werden?

wer hat verlassen (PersonOut)

welche Position (Position)

welcher Organization (Organization)

wann wurde die Position verlassen (TimeOut)

von wem neuen wurde die Position besetzt (PersonIn)

wann wurde die Position besetzt (TimeIn) 7

(8)

4. B EISPIEL

Template mit der Menge von Merkmalen:

PersonOut PersonIn PersonIn Position Organization

TimeOut TimeIn

(9)

4. B EISPIEL

Text:

Dr. Hermann Wirth, bisheriger Leiter der

Musikhochschule München, verabschiedete Musikhochschule München, verabschiedete sich heute aus dem Amt. Der 65jährige tritt seinen wohlverdienten Ruhestand an. Als seine Nachfolgerin wurde Sabine Klinger benannt. Ebenfalls neu besetzt wurde die Stelle des Musikdirektors. Annelie Häfner

folgt Christian Meindl nach.

9

(10)

4. B EISPIEL

Gefülltes instanziiertes Template

PersonOut Dr. Hermann Wirth PersonIn Sabine Klinger

PersonIn Sabine Klinger

Position Leiter

Organisation Musikhochschule München

TimeOut Heute

TimeIn Partielle Instanz, da Merkmal nicht mit Wert belegt wird

(11)

5. Ü BUNG 1

Was geschieht mit dem 4. & 5. Satz des Textes?

„Ebenfalls neu besetzt wurde die Stelle des Musikdirektors. Annelie Häfner folgt Christian Meindl nach.“

Aufgabe: Erstelle eine weitere Templateeinstanz!

11

PersonOut Christian Meindl PersonIn Annelie Häfner Position Musikdirektor

Organisation Musikhochschule München TimeOut Partielle Instanz

TimeIn Partielle Instanz

(12)

5. Ü BUNG 2

Einzelne Merkmale können auch eine eigene Templatestruktur besitzen

Aufgabe:

Erstelle eine Templatestruktur für den Personennamen Erstelle eine Templatestruktur für den Personennamen

Dr. Hermann Wirth!

Nachname Wirth

Vorname Hermann

Titel Doktor

(13)

6. A UFBAU EINES IE-S YSTEMS

Zwei Ansätze :

Automatisch trainierte Systeme

„Knowledge Engineering Approach“

13

(14)

6.1 A UTOMATISCH TRAINIERTE S YSTEME

3 Methoden

1. Lernen aus Regeln eines annotierten Korpus

2. Lernen aus Regeln in Interaktion mit dem Benutzer

2. Lernen aus Regeln in Interaktion mit dem Benutzer

3. Verwendung statistischer Methoden

(15)

6.1 A UTOMATISCH TRAINIERTE S YSTEME

Lernen aus Regeln eines annotierten Korpus

Trainingsmenge von bereits mit den Ergebnissen annotierten Textdokumenten

Ziel:

automatisch Regeln zum Füllen von Vorlagen zu induzierenautomatisch Regeln zum Füllen von Vorlagen zu induzieren

Lernen aus Regeln in Interaktion mit dem Benutzer

System macht eine Hypothese

Benutzer bewertet die Hypothese (richtig oder falsch)

System korrigiert ggf. seine Regeln

15

(16)

6.2. K NOWLEDGE E NGINEERING A PPROACH

Entwicklung einer Grammatik von einem

„K.E“

Trainingsdaten, um das System zu testen

Iteratives Verfahren

(17)

7. A RCHITEKTUR EINES IE-S YSTEMS

1. Tokenscanner

Wortsegmentierung

2. Morphologische und lexikalische Analyse

Part of Speech Tagging Word Sense Tagging

Word Sense Tagging

3. Syntaktische Analyse

Parsing

4. Domänenanalyse

Konferenz

Merging Partial

17

(18)

8. E VALUATION VON IE-S YTEMEN

Message Understanding Conference“ (MUC)

Initiiert und finanziert von der DARPA

Evaluierungsveranstaltung, die jährlich stattfindet

IE-Systeme werden wettbewerbsmäßig

systematisch evaluiert

(19)

8. E VALUATION VON IE-S YTEMEN

Evaluationskriterien

Maße Präzision (P)

Vollständigkeit (V)

F-Maß

19

(20)

9. L INGUISTISCHE T IEFE

völlig unterschiedliche linguistische Tiefe aufweisen

reiner Satzfilterung, wo lediglich semantische Orientierung in Form der Wortliste gegeben

bis hin zu Systemen mit Analysemodulen für

bis hin zu Systemen mit Analysemodulen für sämtliche Ebenen der Sprache (Phonologie,

Morphologie, Syntax, Semantik, ev. auch Pragmatik)

(21)

10. S CHWIERIGKEITEN VON IE-A UFGABEN

Verschiedene Schwierigkeiten können bei einer IE auftreten

Die Allgemeinheit von Domänen

Die Unstrukturriertheit von Texten

Die Komplexität von zu extrahierenden Informationen

Eigenschaften einer Sprache

(deutsche Sprache unterscheidet sich von englischer Sprache in der Groß- und Kleinschreibung)

im englischen: meist nur Eigennamen und Satzanfänge groß geschrieben und dadurch wird Eigennamenerkennung

erleichtert 21

(22)

11. L ITERATURVERZEICHNIS

Neumann, Günter (2001) ”Informationsextraktion” in Carstensen, Kai-Uwe et al. Computerlinguistik und

Sprachtechnologie. Eine Einführung, Heidelberg, Berlin:

Spektrum. 448-455.

<http://duepublico.uni-duisburg-

essen.de/servlets/.../informationsextraktion.pdf/>.

<http://quui.de/fsteeg/files/spinfo-ie-ha.pdf/>.

Referenzen

ÄHNLICHE DOKUMENTE

Pour un montant de 25 millions d’euros selon la Communication conjointe de la Commission européenne et de la Haute représentante : « Un partenariat pour la démocratie et

While it is important to analyze Turkey’s relations with the countries going through transformation, there is also a need to address the question of how the Arab Spring in general

The social aspect of transformation deserves a closer look because of certain similarities between Poland, Tunisia and Egypt (religiosity of society) and those reforms

Indeed, soon after the outbreak of the Arab Spring, the EU issued a series of Communications whose aim was to uphold progress towards rule of law and democratic reform

Consequently, by the second half of the 20th century, the state had successfully dismantled “traditional social institutions, to replace them not by modern civil institutions,

(Legespiel Mitvergangenheitsformen mit“ie“) fallen fiel halten hielt bleiben blieb raten riet schlafen schlief schreiben schrieb rufen rief stoßen stieß schweigen schwieg

[r]

tischen Frage&#34;, und wenn die deutschen Balten, welche diese Zeilen lesen — mögen sie mit vielem auch nicht einverstanden sein —, mir die Anerkennung nicht versagen, daß ich