• Keine Ergebnisse gefunden

Domänenspezifische Informationsextraktion am Beispiel militärischer Meldungen

N/A
N/A
Protected

Academic year: 2022

Aktie "Domänenspezifische Informationsextraktion am Beispiel militärischer Meldungen"

Copied!
5
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Domänenspezifische Informationsextraktion am Beispiel militärischer Meldungen

Dr. Matthias Hecking FGAN/FKIE Neuenahrer Straße 20 53343 Wachtberg-Werthhoven

Germany hecking@fgan.de

Abstract: Das veränderte Einsatzspektrum der Bundeswehr führt zur Notwendigkeit, große Mengen Texte auf ihren Inhalt hin auszuwerten. Diese Auswertung erfolgt i.a.

unter extremen Zeitrestriktionen. Meldungen menschlicher Beobachter sind hier von besonderem Interesse. Diese Meldungen zeichnen sich durch eine große thematische und sprachliche Vielfalt aus. Daher sind sie ideale Kandidaten für Anwendungen computerlinguistischer Verfahren. Im Folgenden wird ein Informationsextraktions- ansatz beschrieben, der reale Meldungen aus dem multinationalen KFOR-Einsatz der Bundeswehr inhaltlich auswerten soll. Ziel ist hierbei, den Zusammenhang zwischen Named Entities und Aktivitäten aus den Meldungen heraus zu bestimmen, diese for- mal zu repräsentieren, auszuwerten und das Analyseergebnis grafisch navigierbar zu machen. Nach einer kurzen Einführung wird auf den verfolgten Ansatz eingegangen.

Hierbei werden die bisherigen Arbeiten zur Realisierung der Informationsextraktions- komponente und der zugrunde liegende KFOR-Korpus beschrieben.

1 Einführung

Die Verarbeitung der natürlichen Sprache wurde als eine kritische Funktionalität in zu- künftigen militärischen Anwendungen identifiziert (s. [Ste96], [oD01, S. 5-15]). Die Technik der Informationsextraktion (IE), die in der Computerlinguistik entwickelt wurde, bietet einen praktisch verwendbaren Ansatz, um Freiform-Texte (partiell) inhaltlich auszuwerten. Solche IE-Systeme sind textsorten- und anwendungsspezifisch und er- möglichen die Analyse großer Textmengen.

Während der IE werden Informationen über das Wer, Was, Wann, Wo, etc. in den natürlichsprachlichen Texten identifiziert, extrahiert und formal repräsentiert (s. [AI99, Paz99]). Diese Repräsentation der Bedeutung erfolgt in domänen- und anwendungsspezi- fischen Templates. Die IE kann als ein Prozess der Normalisierung von Freiform-Texten in eine formalsemantische Struktur aufgefasst werden. Um ein IE-System zu realisieren, sind entsprechende sprachenspezifische Ressourcen (Lexikon, Grammatik) und Parsing- Software notwendig.

(2)

Die generelle Verwendbarkeit der IE-Technik für militärische Zwecke wurde im SOKRATES-Prototyp gezeigt. In diesem Prototypen werden geschriebene Gefechtsfeld- meldungen in deutscher Sprache inhaltlich analysiert, in Merkmalsstrukturen repräsen- tiert und mittels einer Ontologie inhaltlich angereichert (s. [CE04, Fre04, Hec03b, Hec03a, Hec04c, Hec04a, Hec04b, Sch03a, Sch03b]). Danach werden die Analyseergeb- nisse in der militärischen C2IEDM-Datenbank abgelegt und führen zur automatischen Anpassung des taktischen Lagebildes. Die im SOKRATES-Projekt gewonnenen Erkennt- nisse bilden die Grundlage für das im Folgenden vorgestellte Projekt ZENON1.

2 Informationsextraktion aus militärischen Meldungen

Die Bundeswehr beteiligt sich an friedenserhaltenden, stabilisierenden und friedenserzwingenden Operationen. Dieses veränderte Einsatzspektrum führt zu neuartigen Meldungsinhalten. Standen früher Gefechtsfeldmeldungen - Meldungen über feindliche Bewegungen, Truppeneinsätze, etc. - im Vordergrund, beinhalten heutige Meldungen, die in den neuen Einsätzen auftreten, ein sehr viel breiteres inhaltliches Spektrum. Neben Beschreibungen von Konflikten zwischen Volksgruppen, Spannungen zwischen politischen Kräften, Informationen über Infrastrukturproblemen, etc. finden sich auch Meldungen, die Einzelpersonen betreffen. Aussagen der Form ’A trifft B’,

’A heiratet C’, ’A erschießt B’, usw. enthalten Informationen über Aktivitäten und involvierte Personen. Diese Informationen, ergänzt mit Orts- und Zeitangaben, können zu einem Personen-Aktivitäten-Netz zusammengefasst werden und sind damit für den Analysten von besonderem Interesse.

Das Ziel des Projektes ZENON ist die Realisierung eines Prototypen zur automatisierten Analyse solcher Meldungen mit nachfolgender Erstellung eines navigierbaren Personen- Aktivitäten-Netzes. Um das Ziel zu erreichen, sind folgende Arbeitsschritte notwendig:

1. Realisierung der IE-Komponente mit:

• Aufbau des Lexikons

• Entwurf der Merkmalsstrukturen zur Semantikrepräsentation

• Realisierung der Transducer

2. Zusammenführen der personen- und aktivitätsspezifischen Informationsteile 3. Realisierung einer Funktionalität zur Navigation in der grafischen Repräsentation

des Ergebnisses

4. Implementierung des Gesamtsystems

5. Aufbau des KFOR-Textkorpus für die quantitative Evaluation

1Zenon von Kition (336-264 v. Chr.), Philosoph, Gründer der Stoa

(3)

Da die überwiegende Mehrzahl der Meldungen in englischer Sprache abgefasst ist, wurde GATE als Tool-Box gewählt (s. [CMBT02]). GATE bietet vordefinierte Transducer für die Erkennung verschiedener Eigennamen im Englischen, eine Erkennung der englischen Verbalphrasen, einen Gazetteer (arbeitet auf Listen von Namen), einen POS-Tagger, etc.

GATE wird auch als Annotierungstool eingesetzt (s. unten).

Als Ausgangspunkt für die Entwicklung des ZENON-Prototyps dienen reale Texte aus dem KFOR-Einsatz der Bundeswehr. Hinzu kommt eine Liste der Ortsnamen aus dem Einsatzgebiet.

Die bisherigen Arbeiten konzentrierten sich auf die Realisierung des IE-Moduls. Es wurden die Transducer zur Erkennung der Namen folgender Entitäten entwickelt:

City, Company, Coordinates, Country, CountryAdj, Currency, Date, GeneralOrg, MilitaryOrg, Number, Percent, Person, PoliticalOrg, Province, Region, River, Time und Title. Darüber hinaus wurden die von GATE mitgelieferten Transducer zur Erkennung der Verbalphrasen geändert und erwei- tert. Neben finiten und nicht-finiten Verbausdrücken werden auch Modalverbkonstruktio- nen, Partizipien und spezielle zusammengesetzte Verben erkannt.

Zur Repräsentation der Semantik werden Merkmalsstrukturen (typed feature structures) verwendet. Die aus dem SOKRATES-Projekt vorhandenen anwendungsspezifischen Merkmalsstrukturen müssen an die geänderte Textsorte angepasst werden (s. [Hec04c, S. 14ff]). Zur Weiterverarbeitung der Strukturen werden diese in XML codiert.

Die Fülle der gefundenen Aussagen zu Personen, Aktivitäten, Orten und Zeiten muss analysespezifisch geordnet, zusammengefasst und ausgewertet werden. Hierzu dient das Tool Information Extraction Presentation System (IEPS, s. [Hec04d]), das Mengen von Dokumenten zu Szenarien zusammenfasst und mit Hilfe von Filtern die gewünschte Ana- lyse durchführt. Die durch die Filter beschriebenen Transformationen sind mittels XSLT realisiert. Das Analyseergebnis kann grafisch dargestellt und interaktiv navigiert werden.

Das vorhandene Tool wird in den ZENON-Prototypen integriert.

3 Der KFOR-Korpus

Grundlage für die Realisierung des Projektes ZENON sind 4.498 militärische Meldun- gen (zumeist in englischer Sprache) aus dem KFOR-Einsatz der Bundeswehr. Aus diesen Meldungen wird z.Zt. ein spezialisierter Mikro-Textkorpus (s. [MW01, S. 191]) erstellt.

Dieser KFOR-Korpus umfasst 886.000 Token und enthält die Annotationen in verschiede- nen Schichten (s. [Hec05]). Folgende Schichten sind vorhanden:

• Original markups: Hier werden die Teile der Meldung annotiert, die bereits for- matiert vorliegen. Hierunter finden sich Angaben zu Empfänger, Thema, Quelle, etc.

• Token: Diese Schicht enthält die Annotationen, die der Tokenizer und der POS- Tagger liefern.

(4)

• Gazetter: Hier werden die Ausdrücke ausgezeichnet, die über Namenslisten identi- fiziert wurden.

• Sentence: Diese Annotationen verweisen auf Sätze und Kommentargrenzen.

• Named entities: Hier werden verschiedene Eigennamen (s. oben) ausgezeichnet.

Diese Annotationen basieren u.a. auf der Gazetteer-Schicht.

• Verbalgruppe: Die im Englischen vorkommenden verbalen Ausdrücke werden gekennzeichnet.

Bei der Erstellung des Korpus werden die aufgelisteten Schichten automatisiert vor- annotiert. Diese Vorannotierungen werden dann manuell überprüft und korrigiert. Zur Vorannotierung und zur manuellen Annotierung wird ebenfalls GATE verwendet. Der Korpus liegt im GATE-spezifischen Format vor. Die Entwicklung eines nicht GATE- spezifischen allgemeineren Formats in Form einer stand-off Annotation ist in Arbeit.

Für folgende Zwecke werden die militärischen Meldungen und der KFOR-Korpus ver- wendet:

1. Sie stellen die Grundlage für die Konstruktion der IE-Komponente dar. Auf diese Texte werden das Lexikon und die Transducer hin optimiert.

2. Nach erfolgter Realisierung des ZENON-Systems kann die Erkennungsleistung der IE relativ zum KFOR-Korpus quantitativ evaluiert werden.

3. Der KFOR-Korpus ist so allgemein gehalten, dass auch andere Untersuchun- gen (z.B.: Komplexität der Nominalphrasen, Wortlesartendisambiguierung, maschinelles Lernen von grammatikalischen Strukturen, ...) ihn verwenden kön- nen.

4 Ausblick

Nach Erstellung des KFOR-Korpus können quantitative Aussagen über die Leistungs- fähigkeit des implementierten ZENON-Systems gemacht werden. Zur möglichen Leis- tungssteigerung sind bereits Erweiterungen durch eine Integration von WordNet, eine da- rauf aufbauende Ontologie und eine detailliertere semantische Analyse der Zeitbezüge der identifizierten Aktivitäten ins Auge gefasst.

Literaturverzeichnis

[AI99] D. E. Appelt and D. J. Israel. Introduction to Information Extraction Technology: A Tutorial Prepared for IJCAI-99. 1999.

(5)

[CE04] X. Casals Elvira. Translation from Semantically Enriched Linguistic Representations to SQL Statements for the Project SOKRATES. FKIE-Bericht Nr. 76, Forschungs- gesellschaft für Angewandte Naturwissenschaft e.V. (FGAN), Wachtberg, Germany, 2004.

[CMBT02] H. Cunningham, D. Maynard, K. Bontcheva, and V. Tablan. GATE: A framework and graphical development environment for robust NLP tools and applications. In Proceedings of the 40th Anniversary Meeting of the Association for Computational Linguistics, Philadelphia, U.S.A., 2002.

[Fre04] M. L. Frey. Modular Framework for Military Report Processing. FKIE-Bericht 73, Forschungsgesellschaft für Angewandte Naturwissenschaft e.V. (FGAN), Wachtberg, Germany, 2004.

[Hec03a] M. Hecking. Analysis of Free-form Battlefield Reports with Shallow Parsing Tech- niques. In Proceedings of the RTO IST Symposium on ’Military Data and Information Fusion’, Prague, Czech Republic, Best Paper Award, 2003.

[Hec03b] M. Hecking. Information Extraction from Battlefield Reports. In Proceedings of the 8th International Command and Control Research and Technology Symposium (ICCRTS), Washington, DC, U.S.A., 2003.

[Hec04a] M. Hecking. How to Represent the Content of Free-form Battlefield Reports. In Pro- ceedings of the 2004 Command and Control Research and Technology Symposium, San Diego, California, 2004.

[Hec04b] M. Hecking. Improve Interoperability by Formalizing the Natural Language Parts of Military Messages. In Proceedings of the Information Systems Technology Panel Sym- posium (IST-042/RSY-014) ’Coalition C4ISR Architectures and Information Exchange Capabilities’, The Hague, The Netherlands, 2004.

[Hec04c] M. Hecking. Informationsextraktion aus militärischen Freitextmeldungen. FKIE- Bericht Nr. 74, Forschungsgesellschaft für Angewandte Naturwissenschaft e.V.

(FGAN), Wachtberg, Germany, 2004.

[Hec04d] M. Hecking. Specification of the Information Extraction Presentation System - Version 1.0. Forschungsgesellschaft für Angewandte Naturwissenschaft e.V. (FGAN), unveröf- fentlicht, 2004.

[Hec05] M. Hecking. KFOR-Korpus – Annotierungsvorschrift. Forschungsgesellschaft für Angewandte Naturwissenschaft e.V. (FGAN), unveröffentlicht, 2005.

[MW01] T. McEnery and A. Wilson. Corpus Linguistics. Edinburgh University Press, Edin- burgh, 2nd edition edition, 2001.

[oD01] Department of Defense. Network Centric Warfare - Report to Congress, 27 July 2001.

[Paz99] M. T. Pazienza, editor. Information Extraction. Springer, Berlin, 1999.

[Sch03a] U. Schade. Ontologieentwicklung für Heeresanwendungen. FKIE-Bericht Nr. 57, Forschungsgesellschaft für Angewandte Naturwissenschaft e.V. (FGAN), Wachtberg, Germany, 2003.

[Sch03b] U. Schade. Towards an Ontology for Army Battle C2 Systems. In Proceedings of the 8th International Command and Control Research and Technology Symposium (IC- CRTS), Washington, DC, U.S.A., 2003.

[Ste96] H. J. M. Steeneken. Potentials of Speech and Language Technology Systems for Military Use: an Application and Technology Oriented Survey. Technical Report AC/243(Panel 3)TP/21, NATO, 1996.

Referenzen

ÄHNLICHE DOKUMENTE

, Enthaltene Daten- banken ABDA-Datenbank mit ABDA-Artikelstamm (Taxe), ROTE LISTE®, Gelbe Liste, Austria-Codex, Codex Galenica mit Anbin-. dung an compendium.ch,

“Ethnic minorities, particularly the Roma community, suffer from discrimination in various spheres of economic, social and cultural life. The situation of people with disabilities

It is necessary to do this for humanitarian reasons, and furthermore, to make possible the path to a residence permit for Syrian nationals who have been affected by the civil war

Diese Vorschrift gilt für indische Unternehmen und für ausländi- sche Unternehmen, die eine ertragsteuerliche Betriebsstätte in Indien haben, zum Beispiel weil sie eine Montage

In Gesprächsrunden mit deutschen Firmenvertretern, die im jeweiligen Ge- biet ansässig sind, werden zudem Chancen sowie auch potenzielle Herausforderungen bei der Ex-

September 2021 auf die bereits bestehenden Herstellerverpflichtun- gen in Frankreich ein und geben einen Überblick über die zahlreichen gesetzlichen Änderungen, die für das Jahr

November 2021 zur Überwachung der Ausfuhr bestimmter Impf- stoffe und bestimmter Wirkstoffe, die zur Herstellung solcher Impfstoffe verwendet werden, hat die

Auf die im Bereich der Intrahandelsstatistik (Erfassung des innergemeinschaftlichen Warenverkehrs) für das Berichtsjahr 2022 eintretenden Änderungen wird nachfolgend hingewiesen:.. 