• Keine Ergebnisse gefunden

4.7 Adverbien und Adjektive

5.1.3 Ansätze und Systemarchitekturen

unterscheiden sich die verschiedenen Klassen von Ortsnamen deutlich. Länder- und Sied-lungsnamen weisen wenig interne Evidenz auf, Straßennamen dagegen sehr viel, vgl. Kap.

3.2.1.1, 5.1.5.3.1.1 und B.2.

5.1.2.3 Die Diskursebene: One-Sense-per-Document und Learn-Apply-Forget

Die Annahme, das die Bedeutung eines Wortes innerhalb eines Diskurses oder Textes kon-stant ist (‚one-sense-per-document‘) wurde von (Gale, Church & Yarowsky 1992) untersucht und weitgehend bestätigt: „We conclude that with probability about 94% (51/54), two pol-ysemous nouns drawn from the same article will have the same sense.“ Auch Rössler (2004) hat festgestellt, dass imCoNLL-2003-Shared-Task-Korpus 93,5% aller Eigennamen(-be-standteile) innerhalb eines Dokuments eindeutig sind. Ambiguitäten innerhalb eines Texts resultieren hier aus Namen wieDeutsche Bank, Philip Morris.

Das One-Sense-Per-Document-Prinzip wird von der Methode ‚Learn-Apply-Forget‘ (LAF) genutzt. Dabei bleibt ein Name, der mit ausreichendem Kontext vom System „gelernt“ wur-de, noch eine Weile in dessen „Gedächtnis“, bis er schließlich „vergessen“ wird. Das System verwendet also ein dynamisches Lexikon. Als geeignete Parameter wählten Volk & Clematide (2001) eine Verweildauer von 15 Sätzen im Gedächtnis, die mit jeder neuerlichen Erwähnung um 5 Sätze verlängert wird. Das System erlaubt homonyme Namen, die verschiedenen Klas-sen angehören. Dies widerspreche der „one-Klas-sense-per-document“-Hypothese: „Note that this algorithm allows a name to belong to different classes within the same document. We have observed this in our corpus especially when a company name is derived from its founder’s name and both are mentioned in the same document. [. . .] These findings contradict the one-sense-per-document hypothesis [. . .]“ (Volk & Clematide 2001).142

One-Sense-Per-Document bzw. Learn-Apply-Forget sind mit Sicherheit brauchbare Strategi-en. Eine Vielzahl von Systemen basierend auf lokalen Grammatiken (Friburger 2002, Mallchok 2005) und zur Erkennung deutscher Toponyme (Piskorski & Neumann 2000, Volk & Clema-tide 2001, Rössler 2002) verwenden diese Strategie. Gerade für Toponyme sollte die Strategie aber nicht überbewertet werden: ein guter Gazetteer ist wichtiger und auf die Beschreibung der externen Kontexte ist Apply-Forget ohnehin angewiesen. Gut geeignet ist Learn-Apply-Forget mit Sicherheit zur Disambiguierung von ambiguen Toponymen (Geokodierung, siehe Kap. 5.2).

und einander gegenübergestellt. Eine solche binäre Einteilung bedeutet eine Vereinfachung, eine genauere Beschreibung bedarf vielmehr einer Reihe von Parametern wie die Regeln und Strategien, auf denen das System basiert, erworben, repräsentiert und angewandt werden:

Aneignung: die Eingabe der Regeln in das System kann entweder durch den menschlichen Experten erfolgen, oder die Regeln werden aus geeigneten Daten automatisch mittels geeigneter Algorithmen abgeleitet („erlernt“ oder „trainiert“).

Repräsentation: die Regeln sind explizit repräsentiert (symbolische Systeme) oder nur im-plizit (subsymbolische Systeme). Eine Eingabe der Regeln durch den Menschen setzt eine symbolische Repräsentation voraus. Statistische System halten die Regeln oft in subsym-bolischer Repräsentation vor, aber nicht immer (z.B. Brill 1993).

deterministisch vs. stochastisch: ein stochastisches System erlaubt, dass Wahrscheinlichkei-ten (oder ‚Gewichte‘) bei der Lösung/Erkennung berücksichtigt werden, ein deterministi-sches System kennt nur binäre Entscheidungen.

supervised – unsupervised: müssen die Daten zum „Trainieren“ eines Systems neben der Eingabeseite auch die Ausgabeseite (in der NER die Annotationen) enthalten, spricht man von einem „überwachten“ (supervised) System. „Unüberwachten“ Systemen (unsu-pervised) „genügt“ dagegen nicht annotiertes Sprachmaterial. Daneben gibt Ansätze –

„semi-supervised“ genannt, die sowohl annotierte als auch unannotierte Daten nutzen.

Vgl. Nadeau & Sekine (2007: 7–11) für eine Diskussion der drei Begriffe supervised, semi-supervised und unsemi-supervised.

Im Folgenden werden diejenigen Systeme „statistische“ genannt, die an geeigneten Daten trai-niert werden, und sich dabei statistischen Modellen oder Verfahren des maschinellen Lernens bedienen. Bei „regelbasierten“ Systemen erfolgt die Kodierung der Regeln dagegen durch den Menschen.

5.1.3.1 Statistische Systeme

Statistische Systeme versuchen die Regeln zur Erkennung von Eigennamen aus einem an-notierten Korpus abzuleiten. Die Merkmale, die für die Regeln herangezogen werden, unter-scheiden sich bei aktuellen Systemen kaum von den in lokalen Grammatiken verwendeten (siehe S. 18). Florian et al. (2003) berücksichtigen z.B. neben den Wortformen die Grundfor-men, Wortarteninformation, Präfixe und Suffixe, Merkmale wie ,erster Buchstabe groß‘, ,alle Buchstaben groß‘, ,zweistellige Zahl‘ und nutzen zusätzlich große Listen mit Orts-, Personen-und Organisationsnamen. Die Regeln des Systems sind dann Muster, aus den oben genannten Merkmalen kombiniert im Kontext von bis zu fünf Wörtern.

Ein Vorzug der statistischen Systeme und eine übliche Kritik an regelbasierten Systemen lautet, dass die Kosten für das monatelange Schreiben und Testen der Regeln durch Experten zu hoch seien, zumal sich der Aufwand bei jeder Anpassung des Systems an eine neue Sprache oder ein weiteres Genre wiederholt: „Die Entwicklung rein lernbasierter NLP-Komponenten verspricht robuste und schnell entwickelbare Systeme, die den Entwickler vom mühsamen Handwerk des Regelschreibens befreien.“ (Rössler 2007: 61)

Allerdings ist der Aufbau von Resourcen, und zwar die Bereitstellung ausreichend großer annotierter Korpora, aus denen sich Regeln abgeleiten lassen, einer der kritischen Punkte beim Bau eines statistischen Systems. Roth (2002: 106) formuliert es folgendermaßen: „Um

also einausgefeiltes statistisches System zu bauen, werden wahrscheinlich ebenso Ressourcen an Zeit und Geld benötigt wie beim Bau eines leistungsfähigen regelbasierten Systems.“ Die Annotation der Korpora ist „ein nicht zu vernachlässigender“ Aufwand (107). Diese Aussage deckt sich mit meinen eigenen Erfahrungen bei der Annotierung eines Korpus oder den Versuchen, gute annotierte Korpora zu finden (vgl. Kap. 5.1.5.2.2). Rössler (2007: 90) schätzt den Aufwand zur Korpusannotation für ein „lernbasiertes“ System etwa gleich hoch ein wie das Schreiben von Regeln für ein regelbasiertes System. Um die Abhängigkeit von ausreichend großen und gut annotierten Korpora abzumildern, greifen statistische Systeme

• entweder auf Gazetteers zurück, nutzen also eine manuell erstellte Resource. So nutzen z.B. alle dokumentierten statistischen Systeme zur Erkennung deutscher geographischer Entitäten (vgl. Tab. 5.5) und alle Systeme, die am CoNLL-2003-Shared-Task teilnahmen, Gazetteers.

• oder es wird versucht, die Systeme (teilweise) mit unannotierten Daten zu trainieren (‚un-supervised‘ oder ‚semi-(‚un-supervised‘), oder Resourcen, z.B. Gazetteers, aus unannotiertem Textmaterial zu extrahieren (vgl. Riloff & Jones 1999, Uryupina 2003, Lee, Lee & Myaeng ed. 2005, Lee & Lee 2005, Erp 2006, Rössler & Morik 2005, Rössler 2007 und Kap. 5.3.1).

Durch den Rückgriff auf Gazetteers sind statistische Systeme dann aber auf gute, manuell erstellte Entitätenlisten angewiesen. Allerdings müssen bei der Erörterung der Frage „regel-basiert oder statistisch?“ auch weitere Faktoren Berücksichtigung finden, vgl. die Diskussion unter dem Stichwort „Korpusadaptivität“ in Rössler (2007: 84–97). Ein Vorteil statistischer Systeme ist, dass sich ihre Entwickler nicht um Standards zur Annotierung (Kap. 5.1.5.1) kümmern müssen: Trainings- und Testkorpora werden als bereits vorhanden vorausgesetzt.

Damit reduziert sich aber auch die gemeinsame Basis von Entwicklern und Nutzern des Sys-tems auf eben diese Korpora. Dass auf einem Korpus trainierte Systeme auf einem anderen Korpus versagen können, berichtet Leidner (2007: 179–80). Der verwendete NE-Tagger (Cur-ran & Clark 2003) erreichte beim CoNLL-2003-Shared-Task einen F1-Wert von 85% (LOC 88%), wird aber mit einem am MUC-7-Korpus trainierten NE-Sprachmodell ausgeliefert. Un-verändert angewendet auf die CoNLL-2003-Shared-Task-Daten erreicht das System nur einen F1-Wert von 53% (LOC 59%), obwohl beide Korpora ausschließlich Texte des Nachrichten-genres enthalten, also durchaus vergleichbar sind. Nicht zuletzt ist die Antwort abhängig von der Klasse der Entitäten: „Für den Einsatz der MUC Kategorien Zeit-, Datums- und Men-genangaben etwa, steht der erforderliche Zeitaufwand zur Annotation in keinem Verhältnis zur Effizienz der Entwicklung von Regeln.“ (Rössler 2007: 90)

Regelbasierte Systeme erreichen bislang üblicherweise bessere Ergebnisse als statistische Sys-teme. So liegen die Ergebnisse der besten regelbasierten Systeme, die an der MUC-6 und MUC-7(Sundheim 1995, 1996, Marsh & Perzanowski 1998) teilnahmen, mit einem um 5–7%

höheren F-Wert (siehe Kap. 5.1.4.1) deutlich vor den statistischen Systemen, die am CoNLL-2003-Shared-Task (Sang & De Meulder 2003) partizipierten. Dennoch stellen statistische Sys-teme seit Mitte/Ende der 90er Jahre das vorherrschende Paradigma in der NER und haben, zumindest was die Zahl der Publikationen angeht, die regelbasierten Architekturen an den Rand gedrängt.

5.1.3.2 Regelbasierte Systeme

Regelbasierte Systeme bedienen sich der in Kap. 5.1.2 beschriebenen Strategien. Die Re-geln, wie mittels der Strategien Named Entities erkannt und klassifiziert werden sollen, sind expliziert (‚symbolisch‘) repräsentiert. Sie sind von Menschen, meist Experten, die mit den sprachlichen Phänomenen und den Regelformaten vertraut sind, erstellt. Das schließt aber nicht aus, das die Regeln mit und anhand von Sprachmaterial entwickelt werden (‚data-driven development‘). Das gilt insbesondere für die Erarbeitung der notwendigen Listen und Lexika (Eigennamen und Trigger-Words).

Auf eine vollständige lingustische (syntaktische) Analyse verzichteten regelbasierte Systeme für die NER praktisch von Anfang an und stützen sich stattdessen auf Finite-State-Techniken, die bei der Anwendung auf große Textmengen mehr Effizienz versprechen.

Selbst für eine kurze Charakteristik verschiedener regelbasierter Systeme fehlt hier der Platz.

Friburger (2002: 30–1), Mallchok (2005: 38–48) und Rössler (2007: 54–60) vermitteln einen gu-ten Überblick. Stattdessen werden an dieser Stelle ausschließlich einige regelbasierte Systeme, die auf lokale Grammatiken als zentrale Resource zurückgreifen, vorgestellt.

5.1.3.2.1 NER mit lokalen Grammatiken Dass sich lokale Grammatiken als Mittel zur Named Entity Recognition eignen, demonstrieren die Systeme von Friburger und Mallchok.143 Beide nutzen lokale Grammatiken in Kombination mit einer Learn-Apply-Forget-Komponen-te (Kap. 5.1.2.3). Lokale Grammatiken beschreiben einerseits PatLearn-Apply-Forget-Komponen-tern für KandidaLearn-Apply-Forget-Komponen-ten von Named Enitities und andererseits Kontexte, die die Kandidaten bestätigen, ausschließen oder bzgl. einer NE-Klasse disambiguieren. Die Learn-Apply-Forget-Komponente dient dazu, alle Vorkommen der bestätigten Kandidaten inklusive ihrer Varianten innerhalb eines Textes/

Diskurses zu markieren.

Das von Friburger (2002, 2006; Friburger & Maurel 2001a,b, 2004) beschriebene System zur Erkennung von Named Entities und der Klassifikation in Personen, Organisation und Lokatio-nen bedient sich der EngineIntexzur Anwendung lokaler Grammatiken als Transduktoren.

Folgende Schritte werden dabei ausgeführt:

0. Vorverarbeitung

• Satzsegmentierung

• Tokenisierung

• Lexikon-Lookup (inkl. Eigennamenwörterbüchern)

• Markierung von Eigennamenkandidaten (Friburger 2002: 74)

– <CNP> („candidats noms propres“): Token, bestehend aus mind. zwei Buchstaben, der erste Buchstabe ist groß-, die folgenden können groß- oder kleingeschrieben sein – <CNPCA>: Kandidaten aus mehreren Token werden anhand von orthographischen

Pattern erkannt (O’Reilly, Mac Donald)

1. Transduktorenkaskade 1 – lokale Grammatiken beschreiben Kontexte für

143 Daneben seien noch erwähnt: Garrigues (1993, 1995), die zwar Kontexte lokativer Named Entities be-schreibt, aber von einem vollständigen NER-System weit entfernt ist (siehe S. 58), sowie Senellart (1998a,b) Personennamen und die Funktion der Person extrahiert. Senellart wurde bereits im Zusam-menhang mit dem Ansatz des Bootstrapping (S. 9) besprochen.

• Bestätigung oder Ausschluss von NE-Kandidaten

• Erkennung des NE-Typs (Person, Organisation, Ort)

2. Transduktorenkaskade 2 – basierend auf der One-Sense-Per-Document-Annahme (‚Learn-Apply-Forget‘) werden alle Vorkommen der in Schritt 1 erkannten Entitäten markiert, inklusive von generierten Varianten

Bei der Evaluierung anhand zweier Korpora erreicht das System einen F-Wert von über 93,5%. Die Ergebnisse für Lokationen sind dabei tendenziell besser als für die anderen bei-den Typen. Insbesondere der Recall ist mit über 96% sehr hoch und resultiert aus dem verwendeten, sehr vollständigen Toponymlexikon (Prolintex). Die beschriebenen Kontex-te für Toponyme beschränken sich auf Klassenbezeichner (la rivière de Tréguier, l’estuaire de la Seine) und Kombination mit Himmelsrichtungen (Afrique du Sud) und decken nur ein Fünftel aller Toponymvorkommen ab: „Seuls 20% des noms de lieux ont un contexte gau-che et quelques uns une preuve interne.“ (Friburger 2002: 94) Die meisten Toponyme werden deshalb allein durch das Lexikon erkannt. Als Konsequenz bleibt Schritt 2 (‚Learn-Apply-Forget‘) für Lokationen (fast) wirkungslos. In den zwei ausgewerteten Korpora führt er einmal (Le Monde) zu einer Verbesserung des F-Werts um 0,4%, das andere Mal (Ouest France) zu einer Verschlechterung um 0,1%. Für die beiden anderen NE-Klassen führt Schritt 2 zu ei-ner Verbesserung im F-Wert zwischen 0,8% (Ouest France) und 2,7% (Le Monde), und zwar durch eine deutliche Verbesserung des Recalls und nur eine geringfügige Verschlechterung bei der Precision. Der zentrale Bestandteil des Systems von Friburger bleiben damit die lokalen Grammatiken in Kombination mit einem guten Toponymlexikon.

Das von Mallchok (2005) zur Erkennung von Organisationsnamen in englischen Wirtschafts-nachrichten entwickelte System nutzt lokale Grammatiken mitUnitexals Engine zum „Ler-nen“ der Organisationsnamen. Der Workflow, die eigentliche Annotierung und Bearbeitung der gewonnenen Organisationsnamen (Säuberung, Grundformreduktion und Generierung von Akronymen) sind in der SkriptsprachePerlimplementiert. Die einzelnen Arbeitsschritte ge-stalten sich folgendermaßen:

0. Der zu bearbeitende Text (ein Zeitungsartikel) wird mitUnitexvorverarbeitet (Satzseg-mentierung, Tokenisierung). Beim Lexikon-Lookup werden neben den Standardwörterbü-chern auch Spezialwörterbücher mit Organisationsnamen, Städten und Ländern, Berufs-bezeichnern etc. verwendet.

1. Erkennung der Organisationsnamen anhand von externen wie internen Kontexten und einem Organisationsnamenslexikon mit 80 000 Einträgen. 113 Unitex-Graphen und ein Lexikon mit 21 000 Organisationsdeskriptoren beschreiben interne Kontexte, weitere 100 Graphen externe Kontexte wie Joint Ventures, Fusionen etc. Kontexte (85–100,109–150) sind z.B.: ACRONYM LAST_NAME & DESCRIPTOR DESCRIPTOR (MH Meyerson & Co Inc), LOCATION’s ORG_NAME (Singapore’s Changi Airport), PERSON of ORG_NAME(Rand V. A-raskog of ITT), ORG EXPRESSES (TIME)? JOINT-VENTURE with ORG (Advanced Tissue Sciences also said it has signed a joint venture agreement with Smith & Nephew Plc).

2. Nachbearbeitung der ermittelten Organisationsnamen

a) Für gefundene Organisationsnamen werden Initialabkürzungen generiert

b) Passende Silbenabkürzungen werden aus der Liste der potentiellen Organisationsnamen ermittelt

c) Die gefundenen Organisationsnamen werden „gesäubert“. Beseitigt werden vor allem typische Übergenerierungen lokaler Grammatiken, z.B. durch <PRE> erkannte großge-schriebene Wörter am Satzanfang, die als Artikel, Konjunktion usw. eindeutig nicht Teil des Organisationsnamens sein können.

d) Die Grundformreduktion für das Englische ist vergleichsweise simpel: ein apostrophier-tes ’s wird entfernt, aber nur wenn der Organisationsname im Text auch ohne ’s vor-kommt. Damit wird vermieden, dass z.B. Hershey’s fälschlich zuHershey lemmatisiert wird.

3. Markiere die gefundenen Organisationen sowie deren Akronyme und Abkürzungen im Text, sofern nicht negative Kontexte für ein konkretes Vorkommen vorliegen. Die Markie-rung erfolgt durch einen Automaten nach dem leftmost-longest-Prinzip.

Mallchok (2005) evaluiert ihr System an einem Korpus verschiedener Zeitungen, das insge-samt aus 125 000 Token besteht und gut 4 000 Vorkommen von Organisationsnamen enthält.

Precision, Recall und F-score liegen durchschnittlich etwa bei 94%, mit abweichenden Werten für einzelne Zeitungen.