Unterscheidung verschiedener NER-Verfahren

3. Natural Language Processing

3.4 Unterscheidung verschiedener NER-Verfahren

Die Computerforschung, die darauf abzielt, Named Entities in Texten automatisch zu identifi-zieren, besteht aus einer immensen Auswahl an Verfahrensarten, Sprachmodellen und Algo-rithmen (vgl. Nadeau/Sekine 2007: 1). Wie in Kapitel 2 erläutert wurde, kann NER nicht expli-zit einer Verfahrensart zugeordnet werden, da die Identifikation von Akteuren in Texten auf allen vorgestellten Weisen möglich ist. Diese reichen von handgefertigten Definitionen bis hin zu Ansätzen des maschinellen Lernens.

Diktionär- und regelbasierte NER-Methoden identifizieren Eigennamen anhand menschlich de-finierter Wörterbücher oder logischer Regeln, die auf bestimmte Merkmale der Wörter abzielen (vgl. Eftimov et al. 2017: 5). Alle anderen Verfahren zur Informationsextraktion setzen auf den Gebrauch von machine learning und deep learning Algorithmen (vgl. Li et al. 2020: 4).

Unüberwacht lernende Algorithmen eignen sich besonders um neue, domänenspezifische NE-Klassen zu erkennen. Die überwacht lernenden Algorithmen hingegen basieren auf Trainings-beispielen aus annotierten Textkorpora, die von menschlichen Experten erstellt werden. Ein Beispiel hierfür liefert die Abbildung 13, in der dargestellt ist, wie die vorhandenen Eigenna-men anhand ihrer Position im Satz gekennzeichnet und die Informationen zu ihrer jeweiligen Klasse mitgeliefert werden.

Abb. 13: Beispielhafte NE-Annotation eines Trainingstexts (Quelle: Eigene Darstellung in Anlehnung an Shelar et al. 2020:8)

Nach dem Training mit solchen annotierten Daten werden von dem Algorithmus Vorhersage-modelle erzeugt, mit denen sie in anderen Texten die Eigennamen erkennen und deren entspre-chenden Klassen bestimmen können (vgl. Eftimov et al. 2017: 5).

34 Für deutsche Analysen wurden diese überwachten ML-Algorithmen zu Beginn mit annotierten Nachrichtenartikeln der Frankfurter Rundschau trainiert (vgl. Faruqui/Padó 2010: 130). Nach und nach wurden zusätzliche Medientitel in den Trainingssatz hinzugefügt, ebenso wie deut-sche Wikipedia-Einträge, Tweets und YouTube-Kommentare (vgl. Li et al. 2020: 2). In engli-schen Datensätzen wurden darüber hinaus IBM-Computerhandbücher, Pflegehinweise und transkribierte Telefongespräche annotiert (vgl. Taylor et al. 2003: 5).

Bei einer Ausarbeitung von Augenstein et al. wurden 19 verfügbare Trainingskorpora vergli-chen und zahlreiche Unterschiede herausgearbeitet. Die verschiedenen annotierten Textdaten unterscheiden sich nicht nur in ihrem generellen Umfang, sondern auch in der Zusammenset-zung der dort auftretenden Eigennamen. Diese ZusammensetZusammenset-zung der Texte stellt einen we-sentlichen Einflussfaktor beim Training der Algorithmen dar und der gewählte Textkorpus wirkt sich erheblich auf die Leistung der damit trainierten Algorithmen aus (vgl. Augenstein et al. 2017: 76).

Tabelle 2 soll beispielhaft darstellen, wie verschieden die verfügbaren Korpora sind und wie unterschiedlich die Ausgewogenheit der darin vorkommenden Eigennamen ausfallen kann:

Tab. 2: Vergleich verschiedener Textkorpora

(Quelle: Komprimierte Darstellung in Anlehnung an Augenstein et al. 2017: 63)

Dadurch, dass in einem Textkorpus das Vorkommen von Personen-, Organisationen- und Orts-namen unterschiedlich hohe Anteile aufweist, kann auch die Klassifikationsleistung in den je-weiligen NE-Klassen uneinheitlich ausfallen (vgl. Maynard et al 2016: 35). Das bedeutet, dass das gleiche NER-Verfahren möglicherweise sehr gute Ergebnisse bei der Klassifikation von

‚Orten‘ in Texten erzielt, aber eine weitaus schlechtere Leistung bei der Erkennung von ‚Per-sonen‘ aufweisen kann, weil im Trainingskorpus dazu weniger Lernbeispiele enthalten waren.

Es ist auch entscheidend aus welcher Zeit die Textdaten der Korpora stammen und ob viele verschiedene Textsorten darin vorkommen oder nur spezifische Genres, da dies ebenfalls die Art und Vielfalt der vorkommenden Named Entities bestimmt (vgl. Augenstein et al. 2017: 80).

Textsammlungen von Nachrichtenagenturen stellen dabei eine beliebte Trainingsgrundlage dar, weil sie eine hohe Informationsdichte mit einer großen Proportion an Eigennamennennungen aufweisen (vgl. ebd.).

Korpusname Genre Entitäten PER LOC ORG

CONLL Nachrichtenartikel 20.061 6.600 7.140 6.321 OntoNotes MZ Magazintexte 8.150 2.895 3.569 1.686 MSM 2013 Twitter Beiträge 2.815 1.660 575 580 ACE CTS Telefonkonversationen 2.667 2.256 347 64 ACE WL Weblogs 1.716 756 411 549 MUC 7 Nachrichtentexte 552 98 172 282

35 Doch auch die Themenzusammensetzung der Trainingskorpora kann entscheidend für die Er-gebnisqualität des Algorithmus sein. Wenn dieser beispielsweise mit Zeitungsartikeln aus dem Bereich Wirtschaft und Politik trainiert wurde, kann er möglicherweise in Nachrichtentexten der gleichen Sparte präziser Eigennamen identifizieren, als in Interviews oder Beiträgen im Feuilleton.

Zusätzlich verweisen Li et al. darauf, dass auch aufgrund von unterschiedlich annotierten Trai-ningsdaten Verzerrungen bei der Leistung unterschiedlicher NER-Verfahren auftreten können.

In ihrem Beispiel weist der Eigenname ‚Baltimore‘ in einem annotierten Trainingsdatensatz die Kennzeichnung ‚LOC‘ auf, da es sich um einen Ort in den USA handelt. Derselbe Eigenname wurde jedoch in einem anderen Trainingskorpus als ‚ORG‘ gekennzeichnet, weil das Wort da-rin in dem Kontext ‚Baltimore defeated the Yankees‘ einen Sportclub bezeichnet (vgl. Li et al.

2020: 15).

Gegenwärtig kann nicht sichergestellt werden, dass alle verfügbaren Textdaten einer Sprache einheitlich gekennzeichnet wurden (vgl. ebd.). Im Jahre 2014 wurden für die deutsche Sprache Guidelines entwickelt, um konsistent zu annotieren (vgl. Benikova et al. 2014: 2524). In diesen Richtlinien ist festgehalten, wie Named Entities zu kennzeichnen sind, sowie grundsätzliche Bestimmungen wie die Tatsache, dass Artikel, Titel und Anreden nicht Teil von Eigennamen sind (vgl. ebd.: 2529). Ältere deutsche annotierte Textkorpora können jedoch davon abweichen.

Vor allem bei dem Umgang mit ineinander verschachtelten Eigennamen, sogenannten Nested NEs. Beispiele hierfür sind Orte oder Personennamen innerhalb von Vereins- und Organisati-onsbezeichnungen, wie beispielsweise ‚SV Werder Bremen‘ oder ‚Heinrich-Böll-Stiftung‘ so-wie der dargestellte Eigenname in Abbildung 14.

Abb. 14: Verschachtelter Eigenname

(Quelle: Eigene Darstellung in Anlehnung an Rössler 2007: 48)

In Abhängigkeit der erlernten Klassifikation kann das entsprechende NER-Verfahren beispiels-weise das Museum, nur die Schule oder nur den Ort als NE extrahieren (vgl. Rössler 2007: 48).

Je nachdem, wie solche eingebetteten NEs in den Trainingsdaten berücksichtigt werden, kann dies zu widersprüchlichen Ergebnissen bei der Anwendung unterschiedlicher NER-Verfahren führen (vgl. Rössler 2007: 49).

36 Die Art der Datenannotation sowie die genutzten Trainingstexte von NER und zahlreichen an-deren NLP-Prozessen stellen somit ein elementares Unterscheidungsmerkmal der verschiede-nen Verfahren dar.

Neben diesen Variationen innerhalb der verfügbaren Trainingskorpora, unterscheiden sich auch die grundsätzlichen ML-Algorithmen, die für NER ebenso wie für tagging und parsing einge-setzt werden, da sie auf verschiedenen statistischen Modellen beruhen. Eine detaillierte Erklä-rung ihrer Funktionsweise geht über den Rahmen der Arbeit hinaus. Dennoch soll ein verdich-teter Überblick darüber gegeben werden, welche Arten von Algorithmen existieren, da sie viel-fach in der computerlinguistischen Fachliteratur erwähnt werden und ein Kommunikationswis-senschaftler bei der Auswahl eines NER-Verfahrens mit diesen Begrifflichkeiten konfrontiert wird.

Die ML-Algorithmen unterscheiden sich auf mehreren Ebenen. Eine bereits thematisierte Hauptdifferenzierung ist die Tatsache, ob sie überwacht oder unüberwacht lernen. Zusätzlich wird unterschieden, ob die Lernalgorithmen ihre Entscheidungen mittels Regression, Klassifi-kation oder Clustering treffen (vgl. Gilch/Schüler 2019: 36). Davon hängt letztlich das Vorher-sagemodell ab, welches genutzt wird, um Satzbestandteile korrekt zu identifizieren und klassi-fizieren. In der Anwendungsliteratur werden häufig Modelle wie Naive Bayes, Support Vector Machines (SVMs), Hidden-Markov-Modelle (HMM) oder bedingte Zufallsfelder, sogenannte Conditional Random Fields (CRFs) für NLP-Aufgaben eingesetzt (vgl. Song et al. 2018: 22).

Abbildung 15 visualisiert die beschriebene Unterscheidung stark simplifiziert und listet in grün mögliche algorithmische Modelle auf.

Abb. 15: ML-Algorithmen in NLP-Prozessen

(Quelle: eigene Darstellung in Anlehnung an Galimberti 2017 - https://bit.ly/30sPyXO)

Obwohl Naive Bayes oder lineare Regression aus recht simplen algorithmischen Ansätzen be-stehen, eignen sich bei bestimmten Verfahren sehr gut. Sie übertreffen bei

Klassifikationsauf-37 gaben sogar komplexere Algorithmen, wie SVM, weil sie weniger zu overfitting, der Überan-passung an die Testdaten, neigen (vgl. Stoll et al. 2020: 120).

Die für NER häufig eingesetzten bedingten Zufallsfelder (CRF) wiederum sind in einigen Be-reichen effektiver als beispielsweise HMM, da sie nicht von der Unabhängigkeit der einzelnen Token ausgehen, sondern den Kontext miteinbeziehen (vgl. Song et al. 2018: 24).

Kein einzelner Algorithmus eignet sich dabei ideal für alle NLP-Einsatzbereiche, da dies immer von den zu bearbeitenden Daten abhängt (vgl. Rudkowsky et al. 2018: 145). Es können jedoch auch mehrere Lernalgorithmen kombiniert werden, um eine bessere Leistung zu erzielen, als dies mit jedem der einzelnen Algorithmen für sich möglich wäre (vgl. Eftimov et al. 2017: 5).

In Abb. 14 sind außerdem künstliche neuronale Netze aufgeführt, diese Convolutional und Recurrent Neural Networks gelten heutzutage in der Informatik als state-of-the-art Werkzeug für die Textverarbeitung und sind aktuell das Kernforschungsgebiet für Lösungsansätze der Computerlinguistik (vgl. Stoll et al. 2020: 130). Es handelt sich dabei um fortgeschrittene, viel-schichtige Netze, die, ähnlich wie die Neuronen eines Gehirns, eine Vielzahl an Reizen verar-beiten und unterschiedlich gewichten können (vgl. Lane et al. 2019: 156). Viele der verfügbaren NLP-Verfahren setzen solche künstlichen Netzwerke in Kombination mit anderen ML-Techni-ken ein und optimieren dadurch vorhandene Systeme der Informatik und Computerlinguistik wesentlich (vgl. Yadav/Bethard 2019: 1).

Es wird deutlich, dass zahlreiche Herausforderungen bei der maschinellen Verarbeitung menschlicher Sprache sowie der Erkennung und Klassifikation von Eigennamen in Texten be-stehen. Nachdem die verschiedenen Einflussgrößen hinter NER dargestellt wurden und erkenn-bar wurde, wie komplex und vielfältig die zugrundeliegenden ML-Algorithmen sind, erfolgt im nächsten Kapitel die Auswahl eines konkreten NER-Verfahrens.

Im Dokument Masterarbeit. Validierung eines NER-Verfahrens zur automatisierten Identifikation von Akteuren in journalistischen Texten (Seite 39-44)