Linguistische Annotationen als Explizierung sprachlicher Strukturen: Wortarten, Dependenzsyntax und Koreferenz

3 Fachspezifische Annotationsweisen in der Computerlinguistik und Kulturanthropologie

3.1 Linguistische Annotationen als Explizierung sprachlicher Strukturen: Wortarten, Dependenzsyntax und Koreferenz

Der computerlinguistische Zugang zu Annotationen ist vorwiegend deduktiv, ins-besondere, wenn die Annotationskategorien genuin linguistische Konzepte dar-stellen. Annotationen werden dann typischerweise aus theorie- oder datenbasier-ten Frameworks abgeleitet. Ein induktiver Aspekt liegt vor, wenn die Analyse-kategorien bei der Anwendung auf authentische Korpusdaten weiterentwickelt werden. Dies ist normalerweise der Fall, wenn ein Tag Set und explizite Annota-tionsguidelines erstellt werden, da theoriegeleitete Modellierungen die Vielfalt der sprachlichen Ausprägungen selten umfassend abdecken. Ähnliches gilt, wenn ein bestehendes Tag Set auf neue Texttypen angewendet wird, da sich verschie-dene Texttypen sprachlich unterscheiden, zum Beispiel das Vokabular und die Grammatik in standardsprachlichen Zeitungsartikeln gegenüber der Sprache von Transkripten aufgenommener Interviews mit Abbrüchen und Reparaturphänome-nen oder der kreativen Sprache und Vorstellungswelt in literarischen Texten.

Ein Tag Set listet die vorgesehenen Annotationslabels exhaustiv auf und ist Teil der Annotationsguidelines, in denen die zugrundeliegenden Analysekategorien definiert und anhand von Beispielen illustriert werden. Die Guidelines richten sich dabei sowohl an die Annotator*innen, indem sie konkrete Entscheidungshilfen für die Annotation problematischer Fälle geben z. B. in der Form von linguistischen Tests, als auch an mögliche Nachnutzer*innen der annotierten Texte, da sie im Verlauf des Annotationsprozesses getroffene Entscheidungen dokumentieren, z. B.

wenn ein sprachliches Phänomen sich keiner der vorgegebenen Labels eindeutig zuordnen lässt, aber für die vollständige Annotation eine eindeutige Entscheidung getroffen werden muss. Bei computerlinguistischen Annotationsvorhaben wird die Entwicklung der Guidelines als Pilotphase deklariert, bevor in der eigentlichen Annotationsphase auf der Basis eines dann konstant gehaltenen Annotations-schemas größere Textmengen annotiert werden. Der iterative und teils induktive

Prozess der Entwicklung von Annotationskategorien wurde in Anlehnung an den hermeneutischen Zirkel als Annotationszyklus² beschrieben (Lemnitzer und Zinsmeister 2015, 103 f.) bzw.MAMA cyclegenannt (Pustejovsky und Stubbs 2012), ein Akronym fürmodel-annotate-(evaluate, revise)-model-annotate. Für die Nach-nutzung im maschinellen Lernen ist er Teil der sogegenannten MATTER-Methode (Pustejovsky und Stubbs 2012, 23–32):model,annotate,train,test,evaluate,revise, in welcher dermodel-Schritt die Modellierung der Konzepte in den Annotationsgui-delines bezeichnet undtrainden Schritt des maschinellen Lernens auf der Basis der annotierten Daten. Resultat ist ein trainiertes Programm, mit dem neue Daten entsprechend weiterannotiert werden können. Das Testen dieses Programms kann zeigen, dass Revisionen in den Guidelines bzw. den bestehenden Annotationen nötig sind, die dann wiederum als Grundlage für weiteres maschinelles Lernen dienen können.

Für viele linguistische Beschreibungsebenen haben sich im letzten halben Jahrhundert etablierte Annotationsschemata entwickelt, mit denen Texte manuell und automatisch annotiert werden (z. B. Kučera und Francis 1967; Marcus et al.

1992 für Wortarten des Englischen; Schiller et al. 1999 für Wortarten des Deutschen).

Unterstützt wurde der Standardisierungsgedanke durch wissenschaftspolitische Strategieinitiativen wie die von der EU finanzierte Expert Advisory Group on Language Engineering Standards (Leech und Wilson 1996). Ein wichtiges Güte-kriterium dieser Art von Annotationen ist die intersubjektiv übereinstimmende und konsistente Anwendung der Annotationskategorien auf Texte (Leech 1997;

Pustejovsky und Stubbs 2012; Kübler und Zinsmeister 2015). Dieses produkt-orientierte Vorgehen lässt naturgemäß wenig Spielraum für Exploration von unbekannten Phänomenen.

Im Kontext von Projekten in den Digital Humanities, wie dem Projekt hermA, dienen linguistische Annotationen oftmals nicht dem Erkenntnisgewinn in Bezug auf linguistische Fragestellungen, sondern zur Explizierung sprachlicher Struk-turen, um von der Textoberfläche eine Brücke zum Inhalt des Textes zu erhalten.

Linguistische Annotationen werden hier nicht mit dem Anspruch durchgeführt, neue linguistische Analysekategorien zu entwickeln, sondern orientieren sich – um Texte linguistisch zu strukturieren – vorwiegend an bereits etablierten Annota-tionsguidelines. Das Annotieren ist daher stark deduktiv und produkt-orientiert ausgerichtet. Diese Perspektive auf Annotationen wird im Folgenden anhand von Beispielen manueller und automatischer linguistischer Annotationen im Projekt hermA verdeutlicht.

2 Siehe auch das Konzept des erweiterten hermeneutischen Zirkels in der Literaturwissenschaft (Gius und Jacke 2017).

Für die literaturwissenschaftlich motivierte Fragestellung nach der Charakteri-sierung von literarischen Figuren wurde ein Roman der Autorin Julie Zeh manuell mit linguistischen Koreferenzannotationen, bei denen die wiederholte Bezugnah-me auf die selbe Figur markiert wird, und automatisch mit Wortarten- und syntak-tischen Annotation annotiert. Das Ziel der automasyntak-tischen Annotation war, den gesamten Romantext syntaktisch zu erschließen, um Textstellen mit expliziter Attribution identifizieren zu können und – unterstützt durch das Produkt der ma-nuellen Koreferenzannotation – für einzelne Figuren des Werks zusammenfassen zu können (Andresen und Vauth 2018; Andresen et al. 2018). Explizite Attribution bezeichnet dabei syntaktisch prädikative Strukturen, bei denen ein nicht-verbales Prädikat einem syntaktischen Subjekt zugeordnet wird: In dem Beispiel „Rosen-treter ist ein guter Junge“, wird der Figur Rosen„Rosen-treter als syntaktisches Subjekt die Eigenschaft „ein guter Junge“ zu sein, attestiert, welches in diesem Satz als nominales Prädikativ annotiert ist. Die manuelle Annotation der Koreferenzanno-tation wurde auf der Basis von bestehenden AnnoKoreferenzanno-tationsguidelines (vgl. Rösiger et al. 2018) durchgeführt, die in der Pilotphase induktiv für die Fragestellungen des Projekts angepasst wurden. Im Projektinteresse standen die Figuren des Ro-mans, d. h. ausschließlich menschliche Akteure. Verschiedene Aspekte dieser Akteure z. B. die „innere Mia“ und die „äußere Mia“, die man als unterschiedli-che Referenten hätte konzeptualisieren können, wurden in einer gemeinsamen Koreferenzgruppe zusammengefasst. Referenzen über Eigenschaften wie „eine genervte Männerstimme“ oder Körperteile wurden als koreferent mit der damit bezeichneten Figur annotiert. Im induktiven Teil des Annotationsprozesses wur-den damit keine neuen Kategorien entwickelt, sondern bestehende und in der Literatur bereits ausführlich diskutierte Analysekonzepte im Sinne der Forschungs-frage und in Abgleich mit den zu analysierenden Daten modifiziert. Im Anschluss an die Pilotphase wurde der Rest des Korpus mit den dann festgelegten Guideli-nes vollständig annotiert. Beim weiteren Annotieren auftretende Ambiguitäten oder andere Unsicherheiten in der Analyse wurden diskutiert und falls möglich einer der bestehenden Analyseformen zugeordnet. Diese Entscheidungen wurden annotationsbegleitend dokumentiert. Hierbei zeigt sich die produkt-orientierte Grundmotivation der linguistischen Annotation, da die Dokumentation vor allem auch dazu dienen soll, einzelne Entscheidungen, die das Annotationsprodukt am Ende prägen, für mögliche Nachnutzer*innen nachvollziehbar zu machen.

Die automatische syntaktische Annotation wurde fast ausschließlich deduktiv, produkt-orientiert eingesetzt. Im Projekt wurde hierfür eine Pipeline aus Wortarten-Taggern und Dependenz-Parsern entwickelt, die auf einem bestehenden anno-tierten Korpus ergänzt um projektinterne Texte trainiert und für die Zielkategorie der nicht-verbalen Prädikation optimiert wurde (Adelmann et al. 2018 a,b). Der Optimierungsschritt beinhaltet auch prozess-orientierte Momente, da hier zwar

nicht die Kategorien modifiziert wurden, aber im Vergleich verschiedener Annotati-onsergebnisse, das optimale Tool für die geforderte Teilaufgabe identifiziert wurde.

Das Annotationsschema des zugrundeliegenden Trainingskorpus wurde dabei unverändert übernommen. Wie bereits ausgeführt, war das Ziel hier nicht die Wei-terentwicklung linguistischer Erkenntnisse, sondern eine produkt-orientierte Struk-turierung der Textmasse durch die Zusammenfassung von Textsequenzen im Sinne von relevanten syntaktischen Kategorien, um diese dann der Attributionsanalyse zuzuführen. Analog zur literaturwissenschaftlich motivierten Attributionsanalyse werden im Projekt hermA auch pflegewissenschaftliche und kulturanthropologi-sche Fragestelllungen über sogenannte Syntaxprofile erschlossen. Hierfür werden nicht nur die oben genannten nicht-verbalen Prädikationsstrukturen ausgewertet, sondern weiterführend alle Satzglied-Relationen erkundet, um Eigenschaften von Akteuren der Palliativpflege bzw. im Diskurs zur Telemedizin zu untersuchen (vgl.

Andresen et al. 2020). Der Einsatz der Annotationen ist hierbei wie oben dargelegt vorwiegend produkt-orientiert. Dies verhält sich anders, wenn die Disziplinen Text mit ihren eigenen Analysekategorien annotieren. Für die Kulturanthropologie wird dies im folgenden Abschnitt veranschaulicht.

3.2 Kulturanthropologische Annotationen im Kontext der

Im Dokument Annotations in Scholarly Editions and Research (Seite 103-106)