• Keine Ergebnisse gefunden

3 Automatische Extraktion lexikographischer Informationen

N/A
N/A
Protected

Academic year: 2023

Aktie "3 Automatische Extraktion lexikographischer Informationen"

Copied!
35
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

In dieser neuen Welt, die durch das Internet und die Informationstechnologie vorangetrieben wird, ist die Situation für die Lexikographie grundlegend anders. Das Archiv zur Neuauflage des Deutschen Wörterbuchs enthält mehr als 5,5 Millionen Belege zu den Buchstabenfolgen. In der für die deutsche Sprache implementierten Version des guten Evidenzfinders (Didakowski/Lemnitzer/Geyken 2012), der auch für die lexikografische Arbeit des DWDS verwendet wird, wird zwischen globalen und lokalen Kriterien unterschieden.

Die Methode kann zur Verteilungssemantik eingesetzt werden, indem zwei Wortprofile miteinander verglichen werden.

4 Integration unterschiedlicher Quellen

Aggregationsplattformen

Die beiden bekanntesten Wörterbuchsysteme, die auf der Aggregation externer Quellen im englischsprachigen Raum basieren, sind Dictionary.com13 und Wordnik. Beide basieren auf zuverlässigen Wörterbuchquellen, verknüpfen diese über das Keyword-Inventar und zeigen sie auf ihren jeweiligen Websites an ( und ).

Digitales Wörterbuch der deutschen Sprache (DWDS)

Es gibt aber auch voreingestellte Ansichten, etwa die Standardansicht, die Statistikansicht oder die Referenzkorpusansicht (siehe Abbildung 2). Insbesondere können Quellen redundante Informationen enthalten und dadurch die Darstellung verwirren, und zweitens können heterogene Informationen zu Inkonsistenzen führen. Beweise sind jedoch nicht nur in Wörterbüchern verfügbar, sondern auch in Gutbeweistafeln oder Korpustafeln.

Da alle Ressourcen unabhängig voneinander erstellt und weiterverarbeitet werden, lässt sich diese Redundanz nicht vermeiden, da für ein gegebenes Schlüsselwort ohne Kenntnis der Ressource nicht vorhergesagt werden kann, ob für ein Wort eine lexikografische Informationseinheit vorhanden ist oder, wie im Etymologischen Wörterbuch, Bedingte Paraphrasen und Erläuterungen lassen sich aufgrund der Erzählstruktur nicht sinnvoll vom übrigen Stoff trennen. Das zweite, gravierendere Problem besteht darin, dass es aufgrund der Unabhängigkeit der Quellen auch zu Widersprüchen kommen kann. Beispiele hierfür sind temporäre Informationen für eine Wortfolge im etymologischen Wörterbuch, die sich nicht in den Korpora widerspiegeln, (neue) Bedeutungen in den Korpora oder in den lexikalisch-semantischen Netzwerken, die nicht in den Wörterbüchern vorkommen – das ist es, was das Wörterbuch ausmacht Stoff hat WDG, vielfach noch von 1970.

Später auftauchende Bedeutungen, wie etwa die Artefaktablesungen von Maus oder Drucker, werden daher nicht berücksichtigt. Ein drittes Beispiel ist, dass das Wortprofil zahlreiche Kookkurrenzen und Kollokationen enthält, die nicht im Wörterbuch erfasst sind (Geyken 2011). Kapitel 8 zeigt, wie mit den Problemen der Redundanz und Inkonsistenz in DWDS umgegangen werden kann.

5 Der lexikographische Arbeitsplatz

Mit elexiko ist die Situation komfortabler, da IDS über eine eigene Korpusabteilung verfügt, die Tools zur Kollokationsextraktion anbietet und zudem über die OWID-Plattform an das lexikografische Redaktionssystem angebunden ist. Dabei wird Informationstechnologie-Know-how in das Projekt einbezogen, jedoch nur in dem Umfang gefördert, in dem die Wartung vorhandener Ressourcen und Akquiseprogramme abgedeckt sind. Dies hat den Vorteil, dass die Modellierung von Änderungen in lexikografischen Informationen oder während des Projektprozesses nicht durch einen externen Dienstleister erfolgen muss.

Diese größere Flexibilität bedeutet jedoch auch, dass im Design Kapazitäten für die Modellierung reserviert werden müssen. Dies ist in der Anfangsphase des Projekts natürlich größer und beschränkt sich im weiteren Projektverlauf auf Routinetätigkeiten. Die Modellierung der lexikografischen Mikro- und Makrostruktur soll so erfolgen, dass sie mit anderen lexikografischen Informationssystemen interoperabel ist, also in ein Austauschformat überführt werden kann, das für andere Projektkontexte wiederverwendet werden kann.

Die Gründe dafür liegen in der sehr allgemeinen Formulierung der TEI-Richtlinien, die viele Modellierungsmöglichkeiten zulassen und damit eine maschinell abschätzbare Vernetzung nahezu unmöglich machen. Es ist sinnvoll, diese Aspekte nicht direkt im TEI abzubilden, da nicht alle projektspezifischen Elemente, die den Projektprozess beeinflussen, vom TEI vorhergesagt werden können. Erschwerend kommt hinzu, dass sich Anforderungen im Laufe eines Projekts ändern und möglicherweise schnell angepasst werden müssen.

6 Nutzerbeteiligung

Ein Beispiel hierfür ist das Übersetzungsportal LEO, bei dem Nutzerbeiträge (Wortlisten, Übersetzungslisten) nach redaktioneller Begutachtung direkt in das Wörterbuch übernommen werden, aber auch indirekte Beiträge durch Ergänzungsvorschläge über ein elektronisches Formular eingebunden werden. Allerdings wird im Zusammenhang mit Wiktionary auch deutlich (Lew 2013; Meyer/Gurevych 2012), dass bei aller Qualität der Kollaborationsplattform die Expertise der Lexikographen dennoch nicht zu übersehen ist. Insbesondere deutsches Wiktionary verwendet bei der Artikelerstellung in der Regel zuverlässige, redaktionell aufbereitete Wörterbücher, z.B.

Beide Konzepte können ihre Stärken ausspielen: Verbundprojekte haben ihre Stärke in der groß angelegten Informationsbeschaffung und -rekombination, institutionelle Projekte in ihrer Expertise und redaktionell geprüften Qualitätskontrolle.

7 Präsentation und Publikation

Darüber hinaus gibt es Arbeiten, die zeigen, dass Reichweitenfaktoren für Wörterbücher auch dann aktiv beeinflusst werden können, wenn einem Wörterbuchartikel „künstlich“ weitere verwandte Begriffe hinzugefügt werden. Die Ergebnisse dieser Fallstudie zeigen, dass der Umfang des OALD durch die Verwendung der angereicherten Begriffe deutlich zunahm. Die Vernetzung mit externen Ressourcen erhöht nicht nur den Informationsreichtum, sondern auch die Sichtbarkeit und ist daher neben der internen Vernetzung ein wichtiger SEO-Faktor.

Anders als bei der in Abschnitt 3 besprochenen Integration, bei der externe Ressourcen vollständig in das eigene System integriert werden, werden hier Verweise auf externe Ressourcen oder beispielsweise Elexico vollständig in das OWID-Portal integriert; In diesem Fall ist OWID das Aggregator-Wörterbuchportal und elexiko die eingebettete Substanz. Da es sich hinter einer Paywall befindet, hat das OED keinen externen Bezug zur Mikrostruktur, sondern verweist auf diese aus dem Wörterbucheintrag in anderen Wörterbüchern, z

Das DWDS integriert externe Ressourcen in die eigene Webadresse (siehe Abschnitt 3), bietet aber auch Schnittstellen zu Netzwerken mit externen Ressourcen, sowohl zu einzelnen Netzwerken als auch zu systematischen Netzwerken mit dem gesamten Keyword-Bestand. Durch die Weitergabe der gesamten DWDS-Keyword-Liste erfolgt eine systematische Netzwerkzusammenarbeit mit einer externen Ressource.21 DWDS wird beispielsweise auch von der LEO-Plattform von canoo unterstützt. In diesem Zusammenhang ermöglichen die bereitgestellten Gliedlisten der externen Plattform nur dann eine Verknüpfung mit dem DWDS, wenn ein Datensatz auch im DWDS verfügbar ist.

8 Planung des lexikographischen Prozesses

Es ist daher unvermeidlich, dass in naher Zukunft verschiedene Wörterbuch- und Korpusressourcen nebeneinander auf der DWDS-Internetplattform existieren werden. Basis- und Vollartikel sind Einträge für Schlüsselwörter, die in den DWDS-Korpora sehr häufig vorkommen, aber nicht im WDG enthalten sind. Bei einer lexikografischen Überarbeitung im DWDS-Redaktionssystem können Teile eines Artikels neu datiert und mit einem Verweis auf die Ressource „DWDS-Revision“ versehen werden.

Beispielsweise wurden im DWDS-Projekt in den Jahren 2011 und 2012 alle WDG-Wörterbuchartikel an die neue Rechtschreibung angepasst. Das Ergebnis dieser Überarbeitung ist, dass alle Artikel im WDG mit der neuen Schreibweise auf dem neuesten Stand sind und dem Benutzer die Information über den Zeitstempel der letzten Änderung mitgeteilt wird. Der zweite Grund für die Einteilung in lexikografische Zonen besteht darin, dass es in vielen Fällen ausreicht, lokale (aber nicht globale) Änderungen an den WDG-Inventarelementen vorzunehmen, um die Konsistenz der Einträge aufrechtzuerhalten.

Wie in Abschnitt 4.3 erläutert, kann es zu Redundanzen kommen, weil an unterschiedlichen Stellen – einerseits in den Wörterbuchtafeln, andererseits in den Korpustafeln – Belege dafür vorgelegt werden, dass Kollokationen im Wörterbuch, gleichzeitig aber auch wieder in vermerkt sind das DWDS-Wortprofil. Auf diese Weise können Lücken geschlossen werden: GermaNet setzt auf das Hinzufügen von Bedeutungsparaphrasen zu den Synsets, und umgekehrt setzt das DWDS darauf, Einträge auf Leseebene mit Synonymen, Hyperonymen und Hyponymen zu versehen. Zu c) Wie bereits in Abschnitt 2.3 beschrieben, ist die gesamte zweite und dritte Projektphase des DWDS-Projekts für die Entwicklung neuer Einreichungen und die Überarbeitung der bestehenden Einreichungen vorgesehen.

9 Ausblick

Dies ist vor allem darauf zurückzuführen, dass der Prozess von der Datenerfassung bis zu deren Analyse und Veröffentlichung im Zeitalter gedruckter Wörterbücher sehr starr war. Im heutigen Zeitalter des IT-basierten Wörterbuchdesigns können einige der Phasen, die zur Verzögerung beitragen, ersetzt werden. Beispiele hierfür sind: Artikel, für die keine ausreichenden Korpusnachweise vorliegen, können zurückgestellt und später verarbeitet werden, wenn die Korpora angereichert werden.

Technisch könnte dies so umgesetzt werden, dass alle unvollständigen lexikografischen Bereiche eines Wörterbucheintrags zunächst mit einem „inaktiv“-Flag gekennzeichnet werden könnten, ohne dass sich die Veröffentlichung des Artikels mit den Hauptbereichen Rechtschreibung, Flexion und Leseunterteilung verzögert. Die bisherige scharfe Trennung zwischen Wörterbüchern – für Menschen – einerseits und maschinenlesbaren Wörterbüchern andererseits wird in dem Maße aufgehoben, in dem Wörterbücher Teil des Internets und damit auch Teil der Auswertung durch Maschinen werden (vgl. dazu auch Abschnitt 7 ).24.

10 Bibliographie

Herold/Geyken 2008 = Herold, Axel / Geyken, Alexander: Adaptive Word Sense Views for the eWDG Dictionary Database. Henrich/Hinrichs/Barkey 2014 = Henrich, Verena / Hinrichs, Erhard / Barkey, Reinhild: Matching Word Meanings in GermaNet and the DWDS German Language Dictionary. Ivanova 2008 = Ivanova, Kremena / Heid, Ulrich / Schulte im Walde, Sabine / Kilgarriff, Adam / Pomikálek, Jan: Evaluating a German Sketch Grammar: A Case Study on Noun Phrase Case.

Joffe/De Schryver 2004 = De Schryver, Gilles-Maurice / Joffe, David: TshwaneLex: A State-of-the-Art Dictionary Compilation Program. I: Bernal, Elisenda / DeCesaris, Janet (red.): Proceedings of the XIII EURALEX International Congress (Barcelona, ​​15-19 juli 2008). I: Granger, Silvaine / Paquot, Magali (red.): eLexicography in the 21st century: New challenges, new applications.

Kosem 2013a = Kosem, Iztok / Kallas, Jelena / Gantar, Polona / Krek, Simon / Langemets, Margit / Tuulik, Maria (ed.): Electronic lexicography in the 21st century: thinking beyond paper. Lemnitzer 2013 = Lemnitzer, Lothar / Romary, Laurent / Witt, Andreas: Representing human and machine dictionaries in markup languages ​​(SGML / XML). In: Fjeld, Ruth Vatvedt / Torjusen, Julie Matilde (ed.): Proceedings of the 15th EURALEX International Congress, 7-11 August 2012, Oslo.

Referenzen

ÄHNLICHE DOKUMENTE

Hydrogele mit Alginat (zum Beispiel Nu- Gel ® ) lassen sich leicht direkt auf die Wunden applizieren,.. sind hypoallergen und erzie- len sanftes Debridement oh-