Maschinelle Übersetzung
Kluge Andreas, 13IN-M
basierend auf “Computerlinguistik und Sprachtechnologie”, 3. Auflage, Spektrum, Heidelberg 2010
19. Juni 2014
Übersicht
●
Gewünschte Funktionalität
●
Schwierigkeiten / Probleme
●
Systeme
– Regel-basierte Systeme
– Daten-basierte Systeme
– Computer gestützte Übersetzung
Gewünschte Leistung von
maschineller Übersetzung (MÜ)
●
Übersetzung von gesprochenen/geschriebenen Texten in eine Zielsprache
●
Funktion und Bedeutung soll beibehalten werden
●
Berücksichtigung von sprachlichen, kulturellen Stilmittel
●
Anpassung an geographische Besonderheiten
und Zielgruppen
Gewünschte Leistung Früher vs. Heute
●
Früher:
– Vollautomatisch, Qualitativ hochwertig
(fully accurate high quality translation [FAHQT])
– 1 : 1 Übersetzung (Weaver 1955)
●
Heute:
– Bedeutung und Kontext maschinell erfassen
Schwierigkeiten / Probleme
●
Lexikalische Lücken (gaps)
– Nicht mehr hungrig = satt
– Nicht mehr durstig = ?
●
Nichtentsprechungen (missmatches)
– Engl.: Wall → De.: (Außen-)Mauer / (Innen-)Wand
●
Divergenzen (Syntaktische Unterschiede)
– Eva geht gern
– Eva enioys to walk
Klassifikation von MÜ-Systemen
●
interaktive Systeme
●
nicht interaktive Systeme
●
unidirektional
●
bidirektional
●
multidirektional
●
direkt
indirekt
MÜ - Systeme
●
Direkte Übersetzung
– Google Translator
●
Regelbasierte Übersetzung
– Transfer-basiert
– Interlingua-basiert
●
Datenbasierte Übersetzung
– Statische MÜ-Systeme
●
Computer gestützte Übersetzung (CAT)
Transfer-basierte Regelsysteme
●
Morphologische Analyse
– Aufbau von Merkmalsstrukturen
●
Transfer ( Eingeschränkter Kontext)
– Übersetzungsentsprechung
●
Generierung
– Zielsprachendrepräsentation → Nat. Sprache
Beispiel Transfer
●
Regel: E-N1, E-N2 → F-N2, F-N1
●
The installation configuration (N1, N2)
●
La configuration d'installation (N2, N1)
Interlingua-basierte Regelsysteme
●
Sprachunabhängige Zwischenrepräsentation
– Neutral bzgl. aller Sprachen im System
– Kein direkter Bezug zw. Quell- und Zielsprache
Transfer vs. Interlingua
●
Transfer:
– Keine vollständige Bedeutungsanalyse
– Einfach Wortwahl für Zielsprache
– Hohe Komponenten-Anzahl
●
Interlingua
– Geringe Komponenten-Anzahl
– Bisher nur Kompromisslösungen
Statische MÜ-Systeme (SMÜ)
●
Kern eines SMÜ-Systems
Berechnung des
Übersetzungsmodells
●
Satzalignierung
– Vgl.: Satzlängen (Zeichenebene)
– Eigennamen / Zahlen als Ankerpunkte
●
Wortalignierung
– Auf Basis der Verteilung der Wörter im Korpus
– Zulassung überkreuzender Alignierungen
– → Jedes Wortpaar erhält Wahrscheinlichkeit bzgl.
seiner Entsprechung ( vollautomatisch erstelltes zweisprachiges Wörterbuch, Vollformenlexikon)
●
Wortfolgelexikon erstellen
– Betrachtung von 2 bis 5 Wörter ( Wort-N-Gram) → Sequenz der Ausgangssprache entspricht Sequenz der Zielsprache
– Berechnung Wahrscheinlichkeiten von Wortfolge- Entsprechungen
●
Wortfolgelexikon +
Entsprechungswahrscheinlichkeiten
Berechnung des
Übersetzungsmodells
Decoder
●
Übersetzt einen Ausgangssatz in
entsprechende Wortfolgen der Zielsprache
●
Hilfe des Wortfolgelexikons Erzeugung aller möglichen Wortsequenzen beider Sprachen
●
Erstellt Ranking basierend auf den Entsprechungswahrscheinlichkeiten
●
Aber Wahrscheinlichkeiten sind nicht
zuverlässig für die Qualität des Ausgabetextes
Sprachmodell
●
Wird in der Trainingsphase erstellt
●
Beschreibung typischer Wortfolgen der Zielsprache
●
Training an einsprachigem Korpus
– Zielsprachlicher Teil des Übersetzungskorpus
– Beliebiger Korpus möglich, solange :
● Gleiche Textsorte Ausreichend groß
Statische MÜ-Systeme (SMÜ)
●
Sehr Robust
●
Benötigt großen parallelen Korpus
– Human-übersetzte Texte
●
vollautomatische Erstellung möglich
●
Grund für Übersetzungsfehler sind schwer zu identifizieren
●
Unvollständige Vollformenlexikon
– Flexionsmorphologie( Finnisch, Türkisch)
Praktischer Einsatz von SMÜ
●
Europäische Union
– Unterhält größten Übersetzungsdienst Weltweit
●
Untertitel im Skandinavischem Fernsehen
– Uni Stockholm
– Mehr als 50 Millionen Wörter je Sprache
●
Firma Language Weaver
Computer-Aided-Translation CAT
●
Speicherung jedes übersetzten Satzes
●
Angebot von Ähnlichkeitssuche
●
Vorteile:
– Übersetzung kann oft wieder verwendet werden
– Vorschläge sind sehr Zuverlässig
– Unterstürzung Konsistenter Übersetzung
●
Nachteile:
– Leichte Verteilung schlechter Übersetzungen
Quellen
● http://www.f03.fh-
koeln.de/imperia/md/content/personen/reinke_uwe/sdv _cl_6gross.pdf
● http://www.pauker.at/pauker/DE_DE/EN/
● http://euromatrix.net/