• Keine Ergebnisse gefunden

Maschinelle Übersetzung

N/A
N/A
Protected

Academic year: 2022

Aktie "Maschinelle Übersetzung"

Copied!
20
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Maschinelle Übersetzung

Kluge Andreas, 13IN-M

basierend auf “Computerlinguistik und Sprachtechnologie”, 3. Auflage, Spektrum, Heidelberg 2010

19. Juni 2014

(2)

Übersicht

Gewünschte Funktionalität

Schwierigkeiten / Probleme

Systeme

Regel-basierte Systeme

Daten-basierte Systeme

Computer gestützte Übersetzung

(3)

Gewünschte Leistung von

maschineller Übersetzung (MÜ)

Übersetzung von gesprochenen/geschriebenen Texten in eine Zielsprache

Funktion und Bedeutung soll beibehalten werden

Berücksichtigung von sprachlichen, kulturellen Stilmittel

Anpassung an geographische Besonderheiten

und Zielgruppen

(4)

Gewünschte Leistung Früher vs. Heute

Früher:

Vollautomatisch, Qualitativ hochwertig

(fully accurate high quality translation [FAHQT])

1 : 1 Übersetzung (Weaver 1955)

Heute:

Bedeutung und Kontext maschinell erfassen

(5)

Schwierigkeiten / Probleme

Lexikalische Lücken (gaps)

Nicht mehr hungrig = satt

Nicht mehr durstig = ?

Nichtentsprechungen (missmatches)

Engl.: Wall → De.: (Außen-)Mauer / (Innen-)Wand

Divergenzen (Syntaktische Unterschiede)

Eva geht gern

Eva enioys to walk

(6)

Klassifikation von MÜ-Systemen

interaktive Systeme

nicht interaktive Systeme

unidirektional

bidirektional

multidirektional

direkt

indirekt

(7)

MÜ - Systeme

Direkte Übersetzung

Google Translator

Regelbasierte Übersetzung

Transfer-basiert

Interlingua-basiert

Datenbasierte Übersetzung

Statische MÜ-Systeme

Computer gestützte Übersetzung (CAT)

(8)

Transfer-basierte Regelsysteme

Morphologische Analyse

Aufbau von Merkmalsstrukturen

Transfer ( Eingeschränkter Kontext)

Übersetzungsentsprechung

Generierung

Zielsprachendrepräsentation → Nat. Sprache

(9)

Beispiel Transfer

Regel: E-N1, E-N2 → F-N2, F-N1

The installation configuration (N1, N2)

La configuration d'installation (N2, N1)

(10)

Interlingua-basierte Regelsysteme

Sprachunabhängige Zwischenrepräsentation

Neutral bzgl. aller Sprachen im System

Kein direkter Bezug zw. Quell- und Zielsprache

(11)

Transfer vs. Interlingua

Transfer:

Keine vollständige Bedeutungsanalyse

Einfach Wortwahl für Zielsprache

Hohe Komponenten-Anzahl

Interlingua

Geringe Komponenten-Anzahl

Bisher nur Kompromisslösungen

(12)

Statische MÜ-Systeme (SMÜ)

Kern eines SMÜ-Systems

(13)

Berechnung des

Übersetzungsmodells

Satzalignierung

Vgl.: Satzlängen (Zeichenebene)

Eigennamen / Zahlen als Ankerpunkte

Wortalignierung

Auf Basis der Verteilung der Wörter im Korpus

Zulassung überkreuzender Alignierungen

→ Jedes Wortpaar erhält Wahrscheinlichkeit bzgl.

seiner Entsprechung ( vollautomatisch erstelltes zweisprachiges Wörterbuch, Vollformenlexikon)

(14)

Wortfolgelexikon erstellen

Betrachtung von 2 bis 5 Wörter ( Wort-N-Gram) → Sequenz der Ausgangssprache entspricht Sequenz der Zielsprache

Berechnung Wahrscheinlichkeiten von Wortfolge- Entsprechungen

Wortfolgelexikon +

Entsprechungswahrscheinlichkeiten

Berechnung des

Übersetzungsmodells

(15)

Decoder

Übersetzt einen Ausgangssatz in

entsprechende Wortfolgen der Zielsprache

Hilfe des Wortfolgelexikons Erzeugung aller möglichen Wortsequenzen beider Sprachen

Erstellt Ranking basierend auf den Entsprechungswahrscheinlichkeiten

Aber Wahrscheinlichkeiten sind nicht

zuverlässig für die Qualität des Ausgabetextes

(16)

Sprachmodell

Wird in der Trainingsphase erstellt

Beschreibung typischer Wortfolgen der Zielsprache

Training an einsprachigem Korpus

Zielsprachlicher Teil des Übersetzungskorpus

Beliebiger Korpus möglich, solange :

Gleiche Textsorte Ausreichend groß

(17)

Statische MÜ-Systeme (SMÜ)

Sehr Robust

Benötigt großen parallelen Korpus

Human-übersetzte Texte

vollautomatische Erstellung möglich

Grund für Übersetzungsfehler sind schwer zu identifizieren

Unvollständige Vollformenlexikon

Flexionsmorphologie( Finnisch, Türkisch)

(18)

Praktischer Einsatz von SMÜ

Europäische Union

Unterhält größten Übersetzungsdienst Weltweit

Untertitel im Skandinavischem Fernsehen

Uni Stockholm

Mehr als 50 Millionen Wörter je Sprache

Firma Language Weaver

(19)

Computer-Aided-Translation CAT

Speicherung jedes übersetzten Satzes

Angebot von Ähnlichkeitssuche

Vorteile:

Übersetzung kann oft wieder verwendet werden

Vorschläge sind sehr Zuverlässig

Unterstürzung Konsistenter Übersetzung

Nachteile:

Leichte Verteilung schlechter Übersetzungen

(20)

Quellen

http://www.f03.fh-

koeln.de/imperia/md/content/personen/reinke_uwe/sdv _cl_6gross.pdf

http://www.pauker.at/pauker/DE_DE/EN/

http://euromatrix.net/

Referenzen

ÄHNLICHE DOKUMENTE

In den kurzen Zeitfenstern zeigt sich die zur Anregung prompte Erzeugung freier primärer Exzitonen für Anregungsenergien unterhalb der Bandlücke und freier sekundärer Exzitonen

Abbildung 2.8: linkes Kamerabild [pfeiffer] 12 Abbildung 2.9: rechtes Kamerabild [pfeiffer] 12 Abbildung 2.10: Tiefenbild [ptgrey] 13 Abbildung 3.1: Bumblebee Kamera [ptgrey]

Der Einfluß der Dispersion dritter Ordnung auf die sich ausbildenden Solitonen ist hierbei vermutlich geringer, was einen vollst¨andigen Zerfall und somit eine vollst¨andige

Es wird ein Gegner-Netz (Adversarial Network) trainiert, welches lernt, die Repr¨ asentationen, die der Encoder f¨ ur W¨ orter aus verrauschten echten S¨ atzen generiert,

Beim Fräsen erfolgt die Spanabnahme durch eine kreisförmige Schnittbewegung, die durch den Fräser ausgeführt wird.. Die Anzahl der

Wenn wir f¨ ur jeden Satz nicht die eine richtige Alinierung gegeben h¨ atten, sondern mehrere m¨ ogliche, und jede h¨ atte eine.. Wahrscheinlichkeit (P (a|~ e, ~ d)), k¨ onnten

Die Verwendung von Akkupacks als Stromversorgung für andere Motoren oder Lasten, sowie der Einbau in andere Anwendungen wird NICHT empfohlen und bedarf der schriftlichen

Die reproduzierbare und witterungsunabhängige Wirkweise der maschinellen Ausdünnung konnte durch einen überwiegend linearen Zusammenhang zwischen dem Fruchtbehang je Baum