Linguistik für
Kognitionswissenschaften
Computerlinguistik:
Maschinelle Übersetzung
Computerlinguistik
● Fehlübersetzung von engl. computational linguistics - computationelle Linguistik
● beinhaltet im weiteren Sinne alle
algorithmischen Aspekte von natürlicher Sprache
● im engeren Sinne:
● computationelle Modelle der menschlichen Sprachverarbeitung
● technische Verarbeitung natürlicher Sprache
Computerlinguistik: Geschichte
● in späten 1950er Jahren Förderung der
maschinellen Übersetzung in den USA (v.a.
Russisch->Englisch, politischer Hintergrund)
● Resultate waren extrem schlecht, Förderung wurde eingestellt
● ab späte 1960er Jahre zweite Generation von CL-Systemen: Dialogsysteme, z.B. Eliza (1966, Joseph Weizenbaum) und SHRDLU (1970,
Was steckt hinter Eliza?
Computerlinguistik: Geschichte
● symbolische Methoden: seit ca. 1980
● starkes Interesse an computationell realistischen Grammatikformalismen (GPSG, LFG, HPSG)
● Unifikation als Modell der grammatischen Komposition
● hohe Programmiersprachen, die gut mit formaler Linguistik kombinierbar sind (Prolog, Lisp, PATR)
● neues Interesse an Anwendung regulärer
Computerlinguistik: Geschichte
● statistische Methoden:
● seit Mitte der 1970er Jahre Hidden Markov Models für Spracherkennung und Wortart-Tagging
● seit Mitte der 1980er Jahre statistisches Parsen
● seit 1990er Jahre Dominanz der statistischen Methoden
● dank WWW Verfügbarkeit von extrem großen Datenmengen
● starker Einfluss von Methoden des maschinellen Lernens
Maschinelle Übersetzung
● historisch gesehen älteste
computerlinguistische Anwendung
● verlange vollständige Analyse des Input-Satzes und Generierung des Output-Satzes
● daher nach wie vor die größte Herausforderung für Computerlinguistik
Warum MÜ schwer ist
● Ambiguitäten
● lexikalische Lücken
● syntaktische Divergenz zwischen Quellsprache und Zielsprache
Ambiguität
„Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit„Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften.
auf dem Markt im Zentrum der Hauptinsel verkauften.“ (Bsp. von “ (Bsp. von Hans Uszkoreit)
Hans Uszkoreit)
Ambiguität
„Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit„Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften.
auf dem Markt im Zentrum der Hauptinsel verkauften.“ (Bsp. von “ (Bsp. von Hans Uszkoreit)
Hans Uszkoreit)
Der Satz weist lexikalische (L), syntaktische (S) und anaphorische (A) Ambiguitäten auf, die uns nicht auffallen.
Wieviele Lesarten hat der Satz?
258.048
Ambiguität
Das berechnet sich so:
Das berechnet sich so:
LL Früher kann sowohl eigenständiges Adverb als auch Komparativ von Früher kann sowohl eigenständiges Adverb als auch Komparativ von frühfrüh sein (2);
sein (2);
LL die Verbform stelltendie Verbform stellten is ambig zwischen Präteritum und Konjunktiv (2); is ambig zwischen Präteritum und Konjunktiv (2);
SS die Nominalphrase die Frauendie Nominalphrase die Frauen kann sowohl Subjekt als auch Objekt des kann sowohl Subjekt als auch Objekt des Satzes sein (2);
Satzes sein (2);
SS am Wochenende kann die Insel, die Frauen oder das Verb modifizieren (3);am Wochenende kann die Insel, die Frauen oder das Verb modifizieren (3);
SS mit Blumenmotiven kann sich auf die Kopftücher beziehen, ein Instrument mit Blumenmotiven kann sich auf die Kopftücher beziehen, ein Instrument der Herstellung
der Herstellung
sein oder ein Adjunkt im Sinne von
sein oder ein Adjunkt im Sinne von gemeinsam mit Blumenmotiven gemeinsam mit Blumenmotiven (3); (3);
LL her hat auch eine direktionale Bedeutung (2);her hat auch eine direktionale Bedeutung (2);
Ambiguität
Und weiter:
Und weiter:
SS der Relativsatz könnte jede der vier Nominalphrasen im Plural modifizieren (4);der Relativsatz könnte jede der vier Nominalphrasen im Plural modifizieren (4);
SS sowohl diesowohl die als auch als auch ihre Männer kann Subjekt des Relativsatzes sein (2); ihre Männer kann Subjekt des Relativsatzes sein (2);
A
A das Possessivpronomen ihrdas Possessivpronomen ihre kann auf jede der Nominalphrasen referieren (4);e kann auf jede der Nominalphrasen referieren (4);
L
L Montagen hat eine zweite Lesart als Nominalisierung von Montagen hat eine zweite Lesart als Nominalisierung von montierenmontieren (2); (2);
SS der Hauptinsel kann im Genitiv zu der vorangegangenen NP gehören oder im Dativ die der Hauptinsel kann im Genitiv zu der vorangegangenen NP gehören oder im Dativ die Käuferin bezeichnen (2);
Käuferin bezeichnen (2);
SS die drei Präpositionalphrasen des Relativsatzes können sich in insgesamt sieben die drei Präpositionalphrasen des Relativsatzes können sich in insgesamt sieben Kombinationen mit den jeweils vorhergehenden NPs oder mit dem Verb verbinden (7);
Kombinationen mit den jeweils vorhergehenden NPs oder mit dem Verb verbinden (7);
LL verkauften zeigt wieder die Ambiguität zwischen Präteritum und Konjunktiv auf (2).verkauften zeigt wieder die Ambiguität zwischen Präteritum und Konjunktiv auf (2).
Durch Multiplikation ergibt sich die Gesamtambiguität:
Durch Multiplikation ergibt sich die Gesamtambiguität:
2 x 2 x 2 x 3 x 3 x 2 x 4 x 2 x 4 x 2 x 2 x 7 x 2 =
2 x 2 x 2 x 3 x 3 x 2 x 4 x 2 x 4 x 2 x 2 x 7 x 2 = 258.048258.048
Probleme bei Wort-zu-Wort- Übersetzung
● Englisch-Deutsch
Lexikalische Ambiguität
Lexikalische Ambiguität
Strukturelle Divergenz
Strukturelle Divergenz
Unterschiede in Wortstellung
Übersetzung und Kontext
● Wenn einem die Wörter eines Buches einzeln gezeigt werden, eines nach dem anderen, ist es offensichtlich nicht möglich, die Bedeutung jedes Wortes - ohne Informationen über den Kontext - festzustellen.
● Wenn man außerdem jeweils die N
vorangehenden und nachfolgenden Wörter sieht, kann man die Bedeutung meistens
Übersetzung und Kontext
● Die praktische Frage für MÜ ist: „Was ist der Mindestwert für N, die in hinreichend vielen Fällen zur Disambiguierung ausreicht?
Strategien für MÜ
● Wort-für-Wort-Übersetzung
● Syntaktischer Transfer
● Semantischer Transfer
● Interlingua-Ansatz
Wort-für-Wort-Übersetzung
● einfachster Ansatz
● benötigt im einfachsten Fall nur ein
elektronisches bilinguales Wörterbuch
● abängig von Quell- und Zielsprache evt.
minimale morphologische Analyse und Generierung
● kein Einsatz von syntaktischem oder semantischem Wissen
Syntaktischer Transfer
● verlangt syntaktische Analyse der Quellsprache
● benötigt syntaktischen Parser
Syntaktischer Transfer
● Bsp. engl. like -> frz. plaire
Syntaktischer Transfer
● Bsp. engl. like to -> dt. gern
Semantischer Transfer
● erfordert syntaktische und semantische Analyse der Quellsprache
● erfordert sprach-spezifische semantische Repräsentationssprache
● sprach-spezifische Regen, die Bedeutungen der Quellsprache mit Bedeutungen der Zielsprache in Beziehung setzen
● erfordert Sprach-Generierungs-Komponente, die zielsprachliche Bedeutungen in Output-Sätze
überführt
Semantischer Transfer
● Synthese üblicherweise in zwei Schritten:
● semantische Synthese (führt zu syntaktischen Bäumen)
● morphologische Synthese (produziert flektierte Wörter)
Interlingua-Ansatz
● Quellsprache wird auf sprach-unabhängige (quasi universale) semantische
Repräsentationssprache abgebildet
● erfordert syntaktische und semantische Analyse der Quellsprache
● erfordert Sprachgenerierung, die Interlingua- Repräsentation in Zielsprache überführt
● Synthese ebenfalls in zwei schritten
(semantisch-syntaktisch, morphologisch)
Interlingua-Repräsentation für
Bewegungsverben
Interlingua-Repräsentation für
Bewegungsverben
Allgemeines Schema
Interllingua
Transfer Generierung Analyse