• Keine Ergebnisse gefunden

Linguistik für Kognitionswissenschaften

N/A
N/A
Protected

Academic year: 2022

Aktie "Linguistik für Kognitionswissenschaften"

Copied!
31
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Linguistik für

Kognitionswissenschaften

Computerlinguistik:

Maschinelle Übersetzung

(2)

Computerlinguistik

Fehlübersetzung von engl. computational linguistics - computationelle Linguistik

beinhaltet im weiteren Sinne alle

algorithmischen Aspekte von natürlicher Sprache

im engeren Sinne:

computationelle Modelle der menschlichen Sprachverarbeitung

technische Verarbeitung natürlicher Sprache

(3)

Computerlinguistik: Geschichte

in späten 1950er Jahren Förderung der

maschinellen Übersetzung in den USA (v.a.

Russisch->Englisch, politischer Hintergrund)

Resultate waren extrem schlecht, Förderung wurde eingestellt

ab späte 1960er Jahre zweite Generation von CL-Systemen: Dialogsysteme, z.B. Eliza (1966, Joseph Weizenbaum) und SHRDLU (1970,

(4)

Was steckt hinter Eliza?

(5)

Computerlinguistik: Geschichte

symbolische Methoden: seit ca. 1980

starkes Interesse an computationell realistischen Grammatikformalismen (GPSG, LFG, HPSG)

Unifikation als Modell der grammatischen Komposition

hohe Programmiersprachen, die gut mit formaler Linguistik kombinierbar sind (Prolog, Lisp, PATR)

neues Interesse an Anwendung regulärer

(6)

Computerlinguistik: Geschichte

statistische Methoden:

seit Mitte der 1970er Jahre Hidden Markov Models für Spracherkennung und Wortart-Tagging

seit Mitte der 1980er Jahre statistisches Parsen

seit 1990er Jahre Dominanz der statistischen Methoden

dank WWW Verfügbarkeit von extrem großen Datenmengen

starker Einfluss von Methoden des maschinellen Lernens

(7)

Maschinelle Übersetzung

historisch gesehen älteste

computerlinguistische Anwendung

verlange vollständige Analyse des Input-Satzes und Generierung des Output-Satzes

daher nach wie vor die größte Herausforderung für Computerlinguistik

(8)

Warum MÜ schwer ist

Ambiguitäten

lexikalische Lücken

syntaktische Divergenz zwischen Quellsprache und Zielsprache

(9)

Ambiguität

„Früher stellten die Frauen der Inseln am Wochenende Kopftücher mitFrüher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften.

auf dem Markt im Zentrum der Hauptinsel verkauften.“ (Bsp. von “ (Bsp. von Hans Uszkoreit)

Hans Uszkoreit)

(10)

Ambiguität

„Früher stellten die Frauen der Inseln am Wochenende Kopftücher mitFrüher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften.

auf dem Markt im Zentrum der Hauptinsel verkauften.“ (Bsp. von “ (Bsp. von Hans Uszkoreit)

Hans Uszkoreit)

Der Satz weist lexikalische (L), syntaktische (S) und anaphorische (A) Ambiguitäten auf, die uns nicht auffallen.

Wieviele Lesarten hat der Satz?

258.048

(11)

Ambiguität

Das berechnet sich so:

Das berechnet sich so:

LL Früher kann sowohl eigenständiges Adverb als auch Komparativ von Früher kann sowohl eigenständiges Adverb als auch Komparativ von frühfrüh sein (2);

sein (2);

LL die Verbform stelltendie Verbform stellten is ambig zwischen Präteritum und Konjunktiv (2); is ambig zwischen Präteritum und Konjunktiv (2);

SS die Nominalphrase die Frauendie Nominalphrase die Frauen kann sowohl Subjekt als auch Objekt des kann sowohl Subjekt als auch Objekt des Satzes sein (2);

Satzes sein (2);

SS am Wochenende kann die Insel, die Frauen oder das Verb modifizieren (3);am Wochenende kann die Insel, die Frauen oder das Verb modifizieren (3);

SS mit Blumenmotiven kann sich auf die Kopftücher beziehen, ein Instrument mit Blumenmotiven kann sich auf die Kopftücher beziehen, ein Instrument der Herstellung

der Herstellung

sein oder ein Adjunkt im Sinne von

sein oder ein Adjunkt im Sinne von gemeinsam mit Blumenmotiven gemeinsam mit Blumenmotiven (3); (3);

LL her hat auch eine direktionale Bedeutung (2);her hat auch eine direktionale Bedeutung (2);

(12)

Ambiguität

Und weiter:

Und weiter:

SS der Relativsatz könnte jede der vier Nominalphrasen im Plural modifizieren (4);der Relativsatz könnte jede der vier Nominalphrasen im Plural modifizieren (4);

SS sowohl diesowohl die als auch als auch ihre Männer kann Subjekt des Relativsatzes sein (2); ihre Männer kann Subjekt des Relativsatzes sein (2);

A

A das Possessivpronomen ihrdas Possessivpronomen ihre kann auf jede der Nominalphrasen referieren (4);e kann auf jede der Nominalphrasen referieren (4);

L

L Montagen hat eine zweite Lesart als Nominalisierung von Montagen hat eine zweite Lesart als Nominalisierung von montierenmontieren (2); (2);

SS der Hauptinsel kann im Genitiv zu der vorangegangenen NP gehören oder im Dativ die der Hauptinsel kann im Genitiv zu der vorangegangenen NP gehören oder im Dativ die Käuferin bezeichnen (2);

Käuferin bezeichnen (2);

SS die drei Präpositionalphrasen des Relativsatzes können sich in insgesamt sieben die drei Präpositionalphrasen des Relativsatzes können sich in insgesamt sieben Kombinationen mit den jeweils vorhergehenden NPs oder mit dem Verb verbinden (7);

Kombinationen mit den jeweils vorhergehenden NPs oder mit dem Verb verbinden (7);

LL verkauften zeigt wieder die Ambiguität zwischen Präteritum und Konjunktiv auf (2).verkauften zeigt wieder die Ambiguität zwischen Präteritum und Konjunktiv auf (2).

Durch Multiplikation ergibt sich die Gesamtambiguität:

Durch Multiplikation ergibt sich die Gesamtambiguität:

2 x 2 x 2 x 3 x 3 x 2 x 4 x 2 x 4 x 2 x 2 x 7 x 2 =

2 x 2 x 2 x 3 x 3 x 2 x 4 x 2 x 4 x 2 x 2 x 7 x 2 = 258.048258.048

(13)

Probleme bei Wort-zu-Wort- Übersetzung

Englisch-Deutsch

(14)

Lexikalische Ambiguität

(15)

Lexikalische Ambiguität

(16)

Strukturelle Divergenz

(17)

Strukturelle Divergenz

(18)

Unterschiede in Wortstellung

(19)

Übersetzung und Kontext

Wenn einem die Wörter eines Buches einzeln gezeigt werden, eines nach dem anderen, ist es offensichtlich nicht möglich, die Bedeutung jedes Wortes - ohne Informationen über den Kontext - festzustellen.

Wenn man außerdem jeweils die N

vorangehenden und nachfolgenden Wörter sieht, kann man die Bedeutung meistens

(20)

Übersetzung und Kontext

Die praktische Frage für MÜ ist: „Was ist der Mindestwert für N, die in hinreichend vielen Fällen zur Disambiguierung ausreicht?

(21)

Strategien für MÜ

Wort-für-Wort-Übersetzung

Syntaktischer Transfer

Semantischer Transfer

Interlingua-Ansatz

(22)

Wort-für-Wort-Übersetzung

einfachster Ansatz

benötigt im einfachsten Fall nur ein

elektronisches bilinguales Wörterbuch

abängig von Quell- und Zielsprache evt.

minimale morphologische Analyse und Generierung

kein Einsatz von syntaktischem oder semantischem Wissen

(23)

Syntaktischer Transfer

verlangt syntaktische Analyse der Quellsprache

benötigt syntaktischen Parser

(24)

Syntaktischer Transfer

Bsp. engl. like -> frz. plaire

(25)

Syntaktischer Transfer

Bsp. engl. like to -> dt. gern

(26)

Semantischer Transfer

erfordert syntaktische und semantische Analyse der Quellsprache

erfordert sprach-spezifische semantische Repräsentationssprache

sprach-spezifische Regen, die Bedeutungen der Quellsprache mit Bedeutungen der Zielsprache in Beziehung setzen

erfordert Sprach-Generierungs-Komponente, die zielsprachliche Bedeutungen in Output-Sätze

überführt

(27)

Semantischer Transfer

Synthese üblicherweise in zwei Schritten:

semantische Synthese (führt zu syntaktischen Bäumen)

morphologische Synthese (produziert flektierte Wörter)

(28)

Interlingua-Ansatz

Quellsprache wird auf sprach-unabhängige (quasi universale) semantische

Repräsentationssprache abgebildet

erfordert syntaktische und semantische Analyse der Quellsprache

erfordert Sprachgenerierung, die Interlingua- Repräsentation in Zielsprache überführt

Synthese ebenfalls in zwei schritten

(semantisch-syntaktisch, morphologisch)

(29)

Interlingua-Repräsentation für

Bewegungsverben

(30)

Interlingua-Repräsentation für

Bewegungsverben

(31)

Allgemeines Schema

Interllingua

Transfer Generierung Analyse

Referenzen

ÄHNLICHE DOKUMENTE

An die Westspitze der Insel schließt sich das kleine Eiland Angu- ilita an, das über eine noch fast unberührte Natur ver- fügt. Im Norden der Insel liegt Sandy Island, eine kleine

August 1945, haben die Amerikaner die japa- nische Hafenstadt Hiroshima (250 000 Einwohner) durch einen einzigen Atombombenabwurf total in Schutt und Asche gelegt. Drei Tage

Damit wird neben der Vielschichtigkeit von Migrantinnen (und Mi- granten) und ihren Familien auch die Pluralität ihrer Lebens- und Bewältigungsformen deutlich.. Es wird zudem

Um diese zukünftig zu vermei- den, sollten sich die Kaffeemen- gen am Wochenende und unter der Woche nicht zu sehr unter- scheiden – wobei sehr starke Kaffeetrinker generell eine

Während immer noch mehr Frauen als Männer Teilzeit arbeiten, ist der Unterschied zwischen den beiden Gruppen im Bundesdienst geringer als in der Privatwirtschaft.. 6,4 Prozent

Die Missgunst der Patienten wäre einem (zurecht) sicher, wenngleich diese meist nicht wissen können, wie schwierig es sich gestaltet, nur schon eine gute Vertre- tung für die

Schon vor mehr als 20 Jahren deuteten klinische Daten darauf hin, dass Frauen mit Diabetes mellitus Typ 2 eine höhere Gesamt- wie auch kardiovaskulär bedingte Sterblichkeit

Aus der «Instruktion für die Telegraphisten der Schweiz» vom Jahre 1852 geht hervor, dass, entgegen dem Antrag Steinheil anstelle von Zürich Zofingen als Zentralpunkt