Einführung in die Computerlinguistik
Wiebke Petersen
WiSe 04/05
Wiebke Petersen Einführung in die Computerlinguistik 2
Folien teilweise entnommen aus
Cornelia Endriss: Einführung in die
Computerlinguistik (SoSe 2001)
Hans Uszkoreit: Einführung in die
Computerlinguistik (WiSe 01/02)
Faszination Sprache
Mehr noch als Denken ist die Sprache eine Fähigkeit, die nur der Mensch besitzt.
Es ist ein Wunder, wie wir in Sekundenschnelle komplexe Gedanken in einem Satz ausdrücken können.
Es ist nicht weniger erstaunlich, wie das Kind in nur wenigen Jahren zehntausende von Wörtern und
©2001 Hans Uszkoreit
Wiebke Petersen Einführung in die Computerlinguistik 4
Sprachliche Kommunikation
©2001 Hans Uszkoreit
Sprachliche Kommunikation
©2001 Hans Uszkoreit
Wiebke Petersen Einführung in die Computerlinguistik 6
Sprachliche Kommunikation
©2001 Hans Uszkoreit
Sprachliche Kommunikation
©2001 Hans Uszkoreit
Wiebke Petersen Einführung in die Computerlinguistik 8
Sprachliche Kommunikation
©2001 Hans Uszkoreit
Grammatik
©2001 Hans Uszkoreit
Schallwellen Aktivation von Konzepten
Wiebke Petersen Einführung in die Computerlinguistik 10
Grammatik
©2001 Hans Uszkoreit
Grammatik Grammatik
Schallwellen Aktivation von Konzepten
Grammatik
©2001 Hans Uszkoreit
Grammatik Grammatik
Schallwellen Aktivation von Konzepten
Wiebke Petersen Einführung in die Computerlinguistik 12
Grammatik
©2001 Hans Uszkoreit
Grammatik Grammatik
Schallwellen Aktivation von Konzepten
Grammatik
N NP
A N Det V
VP NP
S
Sue gave Paul an old penny NP
©2001 Hans Uszkoreit
Grammatik Grammatik
Schallwellen Aktivation von Konzepten
Wiebke Petersen Einführung in die Computerlinguistik 14
Grammatik
Semantikkonstruktion
N NP
A N Det V
VP NP
S
Sue gave Paul an old penny NP
©2001 Hans Uszkoreit
Phonologie/Morphologie
Grammatik Grammatik
Schallwellen Aktivation von Konzepten
Grammatik
N NP
A N Det V
VP NP
S
Sue gave Paul an old penny NP
©2001 Hans Uszkoreit
Grammatik Grammatik
Schallwellen Aktivation von Konzepten
Wiebke Petersen Einführung in die Computerlinguistik 16
Motivation
©2001 Cornelia Endriss
NACHBARWISSENSCHAFTEN
Psychologie Linguistik
Informatik
©2001 Hans Uszkoreit
Wiebke Petersen Einführung in die Computerlinguistik 18
NACHBARWISSENSCHAFTEN
Psychologie Linguistik
Informatik
Psycho- linguistik Computer-
linguistik
KI
©2001 Hans Uszkoreit
Die Disziplin
Computerlinguistik im weiteren Sinne
ist ein zwischen Linguistik und Informatik liegendes interdisziplinäres Forschungsgebiet, das sich mit der
maschinellen Verarbeitung natürlicher Sprachen beschäftigt.
Computerlinguistik im engeren Sinne
ist ein Teilgebiet der modernen Linguistik, das berechenbare Modelle menschlicher Sprache entwirft, implementiert und untersucht.
©2001 Hans Uszkoreit
Wiebke Petersen Einführung in die Computerlinguistik 20
Forschungsgebiete der CL
©2001 Cornelia Endriss
Fragestellungen der theoretischen CL
©2001 Cornelia Endriss
Wiebke Petersen Einführung in die Computerlinguistik 22
Fragestellungen der angewandten CL
©2001 Cornelia Endriss
Motivationen
sprachwissenschaftliches Interesse
Modelle der Grammatik sprachwissenschaftliches sprachwissenschaftliches
Interesse Interesse
Modelle der Grammatik Modelle der Grammatik
ingenieurwissenschaftliches Interesse
sprachtechnologische ingenieurwissenschaftliches ingenieurwissenschaftliches
Interesse Interesse
sprachtechnologische sprachtechnologische
kognitionswissenschaftliches Interesse
Modelle der menschlichen kognitionswissenschaftliches kognitionswissenschaftliches
Interesse Interesse
Modelle der menschlichen Modelle der menschlichen
©2001 Hans Uszkoreit
Wiebke Petersen Einführung in die Computerlinguistik 24
Methoden der CL
©2001 Cornelia Endriss
Hauptansätze der CL
1950 1960 1970 1980 1990
statistische und konnektio- nistische Methoden in der CL deklarative linguistische
Formalismen in der CL
spezielle Verfahren für die CL direkte Programmierung, keine Trennung von Beschreibung und Verarbeitung
©2001 Hans Uszkoreit
Wiebke Petersen Einführung in die Computerlinguistik 26
Komponenten eines Sprachmodells
©2001 Cornelia Endriss
phonetische Verarbeitung orthographische Verarbeitung
morphonologische Verarbeitung
syntaktische Verarbeitung
semantische Verarbeitung
akustische Form geschriebene Form
morphonologische Repräsentation phonetische o. graphemische Repräsentation
syntaktische Repräsentation
semantische Repräsentation
Komponenten eines
Sprachmodells
©2001 Hans Uszkoreit
Wiebke Petersen Einführung in die Computerlinguistik 28
phonetische Verarbeitung orthographische Verarbeitung
morphonologische Verarbeitung
syntaktische Verarbeitung
semantische Verarbeitung
pragmatische Verarbeitung - Wissensverarbeitung
akustische Form geschriebene Form
morphonologische Repräsentation phonetische o. graphemische Repräsentation
syntaktische Repräsentation
semantische Repräsentation
Repräsentation der vollen Bedeutung
Textverstehen
©2001 Hans Uszkoreit
akustische Form geschriebene Form
morphonologische Repräsentation phonetische o. graphemische Repräsentation
syntaktische Repräsentation
semantische Repräsentation
Diktat
das Boot auf dem Main oder
daß bot auf dem mein
phonetische Verarbeitung orthographische Verarbeitung
morphonologische Verarbeitung
syntaktische Verarbeitung
semantische Verarbeitung
©2001 Hans Uszkoreit
Wiebke Petersen Einführung in die Computerlinguistik 30
akustische Form geschriebene Form
morphonologische Repräsentation phonetische o. graphemische Repräsentation
syntaktische Repräsentation
semantische Repräsentation
Repräsentation der vollen Bedeutung
Maschinelle Übersetzung
phonetische Verarbeitung orthographische Verarbeitung
morphonologische Verarbeitung
syntaktische Verarbeitung
semantische Verarbeitung
pragmatische Verarbeitung - Wissensverarbeitung
©2001 Hans Uszkoreit
Anwendungen (1)
Korrekturprogramme: Rechtschreibkorrektur, Grammatikkorrektur Korrekturvorschläge, Verbesserung von Texterfassung mittels OCR.
Computergestützte Lexikographie: Hilfe bei der Erstellung und Pflege von Lexika; Akquisition lexikalischer Information, Repräsentation lexikalischer Information, Bereitstellung der lexikalischen Information für Anwendungen.
Volltextsuche (Information Retrieval): Indexkonstruktion, Auswertung von Suchanfragen, Retrievalmodell
Textmining: Strukturierung großer Textkollektionen, Textklassifikation, Schlüsselwortextraktion, Aufbau einer Taxonomie
Textklassifikation: Erlernen von Klassenprofilen anhand von Trainingsdaten, Klassifikationsalgorithmus
Informationsextraktion: Identifizierung relevanter Information in Texten, Instantiierung von Templates
Textzusammenfassung: Reduktion / Verdichtung, Textproduktion
Wiebke Petersen Einführung in die Computerlinguistik 32
Anwendungen (2)
Sprachsynthesesysteme: Produktion gesprochener Sprache aus
geschriebener Sprache, Computerarbeitsplatz für Blinde, telefonische Auskunftsysteme, Navigationsysteme
Spracherkennungssysteme: Diktiersysteme, telefonische
Auskunftsysteme; Signalanalyse, Geräuschfilterung, Adaption an verschiedene Sprecher
Natürlichsprachliche Retrieval-Schnittstellen: z.B. natürlichsprachliche Anfragen an Bibliothekskataloge
Dialogsysteme: ELIZA, automatische Auskunftsysteme, natürlichsprachliche Benutzerschnittstellen
Sprachlehr- und -lernsysteme: Hilfe bei dem Erwerb von Fremdsprachen;
Anpassung an das individuelle Arbeitstempo und den Kenntnisstand, ortsungebunden, zeitlich flexibel, objektiv, nicht ermüdend
Anwendungen (3)
Elektronische Kommunikationshilfen: Wort- und Satzvervollständigung (SMS), Texttelephone, Textvereinfachungswerkzeuge, ...
Angewandte natürlichsprachliche Generierungs- und
Auskunftssysteme: Wettervorhersagen, Gesundheitswesen, technische Dokumentationen, Computerspiele, ...
Maschinelle Übersetzung: Vollautomatische Übersetzung, Computergestützte Übersetzung