• Keine Ergebnisse gefunden

Einführung in die Computerlinguistik Lexikographie

N/A
N/A
Protected

Academic year: 2022

Aktie "Einführung in die Computerlinguistik Lexikographie"

Copied!
20
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Lexikographie

Einführung in die Computerlinguistik

Dozentin: Wiebke Petersen

Referenten: Kai Koch, Daniel Siebert

(2)

Computerlexikographie 2 05.07.2010

Lexikographie - Was ist das?

• Akquisition von wortbasierten Sprachdaten

• Aufbereitung der Daten für die jeweilige Zielanwendung

• Standardisierte Repräsentation der Daten zur maschinellen

Weiterverarbeitung

(3)

Computerlexikographie 3 05.07.2010

Lexikographie - Produkte

• Ein-, zwei- und mehrsprachige Wörterbücher

• Wissensdatenbanken

• Terminologiewörterbücher

(4)

Computerlexikographie 4 05.07.2010

Welche Informationen?

• Definition des Wortes

• Morphologische

• Syntaktische

• Phonologische

• Beispiele

• Idiomatische Verwendung

(5)

Computerlexikographie 5 05.07.2010

Textkorpora

• Für Beschreibung von Phänomenen für einzelne Wörter reichen Textkorpora mit 60 Millionen Wörtern aus

• Konkordanz (oft: KWIC, Key Word In Context. Ein Wort im

Satzzusammenhang gespeichert.)

(6)

Computerlexikographie 6 05.07.2010

Akquisition

• Aufbereitung und linguistische Annotation der Korpora

• Extraktion von Wörtern und

Wortkombination, Phrasen, Sätzen usw.

• Interpretation der Ergebnisse und Einbau in Zielwörterbuch

(7)

Computerlexikographie 7 05.07.2010

Traditionelle Wörterbücher

• Analyse der Quellwörterbücher

• Abbildung des Quellwörterbuches auf das Zielwörterbuch

• Zielanwendung bestimmt Umfang und Inhalt

• Extraktion, dann Einbindung ins Zielwörterbuch

(8)

Computerlexikographie 8 05.07.2010

Technische Aspekte

• XML oder SGML

• Standardisierung

• Automatische Exzerption

(9)

Computerlexikographie 9 05.07.2010

OWID - Online-Wortschatz- Informationssystem Deutsch

elexiko mit über 300.000 Stichwörtern.

• Das Neologismenwörterbuch.

• Feste Wortverbindungen.

• Diskurswörterbuch 1945-55

• Materialbasis

(10)

Computerlexikographie 10 05.07.2010

(11)
(12)

Computerlexikographie 12 05.07.2010

JMdict/EDICT Project

• Mehrsprachiges Wörterbuch

• Ausgangssprache Japanisch

• Projektziel: OpenSource Wörterbuch

• Quellen:

– Intuition der Redakteure – Andere Wörterbücher

(13)

Computerlexikographie 13 05.07.2010

Informationskodierung

• adj-i: adjective (keiyoushi)

• adj-na: adjectival nouns or quasi- adjectives (keiyodoshi)

• adj-no: nouns which may take the genitive case particle `no'

• adj-pn: pre-noun adjectival (rentaishi)

(14)

Computerlexikographie 14 05.07.2010

DTD (Document Type Declaration)

<!ELEMENT entry (ent_seq, k_ele*, r_ele+, info?, sense+)>

<!-- Entries consist of kanji elements, reading elements, general information and sense

elements. Each entry must have at least one reading element and one sense element.

Others are optional.-->

(15)

Computerlexikographie 15 05.07.2010

<entry>

<ent_seq>1597130</ent_seq>

<k_ele>

<keb>例える </keb>

<ke_pri>ichi1</ke_pri>

<ke_pri>news2</ke_pri>

<ke_pri>nf28</ke_pri>

</k_ele>

<r_ele>

<reb>たとえる</reb>

<re_pri>ichi1</re_pri>

<re_pri>news2</re_pri>

<re_pri>nf28</re_pri>

</r_ele>

<sense>

<pos>&v1;</pos>

<pos>&vt;</pos>

<gloss>to compare</gloss>

<gloss>to liken</gloss>

<gloss>to speak figuratively</gloss>

<gloss>to illustrate</gloss>

<gloss>to use a simile</gloss>

<gloss xml:lang="fre">comparer</gloss>

<gloss xml:lang="fre">illustrer par l'exemple</gloss>

<gloss xml:lang="fre">utiliser une comparaison</gloss>

<gloss xml:lang="ger">vergleichen</gloss>

</sense>

</entry>

Digitales

Lexikon

von innen

(16)

Computerlexikographie 16 05.07.2010

(17)

Computerlexikographie 17 05.07.2010

(18)

Computerlexikographie 18 05.07.2010

Try-It-Yourself

• OWID

• www.owid.de

• Handy

• Chatroom

• EDICT

• wwwjdic.sys5.se (Mirror)

• „kakeru“ (romanized)

• „shoot“

(19)

Computerlexikographie 19 05.07.2010

Quellen

Carstensen, Kai-Uwe [Hrsg.]: Computerlinguistik und Sprachtechnologie - 3. überarb. und erw. Aufl., Heidelberg: Spektrum Akad. Verl. , 2010

Snell-Hornby, Mary [Hrsg.]; European Association for Lexicography:

Translation and lexicography . Amsterdam: Benjamins [u.a.] , 1989

Institut für Deutsche Sprache Mannheim [Hrsg.]: www.owid.de (Stand 01.07.2010)

EDRDG [Hrsg.]: http://www.csse.monash.edu.au/~jwb/j_edict.html ,(Stand 01.07.2010)

(20)

Computerlexikographie 20 05.07.2010

Wir bedanken uns für Ihre Aufmerksamkeit.

Referenzen

ÄHNLICHE DOKUMENTE

regelmäÿige aktive Teilnahme an beiden Terminen (maximal 4 Fehltermine), Ausnahmen müssen im Vorfeld verhandelt werden.. wöchentliche, kleine Hausaufgabe (Bearbeitungszeit max.

eine Computerdemonstration oder die Anleitung einer Gruppenaufgabe. • Jedes Referat wird im Vorfeld

Ein endlicher Automat ist deterministisch, wenn es, egal in welchem Zustand des Automaten man sich gerade befindet, für jede Eingabe aus dem Alphabet, immer einen eindeutigen

[r]

Frau Holle hat beim Schütteln der Federbetten alle

Die Bedeutung der Computerlinguistik für die Entwicklung praktischer sprachverarbeitender Systeme (etwa für maschinelle Übersetzung, Spracherkennung und

Die Bedeutung der Computerlinguistik für die Entwicklung praktischer sprachverarbeitender Systeme (etwa für maschinelle Übersetzung, Spracherkennung und

Beeinflussung durch Sprache – am Beispiel der Politik Wir werden morgen den Staats- und Regierungschefs und den europäischen Institutionen vorschlagen, einen Prozess in Gang zu