• Keine Ergebnisse gefunden

Special Multiobjective and Multilingual Knowledge of Electronic Encyclopaedia

2. The structure of the EER

The linguistic information (lexical, phonetic, syntactic, semantic and other features) lies at the basis of expert knowledge. The same knowledge would be necessary for researchers, teachers and students in the field of Russian.

The structure of the EER is as follows: the first block of the linguistic database of the EER contains a set of semantic fields with the following keywords:

A. Fundamentals of the main concepts “language” and “speech”.

B. Speech production.

C. Speech perception.

D. Multilevel linguistic information.

E. Paralinguistic information.

F. Extralinguistic information.

Every semantic field includes a set of fields with textual definitions of every sub-keyword. The structure of these semantic fields can be illustrated on the basis of semantic Field A as follows:

I.0. Language and speech

I.0.1. Natural language / artificial language I.0.1.1. Natural language: native / non-native one

I.0.1.2. Standard language: norm or norms (for Russian)

I.0.1.3. Relations between standard language and dialects, sociolects, etc. (for Russian)

I.0.1.4. Natural and artificial bilingualism, multilingualism, etc. (for Russian and other languages)

I.0.1.5. Linguistic interference (for Russian and other languages)

I.0.1.6. Natural language and other semiotic systems of human communication I.0.2. Speech: writing / speaking

I.0.2.1. Spoken language (speech) communication (arts of speech communication models)

I.0.2.2. Speech behaviour, speech activity

I.0.2.2.1. Kinds of speech activities: reading (free, free), speaking (free, half-free)

I.0.2.2.2. Varieties of speech communication: monologue, dialogue, polylogue

I.0.2.2.3. Differentiation of concepts: speech act, speech activity, speech material (corpus)

The EER contains more than 250 sub-keywords, all with textual definitions and linguistic examples.

The special parts of the linguistic block includes phoneticised orthography (phonetic transcription). We use a style of transcription which is current in Russian and common among Slavists on the European continent. In any phonetic transcription a more or less arbitrary choice has to be made concerning the degree of delicacy. A less delicate, broad transcription shows fewer phonemic (phonologic) distinctions. A more delicate, narrow transcription shows more phonetic niceties. In the EER we used the second type of transcription for segmental and suprasegmental description of spoken utterances (e.g. special signs of primary and secondary stress, nasalization, length, syllable division, united pronunciation of two consonants, sound and phrase borders, hardness / softness of consonants, stress, voicing / invoicing of vowels, etc.

The terminological block of the linguistic database of the EER (cf. Potapova 1997) includes 300 lexical items in alphabetical order and can be increased. We may plan to add a corpus of world languages and their linguistic characteristics (cf. Potapov 1997).

All blocks of the EER are connected by means of hypertext technology and designed as Help-files, possessing all the properties and advantages of Windows WinHelp systems. The first version of the EER was described without linguistic details in Potapova (1999) and Potapova & Potapov (1999).

3. Conclusion

This paper described for the first time the detailed structure of the linguistic database of the EER and new steps in the evolution of this electronic product (the EER, version 2).

The linguistic part (all three blocks of the database) handles multilevel linguistic information, terminological peculiarities and bibliographic sources of modern Russian.

The previous version of the EER can be characterised as a multimedia information system with audio and video indexing (various lexical items in spoken Russian, their morphologic sub-items, spoken texts; acoustic waveforms of the spoken material; visual support of segmentation rules of all kinds of spoken language).

The new version of the EER is based on an integration of diverse kinds of knowledge about language, spoken language (speech) and applied domains. This version shows new possibilities to integrate different knowledge sources (theoretical, experimental, perceptual, acoustic, etc.). We plan to continue the elaboration of the EER and to translate the Russian text into other languages.

References

Potapov, V.V. 1997. Brief linguistic reference book: languages and scripts. Moscow.

Potapova, R.K. 1997. [in Russian] Speech: communication, information, cybernetics.

Moscow.

Potapova, R.K. 1999. Some aspects of forensic phonetics expert learning (on the basis of Russian). SPECOM’99. Moscow.

Potapova, R.K. and V.V. Potapov. 1999. Database of forensic phonetics knowledge (as applied to an electronic encyclopaedia for Russian experts). Proceedings of the Annual Conference of IAFP. York.

Appendix

Some extracts from the EER are presented below. These articles are samples from the multilingual Russian-English-German-French database for new information technology, which includes definitions and context examples.

A08 D: Adresse (f) ~, ~n

E: address

F: adresse (f) R: адрес

Die Ad. ist die Kennzeichnung eines Speicherplatzes im Arbeitsspeicher eines Computers, bzw. eines Massenspeichers. Mit Hilfe einer Ad. können der Inhalt eines Speicherplatzes gefunden bzw. Daten dort abgelegt werden.

B16 D: Bit (n) ~s, ~s

E: bit

F: bit (m)

R: бит

Das Bit, zusammengesetzt aus binary and digit, ist eine binäre Informationseinheit. Zur Kennzeichnung der Zahl der Speicherzellen (Speicherkapazität) wird der Zusatz 1K=2^10=1024 verwendet. M (Mega) und G (Giga) stehen, beziehungsweise, für 10^6 und 10^9 als auch für 2^20=1024K und 2^30=1024M.

C05 D: Chip (m) ~s, ~s

E: chip

F: puce (f), pastille (f)

R: кристалл, чип, микросхема

Bauteil, das aus einem einkristallinen Halbleiterplättchen (im allgemeinen Silizium) von einigen mm2 bis zu cm2 (typisch 10mm2 bis 60 mm2) Fläche besteht, auf das mit dem Verfahren der Halbleitertechnik Strukturen zur Realisierung integrierter Schaltkreise aufgebracht sind.

D09 D: Datenbanksystem (n) ~s, ~e E: database system, databank system F: systeme (m) de banque de données R: система банка данных

Sammelbegriff für die Datenbank und das zugehörige Datenbankverwaltungssystem.

E20 D: Expertensystem (n) ~s, ~e E: expert system

F: systeme (m) expert R: экспертная система

Anwendungsprogramm aus dem Bereich der künstlichen Intelligenz, das ähnlich wie ein menschlicher Experte auf einem bestimmten Fachgebiet bei der Problemlösung und Beratung behilflich ist. Ein Es. besteht im Wesentlichen aus einer erweiterbaren Wissensdatenbank und einem Inferenzsystem (Schlussfolgerungssystem). Expertensysteme werden z.B. bei der medizinischen Diagnose eingesetzt.

F19 D: Fraktale (npl)

E: fractals

F: fractales (fpl) R: фрактали

Durch komplexe mathematische Berechnungen entstandenes graphisches Gebilde, das immer ein ähnliches Aussehen besitzt, unabhängig davon, wie stark dieses vergrössert wird. Viele Gebilde in der Natur, z.B. Pflanzen, gehören fraktalen Gesetzen. Heute werden Fraktale in vielen Bereichen genutzt, z.B. in Kinofilmen zur Erzeugung realistisch wirkender Landschaften und zur Datenkomprimierung (fraktale Bildkomprimierung).

G11 D: Graphiksystem (n) ~s, ~e E: graphics system

F: systeme (m) graphique R: графическая система

Menge graphischer Manipulationsfunktionen, mit denen einem rechnerinternen Modell ein Bild erstellt und auf graphischen Ausgabegeräten dargestellt werden kann und umgekehrt, veränderte oder neu erstellte Bilder von den graphischen Eingabegeräten in ein rechnerinternes Modell überführt werden kann.

H15 D: Hypertext (m) ~es, ~e E: hypertext

F: hypertexte (m) R: гипертекст

Prinzip bei der Bildschirmdarstellung, die es erlaubt, Textstellen durch Blättern einzusehen und dem Leser die Wahlmöglichkeit bietet, welchen Text er als nächsten lesen will. Ht. kann nur gelesen werden. Mit Ht. lassen sich

Dokumente verknüpfen. Statt zu zitieren, genügt z.B. ein Verweis (hyperlink oder hyperword) auf das ganze zitierte Original-Dokument, das auf Wunsch des Lesers aufgerufen und an der zitierten Stelle gezeigt wird. Ausserdem besteht keine Beschränkung auf herkömmlichen Text, vielmehr können auch Bilder, Töne oder Filme eingebunden sein.

I12 D: Internet-Protokoll (IP) (n) ~s, ~e E: Internet protocol (IP)

F: Internet protocole (m) R: интернет протокол

Das IP ist ein Übertragungsprotokoll für Software, die die Internet-Adresse ermittelt und Nachrichten versendet bzw. empfängt.

J01 D: Java-Sprache (f) ~, ~n E: language Java

F: langage (m) Java R: язык Ява

Programmiersprache für WWW-Browser von Sun. Java-Programme laufen in sogenannten virtuellen Maschinen ab, die vom Browser unterstützt werden müssen. Dadurch läuft Java unabhängig vom verwendeten Betriebssystem.

K03 D: Koaxialkabel (m) ~s, ~ E: coaxial cable

F: cable (m) coaxial R: коаксиальный кабель

Kabel für hohe Datenübertragungsraten. Ein Kabel besteht aus dem Innenleiter (transportiert das Datensignal) einer nichtleitenden Schicht (Dielektrikum), einer elektrischen Abschirmung (Aussenleiter, Metallgeflecht) und einer Aussenisolierung.

L13 D: Lumineszenzdiode (f) ~, ~n; lichtemittierende Diode (f) ~, ~n E: light emitting diode (LED)

F: photodiode (f) R: фотодиод

Halbleiterelement, das bei geringer elektrischer Leistung (z.B. 10mA und 2V) und hoher Lebensdauer Licht ausstrahlt. Es gibt (infra-rote) IR-Dioden, und rote, grüne, gelbe, sowie blaue LEDs. Sie werden heute in fast allen elektronischen Geräten zur Informationsanzeige benutzt.

M11 D: Maschennetz-Topologie (f) ~, ~e E: meshed topology

F: topologie (f) maillée R: топология типа сетка

Netzwerktopologie, bei der jede Arbeitsstation über ein separates Kabel mit jeder anderen Arbeitsstation verbunden ist. Der Vorteil liegt in der hohen

Ausfallsicherheit, der Nachteil in den hohen Verkabelungsaufwand, dessentwegen diese Topologie nur selten verwendet wird.

N01 D: Nadeldrucker (m) ~s, ~ E: needle printer

F: imprimante (f) par points, imprimante (f) а matrices d’aiguilles

R: печатающее устройство с однорядным (игольчатым) знакосинтезирующим механизмом, одноряное (игодьчатое) знакоситезирующее устройство, игодчтое печатающее устройство

Drucker, der über einen mit (9 oder 24) Nadeln bestückten Druckkopf verfügt, der auf einer Schiene bewegt werden kann. Zwischen Papier und Druckkopf ist ein Farbband gespannt, gegen das die einzelnen Nadeln des Druckkopfes gedrückt werden und dadurch auf dem Papier Punkte erzeugen. Nadeldrucker sind langsam und sehr laut, jedoch billig in der Anschaffung und Wartung.

O07 D: Optische Zeichenerkennung (f) ~, ~en E: optical character recognition (OCR) F: reconnaissance (f) optique des caracteres R: оптическое распознавание символов

Verfahren zur Erkennung von Texten, die mit einem Abtaster eingelesen wurden. Dabei wird die durch den Einlesevorgang erzeugte Bitmap-Graphic in Textinformationen umgewandelt. Bei der Texterkennung unterscheidet man zwei Verfahren, Mustervergleich (pattern matching) und Characteristikenerkennung (feature recognition).

P12 D: Plattform (f) ~, ~e; Rechnerplattform (f) ~, ~e

E: platform

F: plateforme (f), plate-forme (f) R: платформа

Überbegriff für eine Betriebsumgebung für Programme Bei einer Pf..kann es sich sowohl um ein spezielles Computersystem als auch um ein Betriebssystemhandeln. Viele Anwendungsprogramme werden für mehrere Rechnerplattformen angeboten.

R07 D: rechnergestützte Entwicklung (f) ~, ~en; rechnergestützte Ingenieurtütigkeit (f) ~, ~en

E: computer-aided engineering

F: ingénierie (f) assistée par ordinateur

R: автоматизированная разработка, автоматизированное моделирование

Überbegriff für die Bereiche computergestützter Entwurf (CAD), computergestützte Entwicklung (CAM) und computergestützte Planung (CAP).

Towards Second-Generation Spellcheckers

Outline

ÄHNLICHE DOKUMENTE