• Keine Ergebnisse gefunden

Friedrich Wenzel

N/A
N/A
Protected

Academic year: 2022

Aktie "Friedrich Wenzel"

Copied!
221
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Slavistische Beiträge ∙ Band 72

(eBook - Digi20-Retro)

Verlag Otto Sagner München ∙ Berlin ∙ Washington D.C.

Digitalisiert im Rahmen der Kooperation mit dem DFG-Projekt „Digi20“

der Bayerischen Staatsbibliothek, München. OCR-Bearbeitung und Erstellung des eBooks durch den Verlag Otto Sagner:

http://verlag.kubon-sagner.de

© bei Verlag Otto Sagner. Eine Verwertung oder Weitergabe der Texte und Abbildungen, insbesondere durch Vervielfältigung, ist ohne vorherige schriftliche Genehmigung des Verlages unzulässig.

«Verlag Otto Sagner» ist ein Imprint der Kubon & Sagner GmbH.

Friedrich Wenzel

SPLIT

Ein Verfahren zur maschinellen morphologischen Segmentierung russischer Wörter

Friedrich Wenzel - 9783954791354 Downloaded from PubFactory at 01/10/2019 06:09:32AM via free access

(2)

S l a v i s t i c h e B e i t r ä g e

BEGRÜNDET VON ALOIS SCHMAUS

HERAUSGEGEBEN VON HENRIK BIRNBAUM UND JOHANNES HOLTHUSEN REDAKTION: PETER REHDER

Band 72

(3)

FRIEDRICH W ENZEL

S P L I T

Ein Verfahren zur maschinellen morphologischen Segmentierung russischer Wörter

VERLAG OTTO SAGNER • MÜNCHEN

Friedrich Wenzel - 9783954791354 Downloaded from PubFactory at 01/10/2019 06:09:32AM via free access

(4)

D 188

ISBN 3 8769 O 082 4

Copyright by Verlag Otto Sagner, München 1973 Abteilung der Firma Kubon und Sagner, München

Druck: Alexander Großmann T

8 München 19» Ysenburgstraße 7

(5)

00047409

V

V O R W O R T

«

Das h ie r v o rg ele g te Verfahren zur maschinellen morphologischen Segmentierung ru ss is c h e r W ö rter, SPLIT, wurde im Rahmen des For- schungsprojektes ,,Analyse der W o rts tru k tu r und W o rtsch atzstru ktu r d e r russischen chemischen Fachsprache u n te r E in s atz e le k tro n is c h e r Datenverarbeitungsanlagen" e n tw ic k e lt. Das P ro je k t wird an der F re ie n U n iv e r s it ä t B e r lin m it f i n a n z i e l l e r U nterstützung durch d ie Deutsche Forschungsgemeinschaft d urchg efü h rt.

Den M ita r b e ite r n möchte ich an d ie s e r S t e l l e meinen Dank aus- sprechen. Thomas Kühn war w e s e n tlic h an der Übertragung des Seg- mentierungsalgorithmus in ein Assemblerprogramm und beim Austesten des Verfahrens in der Rechenanlage b e t e i l i g t . Mühevolle K le in a r b e it

bei der E rs te llu n g der f ü r das Verfahren e r fo r d e r lic h e n L is te n von Wortbauelementen und ihren Kombinationen le i s t e t e n P e te r B lecher, Rosalinde S a r t o r t i , Nina Kuznecova und Joseph Sonderkamp. Das Ab- lochen der umfangreichen Datenmengen besorgte m it Geduld Mechthild Iven.

Mein besonderer Dank g i l t P ro f. D r. N orbert R e i t e r , der Raum und o rg a n is a to ris c h e Potenz des I n s t i t u t s f ü r B alkanologie zur Verfügung s t e l l t e und damit das P ro je k t überhaupt e r s t erm ög lich te.

F r i e d r i c h W enzel

Friedrich Wenzel - 9783954791354 Downloaded from PubFactory at 01/10/2019 06:09:32AM via free access

(6)

L I

־־

I

' V - г

vttpjßi.* ״״T A I 1

В Ш * 1» » Ѵ Я ? ? " * - Д 5

1 H F %

_ _

11-

í r b ^ •ty ^ 1 j j i 1"" זV ־ j 4 '־־-־-׳A

H r 4 В L . w h וי•

j W ç i t i b M O 1£ר /»łł^1V »ł¥ • f t < >•0 t f ' j f ø Д 4־w r # « l

Я И 9. נ * י ׳ & # « » ^ נ»é&rt*e9T ГФ

' M i - , ו

С ' ר

ןי ו

Jt e i

< r w

£ר

״ 4 f t ,

>« пІЙМаб W * u ־»*vļ

« % < * * ׳ ■ ־ '

.-*►

?״.-

- 1 JL

• ■

־_ I

1 .

״

4 »

I I

“s &

М ім Л *י

1' й Й * ł * *

I I p' . k > ־L

4

I M U

* c n A fcî

П І

y t

ד ג «

л

»ר I ^ I I י4^1 & _1ו _ j _ 1 Л Т ־ ’ у

k W f j b

* й !

BA-ütM

,*. *■״r j - í .

ד f ?

־ י * * и и (

C' * N t f

HjT

I F ; ' i ־ י .

ה ^ ץ # י

^

» n * « * * È H M

־ • ^ Н І ^ Ц

в ■

r f

j H 3 ! \ f i

й Ы г 5 * Ф * » 1 - f a ,mit ^ :A :V Ā w W

* * » •

״־»

:י* י< I 9

ъ!ц

־*

wW * n Jłn * r ג****»

1

>

T^j«n«:łr»!r %я :r|*rH*t! ■»и

<^

I^W^Ipp»; rntêfrr*c9 ■Л«4р|1 tib th m ii Ъч> »sß*^K W «0ł4

־Л

ח , ל - H

■ î - '. l - I - I

V

■ . -_ ■ Ш 1М • T W * d t t t ' ķ I -c H t í ^ É b i f c í * * t ø t ־ ,: Л ^ в - 1/П З . Ш І и ю Л • ^ *Lfe - י* jå ч Ь л и * Д - Г / . ļļk u U W

I I u ׳å ־ ' *. ' * ־Г : . ״ ж -

ו . י 4

! » U N J і у

A Í * % . fnçtll Ij- 11.

I I

I - ־

I י י ■ ■ I

1VJ*# 1

1-: I I

I I

й Ѵ І К ' 1

! ף

.pf 1U 1

■ I

(7)

VII

00047409

I N H A L T

1. Forschungsrahmen 1

2. Zweck der Dokumentation des Verfahrens 5

3. Eingrenzung der Darlegung 8

4. Theoretischer Status der dem Verfahren zugrunde ge-

legten 1inguistischen B e g riffe 10

4 .1 Morphem 11

4 .2 Morph, Allornorph, Homomorph 12

4 .3 Heteromorphie 14

4 .4 Wort 15

4 .5 D is t r ib u t iv e Morphemklassen und W ortstruktur 17 4 .5 .1 Mengentheoretische D e fin ito n von

Morphemklassen 19

4 . 5 .2 Morphemklassendistribution und Wort-

S tru k tu r 28

5. Grundzüge des Segmentierungsalgorithmus 35

5.1 Segmenti eru n gsstrategie 35

5 .1 .1 Formaler Ansatz zu e in e r Segmentierungs-

S tra te g ie 35

5 .1 .2 Segmentierung der Gesamtkette a ls formale

Kette LK ־״ IK ־•־ RK 38

5 .1 .3 Segmentierung der Gesamtkette a ls formale Kette

[n (k e W )-l] • (Q - c) - Q | n(keW) ž 2 39

5 .1 .4 Segmentierung der formalen K ette Q 45

5 . 1 .4 . 1 Das Heteromorphieproblem und

seine Lösung 45

5 . 1 . 4 . 1 . 1 Segmentierung in p o t e n t ie lle

Ketten 50

5 . 1 . 4 . 1 . 2 Einsatz von Elementkombinati-

o n s lis te n 52

Friedrich Wenzel - 9783954791354 Downloaded from PubFactory at 01/10/2019 06:09:32AM via free access

(8)

57

57 61

65

68

75

77 79 81 85 85 87 89

92 93

111

155 155 157 161 V i l i

5 .2 S p e z ie lle Algorithmen des Segmentierungsver- fahrens

5 . 2 .1 Segmentierung von P r ä f i x - und S u f f i x - ketten

5 . 2 .2 Speicherung p o t e n t i e l l e r Außenketten 5 . 2 .3 Prüfung a u f unzulässige Zeichenfolgen

an der Grenze p o t e n t ie l le P r ä f i x k e t - t e ־ Wortkern

5 . 2 . 4 Umwandlung von Kernallomorphen ("pho- nologische Routinen")

5 . 2 . 5 R a tio n e lle Id e n t i f iz i e r u n g von Elemen- ten in langen L is te n (Kern/Ganzwort־

Such-Routine)

Behandlung von W örtern, d ie n ic h t der allgemeinen f o r - malen W o rts tru k tu r entsprechen

Logische S tr u k tu r des Segmentierungsverfahrens

D ie im V erfahren e in g e s e tzte n L is te n und ih re S tru k tu r S p e ic h e rp la tz b e d a rf

E in - und Ausgabeformate

L e is tu n g s fä h ig k e it des Segmentierungsverfahrens M ö g lich ke ite n der M o d ifiz ie ru n g

H A N G

T a b e lle d er k y r i ll is c h e n Zeichen und der f ü r s ie verwen- deten BCD- und o k ta le n Kodes

Flußdiagramm zum Segmentierungsprogramm SPLIT (V e r- sion 2)

Assemblerprogramm SPLIT (V ersio n 2) Element- und Elementkombinationsl is te n

I V . l P r ä f i x - und P rä fix k o m b in a tio n s lis te n I V . 2 S u f f i x - und S u ffix k o m b in a tio n s lis te n

I V . 3 W o rtk e rn lis te n f ü r den russischen chemischen Fachwortschatz

(9)

IX

00047409

A usschnitt aus einem m it dem Segmentierungsverfahren h er- g e s te llte n Derivationsw örterbuch der russischen chemi-

sehen Fachsprache 170

Ausschnitt aus e in e r S o rtie ru n g des segmentierten r u s s i- sehen chemischen Fachwortschatzes nach S u f fix k e tte n

(1 . S o r tie r s c h lü s s e l) 189

L ite r a tu r v e r z e ic h n is 197

V.

V I.

V I I .

Friedrich Wenzel - 9783954791354 Downloaded from PubFactory at 01/10/2019 06:09:32AM via free access

(10)
(11)

1 . FORSCHUNGSRAHMEN

Das A n l i e g e n d e r A r b e i t i s t . e i n V e r f a h r e n z u r m a s c h i n e l l e n m o r p h o l o g i s c h e n A n a l y s e r u s s i s c h e r W ö r t e r

־ d . h . z u r S e g m e n t i e r u n g r u s s i s c h e r W ö r t e r m i t t e l s e i ־ n e r R e c h e n a n l a g e i n e i n e f o r m a t i e r t e K e t t e von M orphen

־ i n s e i n e r F u n k t i o n s w e i s e und L e i s t u n g s f ä h i g k e i t zu b e s c h r e i b e n .

D i e E n t w i c k l u n g d i e s e s V e r f a h r e n s s t e h t im Kon- t e x t d e r F o r s c h u n g e n z u r a u t o m a t i s c h e n E r s c h l i e ß u n g d e r I n h a l t e f r e m d s p r a c h l i c h e r F a c h t e x t e ־ im s p e z i e l l e n r u s - s i s c h e r c h e m i s c h e r F a c h t e x t e - und z u r m a s c h i n e l l e n Do- k u m e n t a t i o n . Das V e r f a h r e n i s t i n d i e s e m Zusammenhange zu v e r s t e h e n a l s e r s t e r T e i l e i n e s A n a l y s e - S y n t h e s e - S y s t e m s , m i t dem nach d e r S e g m e n t i e r u n g von W ö r t e r n i n g e e i g n e t d i m e n s i o n i e r t e W o r t b a u e l e me n t e d i e S y n t h e t i - s i e r u n g e i n e s f ü r D o k u m e n t a t i o n s z w e c k e h i n r e i c h e n d e n W o r t i n h a l t ־ Kodes d u r c h g e f ü h r t w e r d e n k a n n. 1 E i n s o l c h e s P r o g r a mms y s t e m s o l l im w e s e n t l i c h e n d i e A u f g a b e ü b e r - nehmen, das f ü r d i e V e r a r b e i t u n g f r e m d s p r a c h l i c h e r T e x - t e e r f o r d e r l i c h e , b i s l a n g s e h r s p e i c h e r a u f w e n d i g e Wör - t e r b u c h zu ö k o n o m i s i e r e n , i n d e m d e r W o r t s c h a t z so w e i t wi e p r a k t i k a b e l a u f den B e s t a n d d e r i h n k o n s t i t u i e r e n d e n W o r t b a u e l e m e n t e r e d u z i e r t w i r d . D i e d a d u r c h f ü r das Rus - s i s c h e im i d e a l e n F a l l e e t wa 97 P r o z e n t 2 b e t r a g e n d e E i n -

I n n e r h a l b e i n e s v o l l a u s g e b a u te n Systems k o m m u n iz ie r t das h i e r a n g e d e u t e t e A n a l y s e - S y n t h e s e - S y s t e m m i t einem P a r s e r , wodurch d i e D im e n s io n des W o rte s v e r l a s s e n w i r d und f ü r d i e Syn-

th e s e s e m a n t i s c h e r Kodes auch k o m p le x e r e E i n h e i t e n herangezogen werden können.

2 Bei ü b e r s c h l ä g i g e r Rechnung i s t f ö r d i e R e d u k t io n d e r Zahl d e r W ö r t e r b u c h e i n h e i t e n a u f d i e Zahl d e r W o r t b a u e l emente e i n Q u o t i e n t z w is c h e n 8 und 10 und noch e in m a l f ü r d i e R e d u k t io n d er Anzahl d e r Z e ic h e n p r o E i n h e i t e i n Q u o t i e n t z w is c h e n 3 und 4 a n z u s e t z e n .

Friedrich Wenzel - 9783954791354 Downloaded from PubFactory at 01/10/2019 06:09:32AM via free access

(12)

s p a r u n g an S p e i c h e r p l a t z wür de ü b e r d i e b l o ß e V e r r i n - g e r u n g des S p e i c h e r u m f a n g s h i n a u s e i n e n Z u g r i f f a u f e x t e r n e S p e i c h e r m e d i e n m i t i h r e r um m e h r e r e Z e h n e r p o - t e n z e n h ö h e r l i e g e n d e n Z u g r i f f s z e i t wenn n i c h t e r ü b ־ r i g e n so doch w e s e n t l i c h v e r r i n g e r n . F ü r das m a s c h i n e l - l e i n f o r m a t i o n r e t r i e v a l e r w e i s t s i c h a uc h ohne R ü c k - s i c h t a u f s p e i c h e r ö k o n o m i s c h e Er wä gu n ge n d i e S e g m e n t i e - r u n g von W ö r t e r n a l s u n u m g ä n g l i c h , wenn man zu m ö g l i c h s t v o l l s t ä n d i g e n A n t w o r t e n des R e t r i e v a l s y s t e m s a u f B e n u t - z e r a n f r a g e n kommen w i l l .

D i e m a s c h i n e l l e S e g m e n t i e r u n g r u s s i s c h e r W ö r t e r wu r d e z u e r s t im Rahmen e i n e r R e i h e von M T - P r o j e k t e n i n A n g r i f f genommen. D a mi t wur de zum e i n e n d e r Zweck v e r ־ f o l g t , d i e f ü r den P a r s e r n o t w e n d i g e n m o r p h o l o g i s c h e n I n f o r m a t i o n e n z u r V e r f ü g u n g zu s t e l l e n ־ was z u r A b t r e n - nung d e r F l e x i o n s s u f f i x e f ü h r t e ־ und zum a n d e r e n d e r Z we c k , das ü b l i c h e '1d i c t i o n a r y 1 0 0k ~ up " zu b e s c h l e u n i - gen - was b e r e i t s schon d u r c h d i e A b t r e n n u n g d e r F l e - x i o n s s u f f i x e e r r e i c h t we r d e n k o n n t e , a b e r d a r ü b e r h i n - aus e i n e w e i t e r g e h e n d e S e g m e n t i e r u n g e r f o r d e r l i c h ma c h ־ t e . WAHLGREN f o r d e r t z wa r schon 1962 " s e g m e n t a t i o n down t o t h e m i n i m a l " ^ , doch b l i e b i n den M T - P r o j e k t e n d i e v o l l s t ä n d i g e S e g m e n t i e r u n g a u f den B e r e i c h c h e m i s c h e r S t o f f n a h m e n r a t i o n a l e r und h a l b r a t i o n a l e r N o m e n k l a t u r

־ wo d i e D u r c h f ü h r b a r k e i t e v i d e n t i s t ־ b e s c h r ä n k t . *

W a h lg re n , J . H . , L i n g u i s t i c A n a l y s i s o f R u s s ia n Chemi- c a l T e r m i n o l o g y , i n : I n t e r n a t i o n a l C o n fe re n c e on M ach in e T r a n s ־ l a t i o n o f Language and A p p l i e d Language A n a l y s i s , London 1962, S. 2 J * 9 2 6 3 ־ -

Ц

W a h lg re n , J . H . , A d e s c r i p t i v e grammar o f R u s s ia n ch e * m i c a l n o m e n c l a t u r e , p r o j e k t document DR3 (M a chine T r a n s l a t i o n P r o j e k t , U n i v e r s i t y o f C a l i f o r n i a ) , B e r k e l e y 196А.

(13)

Im ü b r i g e n b e g n ü g t e man s i c h m i t d e r S e g m e n t i e r u n g i n T e i l k e t t e n » d i e z u m e i s t mehr nach p r a g m a t i s c h e n a l s nach s p r a c h w i s s e n s c h a f t l i c h e n G e s i c h t s p u n k t e n d i m e n s i o n i e r t s i n d . A l s B e i s p i e l f ü r e i n e p a r t i e l l e S e g m e n t i e r u n g s o l l das an dem N a t i o n a l P h y s i c a l L a b o r a t o r y ( E n g l a n d ) e n t ־ w i c k e l t e V e r f a h r e n e r w ä h n t w e r d e n , das a u f das A n a l y s e ־ v e r f a h r e n von D A V I E S und DAY** a u f g e b a u t : Zu ü b e r s e t z e n - de W ö r t e r w e r d e n i n Stamm und S u f f i x bzw. l ä n g s t e S u f - f i x k e t t e s e g m e n t i e r t , l e t z t e r e we r d e n nach e i n e r T a b e l - l e k o d i e r t . Das M a s c h i n e n w ö r t e r b u c h e n t h ä l t j e w e i l s f ü r e i n e Gr u p p e von D e r i v a t e n n u r noch e i n e n E i n t r a g f ü r den Stamm und e i n e L i s t e d e r Kodes f ü r d i e S u f f i x e bzw. S u f - f i x k e t t e n d e r D e r i v a t e . E i n e im W ö r t e r b u c h n i c h t e n t h a l - t e n e S t a m m - S u f f i x k o m b i n a t i o n kann n i c h t b e a r b e i t e t w e r - d e n . ^ ^

D i e v o l l s t ä n d i g e S e g m e n t i e r u n g e i n e r b e a c h t l i c h e n W o r t s c h a t z m e n g e i n k l e i n s t m ö g l i c h e E l e m e n t e l e i s t e t e i n z w i

Q

sehen e i n R A N D - P r o j e k t u n t e r d e r L e i t u n g von WORTH . Das E r g e b n i s d e r A r b e i t i s t e i n D e r i v a t i o n s w ö r t e r b u c h d e r r u s s i s e h e n G e g e n w a r t s s p r a c h e . E n t s p r e c h e n d d e r Z i e l s e t -

D a v i e s , Donald W. und Day, A n to n y H . , A T e c h n iq u e f o r C o n s i s t e n t S p l i t t i n g o f R ussia n Words, i n : I n t e r n a t i o n a l C o n fe -

re n c e on M achine T r a n s l a t i o n and A p p l i e d Language A n a l y s i s , London 1962, S. З^З-ЗбЗ-

^ M c D a n ie l , J . e t a l i i , An e v a l u a t i o n o f th e u s e f u l n e s s o f m achine t r a n s l a t i o n s produced a t th e N a t i o n a l P h y s i c a l L a b o ra ־

t o r y , T e d d i n g t o n , w i t h a summary o f t h e t r a n s l a t i o n m e th o d s, i n : 2eme C o n fe r e n c e i n t e r n a t i o n a l e s u r l e t r a i t e m e n t a u t o m a t iq u e des la n g u e s , G r e n o b le 1967•

^ Zu w e i t e r e n A n a l y s e v e r f a h r e n , auch s o l c h e n , d i e ande re Sprachen b e t r e f f e n , s i e h e L i t e r a t u r v e r z e i c h n i s .

о

W o r th , Dean S . , Kozak, Andrew S . , J o h n s o n , Donald B . , R u s s ia n D e r i v a t i o n a l D i c t i o n a r y , New Y o rk 1970.

Friedrich Wenzel - 9783954791354 Downloaded from PubFactory at 01/10/2019 06:09:32AM via free access

(14)

zung i n t e n d i e r t das z u r S e g m e n t i e r u n g e i n g e s e t z t e ma- s c h i n e l l e V e r f a h r e n k e i n e A u t o m a t i o n , s o n d e r n nim m t e i - ne R e i h e von z w i s c h e n g e s c h a l t e t e n m a n u e l l e n A r b e i t s g ä n - gen und e i n u m f a n g r e i c h e s P o s t e d i t z u r K o r r e k t u r von S e g m e n t i e r u n g s f e h l e r n i n K a u f . Dennoch wa r d i e A r b e i t d e r Gr u p p e um w o r t h f ü r das h i e r v o r z u s t e l l e n d e Segme n- t i e r u n g s v e r f a h r e n von B e d e u t u n g , da a u f d e r G r u n d l a g e d e r von d e r Gr uppe v o r g e l e g t e n S e g m e n t i e r u n g s e r g e b n i s s e E l e m e n t k o m b i n a t i o n s l i s t e n e r s t e l l t w e r d e n k o n n t e n , o h n e d i e e i n e w e i t g e h e n d f e h l e r f r e i e m a s c h i n e l l e S e g m e n t i e - r ung n i c h t m ö g l i c h i s t .

(15)

2 . ZWECK DER DOKUMENTATION DES VERFAHRENS

De r e i n g a n g s s k i z z i e r t e F o r s c h u n g s k o n t e x t i s t nur e i n e r d e r m ö g l i c h e n A n w e n d u n g s b e r e i c h e f ü r das S e g m e n t i e - r u n g s v e r f a h r e n . D e r Au f b a u e i n e s f ü r d i e s e Zwecke v o l l f u n k t i o n s f ä h i g e n A n a l y s e - S y n t h e s e - S y s t e m s s e t z t im ü b r i - gen noch w e i t e r e F o r s c h u n g , s p e z i e l l im l i n g u i s t i s c h e n B e r e i c h , v o r a u s . N i c h t z u l e t z t h i e r , i n s b e s o n d e r e f ü r das G e b i e t d e r W o r t b i l d u n g , v e r m e i n e n w i r , m i t dem v o r - l i e g e n d e n S e g m e n t i e r u n g s v e r f a h r e n e i n e n B e i t r a g l i e f e r n zu k ö n n e n .

Das V e r f a h r e n s o l l dem S p r a c h w i s s e n s c h a f t l e r a l s e i n H i l f s m i t t e l d i e n e n , e i n e n W o r t s c h a t z b e l i e b i g gr oßen Umf a n g s , bzw. e i n e n nach b e s t i m m t e n K r i t e r i e n a u s g e w ä h l - t e n W o r t s c h a t z , z . B . e i n e n F a c h w o r t s c h a t z , so a u f z u b e r e i - t e n , daß e r d i e Lösung s e i n e r F r a g e n a u f b r e i t e r M a t e r i - a l g r u n d l a g e r a t i o n e l l angehen k a n n . D i e Anwendung e i n e s m a s c h i n e l l e n V e r f a h r e n s z w i n g t i h n d a z u , s e i n e F r a g e s t e l -

l u n g e n und d i e i n U n t e r s u c h u n g e i n g e b r a c h t e n K r i t e r i e n e x p l i z i t zu ma c h e n ; z u g l e i c h g a r a n t i e r t s i e i hm d i e v o l l - s t ä n d i g e A u s w e r t u n g des e i n g e s e t z t e n M a t e r i a l s und d i e v ö l l i g g l e i c h m ä ß i g e B e h a n d l u n g a l l e r u n t e r s u c h t e n E i n h e i - t e n .

L i e g e n e r s t e i n ma l d i e m a s c h i n e l l e r s t e l l t e n Se g- m e n t i e r u n g s e r g e b n i s s e v o r ־ und es v e r s t e h t s i c h von s e l b s t , daß d i e s e w i e d e r i n m a s c h i n e n l e s b a r e r Form a n - f a l l e n - so können s i e m i t den b e i den m e i s t e n R e c h e n - a n l a g e n z u r S y s t e m - S o f t w a r e g e h ö r e n d e n S o r t - M e r g e - P r o - grammén ohne g r o ß e n P r o g r a m m i e r a u f w a n d nach e i n e m f r e i d e f i n i e r b a r e n A l p h a b e t und nach e i n e r K e t t e b e l i e b i g v e r k n ü p f b a r e r S o r t i e r s c h l ü s s e l s o r t i e r t w e r d e n .

D i e E r g e b n i s s e d e r S o r t i e r u n g können dann z u r w e i t e r e n " m a n u e l l e n " B e a r b e i t u n g i n L i s t e n f o r m a u s g e -

Friedrich Wenzel - 9783954791354 Downloaded from PubFactory at 01/10/2019 06:09:32AM via free access

(16)

d r u c k t w e r d e n . So b i e t e t s i c h z . B . das A u s d r u c k e n e i n e s D e r i v a t i o n s w ö r t e r b u c h e s a n , i n dem s i c h d e r d e r i v a t i o - n a i e Zusammenhang e i n e s W o r t e s i n n e r h a l b d e r W o r t f a m i - l i e , d e r es z u g e o r d n e t i s t , u n t e r s u c h e n l ä ß t . ^ I n d e r A u f l i s t u n g e i n e r S o r t i e r u n g na c h S u f f i x k e t t e n ( 1 . S o r - t i e r s c h l ü s s e l) 10 o d e r i n e i n e r e n t s p r e c h e n d e n S o r t i e r u n g a t e r g o l a s s e n s i c h d i e A b l e i t u n g s s t u f e n a u s f i n d i g ma- c h e n , d i e b e i d e r U n t e r s u c h u n g des d e r i v a t i o n a l en G e f ü - ges e i n z e l n e r W o r t f a m i l i e n a l s L ü c k e n a u f t r e t e n . B e i d e S o r t i e r u n g e n zusammen l i e f e r n e i n g e e i g n e t e s M a t e r i a l , um e t wa da s P r o b l e m d e r s o g . a b g e l e i t e t e n D e r i v a t i o n s - s u f f i x e zu b e a r b e i t e n .

E i n w e i t e s F e l d von U n t e r s u c h u n g s m ö g l i c h k e i t e n i s t d a d u r c h g e g e b e n , da ß d i e S e g m e n t i e r u n g s e r g e b n i s s e - i n v o r s o r t i e r t e r For m a u f Ma g n e t b a n d o d e r M a g n e t p l a t - t e g e s p e i c h e r t - m i t d e r R e c h e n a n l a g e s e l b s t a u s g e w e r - t e t we r d e n k ö n n e n . Daß d a m i t d i e M ö g l i c h k e i t e x a k t e r s t a t i s t i s c h e r A n a l y s e n g e g e b e n i s t , v e r s t e h t s i c h von s e l b s t. 11 Zu n e n n e n i s t v o r a l l e m d e r B e r e i c h d e r d i s - t r i b u t i o n e l l e n U n t e r s u c h u n g e n , e t wa u n t e r den F r a g e - S t e l l u n g e n : We l c h e K o m b i n a t i o n e n von E l e m e n t e n t r e t e n i n e i n e m W o r t s c h a t z a u f und m i t w e l c h e r H ä u f i g k e i t ? I n we l c h e m U m f e l d t r e t e n b e s t i m m t e K o m b i n a t i o n e n a u f ? Da d i e m o r p h o l o g i s c h e S e g m e n t i e r u n g a l s e i n e S t r u k t u r -

9 S ie h e dazu den A u s s c h n i t t e i n e s D e r i v a t i o n s w ö r t e r b u c h e s d e r r u s s i s c h e n c h e m is c h e n F a c h s p r a c h e , das ü b e r das S e g m e n tie ru n g s - v e r f a h r e n h e r g e s t e l l t w u r d e , im Anhang.

10 S ie h e den A u s s c h n i t t e i n e r s o lc h e n S o r t i e r u n g des r u s s i - sehen ch e m is c h e n F a c h w o r t s c h a t z e s im Anhang.

11 So k o n n t e z . B . f ü r den von uns u n t e r s u c h t e n , 10.000 E i n - h e i t e n u m fassenden r u s s i s c h e n c h e m is c h e n F a c h w o r t s c h a t z i n n e r h a l b e i n e r M i n u t e d e r A n t e i l an m e h r k e r n ig e n W ö r te r n f e s t g e s t e l l t w e r - d en : 2 6 , 0 % 2 - k e r n i g e , 1 ,7 % 3־ k e r n i g e , 0,1 % * ♦ - k e r n i g e , * 2 7 , 8 % m e h r k e r n ig e W ö r t e r - im V e r g l e i c h dazu e n t h ä l t d e r Umgangs- und

l i t e r a t u r s p r a c h l i c h e W o r t s c h a t z n u r 3 % m e h r k e r n ig e W ö r t e r .

(17)

a n a l y s e von Wö r t e r n i n t e r p r e t i e r t w e r d e n k a n n , b i e t e t d i e m a s c h i n e l l e W e i t e r v e r a r b e i t u n g d e r S e g m e n t i e r u n g s ־ e r g e b n i s s e auch d i e M ö g l i c h k e i t z u r E r s t e l l u n g e i n e s S t r u k t u r p r o f i l s f ü r s p e z i e l l e W o r t s c h a t z s e k t o r e n , et wa f ü r e i n e n F a c h w o r t s c h a t z .

Friedrich Wenzel - 9783954791354 Downloaded from PubFactory at 01/10/2019 06:09:32AM via free access

(18)

EINGRENZUNG DER DARLEGUNG 3

Das S e g m e n t i e r u n g s v e r f a h r e n a r b e i t e t a l s e i n a u f e i n e m a l l g e m e i n e n f o r m a l e n W o r t s t r u k t u r s c h e m a b a s i e r e n - d e r und d a m i t von e i n e r E i n z e l s p r ä c h e w e i t g e h e n d u n a b -

1 о

h ä n g i g e r A l g o r i t h m u s ü b e r e i n e R e i h e von s p e z i e l l e n , d i e G e g e b e n h e i t e n d e r E i n z e l s p r ä c h e ־ i n d i e s e m F a l l e d e r r u s s i s c h e n - e r f a s s e n d e n E l e m e n t l i s t e n .

D e r A l g o r i t h m u s i s t p r o g r a m m i e r t i n d e r Assem- b l e r s p r a c h e COMPASS f ü r d i e R e c h e n a n l a g e CDC 3 3 0 0 und s e t z t d i e I n s t a l l a t i o n des B e t r i e b s s y s t e m s MASTER und h a r d w a r e s e i t i g d i e I n s t a l l a t i o n e i n e s Z e i c h e n v e r a r b e i ־ t u n g s - ( B D P ־ ) M o d u l s v o r a u s . Das Pr ogr amm i s t im H i n b l i c k a u f s e i n e s p ä t e r e Anwendung i n d e r a u t o m a t i s c h e n S p r a c h - V e r a r b e i t u n g u n t e r A u s n u t z u n g a l l e r i n d e r H a r d w a r e g e - ge be ne n M ö g l i c h k e i t e n z u r E r r e i c h u n g h o h e r R e c h e n g e - s c h w i n d i g k e i t e n o p t i m i e r t .

E i n e e i n g e h e n d e D a r l e g u n g des Pr ogr amms wü r d e be i m L e s e r n i c h t n u r d i e K e n n t n i s d e r h i e r v e r w e n d e t e n A s s e m b l e r s p r a c h e , s o n d e r n a u c h d i e i n t e r n e K e n n t n i s

d e r R e c h e n a n l a g e CDC 3 3 0 0 v o r a u s s e t z e n . Da man a n d e r e r ־ s e i t s d a v o n a u s g e h e n k a n n , da ß e i n B e n u t z e r des Segmen־

t i e r u n g s v e r f a h r e n s i n den m e i s t e n F ä l l e n den A l g o r i t h - mus nach den G e g e b e n h e i t e n d e r i hm v e r f ü g b a r e n R e c h e n ­

1 о

Der A l g o r i t h m u s b a s i e r t zw a r a u f d e r f ü r den r u s s i s c h e n W o r t s c h a t z a b g e l e i t e t e n f o r m a l e n W o r t s t r u k t u r , j e d o c h t r i f f t d i e - se z u m in d e s t auch a u f w e i t e r e s l a w i s c h e S prachen z u . Z u r P r ü fu n g d e r A n w e n d b a r k e it a u f a n d e r e Sprachen s i e h e d i e S t r u k t u r f o r m e l n

I , I I und IV i n Kap. 4 . 5 * 2

(19)

a n l a g e i n e i n Pr ogr amm a n d e r e r S p r a c h e u ms e t z e n muß, w i r d d i e B e s c h r e i b u n g des Pr ogr amms a u f d i e d e r Progr amm

S t r u k t u r b e s c h r ä n k t . Das i n COMPASS g e s c h r i e b e n e Assem- b l e r p r o g r a m m w i r d im Anhang d o k u m e n t i e r t . F ü r das S t u - di um d i e s e s Pr ogr ammes und i n s b e s o n d e r e f ü r d i e E r l e i c h ־ t e r u n g e i n e r e r n e u t e n P r o g r a m m i e r u n g w i r d e i n a u s f ü h r ־ l i c h e s F l u ß d i a g r a m m e b e n f a l l s im Anhang a u f g e n o mme n . 1^

D i e M o r p h ־ und M o r p h k o m b i n a t i o n s l i s t e n , a u f d i e d e r A l g o r i t h m u s z u g r e i f t , w e r d e n n u r i n Bezug a u f d i e vom Al g o r i t hmus g e f o r d e r t e L i s t e n s t r u k t u r b e s c h r i e b e n . Der L i s t e n a p p a r a t , m i t dem das V e r f a h r e n an e i n e m g r ö ־ ß e r e n W o r t s c h a t z a u s g e t e s t e t w u r d e , w i r d e b e n f a l l s i n den Anhang a u f ge nomme n.

G e g e n s t a n d d e r D a r l e g u n g s o l l e n d i e Gr u n d z ü g e des S e g m e n t i e r u n g s a l g o r i t h m u s s e i n , nachdem z u v o r d i e ihm z u g r u n d e g e l e g t e n l i n g u i s t i s c h e n B e g r i f f e d e f i n i e r t s i n d .

Im ü b r i g e n v e r w e is e n w i r a u f d i e im L i t e r a t u r v e r z e i c h ־ n i s a u f g e f ü h r t e n Manuals zu dem C o m p u te r-S y s te m , dem B e t r i e b s - syste m und dem A s s e m b le r d e r CDC 3300.

Friedrich Wenzel - 9783954791354 Downloaded from PubFactory at 01/10/2019 06:09:32AM via free access

(20)

־ 10

־

00047409

4 . TH EO RE T IS CH E R STATUS DER DEM VERFAHREN ZUGRUNDE GELEGTEN L I N G U I S T I S C H E N B E G R I F F E

E i n g a b e e i n h e i t i s t da s W o r t i n s e i n e m g r a p h i s c h e n A u s d r u c k , A u s g a b e e i n h e i t i s t das Mor ph i n Form e i n e r f o r - m a t i e r t e n K e t t e von M o r p h e n . B e i d e B e g r i f f e , Wo r t und Mo r p h , b e d ü r f e n d e r E x p l i k a t i o n i n i h r e m d u r c h den Mo r - p h e m b e g r i f f g e g e b e n e n t h e o r e t i s e h e n Z u sammenh a n g e .

Das V e r f a h r e n i s t d a r a u f e i n g e r i c h t e t , W o r t k e r n - a l l o m o r p h e i n e i n a n d e r zu ü b e r f ü h r e n ( - d i e W o r t k e r n l i - s t e , a u f d i e d e r A l g o r i t h m u s z u g r e i f t , e n t h ä l t j e w e i l s nur e i n e s d e r m ö g l i c h e n A l l o m o r p h e ) . Das V e r f a h r e n i s t e b e n f a l l s d a z u i n d e r L a g e , Homomor phe, s o f e r n s i e E i e - me nt e v e r s c h i e d e n e r M o r p h k l a s s e n s i n d , zu d i s k r i m i n i e - r e n ; u n t e r d e r V o r a u s s e t z u n g , da ß d i e L i s t e n s t r u k t u r g e - ä n d e r t w i r d , i s t es m ö g l i c h , a uc h Homomor phe, d i e E i e - me n t e e i n und d e r s e l b e n M o r p h k l a s s e s i n d , zu d i s k r i m i n i e -

r e n . D i e B e g r i f f e A l l o m o r p h i e und Homomor phi e müssen a l - so e b e n f a l l s i n i h r e m t h e o r e t i s c h e n Zusammenhange d e f i - n i e r t w e r d e n .

G r u n d s ä t z l i c h e s P r o b l e m d e r f o r m a l e n S e g m e n t i e - r ung von W ö r t e r n m i t e i n e m m a s c h i n e l l e n V e r f a h r e n i s t das d e r H e t e r o m o r p h i e , e i n B e g r i f f d e r neu e i n g e f ü h r t w i r d und d e s h a l b d e r E x p l i k a t i o n b e d a r f .

Von g r u n d l e g e n d e r B e d e u t u n g f ü r den S e g m e n t i e - r u n g s a l g o r i t hmus i s t d e r B e g r i f f d e r M orphem - und d a - m i t d e r M o r p h k l a s s e n d i s t r i b u t i o n , d u r c h den e i n e f o r - ma l e S t r u k t u r b e s c h r e i b u n g von W ö r t e r n g e l e i s t e t w i r d und d e r a u f d e r G r u n d l a g e e i n e r m a t h e m a t i s c h e n D e f i n i - t i o n d e r M o r p h e m k l a s s e n a b g e l e i t e t we r d e n s o l l .

(21)

4 . 1 M o r p h e m

Wi r d e f i n i e r e n das Morphem z u n ä c h s t a l s d i e a b ־ s t r a k t e E i n h e i t : k l e i n s t e s E l e m e n t d e r Z u o r d n u n g von s p r a c h l i c h e m A u s d r u c k und s p r a c h l i c h e m I n h a l t . A b g e s e ־ hen d a v o n , daß W o r t g r e n z e n a uc h immer z u g l e i c h M orphem - g r e n z e n s i n d , l i e f e r t uns l e d i g l i c h d i e s e K o r r e l a t i o n von A u s d r u c k und I n h a l t d i e K r i t e r i e n f ü r d i e D i m e n s i o ־ n i e r u n g e i n e s Mor phems. W i r g e w i n n e n Mo r p h e me , i ndem w i r W ö r t e r , denen e i n g e me i n s a me s I n h a l t s e l e m e n t z u -

kommt , a u f e i n gemei nsames A u s d r u c k s e l e m e n t h i n u n t e r ־ s u c h e n , bzw. i ndem w i r W ö r t e r , d i e a u f g r u n d i h r e s Z e i ־ c h e n b e s t a n d e s e i n ge me i ns a me s Mor phem v e r m u t e n l a s s e n , a u f e i n gemei nsames I n h a l t s e l e m e n t h i n ü b e r p r ü f e n .

E i n e s o l c h e A n a l y s e , i n d e r w i r e i n e n W o r t s c h a t z d u r c h f o r t l a u f e n d e s U m g r u p p i e r e n von W ö r t e r n na c h dem K r i t e r i u m d e r A u s d r u c k s ־ I n h a l t s - K o r r e l a t i o n a l l m ä h l i c h i n s e i n e n E l e m e n t b e s t a n d s e g m e n t i e r e n , l i e f e r t uns z u ־ g l e i c h d i e D i s t r i b u t i o n d e r Mo r p h e me . D a d u r c h kommen w i r zu e i n e r z u s ä t z l i c h e n D e f i n i t i o n des Mo r p h e ms , d i e

s i c h j e t z t nur noch a u f d i e A u s d r u c k s e b e n e a l l e i n b e ־ z i e h t : E i n Morphem i s t d a s j e n i g e k l e i n s t e E l e m e n t , das i n d e r Ebene des s p r a c h l i c h e n A u s d r u c k s e i n e r - noch zu e x p l i z i e r e n d e n ־ d e f i n i e r t e n D i s t r i b u t i o n u n t e r l i e g t .

D i e a u f d i e A u s d r u c k s e b e n e des Mor phems z u t r e f ־ f e n d e D i s t r i b u t i o n b e s t e h t n i c h t w i e b e i d e r D i s t r i b u ־ t i o n k l e i n s t e r g r a p h i s c h e r ( b z w . a uc h p h o n o1o g i s c h e r ) E i n h e i t e n a l l e i n d a r i n , daß s i e d u r c h e i n e e n u m e r i e r ־ b a r e L i s t e von v o r a u s g e h e n d e n bz w. F o l g e e l e m e n t e n b e - s c h r e i b b a r i s t , s o n d e r n d a r i n ־ und das i s t das f ü r das Morphem S p e z i f i s c h e s e i n e r D i s t r i b u t i o n ־ , daß s i c h Morpheme a l s E l e m e n t von K l a s s e n d e f i n i e r e n l a s ־ s e n , f ü r d i e e i n e d i e a l l g e m e i n e f o r m a l e S t r u k t u r von W ö r t e r n e i n e r S p r a c h e b e s c h r e i b e n d e D i s t r i b r u t i o n a b - l e i t b a r i s t . ( S i e h e daz u Kap. 4 . 5 ) .

Friedrich Wenzel - 9783954791354 Downloaded from PubFactory at 01/10/2019 06:09:32AM via free access

(22)

4 . 2 M o r p h , A l l o m o r p h , H o m o m o r p h

D i e K o n k r e t i s i e r u n g e i n e s Morphems im s p r a c h l i - chen A u s d r u c k , d . h . d i e j e w e i l i g e Z e i c h e n g r u p p e ( A n z a h l d e r Z e i c h e n ž 1 ) , d u r c h d i e e i n Morphem i n n e r h a l b d e r Z e i c h e n k e t t e e i n e s s p r a c h l i c h e n A u s d r u c k s r e p r ä s e n t i e r t w i r d , nennen w i r Mo r p h . Dur c h d i e b e g r i f f l i c h e und t e r - m i n o l o g i s c h e U n t e r s c h e i d u n g z w i s c h e n Mor phem und Mor ph ver mögen w i r dem S a c h v e r h a l t Rechnung zu t r a g e n , daß e i n und d a s s e l b e Morphem im s p r a c h l i c h e n A u s d r u c k d u r c h v e r s c h i e d e n e Z e i c h e n g r u p p e n r e p r ä s e n t i e r t s e i n kann und u m g e k e h r t , daß v e r s c h i e d e n e Morpheme im s p r a c h l i c h e n A u s d r u c k d u r c h e i n und d i e s e l be Z e i c h e n g r u p p e r e p r ä s e n -

t i e r t s e i n k önn e n .

D i e v e r s c h i e d e n e n K o n k r e t i s i e r u n g s f o r m e n e i n und d e s s e l b e n Morphems nennen w i r A l l o m o r p h e . F ü r d i e D e f i - n i t i o n von A l l o m o r p h e n r e i c h t a l l e i n n i c h t z u , daß v e r - s c h i e d e n e Mor phe e i n e m g l e i c h e n I n h a l t z u g e o r d n e t s i n d , denn das wä r e auch b e i l e x i k a l i s c h e n S y n o n y me n , w i e

losad״ ( " P f e r d “ ) und k o n9 ( e b e n f a l l s " P f e r d " ) d e r F a l l - V e r s c h i e d e n e , e i ne m g l e i c h e n I n h a l t z u g e o r d n e t e Mo r p h e s i n d e r s t dann a l s A l l o m o r p h e d e f i n i e r t , wenn s i e d u r c h

1 Ц

e i n e n a u f mehr a l s e i n e n F a l l von A l l o m o r p h i e a n we n d - b a r e n S a t z von R e g e l n i n e i n a n d e r ü b e r f ü h r b a r s i n d . ( S i e he d a z u Kap. 5 . 2 . 4 )

I h r e m Z e i c h e n b e s t a n d nach g l e i c h e M o r p h e , d u r c h d i e j e d o c h v e r s c h i e d e n e Morpheme r e p r ä s e n t i e r t w e r d e n , nennen w i r Homomorphe. S e t z e n w i r d i e D i s t r i b u t i o n von

ln d e r Regel i s t e i n e U b e r f ö h r u n g s r e g e l a u f e i n e g r o ß e Anzahl von A llo m o r p h e n anwendbar.

(23)

Morphemen und d a m i t d i e D i s t r i b u t i o n d e r s i e r e p r ä s e n - t i e r e n d e n Mor phe a l s b e k a n n t v o r a u s , so s i n d Homomorphe b i s a u f A u s n a h m e f ä l l e auch a l l e i n i n d e r Ebene des s p r a c h - l i e h e n A u s d r u c k s d i s k r i m i n i e r b a r und d a d u r c h a l s Homomor- phe d e f i n i e r t . Und z w a r zum T e i l a u f g r u n d d e r Mo r p h e mk l a s - s e n d i s t r i b u t i o n ־ d a d u r c h wä r e z . B . das Mor ph vaz i n e i - nem F a l l e , so i n dem Wor t vazvuait** a l s das P r ä f i x г а г , im a n d e r e n F a l l e , so i n dem Wor t v y r azit9 , a l s d e r W o r t - k e r n vaz d e f i n i e r t . D e r a n d e r e T e i l d e r Homomorphe und z wa r d i e , d i e Morpheme e i n und d e r s e l b e n Mo r p h e mk l a s s e r e p r ä s e n t i e r e n , s i n d d i s k r i m i n i e r b a r und d e f i n i e r t d u r c h d i e D i s t r i b u t i o n 2 . und 3 . Ordnung ( s i e h e Kap. 4 . 5 . 2 ) . D a d u r c h w ä r e z . B . das Mor ph vod i n e i ne m F a l l e , so i n den W ö r t e r n provod> v o d i t* 9 neevodimyj, proizvodetvennyj, vyvodjaecij . . . a l s das Homomorph v o d<1 a u s w e i s b a r , i ndem

ihm n ä m l i c h j e w e i l s e i n e s d e r E l e m e n t e d e r dem Morph v o d! z u g e o r d n e t e n L i s t e { 0 , г , г т , 8tv> j a a c t . . . } f o l g t ;

im a n d e r e n F a l l e , so i n den W ö r t e r n v o d a, vodica, vod- janoj , bezvod*e . . . i s t das Mor ph vod a l s das Homomorph

vod2 d e f i n i e r t , da i hm j e w e i l s e i n E l e m e n t d e r dem Morph vod2 z u g e o r d n e t e n L i s t e { a , i c , j a n9 ׳ , — } f o l g t . I n e i n e m T e i l d e r F ä l l e müssen z u r D i s k r i m i n i e r u n g von Ho־

momorphen z u s ä t z l i c h d i e L i s t e n d e r i h n e n v o r a u s g e h e n d e n Mor phe h e r a n g e z o g e n w e r d e n .

Friedrich Wenzel - 9783954791354 Downloaded from PubFactory at 01/10/2019 06:09:32AM via free access

(24)

- 14 •

00047409

H e t e r o m o r p h i e 4 . 3

D i e H e t e r o m o r p h i e i s t e i n f o r m a l e s P r o b l e m d e r m a s c h i n e l l e n S e g m e n t i e r u n g , das s i c h d u r c h d i e A b s t r a k - t i o n vom W o r t i n h a l t s t e l l t . M i t H e t e r o m o r p h i e b e z e i c h - nen w i r den F a l l , daß e i n e Z e i c h e n k e t t e i n v e r s c h i e d e n e M o r p h k e t t e n s e g m e n t i e r b a r i s t . E i n e s o l c h e Z e i c h e n k e t t e n e n n e n w i r e i n e n h e t e r o m o r p h e n H o mo g r a p h e n . E i n h e t e r o - m o r p h e r Homogr aph w ä r e z . B . :

"z u Hause h e r g e s t e l1t "

( " Vor mode l 1 ־ " , 1 ex i k a1i sch n i c h t r e a l i - s i e r t )

d o m - o - d e l * - n - y j d o m o d e l 9n y j

d o - m o d e l 9- n - y j

L e x i k a l i s c h r e a l i s i e r t e F ä l l e s i n d r e l a t i v s e l t e n . Bei d e r f o r m a l e n S e g m e n t i e r u n g s t e l l e n s i c h W ö r t e r j e d o c h s e h r h ä u f i g a l s h e t e r o m o r p h e Homogr aphen d a r , so daß s i c h d i e H e t e r o m o r p h i e f ü r d i e E r s t e l l u n g e i n e s S e g m e n t i e r u n g s - a l g o r i t h m u s a l s e i n e s d e r s c h w e r w i e g e n d s t e n P r o b l e me e r - w e i s t . ( S i e h e d a z u Kap. 5 . 1 . 4 )

(25)

- 15

־

00047409

Wi r d e f i n i e r e n Wo r t a l s d i e j e n i g e s p r a c h l i c h e E i n h e i t , d i e i n i h r e m g r a p h i s c h e n A u s d r u c k d e l i m i t i e r t i s t a l s e i n e Z e i c h e n k e t t e z w i s c h e n e i n e m L e e r z e i c h e n und dem n ä c h s t e n L e e r z e i c h e n o d e r S a t z z e i c h e n . Das Wo r t r e p r ä s e n t i e r t e i n e K e t t e von Morphemen ( A n z a h l d e r M o r - pheme £ l ) und d a m i t e b e n f a l l s e i n e E i n h e i t d e r Z u o r d - nung von A u s d r u c k und I n h a l t . E i n e r B e s c h r e i b u n g des t h e o r e t i s c h e n S t a t u s des Wo r t e s f ä l l t d i e A u f g a b e z u , d a r z u l e g e n , i n w i e f e r n d i e von uns nach g r a p h i s c h e n , a l - so nach ä u ß e r l i c h e n K r i t e r i e n a l s Wo r t d e f i n i e r t e M o r - p h e m k e t t e i n n e r h a l b d e r M o r p h e m k e t t e des S a t z e s e i n e b e s o n d e r e s p r a c h l i c h e E i n h e i t d a r s t e l l t . W i r können d i e s e A u f g a b e l ö s e n , i ndem w i r dem A u f t r e t e n von W o r t - g r e n z e n und d a m i t d e r E i n h e i t Wo r t d i e D i s t r i b u t i o n von Morphemen z u g r u n d e l e g e n :

E i n e W o r t g r e n z e l i e g t j e w e i l s z w i s c h e n den b e i d e n Morphemen e i n e r K e t t e von Mo r p h e me n , von denen sowohl das f o l g e n d e f ü r das v o r a u s g e h e n d e w i e auch das v o r a u s g e h e n d e f ü r das f o l g e n d e M o r - phem e i n E l e m e n t e i n e r n a h e z u u n b e g r e n z t e n L i s t e von a u s t a u s c h b a r e n Morphemen i s t .

I n n e r h a l b e i n e r d u r c h W o r t g r e n z e n d e l i m i t i e r - t e n M o r p h e m k e t t e g i l t f ü r j e d e s T u p e l a u f e i n a n d e r f o l g e n d e r Mo r p h e me , daß das f o l g e n d e f ü r das v o r - a u s g e h e n d e u n d / o d e r das v o r a u s g e h e n d e f ü r das f o l - gende Morphem e i n E l e m e n t e i n e r b e g r e n z t e n L i s t e von a u s t a u s c h b a r e n Morphemen i s t .

D a mi t i s t da s Wo r t i n n e r h a l b d e r M o r p h e m k e t t e des S a t z e s a l s E l e m e n t e i n e r b e s o n d e r e n D i s t r i b u t i o n s - k l a s s e d e f i n i e r t . Es h a n d e l t s i c h h i e r um d i e a l l g e - m e i n s t e D e f i n i t i o n , d i e a u f d e r G r u n d l a g e d e r D i s t r i - b u t i o n von Morphemen m ö g l i c h i s t ; s i e i s t u n e x a k t , i n ­ 4 . 4 W o r t

Friedrich Wenzel - 9783954791354 Downloaded from PubFactory at 01/10/2019 06:09:32AM via free access

(26)

s o f e r n d i e B e g r i f f e " n a h e z u u n b e g r e n z t e L i s t e " und

" b e g r e n z t e L i s t e " n i c h t d e f i n i e r t s i n d . W i r können l e d i g l i c h a u f g r u n d e m p i r i s c h e r B e f u n d e d i e s e B e g r i f ־ f e d u r c h d i e Anga be von G r e n z w e r t e n i n u n g e f ä h r b e - s c h r e i b e n : A n z a h l d e r E l e m e n t e e i n e r " b e g r e n z t e n L i - s t e " < 5 0 0 ( i n d e r Re g e l < 1 0 0 ) , A n z a h l d e r E l e m e n t e e i n e r " n a h e z u u n b e g r e n z t e n L i s t e " > 5 . 0 0 0 ( a u f d e r B a s i s von S ä t z e n , i n d i e e i n W o r t s c h a t z von g r o ß e n - o r d n u n g s m ä ß i g 5 0 . 0 0 0 E i n h e i t e n e i n g e h t ) .

D i e n a c h f o l g e n d e A n a l y s e d e r M o r p h e m k l a s s e n ־ d i s t r i b u t i o n l i e f e r t z u g l e i c h d i e B a s i s f ü r e i n e e x - a k t e r e D e f i n i t i o n de s W o r t e s , n ä m l i c h a l s e i n e r E i n - h e i t d e f i n i e r t e r m o r p h o l o g i s c h e r S t r u k t u r .

(27)

4 . 5 D i s t r i b u t i v e M o r p h e m k l a s s e n u n d W o r t s t r u k t u r

D i e am S c h l u ß d i e s e s K a p i t e l s u n t e r I V a u f g e f ü h r - t e f o r m a l e m o r p h o l o g i s c h e S t r u k t u r r u s s i s c h e r W ö r t e r w u r - de a l s S t r u k t u r h y p o t h e s e b e r e i t s dem S e g m e n t i e r u n g s a l g o - r i t h m u s z u g r u n d e g e l e g t und e x p e r i m e n t e l l v e r i f i z i e r t , b e v o r d i e s e s K a p i t e l v e r f a ß t w u r d e . Es h a n d e l t s i c h a l s o

im F o l g e n d e n um e i n e n a c h t r ä g l i c h e E x p l i k a t i o n d i e s e r S t r u k t u r . D i e E x p l i k a t i o n s e t z t an d e r S t e l l e e i n , an d e r b e r e i t s e i n r e p r ä s e n t a t i v e s Ko r pu s s e g m e n t i e r t e r W ö r t e r v o r l i e g t .

D i e S l a v i s t i k b l i c k t a u f e i n e l a n g e T r a d i t i o n im S e g m e n t i e r e n von W ö r t e r n z u r ü c k . Bei d e r S e g m e n t i e r u n g w i r d e i n u m f a n g r e i c h e s und d u r c h a u s h e t e r o g e n e s l i n g u i - s t i s c h e s Wi ss en mehr o d e r m i n d e r i n t u i t i v a n g e w e n d e t . Es l a s s e n s i c h e i n i g e a l l g e m e i n e P r i n z i p i e n f ü r S e g m e n t i e - r u n g s p r o z e d u r e n a u f s t e l l e n , w i e e t wa das P r i n z i p d e r

r e s t l o s e n Z e r l e g b a r k e i t ( d i e S e g m e n t i e r u n g muß " a u f g e - h e n " , d . h . s i e d a r f k e i n e S e g me n t e ohne M o r p h e m s t a t u s a l s R e s t ü b r i g l a s s e n ) o d e r da s P r i n z i p d e r A u s t a u s c h b a r k e i t

( e i n e Mo r p h e mg r e n z e kann n u r d o r t g e s e t z t w e r d e n , wo das v o r a u s g e h e n d e f ü r das f o l g e n d e und das f o l g e n d e f ü r das v o r a u s g e h e n d e Segment e i n E l e m e n t e i n e r L i s t e a u s t a u s c h - b a r e r Morpheme i s t ) , e t c . E i n e s c h l ü s s i g e , a u f d i e seman- t i s c h e S t r u k t u r des Wo r t e s Bezug nehmende S e g m e n t i e r u n g s - t h e o r i e g i b t es j e d o c h b i s h e u t e n i c h t . Wi r be gnügen uns d e s h a l b f ü r das W e i t e r e d a m i t , von S e g m e n t i e r u n g e n a u s z u - g e h e n , wi e s i e i n d e r S l a v i s t i k a l l g e m e i n a l s r i c h t i g a k - z e p t i e r t w e r d e n .

D i e p r i m ä r e S e g m e n t i e r u n g e i n e s W o r t s c h a t z e s 11von H an d 11, d i e ü b e r h a u p t e r s t z u r K o n s t i t u i e r u n g von M o r p h e - men f ü h r t , kann - s i e h t man e i n m a l von den V e r s u c h e n H A R R I S1 und s e i n e r S c h u l e ab - s e l b s t v e r s t ä n d l i c h n i c h t d u r c h g e f ü h r t w e r d e n , ohne da ß den E l e m e n t e n I n h a l t e bzw.

Friedrich Wenzel - 9783954791354 Downloaded from PubFactory at 01/10/2019 06:09:32AM via free access

(28)

F u n k t i o n e n z u g e o r d n e t w e r d e n . L i e g t a b e r e r s t e i n m a l e i n s e g m e n t i e r t e r W o r t s c h a t z v o r , und d a v o n ge he n w i r a u s , so l a s s e n s i c h Morphem e a u f r e i n d i s t r i b u t i o n e l 1 em Wege zu K l a s s e n z u s a m m e n f a s s e n , o h n e daß i n h a l t l i c h e o d e r

f u n k t i o n a l e K a t e g o r i e n i n d i e D e f i n i t i o n d e r K l a s s e n e i n - b e z o g e n w e r d e n . D e r i n d i e s e r A r b e i t v o r g e l e g t e Segmen־

t i e r u n g s a l g o r i t hmus b e z i e h t s i c h a u s s c h l i e ß l i c h a u f d i e Ebene d e r D i s t r i b u t i o n d e r Mo r phe me .

M i t den M i t t e l n d e r M e n g e n t h e o r i e w e r d e n z u n ä c h s t M o r p h e m k l a s s e n o p e r a t i o n a l d e f i n i e r t : a n s c h l i e ß e n d w i r d d e r e n D i s t r i b u t i o n e x p l i z i e r t und d a m i t z u g l e i c h e i n e Be-

S c h r e i b u n g d e r a l l g e m e i n e n m o r p h o l o g i s c h e n S t r u k t u r r u s ־ s i s c h e r W ö r t e r g e l e i s t e t .

(29)

4 . 5 . 1 H e n g e n t h e o r e t I s c h e D e f i n i t i o n d e r M o r p h e m k l a s s e n

D i e M o r p h e m k l a s s e n w e r d e n d e f i n i e r t a u f d e r B a s i s v o r g e g e b e n e r , a b e r noch n i c h t i n t e r p r e t i e r t e r W o r t s t r u k - t u r e n ( s e g m e n t i e r t e r W o r t s c h a t z ) 1^ ; d i e s e w e r d e n a u f g e - f a ß t a l s K o n k r e t i s i e r u n g e n e i n e r a l l g e m e i n d e f i n i e r b a r e n D i s t r i b u t i o n von M o r p h e m k l a s s e n .

D i e z we i w e s e n t l i c h e n , im F o l g e n d e n a u f g e f ü h r t e n , O p e r a t i o n e n s i n d 1. das S e t z e n e i n e r S c h n i t t s t e l l e , d u r c h d i e d i e M o r p h e m k e t t e e i n e s W o r t e s W i n d i e T e i l k e t t e n W!

und W2 z e r l e g t w i r d . D i e O p e r a t i o n w i r d d u r c h den A u s d r u c k W = ( W1 , Wa ) f o r m a l i s i e r t . Bei e i n e r a l g o r i t h m i s c h e n Anwen- dung d i e s e r O p e r a t i o n v o l l z i e h t s i c h das S e t z e n d e r S c h n i t t - s t e l l e d y n a m i s c h . D . h . d i e S c h n i t t s t e l l e w i r d von M orphem - g r e n z e zu Mo r p h e mg r e n z e v o r g e s e t z t , b i s a l l e M ö g l i c h k e i - t e n d e r Z e r l e g u n g i n z w e i T e i l k e t t e n e r s c h ö p f t s i n d .

D i e 2 . w e s e n t l i c h e O p e r a t i o n i s t das A b t r e n n e n von Mor phemen aus M o r p h e m k e t t e n und da s Z u s a mme n f a s s e n d i e s e r Mor pheme zu e i n e r d e f i n i e r t e n Me nge. Dem l i e g t z u g r u n d e , daß i n e i n e r e n d l i c h e n K e t t e von E l e m e n t e n z we i E l e m e n t e e i n e S o n d e r s t e l l u n g e i n n e h me n und z w a r da s e r s t e ( v o r d e - r e ) und das l e t z t e ( h i n t e r e ) . E l e m e n t e von M o r p h e m k e t t e n , d i e d i e s e E i g e n s c h a f t e n h a b e n , w e r d e n m i t mv ( ־= v o r d e r e s Mor phem) bzw. mh ( = h i n t e r e s M orphem ) n o t i e r t .

M i t t e l s d i e s e r O p e r a t i o n e n und w e i t e r e r , g e l ä u f i - g e r m e n g e n t h e o r e t i s c h e r P r o z e d u r e n , w i e da s A b z i e h e n von Mengen und das B i l d e n von D u r c h s c h n i t t s m e n g e n , we r d e n

Üm d i e P r o b l e m a t i k von Homomorphen, d i e Morpheme v e r s c h i e - d e n e r Morphem klassen r e p r ä s e n t i e r e n , und von p h o n o l o g i s c h und d a m it p o s i t i o n s b e d i n g t e n A l lo m o r p h e n a u s z u s c h l Іе Ѳ е п , i s t es g e r a t e n , d i e A n a ly s e a u f d i e E i n h e i t Morphem zu b e z i e h e n , weswegen h i e r a u s s c h l i e B -

l i e h von Morphem klassen g e s p ro c h e n w i r d . Das m a s c h i n e l l e S e g m e n tie - r u n g s v e r f a h r e n a r b e i t e t in d e s s e n m i t L i s t e n von M o rp h e n ; d i e s e L i s t e n r e p r ä s e n t i e r e n j e w e i l s e i n e M o rp h e m k la sse .

Friedrich Wenzel - 9783954791354 Downloaded from PubFactory at 01/10/2019 06:09:32AM via free access

(30)

E l e m e n t e b e s t i m m t e r d i s t r i b u t i o n e l 1 e r E i g e n s c h a f t e n zu Mengen z u s a m m e n g e f a ß t und a l s K l a s s e n d e f i n i e r t . Der F o l - ge von O p e r a t i o n e n l i e g t e i n e H y p o t h e s e ü b e r d i e D i s t r i - b u t i o n d e r M o r p h e m k l a s s e n z u g r u n d e . Danach haben w i r es m i t 5 d i s t r i b u t i o n e l l e n K l a s s e n zu t u n : P [ P r ä f i x e ] , К [ K e r n m o r p h e m e ] , DS [ D e r i v a t i o n s s u f f i x e ] , I S [ I n k l i n a - t i o n s - , F l e x i o n s s u f f i x e ] , С [ K o n n e k t o r e n ] 1^ . Gemäß d e r H y p o t h e s e w i r d e t wa von den E l e m e n t e n d e r Mo r p h e mk l a s s e P v o r a u s g e s e t z t , daß s i e v o r o d e r h i n t e r a n d e r e n E l e me n - t e n d e r s e l b e n K l a s s e und i n Bez ug a u f a n d e r e K l a s s e n nur v o r E l e m e n t e n d e r K l a s s e K, n i c h t a b e r v o r E l e m e n t e n a n - d e r e r K l a s s e n a u f t r e t e n k ö n n e n , usw. S i e h e im e i n z e l n e n A b s c h n i t t 4 . 5 . 2 und d i e Ko mme n t a r e zu den P r o z e d u r e n .

W e i t e r e N o t a t i o n s к о n v e n t i o n e n und v o r b e r e i t e n d e D e f i n i t i o n e n :

K l e i n b u c h s t a b e n b e z e i c h n e n d i e E l e m e n t e d e r d u r c h d i e e n t s p r e c h e n d e n G r o ß b u c h s t a b e n b e z e i c h n e t e n Men- gen bz w. K l a s s e n .

= Menge a l l e r W ö r t e r d e r r u s s i s c h e n G e g e n w e r t s - s p r ä c h e , d i e aus e i n e r K e t t e von Morphemen b e s t e h e n ( A n z a h l d e r Mor pheme ž 2 ) .

m = Morphem

W e }C

W = { m ! , m2 , . . . mn)

Im I n t e r e s s e e i n e r l e i c h t e r e n V e r s t ä n d i g u n g werden im F o l - genden z u r B e z e ic h n u n g d e r E le m e n te d e r M orphemklassen neben den f o r - malen N o t a t i o n e n g e l ä u f i g e T e r m i n i v e r w e n d e t . S ow eit es s i c h d a b e i in E rm angelung a n d e r e r um T e r m i n i h a n d e l t , d i e i h r e r H e r k u n f t nach T e r m i - n i d e r f u n k t i o n a l e n A n a l y s e s i n d ( D e r i v a t i o n s ־ , I n k l i n a t i o n s s u f f i x ) , r e c h t f e r t i g t s i c h i h r e Verwendung a l l e i n d u r c h d i e n a c h t r ä g l i c h e F e s t - S t e l l u n g , daß d i e h i e r d i s t r i b u t i o n e i l d e f i n i e r t e n Kla ssen s i c h ih re m B e s ta n d nach w e i t g e h e n d m i t den f u n k t i o n e l l d e f i n i e r t e n Klassen de cken.

(31)

D i e im F o l g e n d e n l e d i g l i c h f o r m a l m i t dem W o r t - s c h ä t z X d u r c h g e f ü h r t e n P r o z e d u r e n l i e f e r n demgemäß auch n u r d i e m e n g e n t h e o r e t i s c h e D e f i n i t i o n d e r M o r p h e m k l a s - s e n . S i e wür den - i n t e r p r e t i e r t a l s A l g o r i t h m u s - b e i k o n k r e t e r Anwendung a u f den r u s s i s c h e n W o r t s c h a t z z u r E x t e n s i o n a l i s i e r u n g d e r M o r p h e m k l a s s e n f ü h r e n , w o r a u f wegen des Umf angs e i n e r s o l c h e n A n a l y s e h i e r v e r z i c h t e t we r d e n muß. E r s t nach d e r E x t e n s i o n a l i s i e r u n g d e r K l a s -

sen k ö n n t e a l l e r d i n g s d e r e x a k t e N a c h w e i s g e f ü h r t w e rd e n , daß d i e b e h a u p t e t e , d e r D e f i n i t i o n d e r K l a s s e n z u g r u n d e g e l e g t e D i s t r i b u t i o n a u f den W o r t s c h a t z z u t r i f f t . Wi r begnügen uns h i e r m i t dem H i n w e i s a u f d i e e x p e r i m e n t e i - l e V e r i f i z i e r u n g d e r S t r u k t u r h y p o t h e s e d u r c h den S e g - m e n t i e r u n g s a l g o r i t h m u s . D e r L e s e r s e i im ü b r i g e n da z u a u f g e f o r d e r t , an Hand s e g m e n t i e r t e r W ö r t e r das D a r g e - s t e l l t e n a c h z u v o l l z i e h e n und zu ü b e r p r ü f e n .

( m I V m s W л m = m (W) } W e tt

( 1) V

{ m I V m e W A m » mh(W) } W€tt

H

( m I V m e W Л m # mv (W) л m Ф mh(W) }

Kommentar : D ie P ro z e d u re n v e r t e i l e n d i e Morpheme d e r Wortmenge X nach den E ig e n s c h a f t e n v o r d e r e s E lem ent o d e r h i n t e r e s E le m e n t bzw.

weder v o r d e r e s noch h i n t e r e s E le m en t d e r M o rp h e m k e tte ( k u r z : S t e l - lun g 11v o r 11, 11h i n t e r 1*, ,* z w is c h e n 11) a u f d i e Mengen V , H und Z.

S e t z t man d i e D i s t r i b u t i o n d e r M orphem klassen v e r e i n f a c h t a n , so da6 nach d e r D u r c h f ü h r u n g d e r v o r a u fg e g a n g e n e n P ro z e d u re n f o l g e n d e V e r t e i l u n g v o r t S g e ,

Friedrich Wenzel - 9783954791354 Downloaded from PubFactory at 01/10/2019 06:09:32AM via free access

(32)

- 22 -

00047409

V z H

p P

»

к к к

с DS

IS

so l i e ß e n s i c h zw a r r e l a t i v l e i c h t m e n g e n t h e o r e t i s e h e P ro z e d u re n f o r - m u l i e r e n , d u r c h d i e d i e so a n g e s e t z t e n M orphem klassen i s o l i e r b a r wä-

r e n , e i n e s o l c h e V e r t e i l u n g w ä re a uch d u r c h e i n e g r ö ß e r e Zahl von Wör- t e r n b e l e g b a r , j e d o c h käme man b e i d e r Anwendung d e r P ro z e d u re n a u f den ge sam ten W o r t s c h a t z n i c h t zu e i n e r w i d e r s p r u c h s f r e i e n B e s c h r e i - bung d e r a l l g e m e i n e n m o r p h o l o g i s c h e n S t r u k t u r r u s s i s c h e r W ö r t e r .

( K o n k r e t : Es fä n d e n s i c h z . B . W ö r t e r ohne Kernmorphem, da d i e K e rn - morpheme d i e s e r W ö r t e r u n t e r d i e K la s s e d e r P r ä f i x e g e f a l l e n w ä r e n . )

F ü r d i e m e n g e n t h e o r e t i s c h e D e f i n i t i o n d e r Morphem klassen ge - hen w i r in d e s s e n von k o m p l i z i e r t e r e n V e r h ä l t n i s s e n a u s , wobei nach d e r Z u o rd n u n g d e r Morpheme zu den Mengen V, Z und H f o l g e n d e V e r t e i -

lu n g d e r M orp he m klasse n a n z u s e t z e n i s t :

V

z

H

p p

K1 K1 К ,

K2

Кз Кз

к«.

с

к ־

Ks

к в

DS DS,

I S , IS

Auch d i e s e H y p o th e s e g e h t davon a u s , daß a u s s c h l i e ß l i c h E i e - m ente d e r K l a s s e К (Kernmorpheme) sowohl d i e S t e l l u n g ,,v o r " w ie auch

" z w i s c h e n 11 w i e auch " h i n t e r " einnehmen können ( V g l . z . B . d e l - e n i - e : o t - d e l - е п г - е : o t - d e l) , w o d u rc h s i e a u f A n h ie b i s o l i e r b a r s i n d

( K ļ * V ח Z ח H ). D ie H y p o th e s e b e r ü c k s i c h t i g t j e d o c h , daß das n i c h t

Referenzen

ÄHNLICHE DOKUMENTE

Eine Verwertung oder Weitergabe der Texte und Abbildungen, insbesondere durch Vervielfältigung, ist ohne vorherige schriftliche Genehmigung des Verlages unzulässig.. «Verlag

Eine Verwertung oder Weitergabe der Texte und Abbildungen, insbesondere durch Vervielfältigung, ist ohne vorherige schriftliche Genehmigung des Verlages unzulässig.. «Verlag

Eine Verwertung oder Weitergabe der Texte und Abbildungen, insbesondere durch Vervielfältigung, ist ohne vorherige schriftliche Genehmigung des Verlages unzulässig. «Verlag

Eine Verwertung oder Weitergabe der Texte und Abbildungen, insbesondere durch Vervielfältigung, ist ohne vorherige schriftliche Genehmigung des Verlages unzulässig.. «Verlag

Eine Verwertung oder Weitergabe der Texte und Abbildungen, insbesondere durch Vervielfältigung, ist ohne vorherige schriftliche Genehmigung des Verlages unzulässig. «Verlag

Eine Verwertung oder Weitergabe der Texte und Abbildungen, insbesondere durch Vervielfältigung, ist ohne vorherige schriftliche Genehmigung des Verlages unzulässig.. «Verlag

Eine Verwertung oder Weitergabe der Texte und Abbildungen, insbesondere durch Vervielfältigung, ist ohne vorherige schriftliche Genehmigung des Verlages unzulässig. «Verlag

Eine Verwertung oder Weitergabe der Texte und Abbildungen, insbesondere durch Vervielfältigung, ist ohne vorherige schriftliche Genehmigung des Verlages unzulässig.. «Verlag