• Keine Ergebnisse gefunden

Keeleõpe arvuti abil ja sõnaraamatud . 65

3. KEELETEHNOLOOGLINE TARKVARA

3.2. Tarkvara eesti keele jaoks: mis on olemas

3.2.1.5. Keeleõpe arvuti abil ja sõnaraamatud . 65

Keeleõpe arvuti abil on lapsekingades: eksisteerib ainult üksikuid eesti keele õpetamiseks ja õppimiseks mõeldud programme: COMBO (Eve Systems), GuessWho (Anton Vylitok), LinguaMatch Pro (Neks-tom) ning needki kasutavad pigem traditsioonilisi võtteid kui keele-tehnoloogiat. Elektroonilise sõnastikke ja leksikone on seevastu mitmeid: inglise<->eesti sõnastikke pakuvad Festart, IBS ja I. Hein;

vene<->eesti sõnastikke Real Software, Nekstom koos vene firma-ga ABBYY; eesti<->mitmekeelseid sõnastikke pakuvad Soome fir-mad Sandstone ja Euroword Software; mitmesuguseid ükskeelseid sõnastikke pakuvad EKI, Filosoft, TEA ja mitmed üksikisikud inter-netis (vt. täpsemalt käesolevas ülevaates p. 2.3.1).

3.2.1.6. Kõnesüntees

On olemas eestikeelne kõnesüntesaator koos ekraanilugejaga, st.

programm, mis arvuti ekraanil oleva eestikeelse teksti valjusti ette loeb.

3.2.1.7. Kõnetuvastus

Kõnetuvastuse alased tööd on algusjärgus, mistõttu laiatarbeprog-ramme veel ei ole.

3.2.1.8. Loomulikku keelt võimaldavad kasutajaliidesed

Loomulikku keelt võimaldavate kasutajaliideste osas tehakse Eestis uurimistööd dialoogi modeleerimise ja dialoogiaktide äratundmise vallas.

3.2.2. Teadus- ja arendustöödeks mõeldud programmid 3.2.2.1. Sõnavormide analüüs ja süntees

Sõnavormide analüüsi tegevaid programme nimetatakse gilisteks analüsaatoriteks, sünteesi tegevaid programme morfoloo-gilisteks süntesaatoriteks. Kuigi eesti keele morfoloogia on teadagi keeruline, on loodud mitmeid morfoloogilisi analüsaatoreid ja sün-tesaatoreid. Praegu on teoreetilistel ja praktilistel eesmärkidel kasu-tatavad EKI (http://www.eki.ee) ja OÜ Filosofti (http://www.

filosoft.ee ) analüsaatorid ja süntesaatorid. Filosofti analüsaator on näiteks aluseks mitmele eesti keele spellerile ja poolitajale, samuti Riigikantselei täistekstiandmebaasis TRIP alates 1996. aastast kasu-tatud sõnade algvormide leidmisele ning on üheks komponendiks difoonidel põhinevas eesti kõne süntesaatoris. EKI analüsaatorit kasutatakse EKIs sõnastikukirjete genereerimisel jm. Nii EKI kui Filosofti programmid võimaldavad analüüsida ja sünteesida nii sõnu, mis on nende sõnastikes, kui sisaldavad ka oletajat nende sõnade analüüsi ja sünteesi jaoks, mida sõnastikes pole.

TÜs tegeldakse ka 2-tasemelise morfoloogilise analüsaatori ja süntesaatori väljatöötamisega (Roosmaa jt. 2003). Tema erinevus olemasolevatest seisneb sõnastiku ja morfoloogiareeglite esitusvii-sis. 2-tasemeline morfoloogiamudel on praegu maailmas levinuim mudel morfoloogiaprogrammide tegemiseks.

3.2.2.2. Grammatiline analüüs ja süntees

Grammatilist analüüsi tegevaid programme nimetatakse süntaktilis-teks analüsaatorisüntaktilis-teks, sünteesi tegevaid programme süntaktilissüntaktilis-teks süntesaatoriteks. Viimaseid eesti keele jaoks olemas ei ole.

Esimene ja lihtsam etapp lause grammatilisel analüüsil on mit-meti tõlgendatavate morfoloogiliste vormide tõlgenduste hulgast selliste variantide valimine, mis just antud konteksti sobivad. Seda nimetatakse morfoloogiliseks ühestamiseks. Eesti keele jaoks on ole-mas kaks morfoloogilist ühestajat, mis mõlemad on kasutatavad nii teoreetilistel kui praktilistel eesmärkidel. Tartu Ülikoolis on loodud kitsenduste grammatika formalismil põhinev, reeglipõhine ühestaja;

OÜ Filosoftis on loodud statistiline, Markovi varjatud mudelil põ-hinev ühestaja. TÜ ühestajat on kasutatud sisukokkuvõtete auto-maatseks tegemiseks ja nimisõnafraaside autoauto-maatseks tuvastami-seks. Filosofti ühestajat on kasutatud sagedussõnastiku (Kaalep, Muischnek 2002) tegemiseks ja difoonidel põhinevas eesti kõne sün-tesaatoris.

Eesti keele jaoks on olemas üks süntaktiline analüsaator. See on loodud TÜs ja põhineb kitsenduste grammatika formalismil. Teda on kasutatud sisukokkuvõtete automaatseks tegemiseks ja nimisõ-nafraaside automaatseks tuvastamiseks.

3.2.2.3. Semantiline analüüs ja süntees

Eesti keele semantilise analüüsi ega sünteesiga seni otseselt tegeldud pole. Küll on tehtud ettevalmistavaid töid. TÜs on loomisel WordNeti tüüpi eesti keele tesaurus (Orav, Vider 2002; Kahusk, Vider 2002), milles seisuga oktoober 2003 on 11,5 tuhat sünohulka. TÜs on loo-dud ka katseline semantilise ühestamise programm (Vider, rand 2001; Kahusk, Orav, Õim 2001; Kahusk 2002; Kahusk, Kalju-rand 2002), mis tekstis esinevatele mitmetähenduslikele sõnadele leiab konteksti sobiva tähenduse. Mitmetähenduslikuks peetakse see-juures sõnu, millel on tesauruses mitu tähendust (Kahusk, Vider 2002).

3.2.2.4. Pragmaatiline analüüs ja süntees

Pragmaatikaga tegeldakse TÜs suulise kõne ja dialoogi uurimise kon-tekstis (Koit 2003a, 2003b; Hennoste jt. 2003).

3.2.2.5. Kõnesüntees

Difoonidel põhinev eestikeelne kõnesüntesaator on sellisel küpsus-astmel, et ta on kasutusel praktilistel eesmärkidel, nt. nägemis- ja kõnepuudega inimeste poolt. Samas jätkub uurimistöö sünteeskõne loomulikkuse tõstmiseks. Kõnekvaliteedi seisukohalt mängib erine-vatest kõnesünteesi moodulitest – difoonide andmebaas, prosoodia-mudel, teksti lingvistiline töötlus – olulisimat rolli prosoodiaprosoodia-mudel, selle edasiarendusele on fokuseeritud lähiaastate uurimistöö. Sün-teeskõne kvaliteedi hindamiseks kasutatakse rahvusvaheliselt akt-septeeritud metoodikat.

Artikulatoorse ega formantsünteesiga Eestis praegu ei tegelda.

3.2.2.6. Kõnetuvastus

On tehtud üksikuid esialgseid katsetusi piiratud sõnavara tuvasta-misel. On välja töötatud piiratud sõnastikuga (50 sõna) tuvastussüs-teemi prototüüp (Meister 2001; Meister jt. 2001), numbrituvastuse prototüüp (Alumäe 2001; Alumäe jt. 2003) ja teostatud eksperi-mente sidusa kõne tuvastamiseks.

Antud valdkonnaga on seotud ka kõnelejatuvastus. On uuritud neuronvõrkude rakendamist kõnelejatuvastusülesannete lahendami-seks (Altosaar, Meister 1995; Meister 1998), käimas on koostöö Helsingi Ülikooli foneetikaosakonnagakõnelejaspetsiifiliste tunnus-te analüüsi alal (Iivonen jt. 2001; Meistunnus-ter 2002).

3.3. Tarkvara eesti keele jaoks: mida oleks vaja

Kui lühidalt kokku võtta, siis kõige efektiivsem tee eesti keele spet-siifilise tarkvara loomiseks on see, et kohandada maailmas olemas olev tehnoloogia eesti keelele sobivaks. Sellisele kohandamisele al-lub tehnoloogia, mis juba loomise hetkel oli keelest sõltumatu, s.t.

keeleressursse eksplitsiitselt kasutav tehnoloogia. Asendades ühe keele ressursi (korpuse või sõnastiku) teise keele omaga, saamegi luua teisele keelele omast tarkvara.

See ei tähenda muidugi, et konkreetse tehnoloogia ülekandmi-ne oleks rutiinülekandmi-ne ja lihtülekandmi-ne töö. Näiteks selleks, et kasutada eesti keele morfoloogiliseks ühestamiseks paljude muude keelte peal rea-liseeritud tehnoloogiaid, nii statistilisi kui reeglipõhiseid, tuli lisaks morfoloogiliselt märgendatud korpuse tegemisele vaadata kriitili-selt üle eesti keele morfosüntaktiliste kategooriate süsteem ja palju-de konkreetsete sõnapalju-de puhul nenpalju-de sõnaliigilist kuuluvust täpsus-tada. Samuti tuli olemasolevast tehnoloogiast nii põhjalikult aru saa-da, et mõista, kas üleskerkinud probleemid on tingitud tehnoloogia piiratusest (ükski tehnoloogia pole kõikvõimas), tema valest raken-damisest, eesti keele omapärast või hoopis meie teadmiste piiratu-sest eesti keele kohta.

Alljärgnevalt kirjeldame lisaks konkreetsele vajalikule tarkvara-le ka seltarkvara-le loomiseks vajalikke keetarkvara-leressursse.

3.3.1. Lõppkasutajale mõeldud tarkvara 3.3.1.1. Kirjutaja abivahendid

Esmajärjekorras oleks vaja grammatika kontrollijat ja teksti mõiste-tavust hindavat programmi. Ülesannet lihtsustab see, et sellised põhi-abivahendid nagu õigekirja kontrollija ja poolitaja on olemas. Sa-muti on olemas piirangute grammatikal põhinev süntaksi analüsaator.

Eeldab:

1) “tüüpiliste vigade” korpuse loomist, kusjuures vead sõltu-vad kirjutaja emakeelest, tekstitüübist jne;

2) süntaktilise analüüsi probleemide lahendamist just korrekt-suse ja normatiivkorrekt-suse vaatevinklist, kuid seda saab teha järk-järgult: teatud tüüpi fraaside sees tehakse teatud tüüpi vigu:

nimisõnafraasides ühildumisvigu, verbifraasides rektsiooni-vigu jne.

Probleemiks võib olla eesti keele süntaksi ikka veel mittepiisav teoreetiline läbiuuritus, eriti just sellisest formaalsest vaatepunktist nagu on vaja keeletehnoloogiliseks arendustööks.

3.3.1.2. Dokumenditöötlus

Infootsing täistekstidest märksõnade (mõistete) järgi, kus kasutaja ei pea mõtlema eesti keele morfoloogiliste iseärasuste peale: nt. et

„suveaja“ saaks üles leida, kui otsida sõna „suveaeg“.

Eeldab:

1) märksõnade (tüüpiliselt terminid, ka mitmesõnalised) tu-vastamist tekstis; kuna valdav osa termineid on nimisõna-fraasid, siis on see vaadeldav nimisõnafraaside tuvastamise allülesandena, mis omakorda eeldab süntaktilise analüsaa-tori kasutamist;

2) kõrgekvaliteedilist morfoloogilist oletajat ja ühestajat, sest enamasti pakuvad infootsingul huvi just sellised sõnad ja fraasid, mida sõnastikes ei ole: pärisnimed (nt. isikud, too-ted, firmad, institutsioonid), teoste pealkirjad, uhiuued ter-minid.

Abiks oleks ka vastava ainevaldkonna terminite tesaurus, mis võimaldab otsingut korraldada lisaks vahetult antud terminite ka nendega relevantsetes semantilistes seostes olevate terminite ja muude väljendite kaudu.

Mitmekeelne infootsing: vajalikku infot otsitakse tekstidest, mis lisaks eesti keelele võivad olla ka teistes keeltes (eriti aktuaalne EL raames).

Eeldab:

1) sama, mida infootsing;

2) mitmekeelseid sõnastikke.

Abiks oleks ka vastavate keelte vastava ainevaldkonna materja-li sisaldav mitmekeelne tesaurus, kus mõisted on keematerja-liti seotud.

Dokumentide liigitamine ja refereerimine Eeldab:

1) sama, mida infootsing;

2) vastava ainevaldkonna mõistelist liigendust (nt. tesauruse üldkategooriate tasemel) ja lisaks morfoloogilisele analüü-sile süntaktilist analüüsi lause ulatuses, mis esialgu võib olla suhteliselt lihtsustatud variant.

3.3.1.3. Tõlkijate abivahendid ja masintõlge Eeldavad:

1) paralleelkorpusi,

2) morfoloogilist analüüsi ja sünteesi, 3) süntaktilist analüüsi ja sünteesi, 4) mitmekeelseid sõnastikke.

Ükskõik, kas masintõlke ja tõlkija abivahendite aluseks võetak-se transfer-meetod, tõlkemälu-meetod või müranivooga kanali mee-tod, kvaliteetse masintõlkeni jõudmine võtab igal juhul veel palju aega. Praktiliselt kasulike tõlkija-abivahendite loomine on oletata-vasti saavutatav lähemas perspektiivis kui masintõlge. Samas on pal-jud masintõlkeks vajalikud ressursid ja tarkvara-komponendid ka-sutatavad ka muudel aladel kui kitsalt masintõlkes ja tõlkija abiva-hendites: nt. info-otsingus, grammatikakontrollijas, keeleõppes.

3.3.1.4. Keeleõpe arvuti abil ja sõnaraamatud

Ehkki keeleõpe arvuti abil ei puuduta otseselt eesti keeletehnoloo-giat, aitab ta siiski laiendada eesti keele (elektroonilist) kasutussfää-ri ja seega toetab ka keeletehnoloogiat.

Oluline oleks keeletehnoloogiat kasutavate sõnaraamatute loo-mine (nt. et algvorme ja mitmesõnalisi fraase tekstist automaatselt leida). Sellised sõnaraamatud oleksid ka samm tõlkijate

abivahendi-te ning masintõlke suunas. Ka kõnesignaalide analüüsivahendeid saaks kasutada eesti keele häälduse õpetamisel vene vm. võõrkeelt kõnelevatele inimestele.

Eeldused:

1) sama, mis tõlkijate abivahenditel ja masintõlkel;

2) kõneanalüüsi vahendid.

3.3.1.5. Loomulikku keelt võimaldavad kasutajaliidesed Automaatsete eestikeelsete infosüsteemide väljatöötamine eeldab:

1) eestikeelse dialoogi struktuuri uuringuid kindlalt piiritle-tud valdkondades;

2) eestikeelse kõnetuvastuse väljatöötamist.

3.3.1.6. Kõnesüntees

Juba praegu oleks võimalik luua mitmesuguseid kõnesünteesikasu-tatavaid rakendusi:

• pimedate lugemismasin. See oleks kõnesüntesaator koos skänneri ja optilise tekstituvastuse programmiga, mis võimaldab trüki-tud eestikeelset teksti – raamatuid, ajalehti jms. – pimedatele ette lugeda,

• e-posti ettelugemine telefoni teel. Helistades e-posti serverisse, oleks võimalik kuulata kõnesüntesaatori abil loetud e-kirja.

3.3.1.7. Kõnetuvastus

Eeldab kõnetuvastuse alaseid baasuuringuid, seetõttu pole lähiaas-tatel vastavaid rakendusi oodata. Kaugemas perspektiivis on võima-likud kõnetuvastuse rakendused järgmised:

• teksti dikteerimine arvutile,

• seadmete-arvutite hääljuhtimine,

• inimene-masin dialoogsüsteemid jm.

3.3.2. Teadus- ja arendustöödeks mõeldud programmid 3.3.2.1. Sõnavormide analüüs ja süntees

Olemasolev eesti morfoloogia-alane tarkvara on mõeldud tänapäeva kirjakeele töötlemiseks. Vaja oleks hõlmata ka muud keelesfäärid:

1) kõnekeel ja suuline kõne (ei saa toetuda suure ja väikese tähe eristamisele; peab hakkama saama paljude katkendli-ke ja vigaste sõnadega),

2) murdekeel, 3) vana kirjakeel.

Eeldus:

1) suulise keele korpus, 2) kõnekorpus,

3) murdekorpus,

4) vana kirjakeele korpus.

Tekstis esinevate mitte-sõnade (lühendite, arvude, valemite), üliharuldaste sõnade (erialaterminite, pärisnimede) ja kirjavigadega sõnade analüüsiks ei sobi samad reeglid, mis keskse sõnavara ana-lüüsiks. Samas kuuluvad ka need morfoloogia mõttes mitte-stan-dardsed elemendid eesti keelde ja nõuavad tõlgendamist. Keele pe-rifeerias toimuv ennustab sageli seda, mis keele keskses osas veidi aja pärast toimuma hakkab.

Eeldus:

1) suur tekstikorpus (et mittestandardsed nähtused esile tu-leks).

3.3.2.2. Grammatiline analüüs ja süntees Vaja oleks:

1) minna olemasolevast eesti keele süntaksi analüsaatorist, mis piirdub pindanalüüsiga, edasi ja luua lause süntaktilist struk-tuuri täpsemalt kirjeldav analüsaator,

2) luua süntaktiline süntesaator,

3) parandada olemasolevate morfoloogiliste ühestajate kvali-teeti,

4) luua morfoloogilised ühestajad ka muude keelesfääride kui kirjakeele jaoks, eelkõige kõne jaoks.

Eeldus:

1) süntaktiliselt märgendatud korpus, 2) morfoloogiliselt märgendatud korpus, 3) formaliseeritud grammatikakirjeldus.

3.3.2.3. Semantiline analüüs ja süntees Vaja oleks:

1) suurt leksikaalsemantilist andmebaasi,

2) semantilise ühestamise tarkvara, st. programmi, mis teksti igale sõnale oskaks juurde märkida, millist konkreetset tä-hendust selles suures leksikaalsemantilises andmebaasis an-tud kontekstis tuleks kasutada.

3.3.2.4. Pragmaatika

Eeldab teoreetilisi uuringuid eestikeelsete tekstide ja diskursuste üles-ehituse kohta.

Vaja oleks:

1) teksti sidususe suhtes märgendatud tekstikorpust (kus oleks nt. märgitud, millisele tekstiosale viitab asesõna),

2) kõneaktide suhtes märgendatud dialoogikorpust.

3.3.2.5. Kõnesüntees

Sünteeskõne kvaliteedi tõstmiseks on vajalik eelkõige kõne prosoo-dilise struktuuri (meloodia) täiuslikum modelleerimine.

Eeldab:

1) lause automaatse süntaktilise analüüsi lahendamist;

2) inimkõne prosoodilise struktuuri põhjalikku analüüsi,

3) tekstis esinevate mitte-sõnade (numbrid, lühendid, valemid jne.) analüüsi ja vastavate sõnaliste väljendite morfoloogi-list sünteesi.

3.3.2.6. Kõnetuvastus

Kõnetuvastuseks vajalik tehnoloogia on maailmas põhimõtteliselt olemas ja seda rakendatakse edukalt põhiliselt mitte-aglutineerivate keeletüüpide korral. Aglutineerivate-flekteerivate keelte, sh. eesti keele puhul vajab eelnimetatud tehnoloogia olulisi keele-spetsiifilisi ja põhimõttelisi täiendusi.

Eestikeelse kõnetuvastuse väljatöötamine eeldab:

1) baastehnoloogia soetamist,

2) uuringuid ja eksperimente tuvastuseks sobivate kõnesegmen-tide (foneemid, difoonid, trifoonid, silbid) väljaselgitami-seks,

3) mahuka kõne andmebaasi olemasolu nii uuringuteks kui ka süsteemi treenimiseks ja testimiseks.

KOKKUVÕTE

Käesoleva lisa ülesandeks oli esitada ülevaade eesti keelt puuduta-vate keeletehnoloogiaalaste tööde seisust ja sellest lähtuvalt sõnas-tada argumenteeritud ülesanded eesti keele keeletehnoloogilise toe loomiseks aastaks 2010. Keele tehnoloogilise toe määratluse järgi hõlmab see elektroonilisi keeleressursse, keeletöötlustarkvara ja kee-letehnoloogilisi rakendussüsteeme.

Ülevaade näitab, et eesti keele osas on tegeldud kõigi kolme valdkonnaga, aga erineval määral.

Enim on edu saavutatud keeleressursside arendamisel. Keele-ressursid on elektroonilised teksti- ja kõnekorpused ja kõneandme-baasid ning arvutileksikonid. Keeleressursid on aluseks keeletark-vara väljatöötamisele ja on loomulik, et eesti keele tehnoloogilise toe loomine on alanud sellest valdkonnast.

Eesti keele arvutiressursid on teiste Euroopa keeltega võrreldes rahuldaval tasemel ja kui töid saab jätkata planeeritud viisil, siis on aastaks 2010 kavandatud tase saavutatav.

Kirjutatud keele korpusi on ette nähtud lähiaastatel koguda 100 miljonit sõna ja see saavutatakse lähema 3 aasta jooksul. Aastaks 2010 kogutakse 200 miljoni sõnaline korpus. Raskusi on siiski eesti-keelse ilukirjanduse ja eestieesti-keelsete teadustekstide kogumisega.

Suulise kõne korpust on kogutud 1996. aastast. 2003.aasta sep-tembrikuu seisuga on korpuses u. 600 000 tekstisõna. Eesmärk – koguda 2010. aastaks 3 miljonit tekstisõna – on saavutatav. Suulise kõne korpus sisaldab ka dialoogikorpust, mis on aluseks telefoni-põhiste suhtlussüsteemide väljatöötamisele. 2003. aastal alustati ühtlasi kõneandmebaaside loomist (vähemalt 2000 erinevat kõne-lejat), mis on eelduseks kõnetuvastussüsteemi väljaarendamisele.

Keeleressursside teine oluline alaliik on arvutileksikonid: üks-ja mitmekeelsed sõnastikud, mis on vaüks-jalikud keeletehnoloogilistes rakendussüsteemides. Eesti keel on arvutileksikonidega hästi

esin-datud, ehkki need ei ole loodud alati keeletehnoloogilisi rakendusi silmas pidades. Arvutileksikonide osa (vt. osa 2. Arvutileksikonid) esitab detailse ülevaate arvuti abil töödeldavatest eesti keele sõnas-tikest. Ülevaade näitab, et olulisemad tööd antud valdkonnas aasta-ni 2010:

• ühendada erinevad üks- ja mitmekeelsed sõnastikud üheks and-mebaasiks, kus iga sõnakirje sisaldab morfoloogilist ja süntak-tilist informatsiooni, mis on vajalik automaatses

tekstitöötlu-• täiendada olemasolevat eesti keele semantilist andmebaasi (ees-ses;

ti wordnetti) kuni 100 000 sõnani, et seda saaks kasutada üld-keelele orienteeritud info-otsi- ja masintõlkesüsteemides;

• luua (mitmekeelsed) terminiandmebaasid (seejuures kasutades üldkeele – wordneti põhimõtteid) erialade jaoks, mis on esma-joones tähtsad keeletehnoloogilise toe arendamisel.

Ülevaate kolmas osa kirjeldab eesti keele töötlemise tarkvara ja selle rakendusi, taustaks on esitatud info olukorrast selles valdkon-nas maailmas. Ülevaatest nähtub, et eesti keele töötlemise tark-vara on võrdlemisi ebaühtlases seisus. On aga fikseeritud suunad, milles esmajärjekorras on vaja edasi töötada. Lähtealused selleks on olemas tänu sellele, et eesti keele morfoloogilise analüüsi/sün-teesi programmid on välja töötatud, nagu ka süntaksi pindanalüüsi programm ja tekst-kõne sünteesiprogramm. Morfoloogiaanalüsaa-tori põhjal on loodud õigekirjakorrektor ja poolitaja. Puudu on sün-taksi süvaanalüüsi programm ja (lausete/teksti) semantilise analüüsi programm.

Käsitletaval perioodil tuleb välja töötada järgmised program-mid (lisaks olemasolevate programprogram-mide täiustamisele):

• automaatne kõnetuvastus;

• grammatikakorrektor;

• tõlkeabi- ja masintõlkeprogrammid;

• sisukokkuvõtete tegemise programmid;

• eestikeelset infodialoogi modelleeriv programm;

• sisupõhised infootsiprogrammid.

Analüüs näitab, et Eestis on olemas spetsialistid keeleressursside, keeletarkvara ja rakendussüsteemide väljatöötamiseks, aga ka või-malused täiendavate spetsialistide koolitamiseks Tartu Ülikooli ar-vutilingvistika ja keeletehnoloogia erialal.

KASUTATUD KIRJANDUS

Alumäe, T. 2001. Eestikeelse kõne tuvastus: prototüübi loomine. Tallinna Tehnikaülikool. Tallinn [Magistritöö].

Alumäe, T., Võhandu, L. 2003. Piiratud ulatusega eestikeelne kõnetuvastus. – Eesti Keele Instituudi toimetised 12. Tallinn.

Altosaar, T., Meister, E. 1995. Speaker recognition experiments in Estonian using multi-layer feed-forward neural nets. – Proceedings of Eurospeech’95. Vol.1. Madrid, 333–337.

Altosaar, T., Karjalainen, M., Vainio, M., Meister, E. 1998. Finnish and Esto-nian speech applications developed on an object-oriented speech processing and database system. – Workshop on Speech Database Development for Central and Eastern European Languages, Granada, Spain, May .

Automatic Morphology of Estonian 1. (Research Reports). 1994. Toim. Viks, Ü.

Tallinn: Eesti Keele Instituut.

Automatic Morphology of Estonian 2. (Research Reports). 1995. Toim. Viks, Ü.

Tallinn: Eesti Keele Instituut.

Current Issues in Computational Linguistics: In Honour of Don Walker. 1997.

Ed. by Zampolli, A., Calzolari, N., Palmer, M. Kluwer Academic Publishers.

Danzin, A. and the Planning Study Group 1992. Towards a European Language Infrastructure. Report to the Commission of European Communities.

31.March.

Eesti keele formaalne grammatika. 2001. Koost. Roosmaa, T., Koit, M., Muischnek, K., Müürisep, K., Puolakainen, T., Uibo, H. Tartu Ülikooli arvutiteaduse instituut. Tartu: Tartu Ülikooli Kirjastus.

Eesti kirjakeele sagedussõnastik. 2002. Koost. Kaalep, H.-J., Muischnek, K.

Tartu: Tartu Ülikooli kirjastus.

Eilsen, K. 2000. Georg Mülleri sõnastik arvutis. – Pipliakielestä kirjakieleksi.

(Kotimaisten kielten tutkimuskeskuksen julkaisuja 105.) Helsinki:

Kotimaisten kielten tutkimuskeskus, 319–327.

Ehasalu, E., Habicht, K., Kingisepp, V-L., Peebo, J. 1997. Eesti keele vanimad tekstid ja sõnastik. Tartu Ülikooli eesti keele õppetooli toimetised 6.

Tartu.

Fellbaum, C. 1998. Introduction. – WordNet: An Electronic Lexical Database.

Ed. by Fellbaum, C. Cambridge, Massachusetts: MIT Press, 1–19.

Fillmore, C. J. 1977. Scenes-and-frames semantics, Linguistic Structures Processing. – Fundamental Studies in Computer Science, No. 59. Ed. by Zampolli, A. North Holland Publishing.

Fillmore, C.J., Baker, C. F., Lowe, J.B. 1997. A frame-semantic approach to semantic annotation. – Proceedings of the SIGLEX workshop “Tagging Text with Lexical Semantics: Why, What, and How?” [WWW]

- http://www.icsi.berkeley.edu/~framenet/

Habicht, K., Kingisepp, V-L., Pirso, U., Prillop, K. 2000 Georg Mülleri jutlus-te sõnastik. Tartu Ülikooli eesti keele õppetooli toimetised 12. Tartu.

Heid, U., Krüger K. 1996. A multilingual lexicon based on Frame Semantics.

– Proceeding of AISB96 Workshop on Multilinguality in the Lexicon.

Ed. by Cahill, L. and Roger, E. University of Sussex, UK.

Hennoste, T., Muischnek, K., Potter, H., Roosmaa, T. 1993. Tartu Ülikooli kirjakeele korpus: ülevaade tehtust ja probleemidest. – Keel ja Kirjandus, 10, 587–600.

Hennoste, T. 1996. Tartu University Corpus of Written Estonian: A Survey of the Structure of Texts and Principles of Selection. – Estonian in the Changing World. Ed. by Õim, H. Tartu, 7–32.

Hennoste, T., Koit, M., Roosmaa, T., Saluveer, M. 1998. Structure and Usage of the Tartu University Corpus of Written Estonian. – International Journal of Corpus Linguistics 3:2, 279–304.

Hennoste, T. 2000. Eesti suulise kõne uurimine: transkriptsioon, taust ja kor-pus. – Keel ja Kirjandus 2, 91–106.

Hennoste, T., Muischnek, K. 2000. Eesti kirjakeele korpuse tekstide valiku ja märgendamise põhimõtted ning kahe allkeele võrdluse katse. – Arvutus-lingvistikalt inimesele. Tartu Ülikooli üldkeeleteaduse õppetooli toimeti-sed 1. Toim. Hennoste, T. Tartu: Tartu Ülikooli Kirjastus, 183 – 218.

Hennoste, T., Lindström, L., Rääbis, A., Toomet, P., Vellerind, R. 2000. Eesti suulise kõne korpus ja mõnede allkeelte võrdluse katse. – Arvutuslingvis-tikalt inimesele. Tartu Ülikooli üldkeelteaduse õppetooli toimetised 1.

Toim. Hennoste, T. Tartu: Tartu Ülikooli Kirjastus, 245–283.

Hennoste, T., Kaalep, H.-J., Muischnek, K., Paldre, L., Vaino, T. 2001. The Tartu University Corpus of Estonian Literary Language. – Congressus Nonus Fenno-Ugristarum Pars V. Tartu, 337–344.

Hennoste, T., Lindström, L., Rääbis, A., Toomet, P., Vellerind, R. 2001. Tartu University Corpus of Spoken Estonian. – Congressus Nonus Fenno-Ugristarum Pars V. Tartu, 345–351.

Hennoste, T., Koit, M., Kullasaar, M., Rääbis, A., Vutt, E. 2002. Eesti dialoogi-korpuse loomise probleemid. – Tähendusepüüdja. Tartu Ülikooli üldkee-leteaduse õppetooli toimetised 3. Toim. Pajusalu, R. ja Hennoste, T.

Tartu: Tartu Ülikooli Kirjastus, 143–160.

Iivonen, A., Harinen, K., Keinänen, L. Liisanantti, H., Meister, E., Tuuri, L.

2001. Moniparametrinen puhujantunnistus. 21. Fonetiikan Päivät, Turku 4.–5.1.2001. – Publications of the Department of Finnish and General Linguistics of the University of Turku. Ed. by Ojala, S., Tuomainen, J.

Turku, 81–95.

Kaalep, H.-J. 1999. Eesti keele ressursside loomine ja kasutamine keeletehno-loogilises arendustöös. Dissertationes philologiae estonicae Universitatis Tartuensis 7. Tartu Ülikool. Tartu. [Doktoritöö].

Kaalep, H.-J., Muischnek, K., Müürisep, K., Rääbis, A., Habicht, K. 2000.

Kas tegelik tekst allub eesti keele morfoloogilistele kirjeldustele? Eesti kirjakeele testkorpuse morfosüntaktilise märgendamise kogemusest. – Keel ja Kirjandus 9, 623–633.

Kaalep, H.-J., Vaino, T. 2000. Teksti täielik morfoloogiline analüüs lingvisti töövahendite komplektis. – Arvutuslingvistikalt inimesele. Tartu Ülikoo-li üldkeeleteaduse õppetooÜlikoo-li toimetised 1. Toim. Hennoste, T. Tartu: Tartu Ülikooli Kirjastus, 87 – 99.

Kaalep, H.-J., Vaino, T. 2001. Complete Morphological Analysis in the Linguist’s Toolbox. – Congressus Nonus Internationalis Fenno-Ugristarum Pars V. Tartu, 9 – 16.

Kaalep, H-J., Muischnek, K. 2002a. Using the Text Corpus to Create a Com-prehensive List of Phrasal Verbs. – Proceedings LREC 2002. Third In-ternational Conference on Language Resources and Evaluation.Vol. 1.

Ed. by Rodríguez, M. G., Suarez Araujo, C. P. Granada, 101–105.

Kaalep, H-J., Muischnek, K. 2002b. Püsiühendite leidmine teksti abil. – Tähen-dusepüüdja. Tartu Ülikooli üldkeeleteaduse õppetooli toimetised 3. Toim.

Pajusalu, R. ja Hennoste, T. Tartu: Tartu Ülikooli Kirjastus, 172–184.

Kahusk, N., Orav, H., Õim H. 2001. Sensiting inflectionality: Estonian task for SENSEVAL 2. – SENSEVAL–2 Workshop Proceedings. 25–28.

Kahusk, N. 2002. A Lexicographer’s Tool for Word Sense Tagging According to WordNet. – Workshop on Wordnet Structures and Standardisation, and How these Affect Wordnet Applications and Evaluation. LREC 2002 Workshop Proceedings. 1–7.

Kahusk, N. and Vider, K. 2002. Estonian Wordnet benefits from word sense disambiguation. – Proceedings of the 1st International Global WordNet Conference. Central Institute of Indian Languages. Mysore, ndia, 26–31.

Kahusk, N., Kaljurand, K. 2002. Semyhe tulemusi: kas tasub naise pärast WordNet ümber teha? – Tähendusepüüdja. Tartu Ülikooli üldkeeletea-duse õppetooli toimetised 3. Toim. Pajusalu, R. ja Hennoste, T. Tartu:

Tartu Ülikooli Kirjastus, 185–195.

Koit, M. 2002a. Märgendatud dialoogikorpus: miks ja kuidas? – Konverents

„Rakenduslingvistika Eestis“. Teesid. Tallinn, 31–32.

Koit, M. 2002b. Kommunikativnye strategii v informacionno-spravochnom dialoge (na materiale estonskogo korpusa dialogov). – Proceedings DIALOG–2002.Vol. 2. Moskva: Nauka, 283–290.

Koit, M. 2003. Märgendatud dialoogikorpus kui keeleressurss. – Toimiv Keel I. Töid rakenduslingvistika alalt. Eesti Keele Instituudi toimetised 12.

Toim. Langemets, M., Sahkai, H., Sepper, M.-M. Tallinn: Eesti Keele Sihtasutus, 119–136.

Kuusik, E. 1996. Eesti tüvemuutuste süsteemi modelleerimine. Eesti Keele Instituut. Tallinn. [Magistritöö].

Langemets, M. 2000. Sõnaraamatu arvutilingvistiline analüüs. Eesti Keele Ins-tituut. Tallinn. [Magistritöö].

Langemets, M. 2002. Eesti Keele Instituudi elektrooniline keelevara. – A&A, 5.

Lindström, L. 2001. Eesti murrete korpuse iseloomustus argivestlustega võrrelduna. – Keele kannul. Pühendusteos Mati Erelti 60.

Lindström, L. 2001. Eesti murrete korpuse iseloomustus argivestlustega võrrelduna. – Keele kannul. Pühendusteos Mati Erelti 60.