• Keine Ergebnisse gefunden

3. MEETOD JA MATERJAL

3.3. Dialoogsüsteemid

„Dialoogsüsteemiks nimetatakse programmi, mis suhtleb kasutajaga loomulikus keeles. Seejuures eristatakse programme, mis annavad kasutaja küsimustele vastates kasulikku infot (enamasti piiratud ainevaldkonnas), ja vestlusprog-ramme e. juturoboteid (talkbot, chatbot), mille ainevaldkond ei tarvitse olla pii-ratud.“ (Koit, Roosmaa 2011: 183). Selles töös uuritud DS-id kuuluvad esi-mesena nimetatud DS-ide hulka ehk nende ülesanne on anda teavet määratletud ainevaldkonna piires.

Eesti keeles on DS-ide ajaloost ja erinevat tüüpi DS-idest mitu ülevaatlikku kirjutist (nt Koit 2003a; Koit 2007; Koit, Roosmaa 2011: 183–189). Seega pole vajalikuks peetud käesolevas töös anda ülevaadet sel teemal.

Nagu sõnast dialoogsüsteem võib aru saada, toimub selles rakenduses vestlus valdavalt kahe osapoole vahel. Nendeks on arvutiprogramm ja inimene (siin töös vastavalt ametnik ja klient). DS-ide loomisel lähtutakse arusaamast, et mõlemal poolel on oma suhtluseesmärk ja mõlemad soovivad seda eesmärki saavutada. Inimese eesmärk on informatsiooni pakkuvalt DS-ilt vajalik info saada ning seda võimalikult kiirelt ja mugavalt (mugavuse alla kuulub näiteks loomulik emakeelne keelekasutus). DS-i loojate sihiks on, et ametnik annaks soovitud info korrektselt ja kiiresti. Tõenäoliselt on osapoolte ühine soov, et dialoog kulgeks sujuvalt. Selleks ongi vaja teada reegleid või tavasid, mis teevad arvuti vahendusel toimuvast dialoogist sujuva dialoogi.

DS-id sisaldavad tüüpiliselt kindlaid komponente (vt Allen, Ferguson, Stent 2001), millest see töö on seotud komponendiga, mida nimetatakse dialoogi-halduriks ja mis tegeleb dialoogi juhtimisega vastavalt dialoogi mudelile.

On terve rida üldteada tunnuseid, mis on vestlustele omased, näiteks:

• soovid ja palved esitatakse sageli kaudselt (viisakus);

• küsimusele järgneb tavaliselt vastus;

• keeldumise puhul n-ö pehmendatakse öeldut ja sageli antakse keeldumise põhjus või selgitus;

• jne.

Siiski, nendest tunnustest ei piisa loomulikult suhtleva DS-i programmeeri-miseks. Vaja on reegleid, mis näitavad, kuidas peaks arvutiprogramm käituma, kui dialoogis on tekkinud suhtlusprobleem.

Mõned uurijad on väitnud, et kuna inimesed käituvad arvutiga suheldes teist-moodi kui inimestega suheldes (Dahlbäck, Jönsson 1992; Fraser, Gilbert 1991), on eesmärk arendada välja DS, mis jäljendab reaalset inimeste dialoogi käitu-mist kas ebaotstarbekas või oma keerukuse tõttu mittesaavutatav eesmärk (Dahlbäck, Jönsson 1992; Shneiderman 1980). Käesolev uurimus on ette võetud veendumuses, et loomuliku keele kasutamine DS-is teeb DS-i kasutajatele atraktiivsemaks, mugavamaks ja on seetõttu parem, kui on süsteem, mis ei üri-tagi loomulikku suhtlust matkida. Loomuliku keele juurde kuuluvad ka suhtlus-probleemid (nt partneri parandusalgatused) ja nende suhtlus-probleemide lahendamine.

DS-i dialoogidel on omad unikaalsed tunnused, mille poolest need dialoogid erinevad inimestevahelisest vestlusest, aga samuti vestlustest, kus inimene on arvuti rollis ning just seetõttu on tegelikes DS-ides aset leidnud vestluste uuri-mine väärtuslik materjal DS-ide parandamiseks ja/või päris uute DS-ide prog-rammide välja töötamiseks.

Järgnevalt tutvustatakse töös kasutatud dialoogsüsteeme.

3.3.1. DS Alfred

DS Alfredi kasutaja veebiliides näeb välja võrdlemisi sarnane 2009. aasta VOZ-i eksperimentide läbiviimiseks kasutatud DS Aivo veebilehele. Joonisel 5 on esitatud DS Alfredi ekraanipilt.

Joonis 5. DS Alfredi veebilehe kasutajaliides

Infoagent Alfredi vastused on automaatsed ning põhinevad kindlatel etteantud reeglitel ja lausemallidel. Selle DS-i töö hõlmab kolme protseduuri (Treumuth 2011: 55):

• sisendi töötlus (sisaldab morfoloogilist analüüsi);

• vastuse leidmine;

• väljundi töötlus.

Reeglid on esitatud regulaaravaldistena ja need paiknevad tabelis.

DS-i sees on kasutusel järgnevad suhted (Treumuth 2011: 56):

• sõnad on seotud algvormide ja n-grammidega22;

• algvormid on seotud n-grammidega;

• reeglid on seotud n-grammidega, sõnadega ja algvormidega.

DS Alfredi ametniku jututeema on piiratud, ta annab Tartu kinode Cinamon ja Ekraan kinokavade infot ja teab üht-teist nende kinode kohta (aadress, parkimis-võimalused jms). Lisaks oskab ta vastata mõnedele teemavälistele lausungitele (nt K: tee mõni nali ka), kui need sisaldavad süsteemile teada olevat võtmesõna või võtmesõnu.

Süsteem on initsiatiivikas – alustab juttu ise esimesena ning juhul kui klient ei kirjuta midagi, väljastab ise programmeerija poolt kindlaks määratud aja-intervalli järel kõnevooru, millega ärgitab klienti suhtlema.

Vastuste kuvamise kiiruse suhtes on DS-i looja taotlenud loomulikkust, mis tähendab, et kasutaja kirjutatud teksti järel ja enne süsteemi vastamist on väike paus („mõttepaus“). Teisalt on vastamise reaktsioon piisavalt kiire, mis veenab klienti, et vastamisel pole tegemist inimesega, sest inimene ei suudaks nii kii-resti teksti trükkida.

Süsteem on veebis kasutatav ning DS-i kasutamiseks ei pea end regist-reerima ega midagi alla laadima. Rakendus ei nõua kindlate etteantud fraaside kasutamist, vaid püüab kliendile vastata, otsides kliendi sisendist erinevaid märksõnu.

DS Alfred kasutab asünkroonset suhtlusmudelit (vt ptk 3.8.2), mille ees-märgiks on teha vestlus enam interneti teel toimuva loomuliku suhtluse sarna-seks. Eeldus on, et selline mudel julgustab inimesi väljendama ennast pikemate lausetega, mis omakorda annab süsteemile semantilist informatsiooni vasta-miseks (Treumuth 2011: 62).

Kuna DS Alfredi logifail sisaldab infot ka vooru teksti sisestamise aja (sisestamisklahvi vajutamine) kohta, siis dialoogide analüüsimisel saaks kasu-tada näiteks järgnevat arvutamismeetodit selle tõlgendamisel, kas klient tõe-näoliselt võis olla lugenud DS-i ametniku vooru enne kui oma vooru sisestas.

Hennoste (2012) kirjutab teistele allikatele tuginedes, et arvutikasutaja tippimise kiiruseks loetakse (on standardiseeritud) 5 tähemärki (k.a tühik) sõnas ja see teeb umbes 19 sõna minutis. Hennoste (2012) on arvestanud, et see teeb 1 sõna kirjutamiseks keskmiselt 3 sekundit. Käesoleval juhul 5-sõnalise vooru kirjuta-mise ajaks 15 sekundit. Tegelikult ei ole isegi niivõrd tähtis kirjutakirjuta-mise kiirus, vaid fakt, et sellised nähtused esinevad ja DS võiks ehk neile tingimustele vastata.

Vrajitoru (2006) ja Ter Maat, Truong, Heylen (2011) on kirjutanud süs-teemide agentide isikuomadustest. Sellele tuginedes võib DS Alfred ametnikku kirjeldada kui jutukat ja humoorikat torukübaraga infoagenti (mõnedes Alfredi

22 N-grammid on alamühikud mingis n ühikuga järjendis. Selles DS-is on nendeks ühi-kuteks sõnad või sõnade algvormid. Treumuth on n-gramme kasutanud tulemaks toime sõnajärje probleemidega (Treumuth 2011 88–89).

voorudes tuleb välja tema teadlikkus oma avatari välimusest), kes armastab üle kõige filme vaadata. Tal on naine Zelda ja talle meeldib teistelt saadud hinnan-guid filmide kohta (igav-huvitav) edastada arvutikasutajale.

Nielsen (2000) räägib küll üldiselt veebis kasutatavast keelest, ent leiab samuti, et kuigi tekst veebis peaks olema lühike, ei peaks see olema isikupäratu.

Nielsenile teadaolevalt näitavad uurimused, et arvutikasutajad hindavad veebi-lehtede puhul huumorit ja isikupärast hoiakut.

3.3.2. DS Annika

DS Annika veebiliidese kujundus näeb välja analoogne DS Alfredi veebiliide-sele, kuid infoagendi pilt on teine. Samuti kattuvad tööpõhimõtted DS Alfredi omadega. Seegi kasutajaliides (sarnaselt DS Alfredile ja DS Aivole) ei sisalda menüüsid. Kuna tegemist on kommertssüsteemiga, siis veebiaadressi ega täpse-mat infot siin töös ei esitata. Töös analüüsitavad DS Annika dialoogid päri-nevad 2011. aasta logifailist.

Enamik DS Annika vestlustest leiavad aset ametniku ja kliendi vahel. Siiski, logifailis leidub samuti dialooge, kus vestlusesse sekkub hambaarst (Võlur).

DS Annika korpuses leiduvad mõned dialoogid, milledes on väliselt kõik justkui korras ehk vestlus kulgeb sujuvalt, ent inimene saab siiski aru, et DS-i ametnik ei ole klienti õigesti mõistnud.

Näide 2. Sõna vale mõistmine homonüümi olemasolu tõttu Annika_66

(01) [20:57] A: tere! minult saate küsida hambaravi, igemeravi, implantaatide, proteeside kohta ...

(02) [20:57] K: tere

(03) [20:57] K: millal on vaba aeg

(04) [20:58] A: interneti kaudu saab aega küsida siit [saada kiri]

(05) [20:58] A: Dr. X vastuvõtuajad on: <AJAD>, aga saab ka muu aja kokku leppida

(06) [20:58] K: juuli?

(07) [20:58] K: puhkus?

(08) [20:58] A: puhkame juulis, vastame aga telefonile ja registreerime vastuvõtule

(09) [20:59] K: august?

(10) [20:59] A: kaaries on hamba kõvakudede kroonilise kuluga haigus, mille tagajärjel tekib hambasse auk

(11) [20:59] K: augusti kuu (12) [21:00] K: vastuvõtt augustis

Dialoogis (näide 2, Annika_66) soovib klient teada, millal on ametnikul pakkuda vastuvõtuaega arsti juurde (03). Voorudest (06) ja (07) selgub, et tege-mist on suveajaga, mil klient usub, et vahest vastuvõtte seoses puhkustega ei

toimugi. Ta pakub DS-ile ühesõnalised märksõnad juuli? (06), puhkus? (07), millest kummagi lõpus on küsimuse märkimiseks küsimärk. Need küsimused saavad voorus (08) vastatud. Nimelt teatab ametnik seal, et puhkame juulis, vastame aga telefonile ja registreerime vastuvõtule. Voorus (09) jätkab klient samal teemal, pakkudes välja järgmise suvekuu ning küsib august?. Selles sõnavormis on kahe isesuguse tähendusega sõna sõnavormi kokkulangemine (augustikuu – ainsuse nimetav, auk – ainsuse seestütlev), millega iga inimesest ametnik tuleks hõlpsasti toime, ent DS Annika programm valib selles kontekstis vale tähenduse ning annab sellele vastava vastuse, pakkudes infot selle kohta, mis on kaaries (10). Voorud (11) ja (12) kinnitavad, et klient oli silmas pidanud esimest tähendust (augustikuu). Kokkuvõttes on tegemist sujuvalt kulgeva dialoogiga, milles DS Annika ametnik vastab kõigile küsimustele justkui korrektselt, kuid tegelikkuses esineb sõnasemantikaga seotud eksimus.

Nii DS Annika kui DS Alfredi puhul kontrollib süsteem kliendi sisendi õigekirja. Treumuth (2011: 36) väidab, et tema DS-ide vestluste logifailide uuri-mine näitab, et u. 80% kasutajatest teeb õigekirjavigu võtmesõnades ehk sõna-des, mis on vajalikud sisendi mõistmiseks. Treumuth (2011: 37–38) on sele-tatud ka õigekirja kontrollimisel kasusele-tatud Jaro-Winkleri funktsiooni, mis seis-neb selles, et võrreldakse kahte stringi (leksikoni sõna B ja kliendi sõna A) ja [0...1] skaalal selgub, kas stringe peetakse sarnaseks või mitte. Kui funktsiooni väärtus on suurem või võrdne arvuga 0,912, siis tehakse asendus A->B. Arv 0,912 on saadud eksperimentide tulemuste järgi. Seejuures lühemaid sõnu kui 6 tähte ei kontrollita, sest seal on sõnas eksimise risk liiga suur.