• Keine Ergebnisse gefunden

3. Tehniline taust

3.3 Teemade modelleerimine

Teemade modelleerimise eesmärk on anda ülevaade dokumentidest, et lugejal oleks võima-lik ilma kõiki dokumente läbi lugemata saada aru, millest kirjutatakse. Tegemist on juhen-damata masinõppe valdkonda kuuluva ülesandega. Teemade modelleerimine on sisuliselt dokumentide klasterdamine teemade põhjal. Teemade modelleerimine põhineb eeldusel, et autor kasutab erinevatel teemadel kirjutamisel teatud määral erinevaid sõnu (Aggarwal &

Zhai, 2012). See võimaldab statistilise analüüsi käigus välja selgitada sõnade esinemissage-dusi erinevates teemades.

14

Teema all peetakse silmas sõnade tõenäosuslikku jaotumist teemade vahel. Iga teema puhul on erinevatel sõnadel erinev esinemise tõenäosus. Teemade modelleerimisel esitatakse tee-mad kõige tõenäolisemate sõnade hulgana (Blei, Topic Modeling and Digital Humanities, 2012). Näidisloetelu kahest teemast ja neid kirjeldavatest sõnadest on toodud tabelis 1.

Tabel 1. Näide teemade modelleerimise käigus leitud teemadest.

Teema 1 Teema 2

Muusika Raamat

Rock Novell

Jazz Lood

Laulja Armastus

Album Perekond

Tabelis 1 on toodud teemasid kõige tõenäolisemalt iseloomustavad sõnad. Teemadele annab nimetuse modelleerija. Käesoleva näite puhul võib teema 1 nimetuseks olla “muusika” ja teema 2 nimetuseks “armastuslood”. Teemadele nimetuse leidmine ja optimaalse arvu tee-made leidmine on iteratiivne protsess ning nõuab osalist dokumentide sisu tundmist. Tee-made modelleerimise juures on oluline, et leitud teemad oleks inimesele sisuliselt mõisteta-vad. Eeltoodud näite põhjal saab järeldada, et tegemist on kohati küllaltki subjektiivse prot-sessiga, kuna dokumentide eelnev tundmine võib mõjutada nii optimaalset arvu kui ka tee-made nimetamist. Üks populaarsemaid teetee-made modelleerimise mudeleid on LDA (Blei, Probabilistic topic models, 2012).

3.3.1 LDA

Teemade modelleerimise kasutatakse käesolevas töös mudelit LDA. LDA tugevuseks on, et dokumentide kohta antakse teemade tõenäosusjaotus (st üks dokument võib koosneda mit-mest teemast) (Aggarwal & Zhai, 2012). Samuti saab mudelit LDA kasutada leidmaks tee-masid dokumentides, mida treenimiseks ei kasutatud (Aggarwal & Zhai, 2012). See võimal-dab eelnevalt loodud mudeli abil määrata teemade tõenäosuseid tundmatule tekstile.

LDA teeb dokumentide ja teemade kohta järgnevad eeldused (loetelu tugineb Blei jt (2003) artiklile):

• Teemade arv K on fikseeritud (see tuleb sisendina mudelile ette anda).

• Iga teemat kirjeldab erinev sõnakasutuse muster. Näiteks tabelis 1 kasutati teemas 1 rohkem teistsuguseid sõnu kui teemas 2. Sõnade järjekord dokumentides ei ole olu-line.

• Iga dokument koosneb erinevatest teemadest, mis omakorda koosnevad erinevatest sõnadest. Näiteks võib konkreetse dokumendi puhul teema 1 tõenäosuseks olla 70%, teema 2 tõenäosuseks 30%.

Graafiliselt on LDA mudeli toimimise skeem kujutatud joonisel 2.

15

Joonis 2. LDA mudeli skeem (Blei, Probabilistic topic models, 2012).

Joonisel 2 tähendavad sümbolid järgmist (Blei, Probabilistic topic models, 2012):

M

– dokumentide arv,

N

– dokumendi M sõnade arv,

K

– teemade arv,

α

– dokumentide teemade Dirichlet’ eeljaotus,

β

– teemade sõnade Dirichlet’ eeljaotus,

θ

m – teemade jaotus dokumendis m,

• φ

k – sõnade jaotus teemas k,

z

mn– dokumendi m sõna n teema,

ω

mn – konkreetne sõna.

Joonisel 2 kujutatud muutujatest on sõnad (ωmn) ainsad, mis on otseselt vaadeldavad. Lisaks antakse mudelile ette hüperparameeter, mis määrab teemade arvu korpuses. Teised muutu-jad on varitunnused, mida mudel treenimise käigus genereerib (Blei, Ng, & Jordan, Latent Dirichlet Allocation, 2003). D. M. Blei põhjal (Blei, Probabilistic topic models, 2012) on tegemist tõenäosusliku generatiivse teemade modelleerimise mudeliga. See tähendab, et andmete kohta eeldatakse, et need on tekkinud generatiivse protsessi käigus, mis hõlmab ka varitunnuseid. Näiteks eeldatakse, et dokumendid on genereeritud erinevatest teemadest, mis omakorda on genereeritud erinevatest sõnadest. Otseselt sõnade jaotust teemade vahel mudel enne treenimist ei tea, need leitakse treenimise käigus. Nii nähtavaid kui ka varitun-nuseid kasutatakse, leidmaks tõenäosuslikke jaotusi muutujate vahel. Näiteks konkreetse sõna teema zmnsõltubteemade jaotusest dokumendis (θm).

Varitunnustele väärtuste leidmine pole triviaalne ülesanne, kuna need ei ole otseselt vaadel-davad. Vaadeldavad tunnused on dokumendid ja dokumentides esinevad sõnad. Varitun-nuste leidmiseks võib kasutada mitmeid meetodeid, näiteks Laplace’i lähendamine (Laplace approximation), Monte Carlo meetodid ja variatiivne Bayes (variational Bayes) (Blei, Ng,

& Jordan, Latent Dirichlet Allocation, 2003). LDA autorid pakuvad algses artiklis välja vii-mase meetodi kiiruse ja efektiivsuse tõttu (Blei, Ng, & Jordan, Latent Dirichlet Allocation, 2003). Käesolevas töös kasutatakse LDA mudeli parameetrite leidmiseks meetodit varia-tiivne Bayes. LDA mudelite loomiseks kasutatakse pythoni teeki gensim7.

7 https://radimrehurek.com/gensim/

16 3.3.2 Optimaalne teemade arv

Käesolev lõik tugineb Jonathan Chang jt artiklile (Chang, Boyd-Graber, Gerrish, Wang, &

Blei, 2009). Pärast teemade mudeli treenimist on oluline hinnata mudeli täpsust. Teemade mudeli täpsuse hindamiseks saab kasutada kahte liiki lähenemist. Esimene on kvantitatiivne suund, kus hindamiseks kasutatakse mõnda kvantifitseeritavat muutujat (näiteks perplexity).

Teiseks võimaluseks on lasta hinnata mudeli täpsust inimestel. Näiteks saavad inimesed hinnata, kas nende jaoks teemasid esindavad sõnad on omavahel kooskõlas ja arusaadavad.

Lisaks saavad nad hinnata dokumentidele määratud teemade õigsust. Kvantifitseeritud mee-todid kipuvad olema ebatäpsemad, kuna teema arusaadavuse ja eristuvuse hindamine ei ole triviaalne ülesanne.

Üheks kvantitatiivseks mõõdikuks, mis võib aidata hinnata teemade mudeli täpsust, on ko-herentsus (coherence). Erinevad uuringud (näiteks (Chang, Boyd-Graber, Gerrish, Wang,

& Blei, 2009) ja (Röder, Both, & Hinneburg, 2015)) näitavad, et koherentsus korreleerub teistest näitajatest inimhinnanguga kõige paremini. Üheks põhjuseks võib olla, et koherent-sus analüüsib teemat kirjeldavate sõnade omavahelist sobivust nagu teevad seda inimesed (Röder, Both, & Hinneburg, 2015). Omavahelise sobivuse arvutamiseks on olemas mitmeid viise. Üldjoontes võib need jaotada kaheks: meetodid, mis võtavad arvesse sõnade koose-sinemise tõenäosust mõnes välises korpuses (näiteks vikipeedia) ning meetodid, mis võta-vad arvesse sõnade koosesinemise tõenäosust treeningandmetes (Röder, Both, &

Hinneburg, 2015).

Käesolevas töös kasutatakse koherentsuse mõõtmiseks kahte erinevat meetodit: umass ja cv. Mõlemad kasutavad koherentsuse hindamiseks treeningandmeid ning hindavad, kui tõenäo-liselt mudeli teemadesse leitud sõnad korpuse tekstides koos esinevad (Röder, Both, &

Hinneburg, 2015). Iga teema sõna kohta moodustatakse paarid ülejäänud teema sõnadega ning iga paari kohta arvutatakse koherentsus, mille põhjal saadakse summeerimise või kesk-mise leidkesk-mise teel teema ning mudeli koherentsus (Röder, Both, & Hinneburg, 2015). Konk-reetselt meetodi umass arvutamise loogika on toodud valemis (3) (Röder, Both, & Hinneburg, 2015).

𝑘𝑜ℎ𝑒𝑟𝑒𝑛𝑡𝑠𝑢𝑠𝑈𝑚𝑎𝑠𝑠 = 𝑁∗(𝑁−1)2 ∑ ∑𝑖−1𝑗=1𝑙𝑜𝑔𝑃(𝑤𝑃(𝑤𝑖,𝑤𝑗)+𝜀

𝑗)

𝑁𝑖=2 (3),

kus:

N on teemade populaarseimate sõnade arv, mida kasutatakse koherentsuse arvuta-misel,

wi ja wj on konkreetse teema sõnad, mille vahel koherentsust arvutatakse,

P(wi,wj) on dokumentide arv, kus sõnad wi ja wj esinevad koos,

P(wj) on dokumentide arv, kus esineb sõna wj,

ε on silumise faktor, et logaritm tagastaks reaalarvu.

Meetodi umass puhul arvutatakse välja dokumentide osakaalu logaritm, kus mõlemad sõnad paarist esinevad koos jagatuna dokumentide arvuga, kus esineb sõna, mille suhtes koherent-sust arvutatakse (Stevens, Kegelmeyer, Andrzejewski, & Buttler, 2012). Tegemist on mee-todiga, mis arvestab sõnade otsese koosesinemisega.

Meetodi cv erinevus meetodist umass seisneb selles, arvesse võetakse ka sõnade kaudne koo-sesinemine (Röder, Both, & Hinneburg, 2015). Näiteks esinevad ühes dokumendis harva koos erinevate automarkide nimed (mistõttu need sõnad tunduvad olevat erinevad). Samas võivad dokumendid, kus räägitakse erinevatest automarkidest, tugevalt korreleeruda sõnaga

„automark“. Selle tõttu saab erinevaid automarke kirjeldavaid sõnu vaadelda kui kaudselt

17

(läbi kolmanda sõna) koos esinevaid sõnu. Kaudse koosesinemise arvesse võtmiseks arvu-tatakse iga teema kohta kontekstivektorite koosiinussarnasused. Iga teema kontekstivektor koosneb teema iga sõna umass koherentsustest (otsene sarnasus) ülejäänud sõnade suhtes (Röder, Both, & Hinneburg, 2015). Mudeli koherentsuse saamiseks koherentsused summee-ritakse. Katsed on näidanud, et cv võib tugevamalt korreleeruda inimhinnangutega kui umass

(Röder, Both, & Hinneburg, 2015). Juhul, kui LDA pakutud teemas olevad sõnad esinevad koos korpuses olevates tekstides, on teema koherentsus kõrge. Vastupidisel juhul on kohe-rentsus madal ning viitab sellele, et teemasse on sattunud mõni sõna, mis muudab teema raskesti tõlgendatavaks.

Teemade arvu leidmiseks käesolevas töös kasutatakse eeltoodud koherentsuse meetodeid ning inimhinnangut. See võimaldab võrrelda, kui hästi need kokku langevad ning kas kohe-rentsus korreleerub inimhinnanguga. Pärast dokumentide teemade leidmist ning märgenda-mist on võimalik hakata tegelema dokumentide klassifitseerimisega.