• Keine Ergebnisse gefunden

Tasemepiiride määratlemine

7. peatükk Valideerimine

7.5. Väline valideerimine

7.4.3. Tasemepiiri määratlemise meetodi täpsus ja järjepidevus

7.4.3.1. Tasemepiiri standardviga

Tasub küsida, millised oleksid tasemepiirid siis, kui kaasataks kõik selle teema ekspertideks peetavad hindajad, s.t milline oleks üldkogumi keskmine. Kui me võtame valimisse kuuluvate ekspertrühma liikmete keskmise hinnangu (tasemepiiri), on nende keskmine tasemepiir selle üldkogumi hinnanguline keskmine ja selle keskmise standardviga (SES) saadakse valimisse kuuluvate hindajate individuaalsete tasemepiiride standardhälbe (SDS) jagamisel ekspertrühma liikmete arvu n ruutjuurega:

36 Loomulikult eeldusel, et kogu tabelis ollakse järjekindel. Kui pooltes veergudes kasutatakse protsente ja pooltes osakaale, on tulemused kummalised ja täiesti kasutud.

37 Hea ülevaate on andnud Siegel ja Castellan (1988).

38 On veel kasulikke meetodeid, millega analüüsida kvantitatiivselt tabeleid, mis sisaldavad nominaaltasandi andmeid, s.t kus A1, ..., C2 on vaid tähised. Selliseid meetodeid tuntakse mitme nimetuse all, muu hulgas homogeensusanalüüs või mitme tunnusega korrespondentsanalüüs. Praktilise abimaterjali on avaldanud OECD (2005, 10. peatükk).

106

Erialakirjanduses võrreldakse seda standardviga tavaliselt testi mõõtmise standardveaga ja üldjuhul nõustutakse, et tasemepiiride standardviga ei tohi ületada mõõtmise standardviga. Kuid mõni autor on oma seisukohtades rangem. Cohen jt (1999) on öelnud, et tasemepiiride standardviga ei tohiks ületada poolt mõõtmise standardveast, Jaeger (1991) aga nõuab, et see ei ületaks veerandit sellest. Norcini jt (1987) soovitavad, et tasemepiiride standardviga ei tohiks olla rohkem kui kaks küsimust sajast. See tähendab, et 50 testiküsimusest koosneva testi puhul võiks tasemepiiri standardviga olla kõige rohkem 1.

AERA/APA/NCME (1999) standardis 2.14 on märgitud:

„Kui tasemepiire täpsustatakse valiku tegemise või tasemepaigutuse eesmärgil, tuleks lisada aruandesse tasemepiiri lähedale jäävate skooride mõõtmise standardvead.”

Klassikalise testiteooria lihtsates rakendustes saadakse tavaliselt mõõtmise standardveaks ainult üks väärtus.

See viitab, et skoorid (tõese skoori näitajatena) on ühtviisi täpsed (tõese) skoori väärtusest sõltumata. On aga hästi teada, et IRT kohaldamisel sõltub võimete kohta tehtava otsuse standardviga muutuja enda väärtusest (vt testiinfo mõistet abimaterjalist, osast G).

Klassikalises testiteoorias on püütud jõuda mõõtmise standardvea eri väärtusteni, mis sõltuvad skooritasemest (Feldt jt 1985). Sobiliku valemi standardvea väljendamiseks eri skooritasemete juures kahendvalikuga küsimustest koosnevate testide puhul on pakkunud välja Keats (1957):

'

KR21 on üks Kuder-Richardsoni valemitest, mis väljendab (ligikaudu) võrdse raskusega küsimustest koosneva homogeense testi reliaablust. KR21 valem on järgmine:

21 1 2

Pange tähele, et SEM(X) annab sõltuvalt skoorist X erineva tulemuse. Seetõttu nimetataksegi seda tavaliselt tinglikuks mõõtmise standardveaks. Selle väärtused on suurimad skooride puhul, mis jäävad skooriulatuse keskpaiga lähedusse, ja kahanevad skoori suurenedes või vähenedes. See tähendab, et valides tasemepiiri standardvea hindamiseks mingi kriteeriumi, näiteks selle, et standardviga ei või ületada poolt mõõtmise standardveast, kaasneb sellega eeldus, et standardviga peab olema seda väiksem, mida kaugemal on tasemepiir skooriulatuse keskpaigast.

7.4.3.2. Paradoksid

On hästi teada, et IRT rakendustes saadakse latentse võimekuse kõige täpsem prognoos õpilastelt, kes on umbes pooltele testiküsimustele õigesti vastanud, s.t. nende skoor on madalaima ja kõrgeima võimaliku skoori ligikaudses keskpaigas. Seevastu tingliku mõõtmise standardveaga esitatud tulemused osutavad täpselt vastupidisele. Selle näiliselt vastuolulise tulemuse mõistmiseks tuleb aru saada, et testi skooriulatusel on nii alam- (miinimumskoor on tavaliselt 0) kui ka ülempiir. Kui testiküsimusi on 50 ja igaüks neist on väärt 1 punkti, on maksimumskoor 50. IRT puhul ei ole põhimõiste mitte testiskoor, vaid abstraktne latentne

107

muutuja, mida vaadeldakse piiramatuna, s.t see võib hõlmata kõiki väärtusi miinuspoole lõpmatusest plusspoole lõpmatuseni.

Sobiv viis väljendada latentse muutuja ja skoori suhet on kasutada testi tunnuste funktsiooni.39Joonisel 7.2 on kujutatud 50 testiküsimusest koosneva testi tunnuste kõverat. Kuigi kõver on üldjoontes küll S-kujuline, ei ole see väga korrapärane. Selle ebakorrapärasuse põhjuseks on teatud eristusjõu kombinatsioonid ja testiküsimuste raskusparameetrid.40

Joonis 7.2.Testi tunnuste kõver

Horisontaalteljel on kujutatud kaht vahemikku, millest mõlema laius on 0,2. Vasakpoolne on –1,6...–1,4 ja nende kahe väärtuse prognoositavad testiskoorid on vastavalt 4,82 ja 5,54, s.t vahe on 0,72 skooripunkti.

Teine vahemik, mille laius on horisontaalteljel sama (0,3...0,5), tingib selle, et eeldatavate skooride vahemik on 24,26...27,00 punkti, s.t vahe on 2,74 skooripunkti ehk neli korda suurem kui esimesel puhul.

Kui on kasutatud tasemepiiri määratlemise meetodit, kus tasemepiir määratakse kindlaks varitunnuste skaalal, näiteks järjehoidja meetodit või selle CITO varianti, väljendatakse standardviga sellel skaalal. Kuid enamikul kasutajatel on vaja skooride tasemepiiri ja seetõttu tuleb standardvea prognoos esitada ka skoorina väljendatult. Siinkohal võib olla abi testi tunnuste kõverast.41

7.4.3.3. Otsuste täpsus ja järjepidevus

Tasemepiiride määratlemine, s.t tasemepiiride alammäära üle otsustamine eeldab otsuse tegemist

individuaalsete soorituste kohta. Kui A2 ja B1 vaheliseks tasemepiiriks määratakse 23/24, eeldab see otsust, et õpilasele, kes saab eksamil väiksema skoori kui 24, ei määrata B1- taset. See tähendab, et mingi tase otsustatakse õpilasele määrata ainult siis, kui ta seda tõepoolest väärib. Kuid mõned otsused võivad olla väärad ja mitmel vigade allikal on kasulik vahet teha. Toome konkreetse näite.

Kujutagem ette, et õpilane Jüri sai testiskooriks 22.

• Kui tasemepiiriks on määratud 23/24, ei paigutata Jürit B1-tasemele. Ent kui me kordaksime tasemepiiri määratlemist teistsuguse ekspertrühma liikmete valimiga, jõuaksime võib-olla A2/B1 puhul pisut teistsuguse tasemepiirini, nii et Jüri paigutataks skooriga 22 B1-tasemele. Seega oleme oma otsustes ebakindlad tasemepiiri määratlemise kordamisel saadud keskmiste tasemepiiride

39 Rohkem teavet selle funktsiooni kohta on osas 6.8.3.

40 IRT kasutamisel oleks hea luua testi tunnuste kõver – see muudab abstraktse mõiste (latentne muutuja) ja ilmsete faktide (testiskoorid) suhte selgemaks. Joonisel 7.2 esitatud kõvera parameetrite valiku eesmärk oli seda ebakorrapärasust rõhutada.

41 Kuid pange tähele, et testiskooride teisendamine latentsete tunnuste väärtusteks testi tunnuste kõvera abil eeldab suurima tõenäosuse hinnangu kasutamist ja see võib juhul, kui tasemepiirid on äärmuslikud, olla väga kallutatud (vt osa 6.8.3).

0 10 20 30 40 50

–3 –2 –1 0 1 2 3

Latentne tunnus

Eeldatav testiskoor

108

varieeruvuse tõttu. See ebakindlus arvestatakse välja tasemepiiride standardveana, nagu eespool kirjeldatud.

• Kuid isegi kui me lähtume ühesainsas tasemepiiride määratlemiseprotsessis kindlaks määratud taseme alampiiridest, võime Jüri kohta teha vale otsuse, sest Jüril võis juhtumisi olla kehv päev (mis päädis negatiivse mõõtmisveaga), samas kui üldjuhul oleks ta tasemepiiri A2/B1 ületanud.

Kõikumist mõõdetud skooride ja tõeste skooride vahel väljendab hästi testi reliaablus (või sellega seotud mõõtmise standardvea mõiste). Tasemepiiride määratlemise protsessi valideerimisel on seega paratamatult vaja seostada tasemepiiride määratlemise ja testi enda tunnused, et saada täpne

ettekujutus vigade või ebajärjepidevuse põhjustest.

• Kolmandat liiki vigadeks tasemepiiride määratlemise protsessis on süstemaatilised vead. Kui terve ekspertrühm on ülemäära leebe, võib see kaasa tuua liiga madalate tasemepiiride kehtestamise, mille tagajärjel paigutatakse õpilased, kes seda õigupoolest ei vääri, järjepidevalt B1-tasemele.

Süstemaatilised vead mõjutavad otseselt protsessi välist valiidsust ja neid käsitletakse üksikasjalikumalt järgmises osas.

Selles osas keskendume peamiselt varieeruvuse teisele põhjusele – testi ebatäiuslikust reliaablusest tingitud otsuste varieeruvusele. Hea ettekujutuse varieeruvusese puudumise mõjust saame siis, kui laseme

õpilasvalimil teha üht ja sama testi kaks korda ja seejärel koostame kahemõõtmelise sagedustabeli, et teha kindlaks, kui paljud õpilased paigutatakse kaks korda samale tasemele. Kokkulangevuse indeksid (absoluutse kokkulangevuse indeks või Coheni kapa) näitaksid sel juhul otsuste järjepidevust.

Kahjuks ei ole sama testi läbitegemine samade õpilastega päris eksamitel enamasti võimalik ja seetõttu tuleb appi võtta psühhomeetrilised mudelid, et saada järjepidevuse mõõt üheainsa testitegemise korraga.

Livingston & Lewis (1995) on pakkunud välja tulemusliku lähenemisviisi. Tutvustame seda lühidalt. Lordi (1965) töödele tuginedes võtsid Livingston ja Lewis kasutusele tõeste skooride jaotuse, mida on võimalik prognoosida testitavate esindusliku valimi mõõdetud skooride jaotuse põhjal, kasutades kaht või nelja parameetrit.42

Kui jaotus on teada (või see on täpselt prognoositud) ja tasemepiirid on olemas,

• on võimalik otsustada, milline osakaal üldkogumist paigutatakse igasse kategooriasse mitme tasemepiiri korral;

• on mudeli eelduste ja testi reliaabluse põhjal samuti võimalik kindlaks teha, milline osakaal üldkogumist paigutatakse igasse kategooriasse (igale tasemele) testiskoori põhjal.

Tabeli 7.9 vasakul poolel on sellise tabeli näide esitatud kolme kategooriaga (tasemega). Read väljendavad tõest kategooriat (taset). Veerust „Marg” (tähendus „marginaal”) võib näha, et 16,04% üldkogumist paigutub keeleoskustasemele A2, 27,34% B1-tasemele ja 56,62% B2-tasemele. Testi reliaablus on hinnanguliselt 0,9.

Kui üldkogumiga viiakse läbi sellise reliaablusega test (mitte tingimata uuritav test, vaid samade

psühhomeetriliste omadustega test), võib eeldada, et 21,17% õpilastest paigutatakse testiskoori põhjal A2-tasemele (see ilmneb alumisest reast) ning 14,95% kuulub tõesti kategooriasse A2 ja ka paigutatakse sellesse kategooriasse. Tabeli diagonaali põhjal võime määrata kindlaks täieliku kokkulangevuse indeksi:

0,1495 + 0,2002 + 0,4426 = 0,7922.

42 Kahe parameetriga mudeli puhul eeldatakse, et suhteline tõene skoor (õigesti vastatud testiküsimuste osakaal) järgib beetajaotust;

nelja parameetri puhul eeldatakse samuti, et väikseim ja suurim suhteline tõene skoor võivad erineda vastavalt kas nullist ja ühest ning et nende kohta saab hinnangu anda mõõdetud andmete põhjal. Selle mudeli tehnilised üksikasjad on üsna keerulised.

109

Tabel 7.9. Otsuse täpsus

Test Uuritav test

A2 B1 B2 Marg A2 B1 B2 Marg

T(A2) 0,1495 0,0109 0,0000 0,1604 0,1511 0,0102 0,0000 0,1614 T(B1) 0,0617 0,2002 0,0115 0,2734 0,0624 0,1874 0,0119 0,2618 T(B2) 0,0005 0,1232 0,4426 0,5662 0,0005 0,1154 0,4611 0,5769 Marg 0,2117 0,3343 0,4540 1 0,2140 0,3130 0,4730 1

Tabeli 7.9 vasak pool on koostatud hinnanguliselt, lähtudes 1000 õpilase mõõdetud skooride jaotusest, kusjuures nendest 1000 õpilasest vastavalt 214, 313, 473 on paigutatud A2-, B1- ja B2-tasemele. Tabeli vasakult poolelt näeme, et A2-tasemele paigutamise eeldatav sagedus ei ole 214, vaid 211,7

(= 1000 × 0,2117). Tabeli kohandamiseks selliselt, et igas kategoorias vastaksid osakaalud täpselt sellele, mis mõõdeti, on vaja korrutada iga tabelis olev osakaal (mitte ääreväärtused) mõõdetud osakaaluga ja jagada veerus märgitud eeldatava osakaaluga. Näiteks esimese rea ja esimese veeru puhul saame arvutuskäiguks 0,1495 × 0,2140 / 0,2117 = 0,1511. Kõigi üheksa lahtri väärtused on antud tabeli 7.9 paremal poolel. Ridade marginaalid on lihtsalt iga rea väärtuste summad. Selle kohandatud tabeli täieliku kokkulangevuse indeks on 0,7996.

Peale selle, et tabelitest saab kokkulangevusindeksi abil väärtuslikku teavet otsuste täpsuse kohta, näitavad need ka üsna selget erinevust valepositiivsete ja valenegatiivsete määras – valepositiivsete paigutuste (s.t tegelikest võimetest kõrgemale tasemele paigutamise) osakaal on umbes 2%, samal ajal kui valenegatiivsete osakaal on umbes 18%.

Et hinnata otsuste järjepidevust ehk seda, mil määral võetaks kahe sõltumatu testi läbiviimise korral vastu samasugused või erinevad otsused, võib koostada kaks tabelit, mis sarnanevad tabeliga 7.9. Need tabelid on näha tabelis 7.10. Ainus erinevus selle ja tabeli 7.9 vahel seisneb ridade tähenduses. Kui tabelis 7.9 viitavad read liigitusele tõese skoori alusel, siis tabelis 7.10 viitavad need liigitusele testi sõltumatu läbiviimise alusel.

Seega näitab tabeli vasak pool ühise tasemepaigutuse tõenäosust, lähtudes kahest sõltumatult läbi viidavast testist (asjaomane test ja veel üks samasuguse reliaablusega test), parem pool aga ühiseid tõenäosusväärtusi käesoleva testi ja teise samasuguse reliaablusega testi läbiviimisel.

Et viimasel juhul esineb mõõtmisvigu mõlema testi läbiviimisel, on kokkulangevuse indeks väiksem kui otsuse täpsuse hindamisel. Mõlemal tabelis 7.10 kajastatud juhul on kokkulangevusindeks umbes 0,77.

Tabel 7.10. Otsuse järjepidevus43

Test Kõnealune test

A2 B1 B2 Marg A2 B1 B2 Marg

A2 0,1663 0,0448 0,0007 0,2117 0,1681 0,0419 0,0007 0,2107 B1 0,0448 0,2212 0,0683 0,3343 0,0453 0,2071 0,0712 0,3236 B2 0,0007 0,0683 0,3851 0,4540 0,0007 0,0640 0,4012 0,4658 Marg 0,2117 0,3343 0,4540 1 0,2140 0,3130 0,4730 1

Kõige märkimisväärsem erinevus tabelite 7.9 ja 7.10 vahel seisneb aga selles, et viimases on tabeli mõlemad pooled põhiolemuselt sümmeetrilised – osakaal ühe poole lahtris (A2, B1) on (ligikaudu) sama kui

sümmeetrilises teise poole lahtris (B1, A2). Tabeli vasaku poole puhul on sümmeetria täielik ja see peabki nii olema, sest tabeli see pool kajastab kahe paralleeltesti täiesti sõltumatut läbiviimist. See tähendab, et

43 Tabelid 7.9 ja 7.10 arvutati arvutiprogrammiga BB-CLASS, mille on välja töötanud R. L. Brennan. Programmi levitab Iowa ülikooli allüksus Centre of Advanced Studies in Measurement and Assessment (CASMA) tasuta ja seda on võimalik alla laadida veebilehelt www.education.uiowa.edu/casma/. Programmiga koos laetakse alla põhjalik käsiraamat ning andmed ja sisendfail tabelite 7.9 ja 7.10 arvutamiseks. Programmi kasutamiseks on olemas palju tehnilisi variante, kuid vaikeväärtused annavad tavaliselt häid tulemusi.

110

valenegatiivsete ja valepositiivsete erinevusel ei ole antud juhul mingit tähtsust. Seda on võimalik neile omistada üksnes täpsustabelites.

Et näha, milline mõju on tasemepiiride varieeruvusel, võib täpsustabelid uuesti arvutada teistsuguste

tasemepiiridega. Tulemusi saab sisuliselt võrrelda, eriti nende valepositiivsete ja valenegatiivsete osakaalude puhul.

Vähem keerulise meetodi otsuse järjepidevuse arvutamiseks on välja pakkunud Subkoviak (1988). Põhjaliku käsitluse koos meetodi kohaldamiseks vajalike tabelitega on esitanud Cizek & Bunch (2007) oma teose 16.

peatükis. Livingstoni ja Lewise meetod on aga mitmekülgsem, sest seda saab kasutada nii mitme tasemepiiri üheaegsel määratlemisel kui ka siis, kui kasutatakse kahendvalikuga või osahindega testiküsimusi, olgu need võrdse või ebavõrdse kaaluga.

7.5. Väline valideerimine

Tasemepiiride määratlemise põhitulemus on otsustusreegel, mille alusel paigutatakse õpilased

eksamisoorituse järgi piiratud arvule raamdokumendi keeleoskustasemetele. Tavaliselt võetakse testisooritus enne kokku ühe arvuga: testiskooriga.

Käsiraamatus on rõhutatud, et sellise otsustusreeglini jõudmine on keeruline ja pikaajaline, sellel teel võib olla palju ohte ning tulemus ei ole testi mõõtmisvigade ja ekspertrühma liikmete lõplike hinnangute erinevuse tõttu kunagi täiuslik. Kui kogu protsess on läbitud suure põhjalikkusega, kui eksamil on piisav sisuvaliidsus ja suur reliaablus ning tasemepiiride standardviga on väike, võiks arvata, et töö on lõppenud ja tulemused võib kokku võtta otsuse täpsust kajastavas tabelis, mis sarnaneb tabeli 7.9 vasaku poolega ja näitab võimaluste piire, arvestades, et kasutada tuleb testi, milles võib esineda vigu.

Sellise mõttekäigu nõrk külg on aga see, et tulemus sõltub täielikult ühe ja sama isiku või isikuterühma tegevusest ja testiandmetest, mis kogutakse tavaliselt ühel korral ühelt õpilasrühmalt ning ühe ja sama testi või eksamiga. Seda võib pidada liiga väheseks, et selle põhjal kinnitada lõplikku tõde, s.t pidada väidet „kui õpilane saavutab minu testis 39 punkti või enam, võib tapõhjendatult paigutada B2-tasemele” valiidseks.

Üldiselt peitub selle lähenemisviisi nõrkus vastuolus, mis tekib tööprotsessi täpsuse ja väite üldsõnalisuse vahel.

Välise valideerimise eesmärk on seega esitada sõltumatutest allikatest pärit tõendeid, mis kinnitavad tööprotsessi tulemusi ja selle järeldusi. Mitte kõik esitatavad tõendid ei ole siiski ühtemoodi sõltumatud teabest, mida on tasemepiiride määratlemisel kasutatud, ja mitte kõik tõendid ei ole tingimata võrdselt veenvad.

Tõendeid võib esitada tulemuste põhjal, mille samad õpilased on saavutanud mõnes teises testis või hindamisprotsessis või mille teised õpilased on saavutanud samas testis või mõnes teises testis.

Tõendeid võib esitada ka mõne teise tasemepiiride määratlemise protsessi põhjal, kus kasutati sama

ekspertrühma või muud sõltumatut ekspertrühma, mida juhtisid samad tasemepiiride määratlemise juhid või muud sõltumatud korraldajad.

Sellised on kokkuvõtlikult tõendid, mida võidakse väite üldistatavuse põhjendamiseks esitada ja mis tulenevad sidumisprotsessi otsustusreeglitest. Eesmärgiks võiks ju võtta ka suhtumise „teeme kõik ise ära”, kuid see on ebarealistlik, sest mõningate tõendite kogumine võib olla üsna kulukas ja mitte kõik kinnitavaid tulemusi andvad uuringud ei ole ühevõrra edukad.

111

Selles osas kirjeldatakse mõningaid välise valideerimise meetodeid ja esitatakse argumendid nende piiravate tingimuste ja veenvuse (või selle puudumise) kohta. Kuid kõigepealt üks üldine tähelepanek: testiteoorias asutakse välise valiidsuse probleemi lahendama tavaliselt sellega, et tõstetakse esile testitulemuste ja mingi väliskriteeriumi omavahelist vastavust. Vahel peetakse väliskriteeriumi mõõtu mingis mõttes absoluutseks.

Tegelikult aga ei ole ükski kriteerium absoluutselt valiidne. Võtame näiteks õpiedukuse. Ülikooli

magistrikraadi saavutamist on üldjuhul võimalik mõõta ilma mõõtmisveata, sest tegemist on põhimõtteliselt tehnilise toiminguga. Vaimsete võimete kriteeriumina on magistrikraad kindlasti kasulik, kuid tegemist ei ole absoluutse kriteeriumiga, sest mõned tudengid võivad ülikoolist välja langeda vaimsetest võimetest

olenematutel põhjustel ja osa tudengeid saavutab arvatavasti edu teenimatult, sest ükski eksamisüsteem ei ole lollikindel. Seetõttu oleks parem suhtuda iga kriteeriumi väärtusesse nii, nagu see oleks ekslik, samamoodi nagu kõiki teste peetakse ekslikeks, s.t osa nende dispersioonist on sobimatu või asjakohatu selleks, et tõendada testi protsessi valiidsust näiteks tasemepiiride määratlemise tulemustena.

7.5.1. Ristvalideerimine

Nagu 6. peatükis mainitud, on kahel populaarsel eksaminandikesksel meetodil – vastanduvate rühmade meetodil ja piiripealse rühma meetodil – peamiseks nõrkuseks asjaolu, et õpilasi puudutav teave tuleneb mõnes mõttes varjatud allikast, nende õpetaja hinnangust. Sellist hinnangut võiks (ja tuleks) pidada testitulemuseks, kuid üldiselt on selliste hinnangute psühhomeetriliste omaduste kohta üsna raske teavet saada. Nende tulemuste üle ei ole võimalik vaielda, sest tegemist on õpetajate isiklike arvamustega.

Samuti on nende meetoditega tasemepiiride määratlemisel soovitatud koostada otsustustabelid, et maksimeerida testiskoori ja õpetajate hinnangute omavahelist vastavust. See viitab, et määratletavad tasemepiirid sõltuvad paljuski väikese hulga õpetajate arvamusest (tavaliselt) väikese või parimal juhul mõõduka suurusega õpilasvalimi kohta. Nii võivad tulemused sõltuda teadmata määral selle konkreetse valimi eripärast. Statistikas nimetatakse sellist mõju juhuslikkuse ärakasutamiseks ja selle mõju tähtsust on oluline näidata meetodiga, mida nimetataksegi ristvalideerimiseks. Meetodi põhimõte on lihtne.

Tasemepiiride määratlemise käigus saadud tulemusi (tasemepiire) kohaldatakse sõltumatu valimi suhtes.

Võrreldes algse valimi ja ristvalideerimisel kasutatud valimi kvaliteediindekseid, saame aimu tulemuste üldistatavusest. Kvaliteediindeksina võib siinkohal kasutada täieliku kokkulangevuse indeksit või Coheni kapat, sest kõik õpilased paigutatakse keeleoskustasemele õpetaja hinnangu ja tasemepiiride määratlemisest tuleneva otsustusreegli alusel.

Selliseks ristvalideerimiseks on mitu võimalust.

Algse valimi võib jagada kaheks (juhuslikkuse põhimõttel). Üht poolt kasutatakse tasemepiiride

määratlemise protsessi läbimiseks, teist aga ristvalideerimiseks. Võiks tegutseda veelgi tasakaalustatumalt ja kasutada mõlemat valimipoolt tasemepiiride määratlemiseks ja ainult üht poolt ristvalideerimiseks, sest tasemepiiride määratlemine ise koosneb ainult tabelite koostamisest ja nende põhjal otsuste tegemisest.

Ehkki selline toimimisviis on kindlasti kasulik ja soovitatav, on see mõistlik üksnes siis, kui koguvalim on piisav, et kaks poolt oleksid arvestatava suurusega. Pealegi on sel juhul veenmisjõud üsna piiratud.

Kriteeriumiks olev teave pärineb samast allikast (õpetajatelt) ja kui nad juhtuvad näiteks oma hinnangutes olema liiga leebed, ei suuda ristvalideerimine seda kindlaks teha.

Selle probleemi kontrolli alla saamiseks võiks õpilasvalimi pooleks teha ja kasutada poolte õpetajate kõiki õpilasi tasemepiiride määratlemise valimina ja teise poole õpilasi ristvalideerimise valimina. Või kui valimid on suured, võiks tekitada isegi neli valimit. Selleks võiks kõigepealt jagada õpetajad kahte võrdsesse rühma ja seejärel jagada ka iga õpetaja õpilasvalim kahte võrdsesse rühma.

Ülalkirjeldatud töö käiku võib pidada tõelise valideerimise erijuhtumiks. Kui tasemepiiride määratlemiseks kasutatav valim ei ole poolitamiseks piisavalt suur, võib tasemepiiride määratlemiseks kasutada koguvalimit

112

ja seejärel koguda andmeid täiesti sõltumatult, teistest koolidest pärit valimist. Valideerimiseks on vaja test (või eksam) läbi viia ka selle valideerimisvalimiga, samuti tuleb paluda õpetajatel anda hinnang, kuidas sellesse valimisse kuuluvad õpilased raamdokumendi tasemetele paigutuvad. See töökord ei erine

põhimõtteliselt eelmisest, kuna tasemepiiride määratlemise valim ja valideerimisvalim võivad vabalt oma kohad vahetada.

6. peatükis käsitletud tasemepiiride määratlemise meetodite seas tõsteti vastanduvate rühmade meetodit ja piiripealse rühma meetodit esile selle poolest, et tasemepiiride määratlemise meetodi juurde kuulub lahutamatult teatud kriteerium (õpetajate hinnang). Võiks arvata, et see kehtib kõigi eksaminandikesksete meetodite kohta, kuid see ei ole nii. Hea näide on terviktööde meetod. Selle meetodi puhul saavad ekspertrühma liikmed kogu teabe õpilaste kohta testisooritusest ja ainult mõningast teavet kaustade järjestusest (kuigi see ei ole ilmtingimata vajalik). Neile ei anta mingit teavet selle kohta, millisel raamdokumendi tasemel õpilased on. Meetod keskendub üksnes õpilase eksamisooritusele. See kehtib üldjoontes ka kõigi 6. peatükis käsitletud testikesksete meetodite kohta. Määratletavate tasemepiiride aluseks on ainult ekspertrühma liikmete hinnang testimaterjalidele. Isegi teavet mõju kohta (õpilaste jaotumise kohta tasemetele) antakse neile üksnes seoses sellega, millised on nende endi hinnangute tagajärjed, ja see ei peegelda raamdokumendi tasemetele paigutamist mingi teise allika poolt. Seetõttu ei ole ristvalideerimisel nende meetodite puhul mõtet.

Väline valideerimine hõlmab nende meetodite puhul tasemepiiride määratlemise protsessi tulemuste (otsustusreegli) võrdlemist mõne teise otsustusreegli tulemustega. Võrreldakse põhimõtteliselt kahel viisil:

üksnes äärejaotusi või risttabeleid kasutades. Neid käsitletakse allpool üksteise järel.

7.5.2. Äärejaotuste võrdlemine

Kujutlegem, et ühe esindusliku valimi andmeid on IRT-mudeliga kalibreeritud ning otsustusreegel õpilaste paigutamiseks raamdokumendi neljale tasemele on tuletatud järjehoidja meetodi kohaselt. Seejärel võib kalibreerimisvalimisse kuuluvad õpilased paigutada ühele neljast tasemest. Kui teave on olemas ka mõne teise valimi kohta ja see esindab sedasama sihtrühmaks olevat üldkogumit ning kui valimisse kuuluvad õpilased jaotatakse tasemetele mõne teise meetodiga, näiteks nende õpetajate hinnangute alusel, võiks koostada 2 × 4 tabeli (nagu 7.11). Valim 1 tähistab kalibreerimisvalimit ja valim 2 sõltumatut

valideerimisvalimit.

Tabel 7.11. Marginaalsed jaotused üle tasemete (sagedused) A1 A2 B1 B2 Kokku

Valim 1 98 124 165 84 471

Valim 2 39 74 78 63 254

Kokku 137 198 243 147 725

Et kaks valimit on eri suurusega, on võrdlus pelgalt tabelit vaadates keeruline. Teisendades sagedusväärtused ridade kaupa protsentideks, muutub võrdlemine lihtsamaks. Tulemused on esitatud tabelis 7.12, kust on näha, et sõltumatus valimis paigutati kalibreerimisvalimiga võrreldes suhteliselt rohkem õpilasi A2- ja B2-tasemele ning vähem A1- ja B1-B2-tasemele. Seda erinevust on võimalik statistiliselt kontrollida hii-ruut-testiga.

Selles näites on testi statistiline näitaja 7,94 ja sellega seotud kergusindeks 0,047 (vabadusastmega 3). See tähendab, et kahe meetodi kasutamise tõttu on tasemepaigutuses märkimisväärsed erinevused.44

44 Hii-ruut-test tuleb läbi viia sagedusväärtustega (tabel 7.11), mitte protsentidega nagu tabelis 7.12.

113

Tabel 7.12. Marginaalsed jaotused üle tasemete (protsendid)

A1 A2 B1 B2 Kokku

Valim 1 20,8 26,3 35,0 17,8 100,0 Valim 2 15,4 29,1 30,7 24,8 100,0

Kuigi näide on lihtne, näitab see, kui raske on valideerimine. Statistilistest andmetest (hii-ruut-testist) võib järeldada, et raamdokumendi tasemetele paigutamises kahel eri meetodil esineb süstemaatilisi erinevusi, kuid tulemustest ei selgu, miks need erinevused on tekkinud. Võtame näiteks B2-taseme, kus esines paigutuste määras kõige suurem erinevus. Võib-olla tingis järjehoidja meetodi kasutamine liiga range piiri tasemele B1/B2. Seda ei ole võimalik aga tabelist järeldada, sest võib-olla on õpetajad olnud õpilaste määramisel B2-tasemele liiga leebed. Et kindlaks teha, mis õigupoolest juhtus, on võib olla vaja lisauuringuid ja -andmeid.

Õpetajate küsitlemine, et saada teada, millised olid nende kaalutlused ja põhimõtted paigutamisel B2-tasemele, võivad tuua ilmsiks, et nad ei ole raamdokumendi kirjeldusest selle keeleoskustaseme kohta hästi aru saanud. Võib ka olla, et nad on oma hinnangutes olnud ühekülgsed – pööranud tähelepanu üksnes

mõnele tüüpilisele selle taseme Can Do-nendingule ja jätnud tähelepanuta ülejäänud, mis olid ehk järjehoidja

mõnele tüüpilisele selle taseme Can Do-nendingule ja jätnud tähelepanuta ülejäänud, mis olid ehk järjehoidja