MatemaatilisestatistikaerialaBakalaureusetöö(9EAP)Juhendaja:vanemteadurKristiKuljusTartu2019 Pidevatejaotusteparameetritehindamisestsuurimatõepärajasuurimatevahemikemeetodil TartuÜlikoolLoodus-jatäppisteadustevaldkondMatemaatikajastatistikainstituut

(1)

Tartu ¨ Ulikool

Loodus- ja t¨ appisteaduste valdkond Matemaatika ja statistika instituut

Liis Simmul

Pidevate jaotuste parameetrite hindamisest suurima t˜ oep¨ ara ja suurimate vahemike meetodil

Matemaatilise statistika eriala Bakalaureuset¨ o¨ o (9 EAP)

Juhendaja: vanemteadur Kristi Kuljus

Tartu 2019

(2)

Pidevate jaotuste parameetrite hindamisest suurima t˜ oep¨ ara ja suurimate vahemike meetodil

Bakalaureuset¨ o¨ o Liis Simmul

L¨ uhikokkuv˜ ote. Iga statistilise probleemi ¨ uks osa on valimi p˜ ohjal kogu populatsiooni kohta kehtivate ¨ uldistuste tegemine. M˜ onikord on probleemi lahendamiseks vaja hinnata jaotuse parameetreid. K¨ aesolevas bakalaureuset¨ o¨ os on vaadeldud Kullback-Leibleri infor- matsioonim˜ o˜ odu l¨ ahendamisel p˜ ohinevaid kahte pidevate jaotuste parameetrite hindamise meetodit – suurima t˜ oep¨ ara ja suurimate vahemike meetodit. Muu hulgas uuritakse juhte, kus suurima t˜ oep¨ ara meetod ei t¨ o¨ ota ja vajab seet˜ ottu alternatiivi. N¨ aiteid tuuakse mee- todite k¨ aitumisest, kus uuritavaks jaotuseks on normaaljaotus, ¨ uhtlane jaotus v˜ oi Weibulli jaotus.

CERCS teaduseriala: P160 Statistika, operatsioonanal¨ u¨ us, programmeerimine, finants- ja kintdlustusmatemaatika

M¨ arks˜ onad: t˜ oen¨ aosusjaotused, statistilised mudelid, parameetrilised meetodid, opti- meerimine, simulatsioon

Estimating parameters of continuous distributions using maximum likelihood and maximum spacing method

Bachelor’s thesis Liis Simmul

Abstract. Drawing inferences from a sample that apply on the whole population is a part of every statistical problem. To solve the problem it is sometimes necessary to es- timate the parameters of the distribution. This bachelor’s thesis studies two parameter estimation methods, which are both based on approximating the Kullback-Leibler infor- mation measure – maximum likelihood and maximum spacing method. We consider cases where maximum likelihood does not work and therefore an alternative method is needed.

Examples are provided on the behaviour of the methods, where the studied distribution is normal distribution, univariate or Weibull distribution.

CERCS research specialisation: P160 Statistics, operations research, programming, financial and actuarial mathematics

Keywords: probability distributions, statistical models, parametric methods, optimiza-

tion, simulation

(3)

Sisukord

Sissejuhatus 4

1 Pidevate jaotuste parameetrite hindamine 5

1.1 Kullback-Leibleri informatsioonim˜ o˜ ot . . . . 5 1.2 Suurima t˜ oep¨ ara meetod . . . . 10 1.3 Suurimate vahemike meetod . . . . 13 2 Simulatsioonin¨ aited kahe meetodi v˜ ordlemiseks 17 2.1 T˜ oep¨ arafunktsiooni ja vahemike funktsiooni k¨ aitumine . . . . 18 2.2 Suurima t˜ oep¨ ara ja suurimate vahemike meetodil saadud

parameetrite hinnangute v˜ ordlus . . . . 21

Kokkuv˜ ote 24

Kasutatud kirjandus 25

Lisad 25

Lisa 1 . . . . 25

Lisa 2 . . . . 31

Lisa 3 . . . . 33

(4)

Sissejuhatus

Iga statistiliste probleemi korral on antud mingi hulk vaatlusi. Nende vaatluste n¨ aol on tegemist mingi juhusliku suuruse realisatsioonidega, mis p¨ arinevad mingist jaotusest. Vas- tamaks vaatlustega seonduvatele k¨ usimustele, on m˜ onikord tarvis leida hinnangud selle jaotuse parameetritele. Kui oleme loonud eelduse, millisest jaotusest valim v˜ oiks p¨ arineda, on parameetritele hinnangute leidmiseks vaja rakendada m˜ onda parameetrite hindamise meetodit. Soovime valimi abil anda v˜ oimalikult t¨ apse hinnangu ehk leida parameetrid nii, et tegeliku jaotuse ja valimi abil hinnatud jaotuse (meie mudel) vaheline keskmine erinevus oleks v˜ oimalikult v¨ aike.

Uheks jaotustevahelise keskmise erinevuse m˜ ¨ o˜ oduks on Kullback-Leibleri informatsioo- nim˜ o˜ ot. K¨ aesoleva bakalaureuset¨ o¨ o eesm¨ ark on Kullback-Leibleri informatsioonim˜ o˜ odust tuletada kaks pidevate jaotuste parameetrite hindamise meetodit ning nende meetodite abil leitud hinnangute omadusi uurida. ¨ Uheks meetoditest on statistikas enim kasutust leidev, kuid siiski m˜ oningate puudustega meetod – suurima t˜ oep¨ ara (maximum likelihood) meetod. Teiseks on suurimate vahemike (maximum spacing) meetod, mis on k¨ ull keeru- kam, kuid suurima t˜ oep¨ ara meetodi mittet¨ o¨ otamise juhtudel vajalik alternatiiv. Vaatluse all on ¨ uhem˜ o˜ otmelised pidevad jaotused.

T¨ o¨ o esimeses osas tuuakse v¨ alja Kullback-Leibleri kaugusm˜ o˜ odu omadused ja parameet-

rite hindamise meetodite intuitiivne tuletusk¨ aik. Seal tuuakse n¨ aiteks juht, mil suuri-

ma t˜ oep¨ ara meetod ei t¨ o¨ ota. Vaadeldakse ka olukorda, mil m˜ olemad meetodid t¨ o¨ otavad,

andes seejuures as¨ umptootiliselt v˜ ordseid hinnanguid. T¨ o¨ o teises osas uuritakse simu-

latsioonin¨ aidete abil juhte, kus suurima t˜ oep¨ ara meetodiga hinnangute leidmine on ¨ uhel

juhul raskendatud ja teisel juhul v˜ oimatu, ning n¨ aidatakse, et suurimate vahemike meetod

t¨ o¨ otab m˜ olemal juhul h¨ asti. Lisaks eeltoodule uuritakse meetodite abil saadud hinnangute

omadusi.

(5)

1 Pidevate jaotuste parameetrite hindamine

Olgu meil antud valim, mis esindab mingit jaotuste klassi. Soovime valimi abil hinnata sel- le jaotuse parameetreid. ¨ Uheks v˜ oimaluseks on minimeerida eeldatava ja tegeliku jaotuse vaheline keskmine erinevus kasutades Kullback-Leibleri informatsioonim˜ o˜ otu. Nii leiame parameetrid selliselt, et eeldatava ja tegeliku jaotuse vaheline keskmine erinevus on v¨ ahim.

Esimeses peat¨ ukis uurime, millised omadused on Kullback-Leibleri informatsioonim˜ o˜ odul ning kuidas selle l¨ ahendamisel tuletada kaks parameetrite hindamise meetodit.

1.1 Kullback-Leibleri informatsioonim˜ o˜ ot

Kullback-Leibleri informatsioonim˜ o˜ odu definitsioon p˜ ohineb allikatel Lember (2018) ja Ranneby (1984).

Definitsioon 1. Vaatleme juhuslikku suurust X, mis v˜ otab v¨ a¨ artusi hulgal χ = {x

₁

, x

₂

, ...}.

Olgu P ja Q kaks diskreetset jaotust t˜ oen¨ aosustega p

_i

= P (x

_i

) ja q

_i

= Q(x

_i

) ∀x

_i

∈ χ korral, kusjuures P on juhusliku suuruse X tegelik jaotus. Kullback-Leibleri informatsioonim˜ o˜ ot jaotuste P ja Q vahel on defineeritud j¨ argmiselt

KL(P ||Q) := ^X

i

p

_i

ln p

_i

q

_i

. Seejuures q

_i

≥ 0 korral defineeritakse 0 · ln(

_q⁰

i

) = 0 ja p

_i

> 0 korral p

_i

· ln(

^p₀ⁱ

) = ∞.

Kui funktsioonid p(x) ja q(x) on pidevate jaotuste P ja Q tihedusfunktsioonid, mis on m¨ a¨ aratud hulgal I = (a, b), −∞ ≤ a < b ≤ ∞, siis Kullback-Leibleri kaugus avaldub kujul

KL(p||q) =

Z

p(x) ln p(x)

q(x) dx = E

ln p(X) q(X)

, (1)

eeldusel, et juhusliku suuruse X tegelik jaotus on P .

Kullback-Leibleri informatsioonim˜ o˜ ot on tuntud ka nime all Kullback-Leibleri kaugus,

kuid tegemist ei ole klassikalise kaugusega. Seda n¨ aitab selle suuruse esimene omadus,

milleks on mittes¨ ummeetrilisus. Selle selgitamiseks uurime kahte n¨ aidet kahe diskreetse

jaotuse KL-kauguse kohta.

(6)

Esiteks defineerime kaks t˜ oen¨ aosusjaotust P ja Q hulgal {x

₁

, x

₂

, x

₃

}, mille v¨ a¨ artused on toodud tabelis 1.

Tabel 1. Juhusliku suuruse X jaotused x

₁

x

₂

x

₃

P (x

_i

) 0.2 0.5 0.3 Q(x

_i

) 0.1 0.7 0.2

Kullback-Leibleri informatsioonim˜ o˜ ot jaotuste P ja Q vahel on KL(P ||Q) = 0.2 ln 0.2

0.1 + 0.5 ln 0.5

0.7 + 0.3 ln 0.3

0.2 ≈ 0.092 ning jaotuste Q ja P vahel on

KL(Q||P ) = 0.1 ln 0.1

0.2 + 0.7 ln 0.7

0.5 + 0.2 ln 0.2

0.3 ≈ 0.085.

N¨ aeme, et KL(P ||Q) 6= KL(Q||P ).

Teiseks uurime n¨ aidet, mille idee p¨ arineb informatsiooniteooria loengukonspektist (Lem- ber, 2018). T¨ ahistagu P juhusliku suuruse X tegelikku jaotust ning eeldame, et seda jaotust on sobiv l¨ ahendada jaotusega Q. Olgu teatud s¨ undmuse esinemise t˜ oen¨ aosus po- sitiivne ehk p

i

> 0 mingi i korral. Meie aga arvame, et seda s¨ undmust esineda ei saa ehk q

_i

= 0. Liikme i panus Kullback-Leibleri kaugusesse on

p

_i

ln p

_i

0 = ∞.

See t¨ ahendab, et positiivse t˜ oen¨ aosusega s¨ undmuse v˜ oimatuks tunnistamine suurendab jaotustevahelist keskmist erinevust l˜ opmata suurel m¨ a¨ aral. Vastupidisel juhul, kui vahe- tame eeldatava ja tegeliku jaotuse rollid ehk eeldame, et Q on juhusliku suuruse tegelik jaotus ning P meie mudel, on liikme i panus KL-kaugusesse

0 ln 0 p

_i

= 0.

Siit j¨ areldub, et tegelikult mittetoimuva s¨ undmuse v˜ oimalikuks arvamine jaotustevahelist keskmist erinevust ei suurenda. Vaadeldud s¨ undmuste panus KL-kaugusesse on erinev.

Seega illustreerib viimane n¨ aide samuti KL-kauguse mittes¨ ummeetrilisust.

(7)

Kullback-Leibleri kauguse teist omadust, et selle v¨ a¨ artus on alati mittenegatiivne, selgita- me j¨ argnevalt. See arutelu on m˜ oistmaks, et KL-kauguse v¨ a¨ artust saab interpreteerida kui kahe funktsiooni p(x) ja q(x) keskmise erinevuse m˜ o˜ otu ning p˜ ohineb allikatel Lehmann ja Casella (1998) ning Bishop (2006).

Definitsioon 2. Funktsiooni φ(x) kutsutakse kumeraks, kui mistahes 0 < λ < 1 ja mista- hes v¨ a¨ artuste x < y korral funktsiooni m¨ a¨ aramispiirkonnast (a, b), kus −∞ ≤ a < b ≤ ∞, kehtib

φ(λx + (1 − λ)y) ≤ λφ(x) + (1 − λ)φ(y).

Funktsiooni nimetatakse rangelt kumeraks, kui kehtib range v˜ orratus.

Lemma 1. Jenseni v˜ orratus. Olgu X l˜ opliku keskv¨ a¨ artusega juhuslik suurus, mis v˜ otab v¨ a¨ artusi hulgal I = (a, b), −∞ ≤ a < b ≤ ∞. Kumera funktsiooni φ(x), mis on samuti defineeritud hulgal I, korral kehtib v˜ orratus

φ[E(X)] ≤ E[φ(X)].

Kui φ on rangelt kumer, kehtib range v˜ orratus, v¨ alja arvatud juhul, kui X on konstantne t˜ oen¨ aosusega 1.

M¨ arkus. Pidevate jaotuste juhul on Jenseni v˜ orratus kujul

φ

Z

xp(x)dx

≤

Z

φ(x)p(x)dx, kus p(x) on juhusliku suuruse X tihedusfunktsioon.

J¨ areldus. Kullback-Leibleri informatsioonim˜ o˜ ot on mittenegatiivne, KL(p||q) ≥ 0.

T˜ oestus. Kasutades teadmist, et funktsioon − ln(x) on kumer funktsioon ja et ^R q(x)dx = 1, saame n¨ aidata, et KL-kauguse v¨ a¨ artus on alati mittenegatiivne. Jenseni v˜ orratuse abil j¨ areldub, et

KL(p||q) =

Z

p(x) ln p(x)

q(x) dx = −

Z

p(x) ln q(x) p(x) dx ≥

≥ − ln

Z

p(x) q(x)

p(x) dx = − ln

Z

q(x)dx = 0.

(8)

Funktsioon − ln(x) ei ole mitte ainult kumer, vaid rangelt kumer funktsioon. Seega kehtib v˜ ordus ainult juhul, kui

^q(x)_p(x)

= 1 (vt lemma 1) ehk kui funktsioonid q(x) ja p(x) on v˜ ordsed.

See t¨ ahendab, et funktsioonide q(x) ja p(x) v˜ ordsuse korral on KL-kauguse v¨ a¨ artuseks 0, muudel juhtudel on selle v¨ a¨ artus nullist suurem.

Kui funktsioonide p(x) ja q(x) n¨ aol on tegemist juhuslike suuruste tihedusfunktsioonide- ga, iseloomustab KL-kaugus kahe jaotuse vahelist keskmist erinevust ehk seda, kui h¨ asti suudab ¨ uhest jaotusest p¨ arineva juhusliku suuruse jaotust teine jaotus kirjeldada. Eksitav on m˜ oista seda suurust kui jaotustevahelist

” kaugust“. Nii v˜ oib tunduda, et m˜ o˜ odame jaotustevahelist nihet, kuid nii see ei ole. Otsime sobivat jaotust (mudel), mis kirjeldaks tundmatut jaotust, millest p¨ arineb valim, k˜ oige paremini.

N¨ aide 1. Uurime Kullback-Leibleri kauguse k¨ aitumist kahe normaaljaotuse N (µ

₁

, σ

²₁

) ja N (µ

₂

, σ

²₂

) korral. Jaotuste tihedused on vastavalt p(x) ja q(x), kusjuures juhusliku suu- ruse X tegelikuks jaotuseks on N (µ

₁

, σ

²₁

) . Kullback-Leibleri kaugus avaldub j¨ argmiselt:

KL(p||q) = E

ln p(X) q(X)

= E

ln

1 √ 2πσ

₁

e

−(X−µ1)2 2σ2

1

− ln

1 √ 2πσ

₂

e

−(X−µ2)2 2σ2

2

= E

ln 1

√ 2πσ

₁

− (X − µ

₁

)

²

2σ

₁²

− ln 1

√ 2πσ

₂

+ (X − µ

₂

)

²

2σ

₂²

= ln 1

√ 2πσ

₁

− E

(X − µ

₁

)

²

2σ

₁²

− ln 1

√ 2πσ

₂

+ E

(X − µ

₂

)

²

2σ

₂²

_E(X−µ

1)=σ²₁

= ln σ

2

− ln σ

1

− 1

2 + E

(X − µ

₂

)

²

2σ

₂²

= ln σ

2

− ln σ

1

− 1

2 + 1

2σ

₂²

E(X

²

− 2Xµ

₂

+ µ

²₂

)

^E(X

2)=σ²₁+µ²₁

= ln σ

₂

σ

1

− 1 2 + 1

2σ

₂²

σ

₁²

+ µ

²₁

− 2µ

₂

µ

₁

+ µ

²₂

= ln σ

₂

σ

₁

+ 1 2

− 1 + σ

²₁

σ

²₂

+ (µ

₁

− µ

₂

)

²

σ

₂²

.

Illustreerimaks keskv¨ a¨ artuse ja dispersiooni erinevat m˜ oju KL-kauguse v¨ a¨ artusele, on ta- belites 2 ja 3 toodud m˜ oned n¨ aited. Oletame esmalt, et jaotuste keskv¨ a¨ artused on v˜ ordsed, µ

₁

= µ

₂

. Siis KL(p||q) = ln

^σ_σ²

1

−

¹₂

+

_2σ^σ¹²2 2

.

(9)

Tabel 2 kirjeldab KL-kauguse muutumist, kui sellisel juhul v¨ a¨ artustame σ

₂

v˜ ordeliselt σ

1

-ga.

Tabel 2. KL-kaugus kahe normaaljaotuse korral, kus µ

₁

= µ

₂

σ

₂

2σ

₁

4σ

₁

8σ

₁

1000σ

₁

KL(p||q) 0.318 0.918 1.587 6.408

Oletame n¨ u¨ ud, et σ

₁

= σ

₂

= 1. Siis KL(p||q) =

^(µ¹^−µ₂ ²⁾²

. Vaatleme, kuidas muutub Kullback-Leibleri kauguse v¨ a¨ artus suurendades jaotuste keskv¨ a¨ artuste vahet (tabel 3).

Tabel 3. KL-kaugus kahe normaaljaotuse korral, kus σ

₁

= σ

₂

= 1 µ

₁

− µ

₂

2 4 8 1000

KL(p||q) 2 8 32 500000

Oleme kahe jaotuse vahelise keskmise kauguse m˜ o˜ otmiseks defineerinud Kullback-Leibleri informatsioonim˜ o˜ odu (1) ning uurinud selle omadusi. Kui minimeerime seda suurust, saa- me leida hinnangud mudeli jaotuse parameetritele nii, et erinevus tegeliku ja oletatava jaotuse vahel on v¨ ahim. P¨ arast hinnangu m˜ oiste ja omaduste defineerimist n¨ aitame, et KL-kaugust kahel erineval viisil minimeerides on v˜ oimalik j˜ ouda kahe erineva parameet- rite hindamise meetodini.

Hinnangu m˜ oiste ja omaduste defineerimiseks on kasutatud allikaid Lepik (2017) ning Dudewicz ja Mishra (1988). Olgu meil antud jaotus F, mis s˜ oltub parameetrist θ. Para- meetrile θ antud hinnangu ˆ θ

_n

∈ Θ all m˜ otleme hinnangufunktsiooni ˆ θ

_n

= ˆ θ

_n

(X

₁

, ..., X

_n

), kus X

_i

∼ F .

Hinnangute uurimisel huvitab meid n¨ aiteks see, milline on hinnangu nihe ehk keskmi-

ne k˜ orvalekalle parameetri tegelikust v¨ a¨ artusest. Vaadeldakse veel ka hinnangu keskmist

ruutviga.

(10)

Definitsioon 3. Jaotuse F parameetrile θ leitud hinnangu θ ˆ

_n

keskmiseks ruutveaks ja nihkeks nimetatakse vastavalt keskv¨ a¨ artusi

E(ˆ θ

_n

− θ)

²

, E(ˆ θ

_n

− θ). (2) Lisaks sellele huvitavad meid hinnangute as¨ umptootilised omadused: kas hinnangute va- rieeruvus valimimahu kasvades muutub l˜ opmata v¨ aikeseks ning kas suurte valimimaht- mahtude korral parameetrile antud hinnangute keskv¨ a¨ artus koondub parameetri tege- likuks v¨ a¨ artuseks. Teisis˜ onu uurime, kas D(ˆ θ

n

)

^n→∞

−→ 0 ja E(ˆ θ

n

− θ)

^n→∞

−→ 0 (hinnang on nihketa). Need tingimused on hinnangu m˜ ojususe alternatiivsed esitused.

Definitsioon 4. Oeldakse, et tegelikule parameetrile ¨ θ leitud hinnang θ ˆ

_n

on m˜ ojus, kui

∀ > 0 korral

P

| θ ˆ

_n

− θ| >

n→∞

−→ 0, ∀θ ∈ Θ.

Kui hinnangu ˆ θ

_n

keskmine ruutviga E (ˆ θ

_n

− θ)

²

l¨ aheneb valimimahu kasvades nullile, j¨ areldub sellest hinnangu m˜ ojusus,

E(ˆ θ

n

− θ)

² ^n→∞

−→ 0 = ⇒ P

| θ ˆ

n

− θ| >

n→∞

−→ 0. (3)

1.2 Suurima t˜ oep¨ ara meetod

K¨ aesoleva alapeat¨ uki tuletusk¨ aik p˜ ohineb artiklil Ranneby (1984), kui ei ole m¨ argitud teisiti.

Olgu x

₁

, ..., x

_n

valim juhuslikust suurusest X, mille tihedus on g(x). Olgu tihedusfunkt- sioonid {f

_θ

(x); θ ∈ Θ}, kus Θ ⊂ R

^k

sellised, mis meie arvates v˜ oiksid kirjeldada juhusliku suuruse X jaotust.

Definitsioon 5. Pideva juhusliku suuruse X, mille jaotust kirjeldab tihedusfunktsioon f

_θ

(x), t˜ oep¨ arafunktsiooniks nimetatakse avaldist

L(θ) =

n

Y

i=1

f

_θ

(x

_i

) ning logaritmiliseks t˜ oep¨ arafunktsiooniks avaldist

l(θ) = ln L(θ) =

n

X

i=1

ln f

_θ

(x

_i

).

(11)

Parameetri v¨ a¨ artust θ ˆ

_n

, mille korral l(θ) saavutab maksimumi, nimetatakse suurima t˜ oep¨ ara (maximum likelihood) hinnanguks.

KL-kaugus (1) avaldub j¨ argmiselt KL(g||f

_θ

) =

Z

g(x) ln g(x)dx −

Z

g(x) ln f

_θ

(x)dx = E ln g(X) − E ln f

_θ

(X) . Kuna keskv¨ a¨ artust saab hinnata valimi keskmise abil, saame kirjutada, et

KL(g||f

_θ

) ≈ 1 n

n

X

i=1

ln g(x

_i

) − 1 n

n

X

i=1

ln f

_θ

(x

_i

). (4)

Nagu varasemalt selgitasime, on mudeli parameetrite leidmiseks loomulik minimeerida KL-kaugus. See on aga samav¨ a¨ arne avaldises (4) oleva liikme

_n¹

^P

ⁿ_i=1

ln f

_θ

(x

_i

) maksimeeri- misega, mis omakorda on ekvivalentne logaritmilise t˜ oep¨ arafunktsiooni maksimeerimisega.

Seega, et

1 n

n

X

i=1

ln f

_θ

(x

_i

) = 1

n ln L(θ),

olemegi j˜ oudnud KL-kauguse l¨ ahendamisel suurima t˜ oep¨ ara meetodini.

N¨ aide 2. Suurima t˜ oep¨ ara meetod t¨ o¨ otab h¨ asti, kui t˜ oep¨ arafunktsiooni (v˜ oi logaritmilise t˜ oep¨ arafunktsiooni) iga liige on ¨ ulalt t˜ okestatud. N¨ aiteks normaaljaotuste segu korral v˜ oib parameetrite hindamine olla problemaatiline, sest t˜ oep¨ arafunktsioon on ¨ ulalt t˜ okestamata.

J¨ argnevas n¨ aites, milles on toetutud allikale Bishop (2006), n¨ aitame kahekomponendilise normaaljaotuste segu korral, et t˜ oep¨ arafunktsioon on t˜ okestamata. Kahe normaaljaotuse segu tihedus avaldub kujul

f

_θ

(x) = λ f (x; µ

₁

, σ

²₁

) + (1 − λ) f(x; µ

₂

, σ

₂²

),

kus f on normaaljaotuse tihedus, θ = (λ, µ

₁

, µ

₂

, σ

₁

, σ

₂

) ja 0 < λ < 1 m¨ a¨ arab komponentide kaalu.

T˜ oep¨ arafunktsioon on seega kujul L(θ) =

n

Y

i=1

λ 1

√ 2πσ

₁

e

⁻

(xi−µ1)2 2σ2

1

+ (1 − λ) 1

√ 2πσ

₂

e

⁻

(xi−µ2)2 2σ2

2

.

Uurime, mis juhtub, kui kahekomponendilise normaaljaotuste segu korral ¨ uks valimi

v¨ a¨ artustest langeb kokku esimese komponendi keskv¨ a¨ artusega. Oletame ¨ uldisust kitsen-

damata, et µ

₁

= x

₁

.

(12)

Siis t˜ oep¨ arafunktsioon, kus juhime t¨ ahelepanu esimesele liikmele, on kujul

L(θ) =

λ 1

√ 2πσ

₁

+ (1 − λ) 1

√ 2πσ

₂

e

⁻

(x1−µ2)2 2σ2

2

·

n

Y

i=2

λ 1

√ 2πσ

₁

e

⁻

(xi−µ1)2 2σ2

1

+ (1 − λ) 1

√ 2πσ

₂

e

⁻

(xi−µ2)2 2σ2

2

.

Vaatleme olukorda, kus σ

₁

→ 0. N¨ aeme, et siis λ

^√¹

2πσ1

→ ∞, mis p˜ ohjustab kogu t˜ oep¨ arafunktsiooni t˜ okestamatu kasvamise. Teised parameetrit σ

₁

sisaldavad liikmed on l˜ oplikud, sest kui σ

₁

→ 0, siis

_σ¹

1

/e

(xi−µ1)2 2σ2

1

→ 0, i = 2, ..., n korral.

Olgu mainitud, et normaaljaotuse N (µ, σ

²

) korral sellist probleemi ei teki. Siis avaldub normaaljaotuse t˜ oep¨ arafunktsioon kujul

L(θ) =

n

Y

i=1

√ 1

2πσ e

⁻⁽^xi

−µ)2 2σ2

.

Kui oletame, et µ = x

₁

, siis saame t˜ oep¨ arafunktsiooni kujule L(θ) = 1

√ 2πσ · 1

√ 2πσ e

⁻^(x²

−µ)2 2σ2

·

n

Y

i=3

√ 1

2πσ e

⁻⁽^xi

−µ)2

2σ2

= 1

2πσ

²

e

⁻^(x²

−µ)2 2σ2

·

n

Y

i=3

√ 1

2πσ e

⁻⁽^xi

−µ)2 2σ2

.

N¨ aeme, et vaadeldavas protsessis ei kasva ¨ ukski liige t˜ okestamatult: kui σ → 0, siis

1 σ²

/e

(x2−µ)2

2σ2

→ 0 ja

¹_σ

/e

(xi−µ)2

2σ2

→ 0, i = 3, ..., n korral. Sellep¨ arast ei esine suurima t˜ oep¨ ara meetodiga normaaljaotuse N (µ, σ

²

) parameetrite hindamisel probleeme.

Kui t˜ oep¨ arafunktsioon on t˜ okestamata, ei leidu funktsioonil globaalset maksimumi. See- ga ei leidu ka globaalse maksimumi kaudu defineeritud hinnanguid ja meetod ei t¨ o¨ ota.

M˜ onikord defineeritakse suurima t˜ oep¨ ara hinnangud t˜ oep¨ arafunktsiooni tuletise kaudu, mis v˜ ordsustatakse nulliga (Cheng ja Amin, 1983). See v˜ oimaldab lahenditena vaadelda ka lokaalseid maksimume. Teine v˜ oimalus on hinnangud leida m˜ one muu meetodi abil.

Nagu ¨ oeldud, on Kullback-Leibleri kaugust v˜ oimalik l¨ ahendada veel teiselgi viisil. Vaat-

leme j¨ argmiseks l¨ ahendust, mis annab tulemuseks suurimate vahemike meetodi.

(13)

1.3 Suurimate vahemike meetod

J¨ argnevas alapeat¨ ukis on toetutud artiklitele Ranneby (1984) ning Cheng ja Amin (1983).

Vaatleme pidevat juhuslikku suurust X, mis v˜ otab v¨ a¨ artusi hulgal I = (a, b), −∞ ≤ a < b ≤ ∞. Olgu selle juhusliku suuruse tihedus g(x) ja jaotusfunktsioon G(x). Vaat- leme lisaks ka tihedusfunktsioone {f

_θ

(x); θ ∈ Θ} vastavate jaotusfunktsioonidega F

_θ

(x).

Sarnaselt eelmise meetodi tuletusk¨ aigus kasutatud t¨ ahistustele, olgu F

_θ

(x) jaotuste klass, mille arvame sobivat kirjeldama juhusliku suuruse X tegelikku jaotusfunktsiooni, milleks, nagu ¨ oeldud, on G(x).

J¨ arjestades juhusliku suuruse X realisatsioonid x

₁

, ..., x

_n

ning lisades valimi otspunkti- desse v¨ a¨ artused a ja b, saame

a = x

₍₀₎

< x

₍₁₎

< ... < x

_(n)

< x

_(n+1)

= b.

Definitsioon 6. Olgu vaatluse all eeltoodud j¨ arjestatud valim lisatud otspunktidega. J¨ arjestikustele valimi v¨ a¨ artustele vastavate jaotusfunktsiooni v¨ a¨ artuste vahesid nimetatakse vahemikeks,

D

_j

(x

_j

, x

j−1

) = F

_θ

(x

_(j)

) − F

_θ

(x

(j−1)

) =

Z

xj

xj−1

f

_θ

(x)dx, j = 1, ..., n + 1.

Vahemike funktsioon S(θ) on defineeritud j¨ argmiselt,

S(θ) = 1 n + 1

n+1

X

j=1

ln D

_j

= 1 n + 1

n+1

X

j=1

ln

F

_θ

(x

_(j)

) − F

_θ

(x

(j−1)

)

.

M¨ arkus. V¨ a¨ artuste x

₍₀₎

= a ja x

_(n+1)

= b korral

F (x

₍₀₎

) = 0 ja F (x

_(n+1)

) = 1.

Uurime, kuidas nimetatud jaotuste vahelise KL-kauguse minimeerimise kaudu j˜ ouda suu- rimate vahemike hinnanguteni. Selleks tuletame meelde ¨ uhe abitulemuse.

Lemma 1. Lagrange’i keskv¨ a¨ artusteoreem. Pideva funktsiooni f : [a, b] → R korral, mis vahemikus (a, b) on diferentseeruv, leidub selline c ∈ (a, b), et

f

⁰

(c) = f (b) − f(a)

b − a .

(14)

J¨ argnevalt, kasutades Lagrange’i kesv¨ a¨ artusteoreemi ning teadmist, et tihedus on jaotus- funktsiooni tuletis, saame leida v¨ a¨ artused x

_(j)

, x

_(j)

∈ (x

_(j−1)

, x

_(j)

), j = 1, ..., n + 1, nii et

F

θ

(x

_(j)

) − F

θ

(x

_(j−1)

) = f

θ

(x

_(j)

) · (x

_(j)

− x

(j−1)

),

G(x

_(j)

) − G(x

_(j−1)

) = g(x

_(j)

) · (x

_(j)

− x

_(j−1)

). (5)

Teame, et suuruse (4) saab v¨ alja kirjutada j¨ argmiselt:

1 n

n

X

i=1

ln g(x

_i

) − 1 n

n

X

i=1

ln f

_θ

(x

_i

) = 1 n

n

X

i=1

ln g(x

_i

) f

_θ

(x

_i

) ning et see koondub suuruseks KL(g||f

_θ

).

Kasutades Lagrange’i keskv¨ a¨ artusteoreemi abil saadud avaldisi (5), on intuitiivselt selge, et ka avaldis

1 n + 1

n+1

X

j=1

ln G(x

_(j)

) − G(x

_(j−1)

)

F

_θ

(x

_(j)

) − F

_θ

(x

(j−1)

) (6)

koondub suuruseks KL(g ||f

_θ

).

N¨ u¨ ud, nagu ka eespool, muutmaks tegeliku ja eeldatava jaotuse vahelist erinevust v¨ ahimaks, minimeerime KL-kauguse. Nii leiame sellised hinnangud tundmatu jaotuse parameetrite- le, et vahe tegeliku jaotusega on minimaalne. Avaldise (6) minimeerimine on ekvivalentne avaldise

1 n + 1

n+1

X

j=1

ln

F

_θ

(x

_(j)

) − F

_θ

(x

_(j−1)

)

maksimeerimisega. See ongi aga vahemike funktsioon S(θ).

Definitsioon 7. Parameetri v¨ a¨ artust θ ˆ

_n

, mille korral S(θ) saavutab maksimumi, nime- tatakse suurimate vahemike (maximum spacing) hinnanguks.

On oluline t¨ ahele panna, et funktsioon S(θ) on ¨ ulevalt t˜ okestatud. N¨ aitame, et selleks

t˜ okkeks on suurus − ln(n + 1).

(15)

Esiteks on vahemike summa alati 1,

n+1

X

j=1

D

_j

=

n+1

X

j=1

Z

x₍j) x(j−1)

f

_θ

(x)dx =

Z

x₍₁₎ x₍₀₎

f

_θ

(x)dx +

Z

x₍₂₎ x₍₁₎

f

_θ

(x)dx + ...

... +

Z

x_(n+1) x(n)

f

_θ

(x)dx

^M¨^a¨aratud integraali aditiivsus

=

Z

x_(n+1) x₍₀₎

f

_θ

(x)dx = F (x

_(n+1)

) − F (x

₍₀₎

) = 1.

Teiseks teame, et geomeetriline keskmine on alati v¨ aiksem v˜ oi v˜ ordne aritmeetilisest kesk- misest, ehk

ⁿ⁺¹

Y

j=1

D

_j

_n+1¹

≤ 1 n + 1

n+1

X

j=1

D

_j

.

Logaritmides eelneva avaldise m˜ olemaid pooli, saamegi t˜ okke vahemiku funktsioonile, 1

n + 1

n+1

X

j=1

ln D

_j

≤ ln

1 n + 1

n+1

X

j=1

D

_j

= ln 1 n + 1 .

N¨ aide 3. Uurime suurima t˜ oep¨ ara ja suurimate vahemike hinnangute erinevust ¨ uhtlase jaotuse korral. Olgu X ¨ uhtlase jaotusega juhuslik suurus, X ∼ U (a, b) ning olgu x

₁

, x

₂

, ..., x

_n

selle juhusliku suuruse juba j¨ arjestatud realisatsioonid. ¨ Uhtlase jaotusega juhusliku suu- ruse tihedusfunktsioon on

f(x) =



 



 



1

b−a

, x ∈ [a, b]

0, mujal.

Viimasest saame ka logaritmilise t˜ oep¨ arafunktsiooni, l(a, b) =

n

X

i=1

ln f(x

_i

) = n · ln

1 b − a

= −n · ln(b − a).

Selleks, et leida suurima t˜ oep¨ ara hinnangud otsitavatele parameetritele a ja b, on va-

ja maksimeerida t˜ oep¨ arafunktsioon. Funktsioon −ln(x) on rangelt monotoonselt kaha-

nev funktsioon, millest j¨ areldub see, et funktsiooni v¨ a¨ artus saavutab maksimumi mini-

maalse argumendi v¨ a¨ artuse korral. J¨ arelikult peab argument b − a olema minimaalne,

et t˜ oep¨ arafunktsiooni v¨ a¨ artus saaks olla maksimaalne, arvestades ka seda, et k˜ oik valimi

v¨ a¨ artused peavad mahtuma otspunktide vahelise vahemiku sisse. Kokkuv˜ otlikult j¨ areldub

(16)

viimasest arutelust, et suurima t˜ oep¨ ara hinnanguteks on ˆ a = x

₁

ja ˆ b = x

_n

. J¨ argmiseks leiame suurimate vahemike hinnangud ning defineerime selleks suurimate vahemike funkt- siooni ¨ uhtlase jaotuse jaoks,

S(a, b) = 1 n + 1

n+1

X

j=1

ln

F

a,b

(x

_j

) − F

a,b

(x

_j−1

)

= 1

n + 1

n+1

X

j=1

ln

Z

xj

xj−1

f

_a,b

(x)dx = 1 n + 1

n+1

X

j=1

ln x

_j

− x

j−1

b − a .

Lisades valimi j¨ arjestatud v¨ a¨ artuste v˜ orratusahela otsadesse otsitavad parameetrid, saame a < x

₁

< x

₂

... < x

_n

< b. N¨ u¨ ud saame v¨ alja kirjutada suurimate vahemike funktsiooni, mis sisaldab ka otsitavaid parameetreid. Paneme selle kirja tuues eraldi v¨ alja parameetreid sisaldavad liikmed,

S(a, b) = 1 n + 1

n+1

X

j=1

ln(x

_j

− x

j−1

) − ln(b − a) = 1

n + 1

ln(x

₁

− a) +

n

X

j=2

ln(x

_j

− x

_j−1

) + ln(b − x

_n

) − (n + 1) ln(b − a)

.

J¨ argmiseks saame v˜ otta suurimate vahemike funktsioonist osatuletised otsitavate para- meetrite j¨ argi,

^∂S(a,b)_∂a

ja

^∂S(a,b)_∂b

ning v˜ ordsustada nulliga. Tulemuseks on v˜ orrandis¨ usteem:



 



 



−1

(n+1)(x1−a)

+

_(b−a)¹

= 0

1

(n+1)(b−xn)

−

_(b−a)¹

= 0, mille lahendamisel avalduvad hinnangud ˜ a ja ˜ b j¨ armiselt

˜

a = nx

₁

− x

_n

(n − 1) , ˜ b = nx

_n

− x

₁

(n − 1) .

Suurima t˜ oep¨ ara ja suurimate vahemike hinnangud muutuvad valimi kasvades ¨ uha l¨ ahedasemaks, sest

n→∞

lim ˜ a = lim

n→∞

nx

₁

n − 1 − x

_n

n − 1

= x

₁

= ˆ a,

n→∞

lim

˜ b = lim

n→∞

nx

_n

n − 1 − x

₁

n − 1

= x

_n

= ˆ b.

(17)

2 Simulatsioonin¨ aited kahe meetodi v˜ ordlemiseks

J¨ argnevas illustreerime t¨ o¨ o esimeses osas vaadeldud pidevate jaotuste parameetrite hinda- mise meetodite erinevusi simulatsioonin¨ aidete abil. N¨ aitejaotuseks on kolmeparameetriline Weibulli jaotus. Weibulli jaotuse tihedusfunktsioon ja jaotusfunktsioon on vastavalt kujul

f

W

(x) = β γ

x − α γ

β−1

e

⁻

x−α γ

β

, F

W

(x) = 1 − e

⁻

x−α γ

β

, x > α,

kus α ∈ R on asukohaparameeter (location parameter), β > 0 on kujuparameeter (shape parameter) ja γ > 0 on skaalaparameeter (scale parameter).

Joonisel 1 on kujutatud Weibulli jaotuse tihedusfunktsioonid erinevate parameetri kom- binatsioonide korral. Kujutatud on need tihedused, mida kasutatakse allolevates simulat- sioonin¨ aidetes.

1 2 3 4 5 6

01234

α=0.25, β=1.3, γ=0.2 α=3, β=0.5,γ=2 α=1, β=3, γ=2

Joonis 1. Weibulli jaotuse kuju parameetrite erinevate v¨ a¨ artuste korral

N¨ aide 4. Eksponentjaotus on Weibulli jaotuse erijuht, kus α = 0, β = 1 ja γ =

_λ¹

. Sel juhul on tihedus kujul

f

W

(x) = λe

^−λx

.

(18)

2.1 T˜ oep¨ arafunktsiooni ja vahemike funktsiooni k¨ aitumine

J¨ argnevas alapeat¨ ukis on n¨ aidete aines v˜ oetud artiklist Cheng ja Amin (1983).

Teooriast on teada, et lisaks normaaljaotuste segu juhule, kus suurima t˜ oep¨ ara hinnangud ei ole m˜ ojusad, ei t¨ o¨ ota suurima t˜ oep¨ ara meetod alati ka kolmeparameetrilise Weibul- li jaotuse korral. T˜ oep¨ arafunktsioon on kujuparameetri β < 1 korral ¨ ulalt t˜ okestamata ning suurima t˜ oep¨ ara meetodil saadud hinnangud ei ole m˜ ojusad (Cheng ja Amin, 1983).

Siis on jaotus J-kujuline ning t˜ oen¨ aosusmass koondub asukohaparameetri α ehk jaotu- se algpunkti l¨ ahedusse (joonis 1). Samal ajal aga suurimate vahemike meetodil saadud hinnangud on m˜ ojusad. N¨ aidetena vaadeldakse olukordi, kus suurima t˜ oep¨ ara meetodil hinnangute leidmine on ¨ uhel juhul raskendatud (n¨ aide 5) ja teisel juhul v˜ oimatu (n¨ aide 6).

Olgu meil antud valim, mis p¨ arineb kolmeparameetrilisest Weibulli jaotusest. Soovime hinnata selle jaotuse parameetreid kasutades suurima t˜ oep¨ ara ja suurimate vahemike mee- todit. Kuna soovime lisaks hinnangute leidmisele uurida ka t˜ oep¨ ara ja vahemike funktsioo- ni k¨ aitumist, leiame parameetrite hinnangud kahel viisil – statistikatarkvara R paketiga

” lmomco“ ja v˜ oremeetodil (grid search).

V˜ oremeetod t¨ ahendab seda, et valime esmalt sobiva vahemiku parameetri α jaoks. Fik- seerime j¨ arjest v¨ a¨ artusi selles vahemikus ja leiame iga kord teiste parameetrite β ja γ v¨ a¨ artuste paari, mis maksimeerib vaatluse all oleva funktsiooni. Osaliselt maksimeeritud funktsioone t¨ ahistame vastavalt l(α) =* l α, β(α), ˆ ˆ γ(α) ja S(α) =* S α, β(α), ˜ γ(α) ˜ . Nii saame lisaks hinnangute leidmisele joonisel kujutada maksimeeritud funktsiooni v¨ a¨ artused iga vaadeldud α korral ning seega n¨ aha, kas funktsioonidel leidub globaalne (v˜ oi lokaalne) maksimum.

MatemaatilisestatistikaerialaBakalaureusetöö(9EAP)Juhendaja:vanemteadurKristiKuljusTartu2019 Pidevatejaotusteparameetritehindamisestsuurimatõepärajasuurimatevahemikemeetodil TartuÜlikoolLoodus-jatäppisteadustevaldkondMatemaatikajastatistikainstituut

Tartu ¨ Ulikool

Loodus- ja t¨ appisteaduste valdkond Matemaatika ja statistika instituut

Liis Simmul

Pidevate jaotuste parameetrite hindamisest suurima t˜ oep¨ ara ja suurimate vahemike meetodil

Matemaatilise statistika eriala Bakalaureuset¨ o¨ o (9 EAP)

Juhendaja: vanemteadur Kristi Kuljus

Tartu 2019

Pidevate jaotuste parameetrite hindamisest suurima t˜ oep¨ ara ja suurimate vahemike meetodil

Bakalaureuset¨ o¨ o Liis Simmul

CERCS teaduseriala: P160 Statistika, operatsioonanal¨ u¨ us, programmeerimine, finants- ja kintdlustusmatemaatika

M¨ arks˜ onad: t˜ oen¨ aosusjaotused, statistilised mudelid, parameetrilised meetodid, opti- meerimine, simulatsioon

Estimating parameters of continuous distributions using maximum likelihood and maximum spacing method

Bachelor’s thesis Liis Simmul

Examples are provided on the behaviour of the methods, where the studied distribution is normal distribution, univariate or Weibull distribution.

CERCS research specialisation: P160 Statistics, operations research, programming, financial and actuarial mathematics

Keywords: probability distributions, statistical models, parametric methods, optimiza-

tion, simulation

Sisukord

Sissejuhatus 4

1 Pidevate jaotuste parameetrite hindamine 5

parameetrite hinnangute v˜ ordlus . . . . 21

Kokkuv˜ ote 24

Kasutatud kirjandus 25

Lisad 25

Lisa 1 . . . . 25

Lisa 2 . . . . 31

Lisa 3 . . . . 33

Sissejuhatus

T¨ o¨ o esimeses osas tuuakse v¨ alja Kullback-Leibleri kaugusm˜ o˜ odu omadused ja parameet-

rite hindamise meetodite intuitiivne tuletusk¨ aik. Seal tuuakse n¨ aiteks juht, mil suuri-

ma t˜ oep¨ ara meetod ei t¨ o¨ ota. Vaadeldakse ka olukorda, mil m˜ olemad meetodid t¨ o¨ otavad,

andes seejuures as¨ umptootiliselt v˜ ordseid hinnanguid. T¨ o¨ o teises osas uuritakse simu-

latsioonin¨ aidete abil juhte, kus suurima t˜ oep¨ ara meetodiga hinnangute leidmine on ¨ uhel

juhul raskendatud ja teisel juhul v˜ oimatu, ning n¨ aidatakse, et suurimate vahemike meetod

t¨ o¨ otab m˜ olemal juhul h¨ asti. Lisaks eeltoodule uuritakse meetodite abil saadud hinnangute

omadusi.

1 Pidevate jaotuste parameetrite hindamine

Esimeses peat¨ ukis uurime, millised omadused on Kullback-Leibleri informatsioonim˜ o˜ odul ning kuidas selle l¨ ahendamisel tuletada kaks parameetrite hindamise meetodit.

1.1 Kullback-Leibleri informatsioonim˜ o˜ ot

Kullback-Leibleri informatsioonim˜ o˜ odu definitsioon p˜ ohineb allikatel Lember (2018) ja Ranneby (1984).

Definitsioon 1. Vaatleme juhuslikku suurust X, mis v˜ otab v¨ a¨ artusi hulgal χ = {x

, x

, ...}.

Olgu P ja Q kaks diskreetset jaotust t˜ oen¨ aosustega p

= P (x

) ja q

= Q(x

) ∀x

∈ χ korral, kusjuures P on juhusliku suuruse X tegelik jaotus. Kullback-Leibleri informatsioonim˜ o˜ ot jaotuste P ja Q vahel on defineeritud j¨ argmiselt

KL(P ||Q) := X

p

ln p

q

. Seejuures q

≥ 0 korral defineeritakse 0 · ln(

) = 0 ja p

> 0 korral p

· ln(

) = ∞.

Kui funktsioonid p(x) ja q(x) on pidevate jaotuste P ja Q tihedusfunktsioonid, mis on m¨ a¨ aratud hulgal I = (a, b), −∞ ≤ a < b ≤ ∞, siis Kullback-Leibleri kaugus avaldub kujul

KL(p||q) =

Z

p(x) ln p(x)

q(x) dx = E

ln p(X) q(X)

, (1)

eeldusel, et juhusliku suuruse X tegelik jaotus on P .

Kullback-Leibleri informatsioonim˜ o˜ ot on tuntud ka nime all Kullback-Leibleri kaugus,

kuid tegemist ei ole klassikalise kaugusega. Seda n¨ aitab selle suuruse esimene omadus,

milleks on mittes¨ ummeetrilisus. Selle selgitamiseks uurime kahte n¨ aidet kahe diskreetse

jaotuse KL-kauguse kohta.

Esiteks defineerime kaks t˜ oen¨ aosusjaotust P ja Q hulgal {x

, x

, x

}, mille v¨ a¨ artused on toodud tabelis 1.

Tabel 1. Juhusliku suuruse X jaotused x

x

x

P (x

KL(P ||Q) := ^X

T˜ oestus. Kasutades teadmist, et funktsioon − ln(x) on kumer funktsioon ja et ^R q(x)dx = 1, saame n¨ aidata, et KL-kauguse v¨ a¨ artus on alati mittenegatiivne. Jenseni v˜ orratuse abil j¨ areldub, et