1 DIE MINIMUM CHIQUADRAT METHODE 1
1 Die Minimum Chiquadrat Methode
Wir betrachten im folgenden diskret-verteilte oder gruppierte Stichproben der Form Klasse 1 2 . . . K
Anzahl y1 y2 . . . yK
Hier bezeichnetyk,k= 1, . . . , K, die beobachtete H¨aufigkeit in der k-ten Klasse. Sein=Pkyk der Stichprobenumfang und πk die Wahrscheinlichkeit f¨ur die Klasse k unter einem hypotheti- schen Verteilungsmodell. Damit resultiertnπk als erwartete H¨aufigkeit. Die G¨ute der Modellan- passung kann nun durch Pearson-Statistik
X2 = XK k=1
(yk−nπk)2
nπk (1)
beschrieben werden. Durch einfache Umformung erh¨alt man mit den empirischen Wahrschein- lichkeiten (relativen H¨aufigkeiten)pk =yk/ndaf¨ur
X2 = X
k
yk2−2yknπk+n2π2k nπk
= X
k
µyk n
¶2 n
πk −2X
k
yk
| {z }
=n
+nX
k
πk
| {z }
=1
= n
ÃX
k
p2k πk −1
! .
Oft h¨angen die hypothetischen Wahrscheinlichkeiten πk selbst von unbekannten Parametern λ ab. Eine M¨oglichkeit diese Parameter zu sch¨atzen stellt die Minimum Chisquare Method dar.
Hierbei wird jener Wert vonλals Sch¨atzer verwendet, der (1) f¨ur πk=πk(λ) minimiert. Dazu sucht man die Nullstelle ˆλvon
∂
∂λX2(λ) = n ∂
∂λ X
k
p2k πk(λ)
= −nX
k
p2k π2k(λ)
∂πk(λ)
∂λ . (2)
Diese ist oft eine nichtlineare Funktion in λ und ˆλ kann nur numerisch (iterativ) gefunden werden. Als zweite Ableitung resultiert
∂2
∂λ2X2(λ) = −nX
k
Ã−2p2k π3k(λ)
µ∂πk(λ)
∂λ
¶2 + p2k
π2k(λ)
∂2πk(λ)
∂λ2
!
. (3)
Die Iteration lautet somit f¨ur den (t+ 1)-ten Schritt λt+1 = λt− ∂
∂λX2(λ)
¯¯
¯¯
λ=λt
à ∂2
∂λ2X2(λ)
!−1¯
¯¯
¯¯
¯λ=λt
= λt+ Ã
nX
k
p2k π2k(λ)
∂πk(λ)
∂λ
! Ã nX
k
à 2p2k πk3(λ)
µ∂πk(λ)
∂λ
¶2
− p2k πk2(λ)
∂2πk(λ)
∂λ2
!!−1 (4)
1 DIE MINIMUM CHIQUADRAT METHODE 2 Oft kann auch die Inverse in (4) durch ihren Erwartungswert ersetzt (approximiert) werden. Das Verfahren wird dannFisher Iteration genannt.
F¨ur den Fall der Poisson-Verteilung mit Parameterλergibt sich f¨ur k= 0,1, . . . πk(λ) = λk
k! e−λ
∂
∂λ πk(λ) = µk
λ−1
¶
πk(λ) (5)
∂2
∂λ2 πk(λ) =
"µ k λ−1
¶2
− k λ2
# πk(λ).
Die Iteration wird mit einem Anfangswertλ0 gestartet, welcher h¨aufig durch die Momentenme- thode berechnen werden kann. F¨ur die Poisson-Verteilung gilt λ0 = ¯y=Pkkyk/n.
1.1 Offene Klassen
Speziell f¨ur Poisson-verteilte Gr¨oßen hat man immer eine endliche letzte Klasse, z.B.
Wertk 0 1 . . . K−1 ≥K Anzahl y0 y1 . . . yK−1 yK Modell π0 π1 . . . πK−1 πK
Hier beschreibtπK die Wahrscheinlichkeit in zumindest KlasseK zu realisieren, also πK = 1−
K−1X
k=0
πk. (6)
Durch diesen kleinen Unterschied resultieren f¨urk= 0, . . . , K−1 zwar wiederum die Ergebnisse aus (5), aber f¨ur die letzte Klasse,k=K, gilt jetzt speziell
∂
∂λ πK(λ) = −
K−1X
k=0
∂
∂λ πk(λ) (7)
∂2
∂λ2 πK(λ) = −
K−1X
k=0
∂2
∂λ2 πk(λ) (8)
mit den πk(λ) Ableitungen,k= 0, . . . , K −1, so wie in (5) spezifiziert.
1.2 Beispiel
Wir passen der Stichprobe ¨uber H¨aufigkeiten vonn= 109k-silbigen Worten in einem slawischen
Text k 0 1 2 3 4 ≥5 gesamt
Anzahl 44 35 17 6 6 1 109
eine Poisson-Verteilung mit Parameterλan. Als Initialisierung f¨ur die Iteration (4) verwenden wirλ0=Pkkyk/109 = 1.06, was einenX2-Wert von 11.3 ergibt. Weiteres Iterieren liefert
1 DIE MINIMUM CHIQUADRAT METHODE 3 it= 0 lambda= 1.064220 X2= 11.27654
it= 1 lambda= 1.128125 X2= 10.44464 it= 2 lambda= 1.136973 X2= 10.43276 it= 3 lambda= 1.137104 X2= 10.43276 it= 4 lambda= 1.137104 X2= 10.43276 it= 5 lambda= 1.137104 X2= 10.43276
Man sieht hierbei, dass sich bereits nach zwei Iterationen der Wert des Sch¨atzers fast nicht mehr
¨andert. DieX2 Werte in Abh¨angigkeit vom Parametersch¨atzer sind in der Abbildung dargestellt.
1.05 1.10 1.15 1.20
10.410.610.811.011.211.411.6
lambda
X**2(lambda)
Abbildung 1: X2 Statistiken f¨ur verschiedene Werte von λ. Weiters eingezeichnet sind die Er- gebnisse f¨ur den Initialwert (links) und den Endwert (Mitte) von λ.