p = 1/2 und a, b ∈ R mit a ≤ b. Wenn die Verteilung von H

(1)

4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre f¨ ur p = 1/2

Wir betrachten die Wahrscheinlichkeit Pr[a ≤ H

_2n^∗

≤ b] f¨ ur

p = 1/2 und a, b ∈ R mit a ≤ b. Wenn die Verteilung von H

_2n^∗

, wie in Korollar 117 angegeben, gegen N (0, 1) konvergiert, so sollte Pr[a ≤ H

_2n^∗

≤ b] ≈ R

b

a

ϕ(t) d t f¨ ur gen¨ ugend große n gelten.

Wir schreiben f (n) ∼

_∞

g(n) f¨ ur lim

n→∞

f(n)/g(n) = 1, wollen also zeigen:

Pr[a ≤ H

_2n^∗

≤ b] ∼

_∞

Z

_b

a

ϕ(t) d t.

Da f¨ ur H

_2n

∼ Bin(2n, 1/2) gilt, dass E [H

_2n

] = n und Var[H

2n

] = n/2 ist, erhalten wir

H

_2n^∗

= H

2n

− n p n/2 ,

DWT 4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre f¨urp= 1/2 302/467

©Ernst W. Mayr

(2)

und es folgt

Pr[a ≤ H

_2n^∗

≤ b] = Pr[n + a p

n/2 ≤ H

2n

≤ n + b p n/2]

= X

i∈In

Pr[H

2n

= n + i]

f¨ ur I

_n

:= {z ∈ Z | a p

n/2 ≤ z ≤ b p

n/2}. Damit ist Pr[a ≤ H

_2n^∗

≤ b] = X

i∈In

2n n + i

· 1

2

2n

| {z }

=:pn,i

.

©Ernst W. Mayr

(3)

Es gilt

max

i

p

n,i

≤ p

^∗_n

:=

2n n

· 1

2

2n

= (2n)!

(n!)

²

· 1

2

2n

,

und mit der Stirling’schen Approximation f¨ ur n!

p

^∗_n

∼

_∞

(2n)

²ⁿ

· e

⁻²ⁿ

· √ 2π · 2n (n

ⁿ

· e

⁻ⁿ

· √

2πn)

²

· 1

2

2n

= 1

√ πn .

Ersetzen wir nun die p

n,i

durch p

^∗_n

so entsteht dabei ein Fehler, den wir mit q

_n,i

:=

^p_p^n,i∗

n

bezeichnen.

©Ernst W. Mayr

(4)

F¨ ur i > 0 gilt q

n,i

=

2n n+i

·

¹₂

2n 2n

n

·

¹₂

2n

= (2n)! · n! · n!

(n + i)! · (n − i)! · (2n)!

= Q

i−1

j=0

(n − j) Q

i

j=1

(n + j) =

i

Y

j=1

n − j + 1 n + j =

i

Y

j=1

1 − 2j − 1 n + j

.

Wegen der Symmetrie der Binomialkoeffizienten gilt q

n,−i

= q

n,i

, womit auch der Fall i < 0 abgehandelt ist.

©Ernst W. Mayr

(5)

Man macht sich leicht klar, dass 1 − 1/x ≤ ln x ≤ x − 1 f¨ ur x > 0 gilt. Damit schließen wir, dass

ln





i

Y

j=1

1 − 2j − 1 n + j



 =

i

X

j=1

ln

1 − 2j − 1 n + j

≤ −

i

X

j=1

2j − 1 n + j ≤ −

i

X

j=1

2j − 1 n + i

= − i(i + 1) − i

n + i = − i

²

n + i

³

n(n + i)

= − i

²

n + O

1 √ n

, da i = O( √

n) f¨ ur i ∈ I

n

.

©Ernst W. Mayr

(6)

Ebenso erhalten wir

ln





i

Y

j=1

1 − 2j − 1 n + j



 ≥

i

X

j=1

1 −

1 − 2j − 1 n + j

−1

!

=

i

X

j=1

−2j + 1 n − j + 1 ≥ −

i

X

j=1

2j − 1 n − i

= − i

²

n − i = − i

²

n − O

1 √ n

.

Zusammen haben wir e

⁻ ⁱ

2 n−i =−ⁱ²

n−O

√1 n

≤ q

_n,i

≤ e

⁻ⁱ

2 n+O

√1 n

Wegen e

^±O(1/^√ⁿ⁾

= 1 ± o(1) folgt daraus q

n,i

∼

_∞

e

⁻ⁱ²^/n

.

©Ernst W. Mayr

(7)

Damit sch¨ atzen wir nun Pr[a ≤ H

_2n^∗

≤ b] weiter ab:

Pr[a ≤ H

_2n^∗

≤ b] = X

i∈In

p

^∗_n

· q

_n,i

∼

_∞

1 √ πn · X

i∈In

e

⁻ⁱ²^/n

| {z }

=:Sn

.

Mit δ := p

2/n k¨ onnen wir die Summe S

_n

umschreiben zu S

_n

= 1

√ 2π · X

i∈I_n

δe

^−(iδ)²^·¹²

. Diese Summe entspricht einer N¨ aherung f¨ ur R

b

a

ϕ(t) d t =

^√¹

2π

R

b

a

e

^−t²^/2

d t durch Aufteilung der integrierten Fl¨ ache in Balken der Breite δ. F¨ ur n → ∞ konvergiert die Fl¨ ache der Balken gegen das Integral, d. h. S

n

∼

_∞

R

_b

a

ϕ(t) d t.

q. e. d.

©Ernst W. Mayr

(8)

4.3 Verschiedene Approximationen der Binomialverteilung Sei H

n

∼ Bin(n, p) eine binomialverteilte Zufallsvariable mit der Verteilungsfunktion F

n

. F¨ ur n → ∞ gilt

F

n

(t) = Pr[H

n

/n ≤ t/n]

→ Φ t/n − p p p(1 − p)/n

!

= Φ t − np p p(1 − p)n

! . Wir k¨ onnen F

_n

somit f¨ ur große n durch Φ approximieren. Diese Approximation ist in der Praxis deshalb von Bedeutung, da die Auswertung der Verteilungsfunktion der Binomialverteilung f¨ ur große n sehr aufwendig ist, w¨ ahrend f¨ ur die Berechnung der Normalverteilung effiziente numerische Methoden vorliegen.

DWT 4.3 Verschiedene Approximationen der Binomialverteilung 309/467

©Ernst W. Mayr

(9)

Beispiel 119

Wenn man die Wahrscheinlichkeit berechnen m¨ ochte, mit der bei 10

⁶

W¨ urfen mit einem idealen W¨ urfel mehr als 500500-mal eine gerade Augenzahl f¨ allt, so muss man eigentlich folgenden Term auswerten:

T :=

10⁶

X

i=5,005·10⁵

10

⁶

i

1 2

10⁶

.

Dies ist numerisch kaum effizient m¨ oglich.

Die numerische Integration der Dichte ϕ der Normalverteilung ist hingegen relativ einfach. Auch andere Approximationen der Verteilung Φ, beispielsweise durch Polynome, sind bekannt.

Entsprechende Funktionen werden in zahlreichen Softwarebibliotheken als

” black box“ angeboten.

©Ernst W. Mayr

(10)

Beispiel

Mit der Approximation durch die Normalverteilung erhalten wir

T ≈ 1 − Φ 5,005 · 10

⁵

− 5 · 10

⁵

p 2,5 · 10

⁵

!

= 1 − Φ

5 · 10

²

5 · 10

²

= 1 − Φ(1) ≈ 0,1573 .

©Ernst W. Mayr

(11)

Bei der Approximation der Binomialverteilung mit Hilfe von Korollar 117 f¨ uhrt man oft noch eine so genannte

Stetigkeitskorrektur durch. Zur Berechnung von Pr[X ≤ x] f¨ ur X ∼ Bin(n, p) setzt man

Pr[X ≤ x] ≈ Φ x + 0,5 − np p np(1 − p)

!

statt

Pr[X ≤ x] ≈ Φ x − np p np(1 − p)

!

an.

©Ernst W. Mayr

(12)

Der Korrekturterm l¨ aßt sich in der Histogramm-Darstellung der Binomialverteilung veranschaulichen. Die Binomialverteilung wird dort durch Balken angegeben, deren Fl¨ ache in etwa der Fl¨ ache unterhalb der Dichte ϕ von N (0, 1) entspricht. Wenn man die Fl¨ ache der Balken mit

” X ≤ x“ durch das Integral von ϕ

approximieren m¨ ochte, so sollte man bis zum Ende des Balkens f¨ ur

” X = x“ integrieren und nicht nur bis zur Mitte. Daf¨ ur sorgt der Korrekturterm 0,5.

©Ernst W. Mayr

(13)

Approximationen f¨ ur die Binomialverteilung

Approximation durch die Poisson-Verteilung: Bin(n, p) wird approximiert durch Po(np). Diese Approximation funktioniert sehr gut f¨ ur seltene Ereignisse, d. h. wenn np sehr klein gegen¨ uber n ist. Als Faustregel fordert man n ≥ 30 und p ≤ 0,05.

Approximation durch die Chernoff-Schranken: Bei der Berechnung der tails der Binomialverteilung liefern diese Ungleichungen meist sehr gute Ergebnisse. Ihre St¨ arke liegt darin, dass es sich bei den Schranken nicht um

Approximationen, sondern um echte Absch¨ atzungen handelt.

Dies ist vor allem dann wichtig, wenn man nicht nur

numerische N¨ aherungen erhalten m¨ ochte, sondern allgemeine Aussagen ¨ uber die Wahrscheinlichkeit von Ereignissen

beweisen m¨ ochte.

©Ernst W. Mayr

(14)

Approximation durch die Normalverteilung: Als Faustregel sagt man, dass die Verteilungsfunktion F

_n

(t) von Bin(n, p) durch

F

n

(t) ≈ Φ((t − np)/ p

p(1 − p)n)

approximiert werden kann, wenn np ≥ 5 und n(1 − p) ≥ 5 gilt.

©Ernst W. Mayr

(15)

Kapitel III Induktive Statistik

1. Einf¨ uhrung

Das Ziel der induktiven Statistik besteht darin, aus gemessenen Zufallsgr¨ oßen auf die zugrunde liegenden Gesetzm¨ aßigkeiten zu schließen. Im Gegensatz dazu spricht man von deskriptiver Statistik, wenn man sich damit besch¨ aftigt, große Datenmengen verst¨ andlich aufzubereiten, beispielsweise durch Berechnung des Mittelwertes oder anderer abgeleiteter Gr¨ oßen.

DWT 1 Einf¨uhrung 316/467

©Ernst W. Mayr

(16)

2. Sch¨ atzvariablen

Wir betrachten die Anzahl X von Lesezugriffen auf eine Festplatte bis zum ersten Lesefehler und nehmen an, dass

Pr[X = i] = (1 − p)

ⁱ⁻¹

p, setzen also f¨ ur X eine geometrische Verteilung an. Dahinter verbirgt sich die Annahme, dass bei jedem Zugriff unabh¨ angig und mit jeweils derselben Wahrscheinlichkeit p ein Lesefehler auftreten kann.

Unter diesen Annahmen ist die Verteilung der Zufallsvariablen X eindeutig festgelegt. Allerdings entzieht sich der numerische Wert des Parameters p noch unserer Kenntnis. Dieser soll daher nun empirisch gesch¨ atzt werden. Statt p k¨ onnen wir ebensogut E[X]

bestimmen, da wir daraus nach den Eigenschaften der geometrischen Verteilung p mittels p =

¹

E[X]

berechnen k¨ onnen.

DWT 2 Sch¨atzvariablen 317/467

©Ernst W. Mayr

(17)

Dazu betrachten wir n baugleiche Platten und die zugeh¨ origen Zufallsvariablen X

_i

(f¨ ur 1 ≤ i ≤ n), d. h. wir z¨ ahlen f¨ ur jede Platte die Anzahl von Zugriffen bis zum ersten Lesefehler. Die

Zufallsvariablen X

i

sind dann unabh¨ angig und besitzen jeweils dieselbe Verteilung wie X. Wir f¨ uhren also viele Kopien eines bestimmten Zufallsexperiments aus, um Schl¨ usse auf die

Gesetzm¨ aßigkeiten des einzelnen Experiments ziehen zu k¨ onnen.

Dies ist das Grundprinzip der induktiven Statistik. Die n

Messungen heißen Stichproben, und die Variablen X

i

nennt man Stichprobenvariablen.

©Ernst W. Mayr

(18)

Grundprinzip statistischer Verfahren

Wir erinnern an das Gesetz der großen Zahlen (Satz 63) bzw. den Zentralen Grenzwertsatz (Satz 116). Wenn man ein Experiment gen¨ ugend oft wiederholt, so n¨ ahert sich der Durchschnitt der Versuchsergebnisse immer mehr dem Verhalten an, das man

” im Mittel“ erwarten w¨ urde. Je mehr Experimente wir also

durchf¨ uhren, umso genauere und zuverl¨ assigere Aussagen k¨ onnen wir ¨ uber den zugrunde liegenden Wahrscheinlichkeitsraum ableiten.

Auf diesem Grundprinzip beruhen alle statistischen Verfahren.

©Ernst W. Mayr