Gesetze der großen Zahlen Anton Klimovsky

(1)

Grenzwertsätze für die Summen der ZV. Schwaches Gesetz der großen Zahlen. Konvergenz in Wahrscheinlichkeit (Stochastische Konvergenz).

Starkes Gesetz der großen Zahlen. Fast sichere Konvergenz. Indika- torfunktion. Ergodensatz (= Gesetz der großen Zahlen für Markov- Ketten).

Grenzwertsätze spielen in der Stochastik eine zentrale Rolle. Oft besagen solche Sätze, dass viel von scheinbarem Zufall oft vielStruk-

tur¹zeigt. ¹Und diese kann man geschickt ausnut-

Hauptsächlich werden wir uns mit den Grenzwertsätzen für die zen.

Summen der ZVen beschäftigen. Dabei kann man denken an den Gesamteinfluss (die Summe), der additiv aus vielen zufälligen Ein- flüssen (Summanden) besteht.

Summen der ZVen

Sei{Xi}^∞_i=1eine Folge der ZVen auf einem WRaum(Ω,A,P). Be- trachte die partielle Summen:

Sn:=X1+X2+. . .+Xn=

∑

n i=1

Xi. (1)

Solche Summen tauchen in vielen Kontexten auf. Vergleiche die Irrfahrt.

Definition0.1(Empirischer Mittelwert). Der empirische Mittelwert ist die folgende ZV

X¯n:= ¹

nSn. (2)

IstE[X₁] =_E[X2] =...=_E[Xn] =µ≤_{∞, so gilt}

E[X^¯n] =µ. (3)

Fr ag e: Wie verhält sichSnfürngroß? Kann man erwarten, dass² ²in einem geeignetem Sinne

Sn ≈µ·n (4)

ist? Wie groß sind die Schwankungen vonSn?

0 200 400 600 800 1000

0.30.40.50.60.70.80.91.0

Münzwurf

Empirischer Mittelwert

Abbildung1: Die Grafik einer Reali- sierung des empirischen Mittelwerts X¯n(ω)in Abhängigkeit von der Anzahl der Münzwurfenn. (Dies ist eine Simu- lation des Bernoulli-Experiments mit der Erfolgswahrscheinlichkeit 0, 5.)

Ei n eAn t w o r tliefern die Grenzwertsätze für die Summen der ZVen.

Grenzwertsätze sind nützlich weil:

• Sie eine approximative Analyse der ZVSnerlauben.

• Sie eine wichtige Rolle in der Statistik spielen, sobald man genü- gend Daten³hat.

3D.h.ngroß genug in (1).

(2)

Schwaches Gesetz der großen Zahlen

Wir erinnern uns an das folgende Theorem aus der ersten Hälfte der Vorlesung.

Theorem0.1(Schwaches Gesetz der großen Zahlen). ⁴ ⁴= schwaches GGZ wurde von schwei- zerischen Mathematiker Jakob Bernoulli in seiner Arbeit “Ars Conjectandi”

(von lat. Kunst des Vermutens, also Stochastik) bewiesen.

Abbildung2: Jakob Bernoulli (1655- 1705)

Sei{Xi}^∞_i=1eine Folge der unabhängigen identisch-verteilten⁵Zufallsva-

5= u.i.v.

riablen⁶auf dem Wahrscheinlichkeitsraum⁷(Ω,A,P)mitE[X1] = µ<

6= ZV

7= WRaum

∞.

Dann gilt

n→lim∞P (

1 n

∑

n i=1

Xn−µ

>ε )

=0 für allee>0. (5)

InWo r t e nbedeutet Theorem0.1Folgendes. Unter den Voraus- setzungen von Theorem0.1konzentriert sich die Verteilung des empirischen Mittelwertsstark in derε-Umgebung um dentheoretischen Erwartungswertµ. Sie tut dies für alleε>0.

Definition0.2(Konvergenz in Wahrscheinlichkeit (= stochastische Konvergenz)). Sei{Yi}^∞_i=1eine Folge der ZV und Y_∞eine ZV auf dem

WRaum(Ω,A,P). Die Folge{Yi}^∞_i=1konvergiert in Wahrscheinlichkeit⁸, ⁸alternativ sagt man: “konvergiert stochastisch”

falls

∀ε>0 : lim_n→

∞P{|Yn−Y_∞|>ε}=0 . (6) No tat i o n. Falls (6) gilt, schreibt man

Yn −→P

n→∞Y_∞. (7)

Eine recht nützliche ZV⁹ist wie folgt definiert. ⁹Sie erlaubt uns Aussagen über Er- eignisse mit den Aussagen über ZVen kompatibel zu machen.

Definition0.3(Indikatorfunktion). Sei A ⊂ _{Ω, wobei}(_Ω,A,P)ein WRaum ist. Die Funktion1A:Ω → _RheißtIndikatorfunktiondes Ereignisses A, falls

1A(ω) =







1, ω∈ A

0, ω∈_Ω\A. (8)

Be m e r k u n g. Die Indikatorfunktion ist eine handliche ZV. Man kann z.B. leicht den Erwartungswert für sie ausrechnen:

E[1A] =1·P(A) +0·P(Ω\A) =P(A). (9) Example0.1(Wahrscheinlichkeiten und Häufigkeiten). Sei A ∈ A ein Ereignis im Kontext eines zufälligen Experiments. Sei p := _P(A)die

(3)

Wahrscheinlichkeit dieses Ereignisses. Betrachte eine Folge aus n unabhän- gigen Wiederholungen des Experiments A₁,A2, . . . ,An∈ Aund seiX¯nder Zeitanteil, in dem das Ereignis A vorkommt. Es gilt

X¯n = ¹

n 1A₁+₁_A₂+. . .+₁_A_n. (10) Dank(9)giltE[₁_A_i] = p. Das schwache Gesetz der großen Zahlen ist anwendbar und zeigt, dass für großes n der empirische Mittelwert sehr wahrscheinlich in derε-Umgebung von p liegt. Sehe Abbildung1.

Grob gesagt erlaubt uns dies zu schließen, dass der empirische Mittelwert

eine Abschätzung von p liefert¹⁰. ¹⁰Dies ist ein Link zur Statistik – ein Teil der Stochastik, der sich mit den empirischen Daten beschäftigt.

Statistik entwickelt Methoden die (unter den Modelannahmen) einige Schlussfolgerungen aus den Daten ermöglichen, wie z.B. Abschätzungen für die unbekannte Parametern.

Alternativ ist dies ein Schritt in die Richtung der Interpretation der Wahrscheinlichkeit von A als die Frequenz von A in einer Experimentense- rie.

Ergodensatz

Für Markov-Ketten gilt GGZ auch und heißt Ergodensatz.¹¹ ¹¹von griech.ergon(“Energie, Arbeit”) +odos(“Pfad, Weg”). Diese (etwas unglückliche) Terminologie stammt von bedeutenden österreichischen physiker:

Abbildung3: Ludwig Boltzmann (1844- 1906)

Ma r k ov-Ke t t e nsind Folgen der Abhängigen ZVen, deswegen ist das schwache GGZ für sie nicht direkt anwendbar!

Definition0.4(Ergodische Markov-Kette). Eine Markov-Kette{X_i}^∞_i=1 mit einer Übergangsmatrix P heißt ergodisch, falls die entsprechende n- Schritt Übergangswahrscheinlichkeiten konvergieren gegen eine nicht- triviale Verteilung konvergieren¹²:

12Nicht-trivial heißt hier, dass für allej:

πj>0 gilt.

∀j: lim

n→∞P_i,j⁽ⁿ⁾=π_j>0. (11)

Theorem0.2(schwacher Ergodensatz = schwacher GGZ für Marko- v-Ketten). Sei{Xi}^∞_i=1eine ergodische Markov-Kette auf dem Zustands- raum S mit der Übergangsmatrix P. Definiere den empirischen Zeitanteil, den die Markov-Kette im Zustand A⊂ S nach n∈ NSchritten verbracht hat:

νn(A):= ¹

n(₁_A(X₁) +. . .+₁_A(Xn)), A⊂S. (12) Dann gilt

νn(A) −→^P

n→∞π(A). (13)

Insbesondere impliziert(13), dass für alle beschränkte Funktionen f: S → Rdie Konvergenz

1 n

∑

n i=1

f(X_i) −→^P

n→∞

∑

s∈S

f(s)π{s} (14) gilt.

(4)

No tat i o n. Für die rechte Seite von (14) benutzt man die Notation π[f].

InWo r t e nist die rechte Seite von (14) der Erwartungswert von f bezüglichπ. Die linke Seite von (14) ist einMittel über die Zeitperiode

voni =1 bisi=nvon den Beobachtungen¹³ f(X_i)unserer Markov- ¹³Eine Beobachtung ist eine Funktion f:S → _Rauf dem Zustandsraum.

Denn oft beobachtet man in den Experi- menten nicht den Gesamtzustand vom System, sondern eine Funktion (ein Parameter) davon.

Kette.

Er g o d e n sat z b e sag t: “dasZeitmittel(linke Seite) konvergiert gegen dasZustandsmittel(rechte Seite)”, s. (14).

Ei n e l a n g eSt i c h p ro b eunserer Markov-Kette (linke Seite) appro- ximiert das Gleichgewicht (rechte Seite), s. (14).

Ma r k ov-Ke t t eist eine Folge derabhängigenZV. Deswegen ist Theo- rem0.1nicht direkt anwendbar!

Proposition0.1(Ergodische Markov-Ketten konvergieren geome- trisch schnell ins Gleichgewicht). Sei{Xn}^∞_n=1eine ergodische Markov- Kette. Dann gilt

∃ρ∈(0, 1):|p⁽ⁿ⁾_i,j −π_j| ≤Cρⁿ. (15) Proof of Theorem0.2. Seisi,sj ∈S. Wir möchten zeigen, dass

∀ε>0 : P{|νn{j} −π_j|>ε|X₁=s_j} −→

n→∞0. (16)

Die Ungleichung von Tschebyscheff liefert

P{|νn{j} −π_j|>εX1=s_i} ≤ ^E[|νn{j} −π_j|²| X₁=s_i]

ε² (17)

Es bleibt z.Z., dass

E[|ν_n{j} −π_j|²|X1=si] −→

n→∞0. (18)

In der Tat gilt

E[|ν_n{j} −π_j|²|X1=si] = ¹ n²E

"

|

∑

n k=1

1{s_j}(Xk)−π_j|²|X1=si

#

= ¹ n²

∑

n k=1

∑

n l=1

m^(k,l)_i,j ,

(19) wobei

m^(k,l)_i,j =_E[₁_s_j(X_k)₁_s_j(X_l)|X0=s_i]−π_jE[₁_s_j(X_k)|X0=s_i]

−π_jE[₁_s_j(X_l)|X₀=s_i] +π²_j

=p^(s)_i,j p^(t)_j,j −π_jp^(k)_i,j −π_jp_i.j^(l)+π²_j,

(20)

(5)

wobeis=min{k,l}undt=|k−l|. Nach Proposition0.1gilt

p_i,j⁽ⁿ⁾=π_j+ε⁽ⁿ⁾_i,j |ε⁽ⁿ⁾_i.j | ≤Cρⁿ (21) Deswegen gilt

|m_i,j^(k,l)| ≤C(ρ^s+ρ^t+ρ^k+ρ^l). (22) Somit

1 n²

∑

n k=1

∑

n l=1

m^(k,l)_i,j ≤ ^C n²

∑

n k=1

∑

n l=1

(ρ^s+ρ^t+ρ^k+ρ^l) =O(n⁻¹) −→

n→∞0. (23)

Theorem0.3(Ergodensatz, starke Formulierung). Sei{Xn}^∞_n=1eine irreduzieble und aperiodische Markov-Kette mit der stationärer Verteilung π∈ M₁(S). Für jede Funktion f :S→_Rgilt

n→lim∞

1 n

∑

n i=1

f(X_i) =π[f], f.s. (24)

Ma n k a n n z e i g e n, dass für eine ergodische Markov-Kette die ZVenX_k,X_l mit|k−l|groß “fast unabhängig” sind. Dies ist eine Begründung, warum der GGZ für ergodische Markov-Ketten gilt.

Wie kann man numerisch einen Erwartungswert ausrechnen?

Pro b l e m. Wie kann man fürπ∈ M₁(S)_und f:S →Rden Erwar- tungswertπ[f]numerisch ausrechnen?

An t w o r t: Mittels MCMC und Ergodensatzes! Man kann z.B. mit

dem Metropolis-Hastings-Algorithmus eine Realisierung¹⁴ ¹⁴Eine Realisierung einer ZVXist ein Wertx = X(ω)für ein gegebenes ω∈_Ω.

{x_i:=X_i(ω)}ⁿ_i=1, für irgendeinω∈_Ω (25) der Markov-Kette{Xi}ⁿ_i=1erzeugen. Um dannπ[f]zu schätzen, kann man einfach die linke Seite von (14) an der erzeugten Realisie-

rung{xi}ⁿ_i=1auswerten und der Ergodensatz liefert¹⁵ ¹⁵Eine schwierige Frage hier ist: Wie groß sollnin (26) sein?

1 n

∑

n i=1

f(x_i)≈π[f]. (26)

(6)

Starkes Gesetz der großen Zahlen

Starkes GGZ ist auch eine Aussage über die Konvergenz vom empirischen Mittel gegen den Erwartungswert. Allerdings ist dabei die Konvergenzart eine andere.

Theorem0.4(Starkes Gesetz der großen Zahlen). Unter den Vorausset- zungen vom Theorem0.1gilt

Pn

ω∈Ω: lim_n→

∞X¯n(ω) =µ

o=₁ ₍²⁷₎

InWo r t e nbedeutet starkes Gesetz der großen Zahlen, dass für fast alle Realisierungen des Zufalls der empirische Mittelwert einer Folge der unabhängigen identisch verteilten ZV konvergiert gegen den

Erwartungswert von einem einzelnen Summand.¹⁶ ¹⁶Philosophisch bringt diese Bot- schaft die ExperimentatorInnen und TheoretikerInnen zusammen: der Mit- telwert von Beobachtungen aus einem Experiment konvergiert gegen den theoretischen Erwartungswert für fast alle Realisierungen des Experiments als wir mehr und mehr Beobachtun- gen machen. So kann man von den Beobachtungen auf die Wirklichkeit schließen.

Definition0.5(Fast sichere Konvergenz). Sei{Y_i}^∞_i=1eine Folge der ZV und Y_∞eine ZV auf dem WRaum(_Ω,A,P). Die Folge{Y_i}^∞_i=1konvergiert fast sicher (f.s.)¹⁷, falls es ein sicheres Ereignis¹⁸ A∈ Aexistiert, so dass

17alternativ sagt man: “konvergiert mit Wahrscheinlichkeit eins”.

18D.h.P(A) =1.

∀ω∈A: lim

n→∞Yn(ω) =Y_∞(ω). (28)

No tat i o n. Falls (6) gilt, schreibt man¹⁹

19Statt “f.s.” schreibt man auch “P-f.s.”, wenn es nicht klar ist, welches WMaß in (28) gemeint ist.

Yn f.s.

n→−→∞Y_∞. (29)

In dieser Notation kann man (27) so umschreiben:

X¯n f.s.

n→−→∞µ. (30)

Di e f a s t s i c h e r eKo n v e r g e n zist nichts anderes als einepunktwei-

se Konvergenz²⁰auf einer Menge der vollen Wahrscheinlichkeit. ²⁰Punktweise Konvergenz soll aus der Analysis bekannt sein.

Di e Ko n v e r g e n z f ü r f a s t a l l e Re a l i s i e ru n g e n d e s Zu f a l l s ist eigentlich das, was wir in der Simulation auf der Abbildung1 beobachten.

Ma n k a n n z e i g e n, dass

f.s. Konvergenz⇒Konvergenz in Wahrscheinlichkeit (31) Konvergenz in Wahrscheinlichkeit6⇒f.s. Konvergenz (32) Damit ist die f.s. Konvergenz eine stärkere Konvergenzart als die Konvergenz in Wahrscheinlichkeit.

(7)

Di e Ko n v e r g e n z i n Wa h r s c h e i n l i c h k e i t(Definition0.2) bein- haltet den Grenzübergangn → _∞außerhalb desP-Symbols. Al- lerdings steht der Grenzwert in der f.s. Konvergenz (Definition0.5) innerhalb desP-Symbols, was (intuitiv) eine stärkere Aussage dar- stellt.

Si c h e r e sEr g e i g n i s Avon der Definition0.5hängt von unendlich vielen ZVen{Xn}^∞_n=1ab. Allerdings nich ganz stark. Der Grenz- wert limn→∞Xn hängt nur davon ab, was für großesngeschiet. Also hängt das EreignisAnur davon ab, was mit der Folge{Xn}^∞_n=1im Unendlichen passiert.

Proof of Theorem0.4. Einfachheitshalber führen wir den Beweis unter

einer stärkeren Voraussätzung als angekündigt²¹: ²¹Diese annahme heißt: “Existenz von den vierten Momenten”. Ohne diese Annahme ist der Beweis etwas länger.

Eh X₁⁴i

<∞. (33)

o.B.d.A. können wir annehmen, dassE[X₁] = 0.²²Wir möchten ²²Betrachte sonst stattX_idiezentrierten ZVenY_i := X_i−µ. Für diese gilt E[Y_i] =0.

zeigen, dass

E

"_∞

i=1

∑

S⁴_n n⁴

#

<_∞. (34)

Es gilt

Eh S⁴_ni

=

∑

∞ i₁=1

∑

∞ i₂=1

∑

∞ i₃=1

∑

∞ i₄=1

E

Xi₁Xi₂Xi₃Xi₄

(35)

Beachte, dass es viele Summanden in (35) gibt, die gleich 0 sind.

Z.b. fallsi₁is nicht gleichi₂,i₃undi₄, dann wegen der Unabhängig- keit

E[Xi₁Xi₂Xi₃Xi₄] =E[Xi₁]E

Xi₂Xi₃Xi₄

=0. (36) Deswegen muss man in (35) nur die Terme von der folgenden zwei Bauarten betrachten:E[X_i⁴

1](es gibtnStück davon) und

E[X²_i₁X_i²₂]. (37) Summanden (37) bekommt man in den folgenden Fällen:i₁ = i₂ 6=

i3 = i₄,i₁ = i3 6= i2 = i₄oderi₁ = i₄ 6= i2 = i3. Deswegen gibt es insgesamt 3n(n−1)Termen dieser Bauart. Somit

Eh S⁴_ni

=_nE[X⁴] +3n(n−1)_E[X₁²X₂²] =O(n²)_. ₍³⁸₎ Deswegen gilt _n¹₄E[S⁴_n] = O(n⁻²). Demzufolge gilt (34). Insb. heißt

(34), dass²³ ²³Warum?

(8)

∑

∞ i=1

S⁴_n<_∞ f.s. (39)

SomitS⁴_n−→

n→00 f.s. und schließlichSn−→

n→00 f.s.

Li t e r at u r h i n w e i s e: Kapitel11aus Ref.²⁴ ²⁴Götz Kersting and Anton Wakolbin- ger. Elementare Stochastik. Springer, 2010

Literatur

Götz Kersting and Anton Wakolbinger. Elementare Stochastik. Sprin- ger,2010.