• Keine Ergebnisse gefunden

Mathematische Statistik

N/A
N/A
Protected

Academic year: 2021

Aktie "Mathematische Statistik"

Copied!
95
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Mathematische Statistik

Vorlesungsskript

Thorsten Dickhaus Humboldt-Universität zu Berlin

Sommersemester 2012 Version: 2. Juli 2012

(2)

Vorbemerkungen

Das Material zu diesem Skript habe ich im Wesentlichen im Rahmen meiner Vertretungsprofessur an der Technischen Universität Clausthal im Sommersemester 2011 zusammengestellt.

Für die Manuskripterstellung danke ich Konstantin Schildknecht.

Übungsaufgaben und R-Programme zu diesem Kurs stelle ich auf Anfrage gerne zur Verfügung.

Einige Referenzen dazu finden sich im Text an den zugehörigen Stellen.

(3)

Verzeichnis der Abkürzungen und Symbole

B(p, q) Betafunktion,B(p, q) = Γ(p)Γ(q)/Γ(p+q)

dxe Kleinste ganze Zahl größer oder gleichx

χ2ν Chi-Quadrat Verteilung mitν Freiheitsgraden

{M Komplement der MengeM

δa Dirac-Maß im Punktea

=D Gleichheit in Verteilung

FX Verteilungsfunktion einer reellwertigen ZufallsvariableX

FDR False Discovery Rate

FWER Family Wise Error Rate

bxc Größte ganze Zahl kleiner oder gleichx

Γ(·) Gammafunktion,Γ(x) =R

0 tx−1e−tdt, x >0

im(X) Bildbereich einer ZufallsgrößeX

iid. independent and identically distributed

1M Indikatorfunktion einer MengeM

L(X) Verteilungsgesetz einer ZufallsvariableX

LFC Least Favorable Configuration

N(µ, σ2) Normalverteilung mit Parameternµundσ2

Φ Verteilungsfunktion derN(0,1)-Verteilung

(4)

ϕ(·) Verteilungsdichte derN(0,1)-Verteilung

supp(F) Träger der VerteilungsfunktionF

UNI[a, b] Gleichverteilung auf dem Intervall[a, b]

(5)

Inhaltsverzeichnis

1 Grundlagen aus der Wahrscheinlichkeitstheorie 1

1.1 Bedingte Verteilungen und bedingte Erwartungswerte . . . 1 1.2 Erzeugende Funktion, Laplace- und Fouriertransformierte . . . 7 1.3 Konvergenzarten und Folgen von Zufallsvariablen . . . 17

2 Entscheidungstheorie 28

2.1 Entscheiden unter Unsicherheit . . . 28 2.2 Suffizienz und Vollständigkeit, Exponentialfamilien . . . 38

3 Schätztheorie 44

3.1 Erwartungstreue Schätzer . . . 44 3.2 Allgemeine Schätztheorie . . . 48

4 Testtheorie, Bereichsschätzungen 54

4.1 Allgemeine Testtheorie . . . 54 4.2 Tests für Parameter der Normalverteilung . . . 64 4.3 Bereichsschätzungen und der Korrespondenzsatz . . . 76

5 Ausgewählte weitere Themen 81

5.1 Grundlagen der stochastischen Simulation . . . 81 5.2 Statistische Lerntheorie . . . 84

Tabellenverzeichnis 85

Abbildungsverzeichnis 86

Literaturverzeichnis 87

(6)
(7)

Kapitel 1

Grundlagen aus der

Wahrscheinlichkeitstheorie

1.1 Bedingte Verteilungen und bedingte Erwartungswerte

Erinnerung 1.1

Seien X und Y reellwertige stetige Zufallsvariablen auf dem selben Wahrscheinlichkeitsraum (Ω,F,P) mit gemeinsamer Dichtefunktion f(X,Y) : R2 → R+ bezüglich λ2 (Lebesguemaß), so ist

(a) fY(y) =R

−∞f(X,Y)(x, y)dxeine Randdichte vonY. (b) fY|X(y|x) = f(X,Yf )(x,y)

X(x) , x, y∈R, eine bedingte Dichte vonY bezüglichX(mit0/0 = 0).

(c) Bezeichne B die σ-Algebra der Borelmengen auf R. Für x ∈ R mitfX(x) > 0 heißt die Mengenfunktion

B 3B 7→P(Y ∈B|X=x) :=

Z

B

fY|X(y|x)λ(dy) bedingte Verteilung vonY bezüglichX =x.

(d) Rechenregeln:

(i) P(X∈A, Y ∈B) =R

AP(Y ∈B|X=x)fX(x)λ(dx).

(ii) P(Y ∈B) =R

−∞P(Y ∈B|X =x)fX(x)dx.

(iii) P((X, Y)∈C) =R

−∞P(Y ∈C(x)|X=x)fX(x)dx

fürC ∈ B2und mitC(x) ={y∈R|(x, y)∈C}, demx-Schnitt von C.

(iv) SindA, B ∈ BmitP(X∈A)>0, dann ist die elementare bedingte Wahrscheinlichkeit vonY bzgl.Xdefiniert durchP(Y ∈B|X∈A) =P(X∈A, Y ∈B)/P(X∈A).

(8)

Definition 1.2

Seien (Ω1,A1) und (Ω2,A2) zwei Messräume. Eine Abbildung q : Ω1 × A2 → [0,1] heißt Übergangswahrscheinlichkeit (Markov-Kern) vonΩ1nachΩ2(bzw.A2):⇔

(i) A0 7→q(x, A0)ist ein Wahrscheinlichkeitsmaß auf(Ω2,A2)für allex∈Ω1. (ii) x7→q(x, A0)ist(A1,B)-messbar für alleA0∈ A2.

Definition und Satz 1.3

Seien(Ωi,Ai), i = 1,2zwei Messräume. Seiµein Wahrscheinlichkeitsmaß auf(Ω1,A1) undq ein Markov-Kern vonΩ1 nachΩ2.

a) Durch die Festlegung

µ⊗q(A1×A2) :=

Z

A1

q(x, A2)µ(dx), Ai ∈ Ai, i= 1,2 wird auf(Ω1×Ω2,A1⊗ A2)das Wahrscheinlichkeitsmaßµ⊗qdefiniert.

b) FürC ∈ A1⊗ A2gilt

µ⊗q(C) = Z

1

q(x, C(x))µ(dx).

Beweis: FürC ∈ A1⊗ A2schreiben wir kurzQ(C) :=R

1q(x, C(x))µ(dx).

Normierungsbedingung undσ-Additivität vonQ(zur Übung)⇒ Qist ein Wahrscheinlichkeits- maß auf(Ω1×Ω2,A1⊗ A2). Sei jetztA×B ∈ A1× A2(Kartesisches Produkt!), so rechnen wir nach:

Q(A×B) = Z

1

q(x,(A×B)(x))µ(dx) = Z

1

1A(x)q(x, B)µ(dx) = Z

A

q(x, B)µ(dx).

Aus dem Maßeindeutigkeitssatz folgt, daA1×A2ein∩-stabiles Erzeugendensystem vonA1⊗A2

ist, dassQ=:µ⊗qeindeutig definiert ist.

Beispiel 1.4

a) Seiq(x, B)≡ν(B),νWahrscheinlichkeitsmaß auf(Ω2,A2). Dann ergibt sich µ⊗q(A1×A2) =

Z

A1

q(x, A2)µ(dx) = Z

A1

ν(A2)µ(dx) =µ×ν(A1×A2), also das “klassische” Produktmaß (hier zur Unterscheidung mit×notiert).

b) SeienXundY stochastisch unabhängige Zufallsvariablen mit Werten inΩ1bzw.Ω2, dann gilt P(X,Y)=PX ×PY und mit a) folgt

P(X,Y)=PX ×PY =PX ⊗PY, d.h. q(t, A2) =P(Y ∈A2) ist eine Version der bedingten VerteilungPY|X=tfür allet∈Ω1.

(9)

Satz 1.5(Satz von Fubini für Markov-Kerne)

Unter den Bezeichnungen aus Satz 1.3 seif : Ω1×Ω2 →Reine messbare Abbildung. Dann gilt Z

1×Ω2

f d(µ⊗q) = Z

1

Z

2

f(x, y)q(x, dy)

µ(dx), falls eine der folgenden Voraussetzungen gilt:

(i) f ≥0.

(ii) f ist(µ⊗q)- quasiintegrierbar.

Beweis: Satz 14.29 in Klenke (2008).

Anmerkung:

Istν ein Wahrscheinlichkeitsmaß aufΩ2undq(x, B) :≡ν(B), so ergibt sich der klassische Satz von Fubini über Produktmaße:

Z

1×Ω2

f d(µ×ν) = Z

1

Z

2

f dν

dµ= Z

2

Z

1

f dµ

dν unter den Voraussetzungen von Satz 1.5.

Bemerkung 1.6

Für den Beweis von Satz 1.5 ist es wichtig, dass die Funktion h: Ω1 →R, x7→h(x) :=

Z

2

f(x, y)q(x, dy) messbar ist. Dies zeigt man mit algebraischer Induktion (zur Übung).

Definition 1.7

Sei(Ω,A,P)ein Wahrscheinlichkeitsraum und seienX, Y Zufallsvariablen auf(Ω,F,P)mit Wer- ten in(Ω1,A1)bzw.(Ω2,A2). Dann heißt ein Markov-KernqvonΩ1nachΩ2mit der Eigenschaft

P(X∈A1, Y ∈A2) = Z

A1

q(x, A2)PX(dx)

für alleAi∈ Ai, i= 1,2, eine reguläre Version der bedingten Verteilung vonY bezüglichX.

Kurzform:P(X,Y)=PX ⊗q.

Ist(Ω2,A2) = (Rd,Bd)mitd∈N, so existiert stets eine reguläre Version vonPY|X. Definition 1.8

Unter den Voraussetzungen von Definition 1.7 seiT : (Ω2,A2)→(R,B)eine messbare Funktion derart, dassT(Y)∈ L1(Ω,F,P)ist.

Dann heißt

E[T(Y)|X =x] :=

Z

T(y)q(x, dy) =:g(x)

eine Version des bedingten Erwartungswertes vonT(Y)unter der HypotheseX=x.

(10)

Bemerkung 1.9

Unter den Voraussetzungen von Definition 1.8 gilt:

(i) Es existiert stets eine Version vonE[T(Y)|X=x].

(ii) Alle Versionen vonE[T(Y)|X=x]sind messbare undPX-integrierbare Abbildungen g: Ω1→R.

Definition und Satz 1.10

Es seien die Voraussetzungen von Definition 1.8 mitT =id.gegeben.

a) Die ZufallsvariableE[Y|X] :=g(X) = g◦X, die fürX(ω) =xden Wertg(x)mitg(x) = E[Y|X =x] =R

yq(x, dy)annimmt, heißt (eine) bedingte Erwartung vonY bezüglichX.

b) Bezeichne

σ(X) =X−1(A1) ={X−1(B)|B ∈ A1}={A∈ F | ∃B ∈ A1 :X−1(B) =A}

die vonX : (Ω,A)→(Ω1,A1)erzeugte Unter-σ-Algebra vonF.

Dann gilt fürA∈σ(X)und mitB ∈ A1so, dassX−1(B) =Aist, dass Z

A

Y dP = Z

1B(X)Y dP= Z

1×R

1B(x)ydP(X,Y)(x, y)

= Z

1

1B(x) Z

R

yq(x, dy)

PX(dx) = Z

1

1B(x)g(x)PX(dx)

= Z

B

g(x)PX(dx) = Z

1B(x)g(x)dP= Z

A

g◦XdP

= Z

A

E[Y|X]dP.

c) Sei allgemeinC eine Sub-σ-Algebra vonF. Dann ist eine bedingte ErwartungZ ∈ E[Y|C]

(SchreibweiseZ =E[Y|C]) charakterisiert durch (i) Zist(C,B)-messbar.

(ii) ∀C∈ C :R

CZdP=R

CY dP.

Formal kann jedes solcheC ⊆ F alsσ(X)für ein geeignetesXgeschrieben werden.

Beispiel 1.11

a) Zeichen werden in einem Übertragungskanal mit einer unbekannten Wahrscheinlichkeit ge- stört. Die unbekannte Störwahrscheinlichkeit wird als ZufallsvariableX mit Werten in(0,1) modelliert. Bei gegebenemX =psollen die Störungen laut Modell iid auftreten.

(11)

Es sei Y :=“Wartezeit bis zur ersten Störung”, gemessen in Anzahl gesendeter Zeichen. Ge- sucht ist nun die mittlere “Zeit” bis zur ersten Störung, fallsX =pbekannt ist.

Lösung: Eine Version vonPY|X=pist die geometrische Verteilung mit Parameterp, also P(Y =k|X =p) =p(1−p)k, k≥0.

⇒E[Y|X =p] =

X

k=0

kp(1−p)k= 1−p

p =g(p).

Gelte nun für die StörwahrscheinlichkeitX, dassP(X = 12) =:aundP(X = 34) = 1−a, so folgt

E[Y|X] = 1−X X =:Z mitP(Z = 1) =a= 1−P(Z = 13).

b) SeiY reellwertige, integrierbare Zufallsvariable undX diskret mit Werten inN0. Dann kann g(i) := E[Y|X=i], i ∈ N0, wie folgt bestimmt werden. Nach elementarer bedingter Wahr- scheinlichkeitsformel gilt:

P(Y ∈B|X=i) = P(Y ∈B, X =i) P(X=i)

= [P(X=i)]−1 Z

1{Y∈B}1{X=i}dP

⇒g(i) = E

Y 1{X=i}

P(X=i) , i∈N0.

Ausführliche Verifikation vermittels charakterisierender Integralgleichung ist eine Übungsauf- gabe. Beispielsweise gilt z.B. fürX :=bYc, dass

E[Y|X =i] = E

Y 1{1≤Y <i+1}

P(i≤Y < i+ 1) =g(i), i∈N0. Bemerkung 1.12(Anschauliche Interpretation vonE[Y|X])

SeiZ :=E[Y|X](genauer seiZ ∈E[Y|X]). Dann hatZdie folgenden Eigenschaften:

(i) Zist auf dem selben Wahrscheinlichkeitsraum wieY definiert.

(ii) Der Mittelwert von Z stimmt mit dem von Y überein, wenn auf Mengen X−1(B) einge- schränkt wird.

(iii) Wegen Z = g(X) “variiert”Z aber nur so stark wieX. Nimmt X also z.B. nur endlich viele Werte an, so auchZ =E[Y|X]. Die bedingte Erwartung ist also gewissermaßen eine Glättung vonY entlangX.

(12)

(iv) Bild zur Veranschaulichung:

Abbildung 1.1: Skizze zur Veranschaulichung der bedingten Erwartung

(v) Liegt Y in L2(Ω,F,P), so stellt E[Y|X] die besteL2-Approximation von Y unter allen Funktionen der Gestalt h(X), h : Ω1 → R, dar, d.h. der L2-Abstand zwischen Y und einer (deterministischen) L2-Transformation von X ist am kleinsten für E[Y|X]. Anders ausgedrückt istE[Y|X]die Projektion vonY aufL2(Ω, σ(X),P).

Wir beschließen diesen Abschnitt 1.1 mit wichtigen Rechenregeln für bedingte Erwartungen.

Satz 1.13(Rechenregeln für bedingte Erwartungen, alle AussagenP-f.s.)

Unter den Voraussetzungen von Definition 1.8 gelten die folgenden Rechenregeln.

a) Linearität der bedingten Erwartung:

E[αY1+βY2|X] =αE[Y1|X] +βE[Y2|X]. b) Satz von der iterierten Erwartungswertbildung:

E[Y] =E[E[Y|X]] = Z

1

E[Y|X=x]PX(dx).

c) Seih: Ω1×R→R, so dassh(X, Y)integrierbar ist, so folgt:

(i) E[h(X, Y)|X=x] =E[h(x, Y)|X=x] =R

h(x, y)PY|X=x(dy).

(ii) X⊥Y ⇒E[h(X, Y)|X =x] =E[h(x, Y)] =R

h(x, y)PY(dy).

(13)

d) Seih: Ω1 →Rmessbar, so dassY ·h(X)integrierbar ist, so folgt:

E[Y ·h(X)|X] =h(X)·E[Y|X]. e) Seig: (Ω1,A1)→(Ω0,A0), so folgt:

E[E[Y|X]|g(X)] =E[Y|g(X)] =E[E[Y|g(X)]|X].

f) Tower equation: SindB1⊂ B2Sub-σ-Algebren vonFund istY ∈ L1(Ω,F,P), so giltP-f.s.

E[E[Y|B1]|B2] =E[Y|B1] =E[E[X|B2]|B1]. Beachte:σ-Algebren können als Informationsstände interpretiert werden!

Beweis: Alle Aussagen folgen direkt aus Eigenschaften des Lebesgue-Integrals (vgl. Maß- und Integrationstheorie) oder können mit algebraischer Induktion nachgewiesen werden (man verifi-

ziere z.B. Teil c) für Indikatorfunktionen).

1.2 Erzeugende Funktion, Laplace- und Fouriertransformierte

Statt der Angabe von Wahrscheinlichkeitsfunktionen (diskrete Zufallsgrößen) oder Verteilungs- dichten (stetiger Fall) ist es in manchen Fällen (Berechnung von Momenten, Herleitung von Fal- tungen) nützlicher, mit anderen Charakterisierungen von Wahrscheinlichkeitsverteilungen zu ar- beiten. Insbesondere die charakteristische Funktion (Fourier-Transformierte) hat zentrale Bedeu- tung; mehr dazu in Abschnitt 1.3 im Kontext der Verteilungskovergenz.

Definition 1.14

SeiXeine Zufallsvariable mit Werten inN0. Die PotenzreiheGX : [0,1]7→[0,1]mit t7→GX(t) :=E

tX

=

X

k=0

tkP(X=k)

heißt die erzeugende Funktion vonXbzw. vonPX (englisch: generating function).

Beispiel 1.15

a) Die BinomialverteilungB(n, p) hat die erzeugende Funktiont 7→ (1−p+pt)n nach dem Binomischen Lehrsatz.

b) Die PoissonverteilungP ois(λ)hat die erzeugende Funktion t7→

X

k=0

tkexp (−λ)λk

k! = exp (λ(t−1))

(14)

Satz 1.16(Eigenschaften vonGX)

a) Eindeutigkeitssatz: Haben zwei Zufallsvariablen, jeweils mit Werten inN0 die gleiche erzeu- gende Funktion, so haben sie die gleiche Verteilung.

Kurz:GX =GY ⇒PX =PY.

b) Es giltP(X= 0) =GX(0)< GX(t)< GX(1) = 1∀t∈(0,1)

c) GX ist stetig und in(0,1)unendlich oft stetig differenzierbar. Es gilt fürn ∈ Nund dien-te AbleitungG(n)X , dass

t%1limG(n)X (t) =

X

k=n

P(X=k)·

k

Y

j=k−n+1

j wobei beide Seiten+∞sein können; d.h.

t%1limGX(t) =E[X] und lim

t↑1G(n)X (t) =E[X(X−1). . .(X−n+ 1)]

dasn-te Moment vonX.

d) Ist Y eine weitere Zufallsvariable mit Werten in N0 stochastisch unabhängig von X, so ist t 7→GX(t)GY(t)die erzeugende Funktion vonX+Y, d.h. von der FaltungPX ∗PY, kurz:

GX+Y =GXGY

e) Induktiv folgt, dass für stochastisch unabhängigeX1, . . . , Xngilt GPn

i=1Xi =

n

Y

i=1

GXi.

Beweis:

zu a)-c): AnalysisI, Eigenschaften von Potenzreihen, Koeffizientenvergleich zu d):

GX(t)GY(t) = (

X

k=0

P(X=k)tk)(

X

k=0

P(Y =k)tk)

Cauchy-Produkt-Formel

=

X

k=0

tk(

k

X

l=0

P(X=l)P(Y =k−l))

stoch. Unaghängigkeit

=

X

k=0

tk

k

X

l=0

P(X=l, Y =k−l)

=

X

k=0

tkP(X+Y =k) =GX+Y(t)

(15)

Beispiel 1.17

a) Beispiel 1.15a) zusammen mit 1.16e) zeigt, dass die Summe vonnstochastisch unabhängigen, identischBernoulli(p)-verteilter Indikatoren eineB(n, p)-Verteilung besitzt.

Ist allgemeinerX∼B(m, p), X ⊥Y, so istX+Y ∼B(n+m, p).

b)

X ∼ P ois(α), Y P ois(β), X ⊥Y

⇒ GX+Y(t) =GX(t)GY(t)1.15b)= exp (α(t−1)) exp (β(t−1))

= exp ((α+β)(t−1)) d.h. X+Y ∼P ois(α+β) Ferner giltE[X] =Var(X) =α, denn

d

dtGX(t)

t=1−=αexp(α(t−1))

t=−1 =α und

d2

dt2GX(t)

t=1−2exp(α(t−1))

t=1−2

⇒E[X] =α,E

X2−X

2,E X2

=α(α+ 1)undE X2

−E2[X] =Var(X) =α.

Für allgemeinere Verteilungen reellwertiger Zufallsvariablen, die auf[0,∞)konzentriert sind, empfiehlt sich häufig die Benutzung ihrer Laplace-Transformierten.

Definition 1.18

Sei X eine reellwertige Zufallsvariable mit PX([0,∞)) = 1. Dann heißt LX : [0,∞) → R, definiert durch

LX(s) :=E[exp(−sX)] = Z

[0,∞)

exp(−sx)PX(dx) fürs∈R+0, die Laplace-Transformierte vonX(bzw. vonPX oderFX).

Satz 1.19(Eigenschaften vonLX)

a) Wegen0≤exp(−sx)≤1,∀x≥0, s≥0existiertLX auf[0,∞)und es gilt:

0≤LX(s)≤1 =LX(0),P(X= 0) = lim

s→∞LX(s) b) LX ist stetig auf[0,∞)und beliebig oft differenzierbar auf(0,∞)mit

L(k)X (s) = (−1)kE h

Xkexp(−sx)i

, k∈N0, s >0 E

h Xki

= lim

s&0(−1)kL(k)X (s) wobei beide Seiten+∞sein können.

(16)

c) Umkehrformel:

SeiC(F) := {t∈ R|F stetig int}die Menge der Stetigkeitsstellen einer Verteilungsfunktion F aufR. Es gilt:

∀0< x∈C(FX) :FX(x) = lim

n→∞

X

k≤nx

(−n)k

k! L(k)X (n) d) Eindeutigkeitssatz:PX ist durchLX eindeutig bestimmt.

e) Ist Y eine weitere reellwertige Zufallsvariable mitPY([0,∞)) = 1stochastisch unabhängig vonX, so istLX+Y =LXLY.

Beweis:

zu a)

s→∞lim E[exp(−sX)] = E

1{X=0}

=P(X= 0).

zu b)

d

dsLX(s) = lim

h→

LX(s+h)−LX(s) h

= lim

h→0h−1[E[exp(−(s+h)X)]−E[exp(−sX)]]

= lim

h→0E

h−1{exp(−(s+h)X−exp(−sX)}

maj. Konvergenz

= E

h→0lim

exp(−(s+h)X)−exp(−sX) h

= E

d

dsexp(−sX)

= E[−Xexp(−sX)]

= −E[Xexp(−sX)]

Induktion nachkliefert nun das Gewünschte.

zu c) siehe Feller (1971) XIII.4 zu d) Folgt aus c)

zu e) E[exp(−s(X+Y))]stoch. Unabhängigkeit

= E

e−sX E

e−sY

(17)

Beispiel 1.20

a) SeiX Exp(λ)-verteilt, dann ergibt sich LX(s) = E[exp(−sX)] =

Z 0

exp(−sx)λexp(−λx)dx

= λ Z

0

exp(−(s+λ)x)dx= λ s+λ

⇒E h

Xki

= (−1)k dk

dskLX(s)|s=0+ = (−1)k(−1)k k!λ

(s+λ)k+|s=0+= k!

λk b) DieErlang(λ, n)-Verteilung alsn-fache Faltung vonExp(λ)mit sich selbst hat die Laplace-

Transformiertes7→(s+λλ )n.

Y ∼ Erlang(λ, n)⇒ E[Y] = d

ds( λ

s+λ)n|s=0+ = n λ E

Y2

= d2 ds2( λ

s+λ)n|s=0+

= n(n+ 1)λn

(s+λ)n+2|s=0+= n(n+ 1) λ2

⇒Var(Y) = n λ2

Für eine reellwertige Zufallsvariable, deren Werte nicht auf[0,∞)eingeschränkt sind, existiert die Laplace-Transformierte häufig nur auf Teilbereichen des Trägers ihrer Verteilung. Einen Extrem- fall stellt die Cauchy-Verteilung dar, bei der die Laplace-Transformierte nur fürs= 0existiert.

Folglich ist hier die Laplace-Transformierte nicht zur Charakterisierung der Verteilung geeignet.

Zentrale Objekte der Wahrscheinlichkeitstheorie sind die charakteristischen Funktionen, die stets existieren.

Bezeichne dazui=√

−1die imaginäre Einheit.

Definition 1.21

a) Seiµein endliches Maß aufRdfürd∈N. Die AbbildungCµ:Rd→C, definiert durch ϕµ:=

Z

exp(i < t, x >)µ(dx) heißt Fourier - Transformierte vonµ.

b) Sei X = (X1, . . . , Xd) ein Zufallsvektor mit (gemeinsamer) Verteilung PX. Dann heißt ϕX :=CPX die charakteristische Funktion vonX.

(18)

c) Für eine komplexwertige Zufallsvariable Z mit Real- und Imaginärteilen Re(Z) ∈ L1(Ω,A,P) undIm(Z) ∈ L1(Ω,A,P) sei E[Z] := E[Re(Z)] +iE[Im(Z)].

Damit ist

ϕX(t) =E[exp(i < t, x >)], t∈Rd [Man beachte die Eulersche Formel:exp(iϑ) = cos(ϑ) +isin(ϑ)!]

Wegen|exp(i < t, x >)|= 1,∀t, x∈Rdexistiertϕµ(t)für allet∈Rd. Satz 1.22(Eigenschaften der charakteristischen Funktion)

a) ∀t∈Rd:|ϕX(t)| ≤1 =ϕX(0)

b) Affine Transformation: SeiXZufallsgröße mit Werten inRdundY :=AX+bmitA∈Rm×d undb∈ Rm;d, m ∈N. Dann giltϕY(u) = exp(i < u, b >)ϕX(ATu), u∈ Rm. Ist speziell d=m= 1unda=−1, b= 0, so ergibt sich z.b.

ϕ−X(u) =ϕX(−u) =ϕX(u) aufgrund der Symmetrieeigenschaften von Sinus und Cosinus.

c) PX =P−X genau dann, wennϕX (rein) reellwertig ist.

d) Die ZufallsvariablenX1, . . . , Xdsind genau dann stochastisch unabhängig, wenn∀u ∈Rd : ϕX(u) =Qd

k=1ϕXk(uk)gilt,X= (X1, . . . , Xd)T

e) Faltungsformel: sindXundY stochastisch unabhängige Zufallsvektoren mit Werten inRd, so istϕX+YX ·ϕY

Beweis:

zu a) PX(Rd) = 1

zu b) zur Übung (Lineare Algebra)

zu c) Symmetrieeigenschaften von Sinus und Cosinus

zu d) Charakterisierung der stochastischen Unabhängikeit über

E[f(Xi)g(Xj)] =E[f(Xi)]E[g(Xj)]

für alle komplexwertigen, messbaren Funktionen f undg, Details z.B. in Kapitel 8 von Breiman (1992)

zu e) Analog zum Beweis für Laplace-Transformierte in 1.19e).

(19)

Es existieren eine ganze Reihe von “Umkehrformeln”, die es erlauben, Verteilungsfunktionen, Dichtefunktionen oder Wahrscheinlichkeitsfunktionen aus charakteristischen Funktionen zurück- zugewinnen.

Satz 1.23

a) Diskrete Fourier-Inversionsformel:

Seiµendliches Maß aufZd⇒ ∀x∈Zdgilt:

(i)

µ({x}) = (2π)−d Z

[−π,π)d

exp(i < t, x >)ϕµ(t)dt (ii)

X

x∈Zd

µ({x})2 = (2π)−d Z

[−π,π)d

µ(t)|2dt(Plancherel).

b) Besitztµeineλd-Dichtef, so gilt f(x) = (2π)−d

Z

Rd

exp(−i < t, x >)ϕµ(t)λd(dt), x∈Rd.

c) In Dimensiond= 1gilt

FX(x) =1 2 − 1

π Z

0

Im(e−itxϕX(t))

t dt

für alle Stetigkeitspunkte vonFX.

d) Chungs Inversionsformel (hier nurd= 1):

Fallsa < bundP(X =a) =P(X =b) = 0⇒ FX(b)−FX(a) = lim

T→∞{ 1 2π

Z T

−T

e−ita−e−itb

it ϕX(t)dt}.

Beweis:

zu a) Klenke (2008), Seiten 300-301 zu b) Klenke (2008), Seiten 300-301 zu c) Gil-Pelaez (1951)

zu d) Chung (2000)

(20)

Korollar 1.24(Eindeutigkeitssatz)

Ein endliches MaßµaufRdist durch Angabe der charakteristischen Funktionϕµeindeutig fest- gelegt.

Satz 1.25(Momentenberechnung)

SeiX = (X1, . . . , Xd)ein Zufallsvektor imRd. FallsE[|X|m]fürm ∈ Nendlich ist, dann ist ϕX m-mal stetig partiell differenzierbar und es gilt für allet∈Rd:

m

∂xj1∂xj2. . . ∂xjmϕX(t) =imE[Xj1Xj2. . . Xjmexp(i < t, x >]

Beweis: (nach Jacod and Protter (2000), Theorem 13.2)

Wir schreiben abkürzendµ := PX und zeigen die Behauptung für m = 1. Für allgemeinesm wird die Aussage induktiv hergeleitet. Wir müssen zunächst die Existenz von ∂x

jϕX(u)für jedes u∈Rdnachweisen.

Dazu nehmen wir eine Folge{tn}n∈NinR1mittn→0, n→ ∞und Einheitsvektoren(ej)j=1,...d her und rechnen die Richtungsableitung aus:

ϕX(u+tnej)−ϕX(u)

tn =

Z

Rd

ei<u,x>ei<tnej,x>−1 tn µ(dx) Betrachten wir den Bruch im Integranden:

exp(i < tnej, x >−1 tn

= cos(< tnej, x >)−1 +isin(< tnej, x >) tn

n→∞−→

tn→0

−xjsin(0) +ixj·cos(0)

= ixj nach L’Hospital’scher Regel.

Ferner gilt|exp(i<tntej,x>)−1

n | ≤2|x|fürn ≥N geeignet und2|x| ∈ L1(Ω,A, µ)nach Vorraus- setzung(n= 1). Mit majorisierter Konvergenz ergibt sich damit

Z

Rd

exp(i < u, x >) exp(i < tnej, x >)−1 tn

µ(dx)

n→∞−→

Z

Rd

exp(i < u, x >)ixjµ(dx)

= iE

Xjei<u,X>

= ∂

∂xjϕX(u) Die Stetigkeit von∂x

jϕX(u)∀u∈Rdzeigt man wieder mit majorisierter Konvergenz.

(21)

Beispiel 1.26(Normalverteilungen)

a) SeiX ∼ N(0,1)imR1. Dann ergibt sich ϕX(t) =E[exp(itx)] =

Z

R

cos(tx) 1

2πexp(−x2

2 )dx+i Z

R

sin(tx) 1

2πexp(−x2 2 )dx

| {z }

=0,da Integrand ungerade Funktion

x⇒ϕ0X(t) = 1

√2π Z

R

−xsin(tx) exp(−x2 2 )dx partielle Integration

v(x)=sin(tx) u0(x)=−xexp(−x2

2 )

= − 1

√2π Z

R

tcos(tx) exp(−x2 2 )dx

= −tϕX(t) Also: ϕ0X(t)

ϕX(t) = −t⇒ln(ϕX(t)) =−t2 2 +C

⇒ ϕX(t) = exp(−t2

2) exp(C).

WegenϕX(0) = 1istC= 0, alsoϕX(t) = exp(−t22).

b) Y ∼ N(µ, σ2)imR1. Dann ist

Y =D σX+µ⇒Satz1.22b) ϕY(t) = exp(itµ) exp(−σ2t2

2 ) = exp(itµ−σ2t2 2 ) c) X = (X1, . . . , Xd)standardnormalverteilt imRd

⇒nach Satz1.22d) : ϕX(t) =

d

Y

k=1

exp(−t2k

2) = exp(−1 2|t|2).

d) Y = (Y1, . . . , Ym)allgemein normalverteilt,Y ∼ Nm(µ,Σ).

Dann lässt sichΣ =QQT zerlegen undY =QX +µschreiben, wobeiXstandardnormal- verteilt ist. So gilt:

ϕY(u) = exp(i < u, µ >) exp(−1

2|QTu|2) = exp(i < u, µ >) exp(−1

2 < QTu, QTu >)

= exp(i < u, µ >) exp(−1

2(QTu)TQTu) = exp(i < u, µ >) exp(−1

2uTQQTu)

= exp(i < u, µ >) exp(−1

2uTΣu) = exp(i < u, µ >−1 2uTΣu)

= exp(i < u, µ >< 1

2 < u,Σu >).

(22)

Beispiel 1.27(weitere Beispiele (ind= 1))

a) Binomialverteilung: SeiX ∼Bin(n, p), so gilt:

ϕX(t) =

n

X

k=0

exp(itk)pk(1−p)n−k n

k

=

n

X

k=0

[exp(it)p]k(1−p)n−k n

k

bin. Lehrsatz= [pexp(it) + (1−p)]n.

b) Gammaverteilung: SeiY ∼Gamma(1, r), so gilt:

ϕY(t) = Z

0

exp(ity)yr−1 Γ(r)e−ydy

= Z

0

yr−1

Γ(r)exp(−y(1−it))dy

= (1−it)−r Z

0

(−it)r

Γ(r) yr−1exp(−y(1−it))dy

= (1−it)rwegen Normierungsbedingung von “Gamma(1−it, r)”.

SeiX ∼Gamma(α, r), so giltX =D Y /α

⇒ϕX(t) = (1−it

α)−r= ( α α−it)r. c) SeiX ∼U N I[a, b](Gleichverteilung auf dem Intervall[a, b])

ϕX(t) = Z b

a

exp(itx)

(b−a) dx= [(it(b−a))−1exp(itx)]ba

= exp(itb)−exp(ita)

it(b−a) (ϕX(0) = 1) a=−b⇒ϕx(t) = exp(itb)−exp(−itb)

2itb

= cos(tb) +isin(tb)−cos(−tb)−isin(−tb) 2itb

= sin(tb) tb .

d) (Xi)i∈Nstochastisch unabhängig, identisch verteilt. SeinN eine weitere Zufallsvariable, sto-

(23)

chastisch unabhängig von denXi, mit Werten inN. Sei S :=

N

X

i=1

Xi ⇒ϕS(t) =E

exp(it

N

X

j=1

Xj)

= X

n∈N

P(N =n)ϕnX1(t) =X

n

P(N =n) exp(nlnϕX1(t))

= E[exp(NlnϕX1(t))] =E[exp(iN(−n) lnϕX1(t))]

= ϕN(−ilnϕX1(t))bei entsprechendem Konvergenzradius inC.

1.3 Konvergenzarten und Folgen von Zufallsvariablen

In diesem Kapitel betrachten wir Folgen (xn)n≥1 von (reellwertigen) Zufallsvariablen Xn : (Ω,A,P) → (R,B(R)), n ≥ 1 und beschreiben, in welchen Weisen die Folge (Xn)n≥1

gegen einen Grenzwert, alse eine Grenz-ZufallsvariableX: (Ω,A,P)→(R,B(R))konvergieren kann (fürn → ∞). DaXn, n ≥ 1 undX Funktionen sind, lassen sich (wie in der Funktional- analysis) verschiedene Konvergenzarten unterscheiden, die in der Wahrscheinlichkeitstheorie mit besonderen Begriffen gelegt werden.

Es bestehen ferner Implikationsbeziehnungen zwischen den Konvergenzarten, d.h., die “Stärke”

der Konvergenz lässt sich unterscheiden.

Definition 1.28(Konvergenzarten)

Sei(Xn)n≥1 eine Folge von Zufallsvariablen auf einem gemeinsamen Wahrscheinlichkeitsraum,

∀n ∈ N : Xn : (Ω,A,P) → (R,B(R))messbar. Ferner seiX : (Ω,A,P) → (R,B(R))eine weitere (reellwertige) Zufallsvariable auf dem gleichen Wahrscheinlichkeitsraum wie(Xn)n≥1. a) Die Folge(Xn)n≥1konvergiertP-fast sicher (mit Wahrscheinlichkeit1) gegenXfürn→ ∞:

⇔ P({ω∈Ω : lim

n→∞Xn(ω) =X(ω)}) = 1

⇔ P( lim

n→∞Xn=X) = 1 In Zeichen:XnP−f.s.→ X

b) Die Folge(Xn)n≥1 konvergiert P-stochastisch (nach Wahrscheinlichkeit) gegen X für n →

∞:⇔

∀ε >0 : lim

n→∞P(|Xn−X|> ε) = 0 In Zeichen:XnP X.

c) Die Folge(Xn)n≥1konvergiert in Verteilung (schwach) gegenXfürn→ ∞:⇔

∀x∈C(FX) : lim

n→∞FXn(x) =FX(x)

(24)

In Zeichen:XnD Xbzw.L(Xn)→ L(X).w

Beachte: Das MaßPwird für die Definition der Verteilungskonvergenz nicht benötigt. Daher können die Xn und/oderX in dieser Definition sogar auf unterschiedlichen Wahrscheinlich- keitsräumen “leben”.

Eine exaktere Definition lauter daher:

Sei(Ω0, d) ein metrischer Raum undA0 die von den offenen Kugeln in der Metrikderzeugte σ-Algebra. SeienPund(Pn)n≥1Wahrscheinlichkeitsmaße auf dem Messraum(Ω0,A0). Dann konvergiert die Folge(Pn)n≥1schwach gegenPfürn→ ∞:⇔

∀f ∈ Cb(Ω0) : lim

n→∞

Z

f dPn= Z

f dP

[Cb(Ω0)bezeichnet die Menge aller stetigen und beschränkten Abbildungenf : Ω0 →R.]

d) Seip ≥ 1 und seienX, X1, X2, . . . Elemente vonLp(Ω,A,P). Dann konvergiert die Folge (Xn)n≥1imp-ten Mittel (inLp) gegenXfürn→ ∞:⇔

n→∞lim E[|Xn−X|p] = 0 In Zeichen:XnLp X.

Spezialfälle:

p= 1: Konvergenz im Mittel

p= 2: Konvergenz im quadratischen Mittel

Aus der Diskussion in Definition 1.28c) über die Verteilungskonvergenz (schwache Konvergenz der Verteilungsgesetze) hat sich bereists ergeben, dass es unterschiedliche, äquivalente Charakte- risierungen der vier in Definition 1.28 beschriebenen Kovergenzarten gibt. Dazu nun mehr.

Satz 1.29(Alternative Charakterisierungen)

a)

XnP−f.s.→ X ⇔ P(lim inf

n→∞ (Xn−X) = lim sup

n→∞

(Xn−X) = 0) = 1

⇔ ∀ω ∈Ω\N : lim

n→∞(Xn(ω)−X(ω)) = 0, wobeiN eineP-Nullmenge bezeichnet.

Beachte:Yn:=Xn−X⇒ { lim

n→∞Yn= 0}=

\

m=1

[

k=0

\

n=k

{|Yn|< 1 m} und damit messbar!

(25)

b)

XnD X ⇔ ∀f ∈ Cb(R) :E[f(Xn] = Z

f dL(Xn) →

n→∞

Z

f dL(X) =E[f(X)]. Beweis:

zu a) ist unmittelbar klar.

zu b) macht von dem folgendem Hilfssatz Gebrauch, der Bezüge zwischen der Topologie und der Integrationstheorie auf(R,B(R))herstellt.

Er ist Teil des sogenannten “Portmanteau Theorem” und findet sich z.B. in Ash (1972) Theorem 5.4.1 d)+e)

Hilfssatz 1.30(ohne Beweis) E[f(Xn)] →

(n→∞)E[f(X)]∀f ∈ Cb(R)

⇔ lim inf

n→∞ PXn(A)≥PX(A)für alle offenen TeilmengenAvonΩ0 =R

⇔ PXn(A)→PX(A)∀A∈ B(R)mitPX(∂A) = 0 (“randlose Mengen”)

Da(−∞, x]fürx ∈ C(FX) eine randlose Menge ist, liefert die zweite Äquivalenz im Hilfsatz unmittelbar die “⇐”-Richtung der Aussage unterb).

Zum Beweis der “⇒”-Richtung zeigen wir:

n→∞lim FXn(x) =FX(x)∀x∈C(FX)⇒ ∀A⊆Roffen: lim inf

n→∞ PXn(A)≥PX(A) Sei dazuA ⊆ Roffen beliebig ausgewählt. Wir schreibenA als disjunkte Vereinigung offener IntervalleI1, I2, . . . Damit ergibt sich nach dem Lemma von Fatou

lim inf

n→∞ PXn(A) = lim inf

n→∞

X

k

PXn(Ik)≥X

k

lim inf

n→∞ PXn(Ik). (∗)

DaFX nur abzählbar viele Unstetigkeitsstellen besitzen kann, lässt sich für jede Konstanteε >0 die folgende Konstruktion durchführen:

Für jedeskseiIk0 ein rechtseitig abgeschlossenes Teilintervall vonIk, so dass (1) alle Endpunkte derIk0 inC(FX)enthalten sind und

(2) ∀k:PX(Ik0)≥PX(Ik)−ε2−k. DaXnD X, gilt nun

lim inf

n→∞ PXn(Ik)≥lim inf

n→∞ PXn(Ik0) =PX(Ik0).

Folglich gilt für(∗):

lim inf

n→ PXn(A)≥X

k

PX(Ik0)≥ P

kPX(Ik)−ε=PX(A)−ε.

Daεbeliebig klein gewählt werden kann, ist hiermit alles gezeigt.

(26)

Satz 1.31(Levy’scher Stetigkeitssatz)

Es sei(Xn)n≥1 eine Folge von Zufallsvariablen mit zugehörigen charakteristischen Funktionen (ϕn)n≥1.

a) Falls(Xn)gegen eine ZufallsvariableXin Verteilung konvergiert, dann konvergiert(ϕn)ge- gen die charakteristische Funktion vonX, und zwar gleichmäßig auf jedem endlichen Intervall.

b) Falls(ϕn)punktweise gegen eine Funktionϕkonvergiert, deren Realteil im Punkte(0,1)stetig ist, dann gilt:

(i) ϕist eine charakteristische Funktion, und damit existiert (genau) eine Wahrscheinlich- keitsverteilungµ, deren charakteristische Funktion geradeϕist.

(ii) L(Xn)→w µfürn→ ∞.

Beweis: Satz 15.23 in Klenke (2008)

Anmerkung: Analoge Stetigkeitsätze gelten auch für erzeugende Funktionen und Laplace- Transformierte.

Satz 1.32(Implikationsbeziehungen zwischen Konvergenzarten)

Es sei(Xn)n≥1eine Folge von Zufallsvariablen auf dem Wahrscheinlichkeitsraum(Ω,A,P). Fer- ner seip≥1eine reelle Konstante.

(a) XnP−f.s.→ X ⇒ XnP X

(b) Xn P−f.s.→ X impliziertX ∈Lp(Ω,A,P)sowieXnLp Xgenau dann, wennH:= {|Xn|p : n≥1}gleichgradig integrierbar ist, d.h., fallslimc→∞supf∈HR

{|f|≥c}|f|dP= 0 (c) XnLp ⇒ XnLq X∀1≤q≤p

(d) XnLpX ⇒ XnP X (e) XnP X ⇒ XnD X

(f) Es ergibt sich die folgende Grafik:

Abbildung 1.2: Zusammenhang von Konvergenzarten

(27)

Beweis:

zu a) ist offensichtlich

zu b) vgl. Abschnitt 6.2 in Klenke (2008)

zu c) Die FunktionG, definiert durchg(t) :=tpq ist konvex aufR≥0 3t. Nach der Jensen’schen Ungleichung (vgl. Aufgabe 2, Blatt 1) gilt daher

E[|Xn−X|p] =E

h|Xn−X|qpqi

≥(E[|Xn−X|q])

p q

und daher

(E[|Xn−X|p])1p ≥(E[|Xn−X|q])1q∀n∈N.

zu d) Wir wenden die Markov-Ungleichung (vgl. Aufgabe 10a, Blatt 3) aufYn:=|Xn−X|mit h(t) :=tpan und erhalten fürε >0:

P(|Xn−X|> ε)≤ε−pE[|Xn−X|p].

zu e) Seif eine gleichmäßig stetige beschränkte Funktion aufRundε >0beliebig vorgegeben.

Dann gibt es einδ >0mit der Eigenschaft:

|x−y| ≤δ⇒ |f(x)−f(y)|< ε;x, y∈R. Wir rechnen:

| Z

f(Xn)dP − Z

f(X)dP| ≤ Z

|f(Xn)−f(X)|dP

= Z

{|Xn−X|≤δ}

|f(Xn)−f(X)|dP+ Z

{|Xn−X|>δ}

|f(Xn)−f(X)|dP

≤ εP(|Xn−X| ≤δ) + 2 sup

x∈R

|f(X)| ·P(|Xn−X|> δ)

Also gilt wegenXnP X, dass lim sup

n→∞

| Z

f(Xn)dP− Z

f(X)dP| ≤ε und damit

Z

f(Xn)dP −→

n→∞

Z

f(X)dP, daεbeliebig gewählt wurde. Da aber

Z

f(Xn)dP −→

n→∞

Z

f(X)dP ⇐⇒

(Transformationssatz)

Z

f dPXn −→

n→∞

Z f dPX ist hiermit alles gezeigt.

(28)

Bemerkung 1.33

Die Implikationen aus Satz 1.32 sind im allgemeinen strikt, d.h., die Umkehrungen gelten allge- mein nicht (vgl. dazu Übungsaufgaben 11 und 13). Ein Beispiel fürXn

D X, aberXn P

9 Xist gegeben durchXn(ω) = 1[0,1

2](ω), n≥1undX(ω) = 1(1

2,1](ω)auf([0,1],B([0,1]), U N I[0,1]).

In dem Spezialfall, dassX≡xoP-fast sicher konstant ist, gilt jedoch:

XnP x0 ⇔Xn

D X =x0

Beweis: siehe Bauer (1991) Beweis von Satz 5.1

Ein für die mathematische Statistik ungemein wichtiger Satz beschließe den technischen Teil die- ses Paragraphen.

Satz 1.34(Satz von Cramér-Slutsky (Slutzky))

Seien (Xn)n≥1 und (Yn)n≥1 zwei Folgen von Zufallsvariablen auf einem gemeinsamen Wahr- scheinlichkeitsraum (Ω,A,P) mit Werten in (R,B(R)). Sei X : (Ω,A,P) → (R,B(R)) eine weitere Zufallsvariable.

a) XnD X∧ |Xn−Yn|→P 0⇒YnD X b) Seic∈R.XnD X∧YnD c⇒

((i) Xn+YnD X+c (ii) XnYnD cX

)

Beweis:

zu a) Seif ∈ Cb(R)mit Lipschitz-KonstanteK. Dann ist

|f(x)−f(y)| ≤K|x−y| ∧2 sup

u∈R

|f(u)|∀x, y∈R Der Satz von der majorisierten Konvergenz liefert:

lim sup

n→∞ E[|f(Xn)−f(Yn)|] = 0 Also ergibt sich:

lim sup n→∞|E[f(Yn)]−E[f(X)]|

≤ lim sup

n→∞

|E[f(X)]−E[f(Xn)]|+ lim sup

n→∞

|E[f(Xn)−f(Yn)]|

= 0

zu b) (i) Definiere Zn := Xn + c und Z˜n := Xn + Yn. Dann gilt ZnD X +c und

|Zn−Z˜n|→P 0. Also kann a) angewendet werden.

(29)

(ii) Theorem 2.3.3 in Lehmann (1999); Beweis in Bickel and Doksum (1977) bzw. Cramér (1946).

“Stillschweigend” benutzen wir dabei den folgenden Satz.

Satz 1.35(Continous Mapping Theorem)

h:R→Rmessbar und stetig⇒[XnD X⇒h(Xn)→D h(X)].

Wir kommen nun zu Anwendungen der Konvergenztheorie für Folgen von Zufallsvariablen.

Satz 1.36(Kolmogoroffsches0−1Gesetz)

Sei(Xn)n∈Neine Folge stochastisch unabhängiger Zufallsvariablen auf einem gemeinsamen Wahr- scheinlichkeitsraum(Ω,A,P)mit beliebigen Wertebereichen. Dann gilt für jedes terminale (bzw.

asymptotische) Ereignis, d.h., für jedes EreignisA∈T

n=1σ({Xm}:m > n)entwederP(A) = 0oderP(A) = 1.

Beweis: Sei (Ω0k,A0k) der Wertebereich von Xk, k ∈ N und seien n ∈ N und CK ∈ A0k, k= 1, . . . , nbeliebig ausgewählt. DefiniereC:={X1 ∈C1, . . . , Xn∈Cn}. Dann ist

1{(Xk)k≥1∈C} =

n

Y

k=1

1Ck(Xk) stochastisch unabhängig von 1A.

Ferner erzeugt das System aller Mengen C die Produkt-σ-Algebra N

k≥1A0k und deswegen ist (Xk)k≥1 ⊥ 1A. Insbesondere istAals Element vonT

n≥1σ({Xm}:m > n)damit stochastisch unabhängig vonA={1A= 1}, d.h.P(A∩A) =P(A)P(A)⇒P(A) = [P(A)]2. Die Gleichung

x=x2hat aber nur die Lösungen0und1.

Korollar 1.37

Es sei(Xn)n≥1 eine Folge stochastisch unabhängiger, reellwertiger Zufallsvariablen auf einem gemeinsamen Wahrscheinlichkeitsraum(Ω,A,P). Dann sind lim infn→∞Xn, lim supn→∞Xn, sowie die Cesàro-Limitenlim infn→∞n−1Pn

i=1Xi undlim supn→∞n−1Pn

i=1Xiallesamt P-fast sicher konstant.

Beweis: Korollar 2.39 in Klenke (2008).

Satz 1.38(Lemma von Borel-Cantelli)

Sei(Ak)k≥1eine Folge von Ereignissen in einem gemeinsamen Wahrscheinlichkeitsraum(Ω,A,P) undA:= lim supk→∞Ak={ω∈Ω :ω∈Akfür unendlich vielek}.

(a) IstP

k≥1P(Ak)<∞, so istP(A) = 0.

(b) IstP

k≥1P(Ak) =∞und sind alle(Ak)k≥1stochastisch unabhängig, so istP(A) = 1.

(30)

Beweis:

zu (a): Es ist

A⊆ [

k≥m

Akund daherP(A)≤ X

k≥m

P(Ak)∀m∈N Falls

X

k≥1

P(Ak)<∞ ⇒ lim

m→∞

X

k≥m

P(Ak) = 0⇒P(A) = 0 zu (b):

AC = [

m≥1

\

k≥m

ACk

P(AC) ≤ X

m≥1

P( \

k≥m

ACk) = X

m≥1

n→∞lim P(

n

\

k=m

ACk)

stoch. Unabh.

= X

m≥1 n→∞lim

n

Y

k=m

(1−P(Ak))

1−x≤exp(−x)∀x∈[0,1]

≤ X

m≥1

n→∞lim exp(−

n

X

k=m

P(Ak))

= X

m≥1

0 = 0.

Eine zentrale Fragestellung in der (mathematischen) Statistik lautet: ”Unter welchen Vorausset- zungen konzentriert sich der arithmetische Mittelwert (das empirische Mittel) einer Folge(Xn)n≥1

von Zufallsvariablen “hinreichend gut” um die theoretischen MittelwerteE[Xn]fürn→ ∞? “.

Die Beantwortung dieser Frage ist zentral zur Beurteilung der Qualität von Schätz- und Test- verfahren. Das einfachste Beispiel ist vermutlich ein Bernoullisches Versuchsschema. Kann die Trefferwahrscheinlichkeitpaus einer ”langen“ Messreihe ”gut“ inferiert werden?

Wahrscheinlichkeitstheoretisch wird dieser Problemkreis mit den Gesetzen der großen Zahlen be- arbeitet.

Satz 1.39(Gesetze der großen Zahlen)

Es sei(Xn)n≥1eine Folge von integrierbaren, reellwertigen Zufallsvariablen auf einem gemein- samen Wahrscheinlichkeitsraum(Ω,A,P). Sei

Sn:=

n

X

i=1

(Xi−E[Xi]).

Wir sagen, dass(Xn)n≥1dem schwachen bzw. starken Gesetz der großen Zahlen genügt, falls n−1Sn−→P 0bzw.n−1SnP−→−f.s.0.

(31)

(a) (Xn)genügt dem schwachen Gesetz der großen Zahlen, falls die(Xn)n∈Npaarweise unkor- reliert sind und

n→∞lim n−2

n

X

i=1

Var(Xi) = 0 gilt.

(b) (Xn)genügt dem starken Gesetz der großen Zahlen, falls die(Xn)n∈Nidentisch verteilt und paarweise stochastisch unabhängig sind.

Beweis:

zu (a): Offenbar gilt ∀n ∈ N : Xn ∈ L2(Ω,A,P). Ferner ist E[Sn] = 0 und Var(Sn) = Pn

i=1Var(Xi)(nach Bienaymé) für allen∈N.

Also ist Var n−1Sn

=n−2Pn

i=1Var(Xi) =:σn2. Nach Tschebyscheffscher Ungleichung folgt:

∀ε >0 :P(|n−1Sn| ≥ε)≤ε−2σn2 Die Bedingungσ2n −→

n→∞0impliziert dieP-stochastische Konvergenz vonn−1Sn.

zu (b): Etemadi (1981) benutzt das Lemma von Borel Cantelli 1.38, den Satz von der monotonen Konvergenz und eine Abschneidetechnik die ähnlich auch beim Zentralen Grenzwertsatz in der Version von Lindeberg/Feller (siehe unten) gebraucht wird.

Satz 1.40(Zentraler Grenzwertsatz)

Sei(Xn)n≥1eine Folge (reellwertiger) stochastisch unabhängiger Zufallsvariablen inL2(Ω,A,P).

o.B.d.A. seiE[Xk] = 0∀k∈N. Es seiσ2k:=Var(Xk) =E

Xk2

>0∀k∈N. SeiSn:=Pn j=1Xj. Beachte: Var(Sn) =Pn

k=1σk2.

Wir sagen, dass für die Folge(Xn)n≥1 ein Zentraler Grenzwertsatz gilt, falls L( Sn

pVar(Sn)) −→w

n→∞N(0,1).

Die folgenden drei Bedingungen sind jeweils hinreichend dafür, dass ein Zentraler Grenzwertsatz für(Xn)n≥1gilt:

(i) AlleXk, k∈Nhaben dieselbe Verteilung (ii) Ljapunov-Bedingung:

∃ δ >0 :αk:=E

h|Xk2+δ|i

<∞∀k∈Nund

n

X

i=1

αi =o((Var(Sn))2+δ2 )

⇔ lim

n→∞(Var(Sn))2+δ2

n

X

j=1

E

h|Xj|2+δi

= 0

(32)

(iii) Lindeberg-Bedingung:

∀ε >0 : [Var(Sn)]−1

n

X

j=1

Z

{|y|≥ε

Var(Sn)}

y2Fj(dy) −→

(n→∞)0, wobei Fj(x) =P(Xj ≤x), j ∈N.

Bemerkung 1.41

a) (i)⇒(ii)⇒(iii)

b) Die Lindeberg-Bedingung stellt sicher, dass die individuellen Varianzen derXkklein sind im Vergleich zu ihrer Summe, denn (iii)impliziert, dass für gegebenesδ > 0einN(δ)existiert mit der Eigenschaft

∀n > N(δ) : σk

pVar(Sn) < δ∀k= 1, . . . , n.

c) (i) ⇒ (iii) ist leicht einzusehen. Ist(Xn)n≥1 iid. verteilt, so ist Var(Sn) = nσ2 (mitσ2 = Var(X1)und die linke Seite der Lindeberg-Bedingung wird zuσ−2R

{|y|≥ε

nσ}y2F(dy) (mitF(X) =P(X1 ≤x)).

DaX1 ∈L2(Ω,A,P)ist und der Integrationsweg fürn→ ∞verschwindet, folgt die Gültig- keit der Lindeberg-Bedingung.

Beweis von Satz 1.40.

Beweis unter (i):

Seiϕdie charakteristische Funktion von Xσ1. Wir müssen zeigen, dass L(

n

X

j=1

Xj/(√

nσ)) −→w

n→∞N(0,1).

Für fixesnist die charakteristische Funktion vonPn

j=1Xj/(√

nσ)gegeben durcht7→ϕn(tn).

Es bleibt nach Levy’schem Stetigkeitssatz (Satz 1.31) zu zeigen:

n→∞lim ϕn( t

√n)→exp(−t2

2)punktweise∀t∈R.

DaX1 ∈L2(Ω,A,P), istϕnach Satz 1.25 zweimal stetig differenzierbar und daE[X1] = 0 =

d

dtϕ(t)|t=0undE (Xσ1)2

= 1 =−dtd22ϕ(t)|t=0, gilt die Taylorentwicklung um0:

ϕ( t

√n) = 1 + 0− t2

2n+o(n−1).

Damit ist lim

n→∞ϕn( t

√n) = lim

n→∞(1− t2 2n)n

= exp(−t2

2), da ∀x∈R: lim

n→∞(1 + x

n)n= exp(x).

Abbildung

Abbildung 1.1: Skizze zur Veranschaulichung der bedingten Erwartung
Abbildung 1.2: Zusammenhang von Konvergenzarten
Tabelle 4.1: Entscheidungsstruktur eines statistischen Hypothesentests

Referenzen

ÄHNLICHE DOKUMENTE

In einem Kollektivversicherungsvertrag bezeichne Y i die i-te Schadenshöhe und N die Anzahl

Der kleine Fritz (Name aus Datenschutzgr¨ unden ge¨ andert) will wissen, wie viele Lose sich in der Trommel befinden und entnimmt in einem unbe- obachteten Augenblick ein Los,

(c) W¨ are es f¨ ur Fabian besser, wenn derjenige das Duell gewinnt, der das erste Spiel gewinnt. (d) Wie groß ist die Wahrscheinlichkeit, dass das Duell

Beweisen oder widerlegen Sie diese Aussage ohne die Voraussetzung an die Stetigkeit von F.

(c) W¨ are es f¨ ur Fabian besser, wenn derjenige das Duell gewinnt, der das erste Spiel gewinnt?. (d) Wie groß ist die Wahrscheinlichkeit, dass das Duell

a) Ermitteln Sie rechnerisch die beiden Funktionsgleichungen. b) Berechnen Sie den Schnittpunkt A der beiden Geraden und geben Sie seine Koordinaten an. c) Zeichnen Sie beide Graphen

Ein Konfidenzintervall ist eine Vorschrift, die einer Stichprobe x ein Intervall I(x) so zuordnet, dass für jeden möglichen Wert θ des zu schätzenden Parameters. gilt.. in 95%

Bestimmen Sie f¨ ur diese Woche jeweils die Wahrschein- lichkeit, dass mindestens 4$ aber nicht mehr als 6$ f¨ ur Kaffetrinken ausgegeben wird.