8.1 Gesetze zum Rechnen mit Ereignissen

(1)

8. Formelsammlung

8.1 Gesetze zum Rechnen mit Ereignissen

Im Folgenden seien A und B, sowie A

1

, . . . , A

n

Ereignisse. Die Notation A ] B steht f¨ ur A ∪ B und zugleich A ∩ B = ∅ (disjunkte Vereinigung). A

1

] . . . ] A

n

= Ω bedeutet also, dass die Ereignisse A

1

, . . . , A

n

eine Partition der Ergebnismenge Ω bilden.

Pr[∅] = 0 0 ≤ Pr[A] ≤ 1 Pr[ ¯ A] = 1 − Pr[A]

A ⊆ B = ⇒ Pr[A] ≤ Pr[B]

DWT 8.1 Gesetze zum Rechnen mit Ereignissen 203/467

©Ernst W. Mayr

(2)

∀i 6= j : A

_i

∩ A

_j

= ∅ = ⇒ Pr [ S

n

i=1

A

_i

] = P

n

i=1

Pr[A

_i

] Additionssatz Pr[A ∪ B] = Pr[A] + Pr[B] − Pr[A ∩ B]

allgemeine Form: siehe Satz 9

Inklusion/Exklusion, Siebformel

Pr [ S

n

i=1

A

i

] ≤ P

n

i=1

Pr[A

i

] Boolesche

Ungleichung Pr[A|B ] =

^Pr[A∩B]_Pr[B]

f¨ ur Pr[B ] > 0 Def. bedingte Ws.

©Ernst W. Mayr

(3)

B ⊆ A

₁

] . . . ] A

_n

= ⇒ Pr[B] = P

n

i=1

Pr[B|A

i

] · Pr[A

i

]

Satz von der totalen Wahrscheinlichkeit Pr[B] > 0, B ⊆ A

1

] . . . ] A

n

= ⇒

Pr[A

_i

|B ] =

^Pn^Pr[B|Aⁱ^]·Pr[Aⁱ^] i=1Pr[B|Ai]·Pr[Ai]

Satz von Bayes

Pr[A

1

∩ . . . ∩ A

n

] = Pr[A

1

] · Pr[A

2

|A

1

] ·

. . . · Pr[A

n

|A

1

∩ . . . ∩ A

n−1

] Multiplikationssatz A und B unabh¨ angig ⇐⇒

Pr[A ∩ B] = Pr[A] · Pr[B ]

Definition Unabh¨ angigkeit

©Ernst W. Mayr

(4)

8.2 Erwartungswert und Varianz diskreter Zufallsvariablen

Sei X eine diskrete Zufallsvariable. F¨ ur Erwartungswert und Varianz gelten die folgenden Formeln (sofern E[X ] und Var[X ] existieren).

E[X ] = X

x∈W_X

x · Pr[X = x]

= X

ω∈Ω

X(ω) · Pr[ω]

=

∞

X

i=1

Pr[X ≥ i], falls W

X

⊆ N

0

Erwartungswert

Var[X] = E [(X − E [X])

²

]

= P

x∈WX

Pr[X = x] · (x − E[X ])

²

Varianz

DWT 8.2 Erwartungswert und Varianz diskreter Zufallsvariablen 206/467

©Ernst W. Mayr

(5)

8.3 Gesetze zum Rechnen mit Zufallsvariablen Seien a, b, a

1

, . . . , a

n

∈ R, f

1

, . . . , f

n

: R → R.

X

1

, . . . , X

n

unabh¨ angig ⇐⇒ f¨ ur alle (a

1

, . . . , a

n

):

Pr[X

₁

= a

₁

, . . . , X

_n

= a

_n

]

= Pr[X

1

= a

1

] · . . . · Pr[X

n

= a

n

] X

1

, . . . , X

n

unabh¨ angig = ⇒ f

1

(X

1

), . . . , f

n

(X

n

) unabh¨ angig

E [a · X + b] = a · E [X] + b

DWT 8.3 Gesetze zum Rechnen mit Zufallsvariablen 207/467

©Ernst W. Mayr

(6)

X(ω) ≤ Y (ω) f¨ ur alle ω ∈ Ω = ⇒ E [X] ≤ E [Y ]

Monotonie des Erwartungswerts E [X] = P

n

i=1

E [X|A

i

] · Pr[A

i

] Var[X] = E[X

²

] − E[X]

²

Var[a · X + b] = a

²

· Var[X]

©Ernst W. Mayr

(7)

E[a

1

X

1

+ . . . + a

n

X

n

]

= a

1

E [X

1

] + . . . + a

n

E [X

n

]

Linearit¨ at des Erwartungswerts X

1

, . . . , X

n

unabh¨ angig = ⇒

E [X

1

· . . . · X

n

] = E [X

1

] · . . . · E [X

n

]

Multiplikativit¨ at des Erwartungswerts X

₁

, . . . , X

_n

unabh¨ angig = ⇒

Var[X

1

+ . . . + X

n

] = Var[X

1

] + . . . + Var[X

_n

]

Varianz einer Summe

©Ernst W. Mayr

(8)

X ≥ 0 = ⇒

Pr[X ≥ t] ≤ E [X]/t f¨ ur t > 0 Markov Pr[|X − E [X]| ≥ t]

≤ Var[X]/t

²

f¨ ur t > 0 Chebyshev

siehe Satz 63 Gesetz der

großen Zahlen

©Ernst W. Mayr

(9)

Kapitel II Kontinuierliche Wahrschein- lichkeitsr¨ aume

1. Einf¨ uhrung

1.1 Motivation

Interpretation der Poisson-Verteilung als Grenzwert der Binomialverteilung.

DWT 1.1 Motivation 211/467

©Ernst W. Mayr

(10)

Beispiel 85

Wir betrachten das Szenario: Bei einem Druckerserver kommen Auftr¨ age in einer Warteschlange an, die alle 1/n Zeiteinheiten vom Server abgefragt wird. Der Server nimmt also zu den diskreten Zeitpunkte 1/n, 2/n, 3/n, . . . neue Auftr¨ age entgegen. Durch den Grenzwert n → ∞

” verschmelzen“ diese diskreten Zeitpunkte zu einer kontinuierlichen Zeitachse, und f¨ ur die Zufallsvariable T , welche die Zeitspanne bis zum Eintreffen des n¨ achsten Auftrags misst, reicht eine diskrete Wertemenge W

_T

nicht mehr aus.

DWT 1.1 Motivation 212/467

©Ernst W. Mayr

(11)

1.2 Kontinuierliche Zufallsvariablen Definition 86

Eine kontinuierliche oder auch stetige Zufallsvariable X und ihr zugrunde liegender kontinuierlicher (reeller)

Wahrscheinlichkeitsraum sind definiert durch eine integrierbare Dichte(-funktion) f

X

: R → R

⁺₀

mit der Eigenschaft

Z

+∞

−∞

f

X

(x) d x = 1.

Eine Menge A ⊆ R , die durch Vereinigung A = S

k

I

k

abz¨ ahlbar vieler paarweise disjunkter Intervalle beliebiger Art (offen,

geschlossen, halboffen, einseitig unendlich) gebildet werden kann, heißt Ereignis. Ein Ereignis A tritt ein, wenn X einen Wert aus A annimmt. Die Wahrscheinlichkeit von A ist bestimmt durch

Pr[A] = Z

A

f

_X

(x) d x = X

k

Z

Ik

f

_X

(x) d x.

DWT 1.2 Kontinuierliche Zufallsvariablen 213/467

©Ernst W. Mayr

(12)

Beispiel 87 (Gleichverteilung)

Eine besonders einfache kontinuierliche Dichte stellt die

Gleichverteilung auf dem Intervall [a, b] dar. Sie ist definiert durch f(x) =

(

₁

b−a

f¨ ur x ∈ [a, b], 0 sonst.

Analog zum diskreten Fall ordnen wir jeder Dichte f

X

eine Verteilung oder Verteilungsfunktion F

_X

zu:

F

X

(x) := Pr[X ≤ x] = Pr[{t ∈ R | t ≤ x}] = Z

x

−∞

f

X

(t) d t.

©Ernst W. Mayr

(13)

Beispiel 88

Die Verteilungsfunktion der Gleichverteilung:

F (x) = Z

x

−∞

f (t) d t =



 

 

0 f¨ ur x < a,

x−a

b−a

f¨ ur a ≤ x ≤ b, 1 f¨ ur x > b.

©Ernst W. Mayr

(14)

-0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4

-0,5 0,0 0,5 1,0 1,5

f(x)

-0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4

-0,5 0,0 0,5 1,0 1,5

F(x)

Gleichverteilung ¨ uber dem Intervall [0, 1]

©Ernst W. Mayr

(15)

Beobachtungen:(Eigenschaften der Verteilungsfunktion) F

X

ist monoton steigend.

F

X

ist stetig. Man spricht daher auch von einer

” stetigen Zufallsvariablen“.

Es gilt: lim

x→−∞

F

X

(x) = 0 und lim

x→∞

F

X

(x) = 1.

Jeder (außer an endlich vielen Punkten) differenzierbaren Funktion F , welche die zuvor genannten Eigenschaften erf¨ ullt, k¨ onnen wir eine Dichte f durch f (x) = F

⁰

(x) zuordnen.

Es gilt

Pr[a < X ≤ b] = F

X

(b) − F

X

(a) .

©Ernst W. Mayr

(16)

Bei den von uns betrachteten Dichten besteht zwischen den Ereignissen

” a < X ≤ b“,

” a ≤ X ≤ b“,

” a ≤ X < b“ und

” a < X < b“ kein wesentlicher Unterschied, da Z

[a,b]

f (t) d t = Z

]a,b]

f (t) d t = Z

[a,b[

f (t) d t = Z

]a,b[

f (t) d t.

©Ernst W. Mayr

(17)

1.3 Kolmogorov-Axiome und σ-Algebren 1.3.1 σ-Algebren

Definition 89

Sei Ω eine Menge. Eine Menge A ⊆ P (Ω) heißt σ-Algebra ¨ uber Ω, wenn folgende Eigenschaften erf¨ ullt sind:

(E1) Ω ∈ A.

(E2) Wenn A ∈ A, dann folgt A ¯ ∈ A.

(E3) F¨ ur n ∈ N sei A

n

∈ A. Dann gilt auch S

∞

n=1

A

n

∈ A.

DWT 1.3 Kolmogorov-Axiome undσ-Algebren 219/467

©Ernst W. Mayr

(18)

F¨ ur jede (endliche) Menge Ω stellt die Menge P(Ω) eine σ-Algebra dar.

F¨ ur Ω = R ist die Klasse der Borel’schen Mengen, die aus allen Mengen A ⊆ R besteht, welche sich durch (abz¨ ahlbare)

Vereinigungen und Schnitte von Intervallen (offen, halboffen oder geschlossen) darstellen lassen, eine σ-Algebra.

©Ernst W. Mayr

(19)

1.3.2 Kolmogorov-Axiome

Definition 90 (Wahrscheinlichkeitsraum, Kolmogorov-Axiome) Sei Ω eine beliebige Menge und A eine σ-Algebra ¨ uber Ω. Eine Abbildung

Pr[.] : A → [0, 1]

heißt Wahrscheinlichkeitsmaß auf A, wenn sie folgende Eigenschaften besitzt:

1

(W1) Pr[Ω] = 1.

2

(W2) A

1

, A

2

, . . . seien paarweise disjunkte Ereignisse. Dann gilt

Pr

"

_∞

[

i=1

A

i

#

=

∞

X

i=1

Pr[A

i

].

F¨ ur ein Ereignis A ∈ A heißt Pr[A] Wahrscheinlichkeit von A. Ein Wahrscheinlichkeitsraum ist definiert durch das Tupel (Ω, A, Pr).

©Ernst W. Mayr

(20)

Die in obiger Definition aufgelisteten Eigenschaften eines Wahrscheinlichkeitsmaßes wurden von dem russischen Mathematiker Andrei Nikolaevich Kolmogorov (1903–1987) formuliert. Kolmogorov gilt als einer der Pioniere der modernen Wahrscheinlichkeitstheorie, leistete jedoch auch bedeutende Beitr¨ age zu zahlreichen anderen Teilgebieten der Mathematik.

Informatikern begegnet sein Name auch im Zusammenhang mit der so genannten Kolmogorov-Komplexit¨ at, einem relativ jungen Zweig der Komplexit¨ atstheorie.

Die Eigenschaften in obiger Definition nennt man auch Kolmogorov-Axiome.

©Ernst W. Mayr

(21)

Lemma 91

Sei (Ω, A, Pr) ein Wahrscheinlichkeitsraum. F¨ ur Ereignisse A, B, A

1

, A

2

, . . . gilt

1

Pr[∅] = 0, Pr[Ω] = 1.

2

0 ≤ Pr[A] ≤ 1.

3

Pr[ ¯ A] = 1 − Pr[A].

4

Wenn A ⊆ B, so folgt Pr[A] ≤ Pr[B].

DWT 223/467

©Ernst W. Mayr

(22)

Lemma 91

5

(Additionssatz) Wenn die Ereignisse A

₁

, . . . , A

_n

paarweise disjunkt sind, so folgt

Pr

"

_n

[

i=1

A

i

#

=

n

X

i=1

Pr[A

i

].

F¨ ur disjunkte Ereignisse A, B erhalten wir insbesondere

Pr[A ∪ B ] = Pr[A] + Pr[B].

F¨ ur eine unendliche Menge von paarweise disjunkten Ereignissen A

1

, A

2

, . . . gilt analog

Pr [ S

∞

i=1

A

_i

] = P

∞

i=1

Pr[A

_i

].

©Ernst W. Mayr

(23)

Beweis:

Wenn wir in Eigenschaft (W2) A

1

= Ω und A

2

, A

3

, . . . = ∅ setzen, so ergibt die Eigenschaft, dass Pr[Ω] + P

∞

i=2

Pr[∅] = Pr[Ω].

Daraus folgt Pr[∅] = 0.

Regel 2 und Regel 5 gelten direkt nach Definition der Kolmogorov-Axiome und Regel 1.

Regel 3 erhalten wir mit Regel 5 wegen 1 = Pr[Ω] = Pr[A] + Pr[ ¯ A].

F¨ ur Regel 4 betrachten wir die disjunkten Ereignisse A und C := B \ A, f¨ ur die gilt, dass A ∪ B = A ∪ C. Mit Regel 5 folgt die Behauptung.

©Ernst W. Mayr

(24)

1.3.3 Lebesgue-Integrale

Eine Funktion f : R → R heißt messbar, falls das Urbild jeder Borel’schen Menge ebenfalls eine Borel’sche Menge ist.

Z.B. ist f¨ ur jede Borel’sche Menge A die Indikatorfunktion I

_A

: x 7→

( 1 falls x ∈ A, 0 sonst

messbar. Jede stetige Funktion ist messbar. Auch Summen und Produkte von messbaren Funktionen sind wiederum messbar.

Jeder messbaren Funktion kann man ein Integral, das so genannte Lebesgue-Integral, geschrieben R

f d λ, zuordnen.

©Ernst W. Mayr

(25)

Ist f : R → R

⁺₀

eine messbare Funktion, so definiert Pr : A 7→ R

f · I

A

d λ

eine Abbildung auf den Borel’schen Mengen, die die Eigenschaft (W2) der Kolmogorov-Axiome erf¨ ullt. Gilt daher zus¨ atzlich noch Pr[ R ] = 1, so definiert f auf nat¨ urliche Weise einen

Wahrscheinlichkeitsraum (Ω, A, Pr), wobei Ω = R und A die Menge der Borel’schen Mengen ist.

©Ernst W. Mayr

(26)

1.4 Rechnen mit kontinuierlichen Zufallsvariablen 1.4.1 Funktionen kontinuierlicher Zufallsvariablen Sei Y := g(X) mit einer Funktion g : R → R.

Die Verteilung von Y erhalten wir durch F

_Y

(y) = Pr[Y ≤ y] = Pr[g(X) ≤ y] =

Z

C

f

_X

(t) d t.

Hierbei bezeichnet C := {t ∈ R | g(t) ≤ y} alle reellen Zahlen t ∈ R, f¨ ur welche die Bedingung

” Y ≤ y“ zutrifft. Das Integral

¨ uber C ist nur dann sinnvoll definiert, wenn C ein zul¨ assiges Ereignis darstellt. Aus der Verteilung F

_Y

k¨ onnen wir durch Differenzieren die Dichte f

Y

ermitteln.

DWT 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 227/467

©Ernst W. Mayr

(27)

Beispiel 92

Sei X gleichverteilt auf dem Intervall ]0, 1[. F¨ ur eine Konstante λ > 0 definieren wir die Zufallsvariable Y := −(1/λ) ln X.

F

_Y

(y) = Pr[−(1/λ) ln X ≤ y] = Pr[ln X ≥ −λy]

= Pr[X ≥ e

^−λy

]

= 1 − F

X

(e

^−λy

)

=

( 1 − e

^−λy

f¨ ur y ≥ 0,

0 sonst.

©Ernst W. Mayr

(28)

Beispiel (Forts.)

Damit folgt mit f

_Y

(y) = F

_Y⁰

(y) sofort f

_Y

(y) =

( λe

^−λy

f¨ ur y ≥ 0,

0 sonst.

Eine Zufallsvariable mit einer solchen Dichte f

_Y

nennt man exponentialverteilt.

©Ernst W. Mayr

(29)

Beispiel 93

Sei X eine beliebige Zufallsvariable. F¨ ur a, b ∈ R mit a > 0 definieren wir die Zufallsvariable Y := a · X + b.

Es gilt

F

Y

(y) = Pr[aX + b ≤ y] = Pr

X ≤ y − b a

= F

X

y − b a

,

und somit

f

_Y

(y) = d F

_Y

(y)

d y = d F

_X

((y − b)/a)

d y = f

_X

y − b a

· 1 a .

©Ernst W. Mayr

(30)

Simulation von Zufallsvariablen

Unter der Simulation einer Zufallsvariablen X mit Dichte f

X

versteht man die algorithmische Erzeugung von Zufallswerten, deren Verteilung der Verteilung von X entspricht.

Dazu nehmen wir an, dass die zu simulierende Zufallsvariable X eine stetige, im Bildbereich ]0, 1[ streng monoton wachsende Verteilungsfunktion F

_X

besitzt. Weiter nehmen wir an, dass U eine auf ]0, 1[ gleichverteilte Zufallsvariable ist, die wir simulieren k¨ onnen.

Aus unserer Annahme ¨ uber F

_X

folgt, dass es zu F

_X

eine

(eindeutige) inverse Funktion F

_X⁻¹

gibt mit F

X

(F

_X⁻¹

(x)) = x f¨ ur alle x ∈]0, 1[.

©Ernst W. Mayr

(31)

Sei nun

X ˜ := F

_X⁻¹

(U) , dann gilt

Pr[ ˜ X ≤ t] = Pr[F

_X⁻¹

(U ) ≤ t]

= Pr[U ≤ F

X

(t)]

= F

_U

(F

_X

(t))

= F

_X

(t) .

©Ernst W. Mayr

(32)

Beispiel 94

Im obigen Beispiel der Exponentialverteilung gilt F

_X

(t) = 1 − e

^−t

f¨ ur t ≥ 0, und wir erhalten auf ]0, 1[ die Umkehrfunktion

F

_X⁻¹

(t) = − ln(1 − t). Also gilt X ˜ = F

_X⁻¹

(U ) = − ln(1 − U ).

Statt X ˜ haben wir im Beispiel die Zufallsvariable − ln U betrachtet, die aber offensichtlich dieselbe Verteilung besitzt.

©Ernst W. Mayr