Wahrscheinlichkeit und relative H¨ aufigkeit.
Sei X eine Indikatorvariable f¨ ur ein Ereignis A, Pr[A] = p. Somit ist X Bernoulli-verteilt mit E [X] = p.
Z = n 1 (X 1 + . . . + X n ) gibt die relative H¨ aufigkeit an, mit der A bei n Wiederholungen des Versuchs eintritt, denn
Z = Anzahl der Versuche, bei denen A eingetreten ist Anzahl aller Versuche . Mit Hilfe des obigen Gesetzes der großen Zahlen folgt
Pr[|Z − p| ≥ δ] ≤ ε,
f¨ ur gen¨ ugend großes n. Also n¨ ahert sich die relative H¨ aufigkeit von A bei hinreichend vielen Wiederholungen des Experiments mit beliebiger Sicherheit beliebig nahe an die
” wahre“
Wahrscheinlichkeit p an.
Die obige Variante eines Gesetzes der großen Zahlen geht auf Jakob Bernoulli zur¨ uck, der den Satz in seinem Werk ars conjectandi zeigte.
Es soll betont werden, dass das Gesetz der großen Zahlen die relative Abweichung | n 1 P
i X i − p|
und nicht die
absolute Abweichung | P
i X i − np|
absch¨ atzt!
6.3 Chernoff-Schranken
6.3.1 Chernoff-Schranken f¨ ur Summen von 0–1–Zufallsvariablen
Die hier betrachtete Art von Schranken ist nach Herman Chernoff ( ∗ 1923) benannt. Sie finden in der komplexit¨ atstheoretischen Analyse von Algorithmen eine sehr h¨ aufige Verwendung.
Satz 63
Seien X 1 , . . . , X n unabh¨ angige Bernoulli-verteilte Zufallsvariablen mit Pr[X i = 1] = p i und Pr[X i = 0] = 1 − p i . Dann gilt f¨ ur X := P n
i=1 X i und µ := E[X] = P n
i=1 p i , sowie jedes δ > 0, dass Pr[X ≥ (1 + δ)µ] ≤
e δ (1 + δ) 1+δ
µ
.
Beweis:
F¨ ur t > 0 gilt
Pr[X ≥ (1 + δ)µ] = Pr[e tX ≥ e t(1+δ)µ ] .
Mit der Markov-Ungleichung folgt
Pr[X ≥ (1 + δ)µ] = Pr[e tX ≥ e t(1+δ)µ ] ≤ E [e tX ] e t(1+δ)µ . Wegen der Unabh¨ angigkeit der Zufallsvariablen X 1 , . . . , X n gilt
E[e tX ] = E
"
exp
n
X
i=1
tX i
!#
= E
" n Y
i=1
e tXi
#
=
n
Y
i=1
E[e tXi].
Weiter ist f¨ ur i ∈ {1, . . . , n}:
E [e tXi] = e t·1 p i + e t·0 (1 − p i ) = e t p i + 1 − p i = 1 + p i (e t − 1) ,
Beweis (Forts.):
und damit
Pr[X ≥ (1 + δ)µ] ≤ Q n
i=1 (1 + p i (e t − 1)) e t(1+δ)µ
≤ Q n
i=1 exp(p i (e t − 1)) e t(1+δ)µ
= exp( P n
i=1 p i (e t − 1))
e t(1+δ)µ = e (et−1)µ
e t(1+δ)µ =: f (t) . Wir w¨ ahlen nun t so, dass f (t) minimiert wird, n¨ amlich
t = ln(1 + δ) . Damit wird
f(t) = e (et−1)µ
e t(1+δ)µ = e δµ
(1 + δ) (1+δ)µ .
Beispiel 64
Wir betrachten wieder das Beispiel, dass wir eine faire M¨ unze n-mal werfen und absch¨ atzen wollen, mit welcher
Wahrscheinlichkeit
” Kopf“
n
2 (1 + 10%) oder ¨ ofter f¨ allt.
n Chebyshev Chernoff
1000 0,1 0,0889
10000 0,01 0,308 · 10 −10 n
1 4
n (0,1·
12n)
2 e0,1
(1+0,1)
1+0,1
n
Satz 65
Seien X 1 , . . . , X n unabh¨ angige Bernoulli-verteilte Zufallsvariablen mit Pr[X i = 1] = p i und Pr[X i = 0] = 1 − p i . Dann gilt f¨ ur X := P n
i=1 X i und µ := E [X] = P n
i=1 p i , sowie jedes 0 < δ < 1, dass
Pr[X ≤ (1 − δ)µ] ≤
e −δ (1 − δ) 1−δ
µ
.
Beweis:
Analog zum Beweis von Satz 63.
Bemerkung: Absch¨ atzungen, wie sie in Satz 63 und Satz 65 angegeben sind, nennt man auch tail bounds, da sie Schranken f¨ ur die tails, also die vom Erwartungswert weit entfernten Bereiche angeben. Man spricht hierbei vom upper tail (vergleiche Satz 63) und vom lower tail (vergleiche Satz 65).
Die Chernoff-Schranken h¨ angen exponentiell von µ ab!
Lemma 66 F¨ ur 0 ≤ δ < 1 gilt
(1 − δ) 1−δ ≥ e −δ+δ2/2 und (1 + δ) 1+δ ≥ e δ+δ
2/3 .
Beweis:
Wir betrachten
f (x) = (1 − x) ln(1 − x) und g(x) = −x + 1 2 x 2 . Es gilt f¨ ur 0 ≤ x < 1:
g 0 (x) = x − 1 ≤ − ln(1 − x) − 1 = f 0 (x) sowie
f(0) = 0 = g(0) , also im angegebenen Intervall f (x) ≥ g(x).
Die Ableitung der zweiten Ungleichung erfolgt analog.
Korollar 67
Seien X 1 , . . . , X n unabh¨ angige Bernoulli-verteilte Zufallsvariablen mit Pr[X i = 1] = p i und Pr[X i = 0] = 1 − p i . Dann gelten folgende Ungleichungen f¨ ur X := P n
i=1 X i und µ := E [X] = P n
i=1 p i :
1
Pr[X ≥ (1 + δ)µ] ≤ e −µδ2/3 f¨ ur alle 0 < δ ≤ 1, 81,
2
Pr[X ≤ (1 − δ)µ] ≤ e −µδ2/2 f¨ ur alle 0 < δ ≤ 1,
3
Pr[|X − µ| ≥ δµ] ≤ 2e −µδ2/3 f¨ ur alle 0 < δ ≤ 1,
4
Pr[X ≥ (1 + δ)µ] ≤
e 1+δ
(1+δ)µ
und
5
Pr[X ≥ t] ≤ 2 −t f¨ ur t ≥ 2eµ.
Beweis:
1 und 2 folgen direkt aus Satz 63 bzw. 65 und Lemma 66.
Aus 1 und 2 zusammen folgt 3.
Die Absch¨ atzung 4 erhalten wir direkt aus Satz 63, da f¨ ur den Z¨ ahler gilt
e ≤ e (1+δ) .
5 folgt aus 4, indem man t = (1 + δ)µ setzt, t ≥ 2eµ:
e 1 + δ
(1+δ)µ
≤ e
t/µ t
≤ 1
2 t
.
Beispiel 68
Wir betrachten wieder balls into bins und werfen n B¨ alle unabh¨ angig und gleichverteilt in n K¨ orbe. Sei
X i := Anzahl der B¨ alle im i-ten Korb f¨ ur i = 1, . . . , n, sowie X := max 1≤i≤n X i .
F¨ ur die Analyse von X i (i ∈ {1, . . . , n} beliebig) verwenden wir Aussage 5 von Korollar 67, mit p 1 = . . . = p n = 1 n , µ = 1 und t = 2 log n. Es folgt
Pr[X i ≥ 2 log n] ≤ 1/n 2 .
Daraus ergibt sich
Pr[X ≥ 2 log n] = Pr[X
1≥ 2 log n ∨ . . . ∨ X
n≥ 2 log n] ≤ n · 1 n
2= 1
n .
Es gilt also mit Wahrscheinlichkeit 1 − 1/n, dass X < 2 log n ist.
7. Erzeugende Funktionen
7.1 Einf¨ uhrung Definition 69
F¨ ur eine Zufallsvariable X mit W X ⊆ N 0 ist die
(wahrscheinlichkeits-)erzeugende Funktion definiert durch G X (s) :=
∞
X
k=0
Pr[X = k] · s k = E [s X ] .
Eine wahrscheinlichkeitserzeugende Funktion ist also die
(gew¨ ohnliche) erzeugende Funktion der Folge (f i ) i∈N0 mit
f i := Pr[X = i].
Bei wahrscheinlichkeitserzeugenden Funktionen haben wir kein Problem mit der Konvergenz, da f¨ ur |s| < 1 gilt
|G X (s)| =
∞
X
k=0
Pr[X = k] · s k
≤
∞
X
k=0
Pr[X = k] · |s k | ≤
∞
X
k=0
Pr[X = k] = 1 .
Beobachtung:
Sei Y := X + t mit t ∈ N 0 . Dann gilt
G Y (s) = E[s Y ] = E[s X +t ] = E[s t · s X ] = s t · E[s X ] = s t · G X (s) .
Ebenso l¨ asst sich leicht nachrechnen, dass G 0 X (s) =
∞
X
k=1
k · Pr[X = k] · s k−1 , also G 0 X (0) = Pr[X = 1], sowie
G (i) X (0) = Pr[X = i] · i!, also
G (i) X (0)/i! = Pr[X = i] .
Satz 70 (Eindeutigkeit der w.e. Funktion)
Die Dichte und die Verteilung einer Zufallsvariablen X mit W X ⊆ N sind durch ihre wahrscheinlichkeitserzeugende Funktion eindeutig bestimmt.
Beweis:
Folgt aus der Eindeutigkeit der Potenzreihendarstellung.
Bernoulli-Verteilung
Sei X eine Bernoulli-verteilte Zufallsvariable mit Pr[X = 0] = 1 − p und Pr[X = 1] = p. Dann gilt
G X (s) = E [s X ] = (1 − p) · s 0 + p · s 1 = 1 − p + ps . Gleichverteilung auf {0, . . . , n}
Sei X auf {0, . . . , n} gleichverteilt, d.h. f¨ ur 0 ≤ k ≤ n ist Pr[X = k] = 1/(n + 1). Dann gilt
G X (s) = E[s X ] =
n
X
k=0
1
n + 1 · s k = s n+1 − 1
(n + 1)(s − 1) .
Binomialverteilung
F¨ ur X ∼ Bin(n, p) gilt nach der binomischen Formel G X (s) = E [s X ] =
n
X
k=0
n k
p k (1 − p) n−k · s k = (1 − p + ps) n .
Geometrische Verteilung
Sei X eine geometrisch verteilte Zufallsvariable mit Erfolgswahrscheinlichkeit p. Dann gilt
G X (s) = E [s X ] =
∞
X
k=1
p(1 − p) k−1 · s k
= ps ·
∞
X
k=1
((1 − p)s) k−1 = ps
1 − (1 − p)s .
Poisson-Verteilung F¨ ur X ∼ Po(λ) gilt
G X (s) = E [s X ] =
∞
X
k=0
e −λ λ k
k! · s k = e −λ+λs = e λ(s−1) .
Beispiel 71
Sei X binomialverteilt mit X ∼ Bin(n, λ/n), F¨ ur n → ∞ folgt G X (s) =
1 − λ
n + λs n
n
=
1 + λ(s − 1) n
n
→ e λ(s−1) .
Man kann beweisen, dass aus der Konvergenz der
wahrscheinlichkeitserzeugenden Funktion die Konvergenz der
Verteilung folgt.
7.1.1 Zusammenhang zwischen der w.e. Funktion und den Momenten
Da
G X (s) :=
∞
X
k=0
Pr[X = k] · s k = E[s X ] ,
gilt
G 0 X (1) =
∞
X
k=1
k · Pr[X = k] = E [X] .
Beispiel 72
Sei X binomialverteilt mit X ∼ Bin(n, p), also G X (s) = (1 − p + ps) n .
Dann gilt
G 0 X (s) = n · (1 − p + ps) n−1 · p und somit
E [X] = G 0 X (1) = np .
Beispiel 72 Ebenso ergibt sich
E [X(X − 1) . . . (X − k + 1)] = G (k) X (1) ,
also etwa
Var[X] = E [X(X − 1)] + E [X] − E [X] 2
= G 00 X (1) + G 0 X (1) − (G 0 X (1)) 2 .
Andere Momente von X kann man auf ¨ ahnliche Art und Weise
berechnen.
Momenterzeugende Funktionen Definition 73
Zu einer Zufallsvariablen X ist die momenterzeugende Funktion gem¨ aß
M X (s) := E [e Xs ] definiert.
Es gilt
M X (s) = E [e Xs ] = E
" ∞ X
i=0
(Xs) i i!
#
=
∞
X
i=0
E [X i ] i! · s i und
M X (s) = E [e Xs ] = E [(e s ) X ] = G X (e s ) .
7.2 Summen von Zufallsvariablen
Satz 74 (Erzeugende Funktion einer Summe) F¨ ur unabh¨ angige Zufallsvariablen X 1 , . . . , X n und die Zufallsvariable Z := X 1 + . . . + X n gilt
G Z (s) = G X1(s) · . . . · G Xn(s) .
(s) .
Ebenso gilt
M Z (s) = M X1(s) · . . . · M Xn(s) .
(s) .
Beweis:
Wegen der Unabh¨ angigkeit von X 1 , . . . , X n gilt
G Z (s) = E[s X1+...+X
n] = E[s X1]·. . .· E[s Xn] = G X1(s)·. . .·G Xn(s).
]·. . .· E[s Xn] = G X1(s)·. . .·G Xn(s).
(s)·. . .·G Xn(s).
Beispiel 75
Seien X 1 , . . . X k mit X i ∼ Bin(n i , p) unabh¨ angige Zufallsvariable und Z := X 1 + . . . + X k . Dann gilt
G Z (s) =
k
Y
i=1
(1 − p + ps) ni = (1 − p + ps)
P
ki=1