Sei X eine Indikatorvariable f¨ ur ein Ereignis A, Pr[A] = p. Somit ist X Bernoulli-verteilt mit E [X] = p.

(1)

Wahrscheinlichkeit und relative H¨ aufigkeit.

Sei X eine Indikatorvariable f¨ ur ein Ereignis A, Pr[A] = p. Somit ist X Bernoulli-verteilt mit E [X] = p.

Z = _n ¹ (X ₁ + . . . + X _n ) gibt die relative H¨ aufigkeit an, mit der A bei n Wiederholungen des Versuchs eintritt, denn

Z = Anzahl der Versuche, bei denen A eingetreten ist Anzahl aller Versuche . Mit Hilfe des obigen Gesetzes der großen Zahlen folgt

Pr[|Z − p| ≥ δ] ≤ ε,

f¨ ur gen¨ ugend großes n. Also n¨ ahert sich die relative H¨ aufigkeit von A bei hinreichend vielen Wiederholungen des Experiments mit beliebiger Sicherheit beliebig nahe an die

” wahre“

Wahrscheinlichkeit p an.

(2)

Die obige Variante eines Gesetzes der großen Zahlen geht auf Jakob Bernoulli zur¨ uck, der den Satz in seinem Werk ars conjectandi zeigte.

Es soll betont werden, dass das Gesetz der großen Zahlen die relative Abweichung | _n ¹ P

i X _i − p|

und nicht die

absolute Abweichung | P

i X _i − np|

absch¨ atzt!

(3)

6.3 Chernoff-Schranken

6.3.1 Chernoff-Schranken f¨ ur Summen von 0–1–Zufallsvariablen

Die hier betrachtete Art von Schranken ist nach Herman Chernoff ( ^∗ 1923) benannt. Sie finden in der komplexit¨ atstheoretischen Analyse von Algorithmen eine sehr h¨ aufige Verwendung.

Satz 63

Seien X 1 , . . . , X n unabh¨ angige Bernoulli-verteilte Zufallsvariablen mit Pr[X _i = 1] = p _i und Pr[X _i = 0] = 1 − p _i . Dann gilt f¨ ur X := P n

i=1 X i und µ := E[X] = P n

i=1 p i , sowie jedes δ > 0, dass Pr[X ≥ (1 + δ)µ] ≤

e ^δ (1 + δ) ^1+δ

µ

.

(4)

Beweis:

F¨ ur t > 0 gilt

Pr[X ≥ (1 + δ)µ] = Pr[e ^tX ≥ e ^t(1+δ)µ ] .

Mit der Markov-Ungleichung folgt

Pr[X ≥ (1 + δ)µ] = Pr[e ^tX ≥ e ^t(1+δ)µ ] ≤ E [e ^tX ] e ^t(1+δ)µ . Wegen der Unabh¨ angigkeit der Zufallsvariablen X 1 , . . . , X n gilt

E[e ^tX ] = E

"

exp

n

X

i=1

tX i

!#

= E

" _n Y

i=1

e ^tX

ⁱ

#

=

n

Y

i=1

E[e ^tX

ⁱ

].

Weiter ist f¨ ur i ∈ {1, . . . , n}:

E [e ^tX

ⁱ

] = e ^t·1 p i + e ^t·0 (1 − p i ) = e ^t p i + 1 − p i = 1 + p i (e ^t − 1) ,

(5)

Beweis (Forts.):

und damit

Pr[X ≥ (1 + δ)µ] ≤ Q n

i=1 (1 + p _i (e ^t − 1)) e ^t(1+δ)µ

≤ Q n

i=1 exp(p i (e ^t − 1)) e ^t(1+δ)µ

= exp( P n

i=1 p _i (e ^t − 1))

e ^t(1+δ)µ = e ^(e

^t

^−1)µ

e ^t(1+δ)µ =: f (t) . Wir w¨ ahlen nun t so, dass f (t) minimiert wird, n¨ amlich

t = ln(1 + δ) . Damit wird

f(t) = e ^(e

^t

^−1)µ

e ^t(1+δ)µ = e ^δµ

(1 + δ) ^(1+δ)µ .

(6)

Beispiel 64

Wir betrachten wieder das Beispiel, dass wir eine faire M¨ unze n-mal werfen und absch¨ atzen wollen, mit welcher

Wahrscheinlichkeit

” Kopf“

n

2 (1 + 10%) oder ¨ ofter f¨ allt.

n Chebyshev Chernoff

1000 0,1 0,0889

10000 0,01 0,308 · 10 ⁻¹⁰ n

1 4

n (0,1·

¹₂

n)

²

e

^0,1

(1+0,1)

^1+0,1

n

(7)

Satz 65

Seien X ₁ , . . . , X _n unabh¨ angige Bernoulli-verteilte Zufallsvariablen mit Pr[X i = 1] = p i und Pr[X i = 0] = 1 − p i . Dann gilt f¨ ur X := P n

i=1 X _i und µ := E [X] = P n

i=1 p _i , sowie jedes 0 < δ < 1, dass

Pr[X ≤ (1 − δ)µ] ≤

e ^−δ (1 − δ) ^1−δ

µ

.

Beweis:

Analog zum Beweis von Satz 63.

Bemerkung: Absch¨ atzungen, wie sie in Satz 63 und Satz 65 angegeben sind, nennt man auch tail bounds, da sie Schranken f¨ ur die tails, also die vom Erwartungswert weit entfernten Bereiche angeben. Man spricht hierbei vom upper tail (vergleiche Satz 63) und vom lower tail (vergleiche Satz 65).

Die Chernoff-Schranken h¨ angen exponentiell von µ ab!

(8)

Lemma 66 F¨ ur 0 ≤ δ < 1 gilt

(1 − δ) ^1−δ ≥ e ^−δ+δ

²

^/2 und (1 + δ) ^1+δ ≥ e ^δ+δ

²

^/3 .

Beweis:

Wir betrachten

f (x) = (1 − x) ln(1 − x) und g(x) = −x + 1 2 x ² . Es gilt f¨ ur 0 ≤ x < 1:

g ⁰ (x) = x − 1 ≤ − ln(1 − x) − 1 = f ⁰ (x) sowie

f(0) = 0 = g(0) , also im angegebenen Intervall f (x) ≥ g(x).

Die Ableitung der zweiten Ungleichung erfolgt analog.

(9)

Korollar 67

Seien X ₁ , . . . , X _n unabh¨ angige Bernoulli-verteilte Zufallsvariablen mit Pr[X i = 1] = p i und Pr[X i = 0] = 1 − p i . Dann gelten folgende Ungleichungen f¨ ur X := P n

i=1 X _i und µ := E [X] = P n

i=1 p _i :

1

Pr[X ≥ (1 + δ)µ] ≤ e ^−µδ

²

^/3 f¨ ur alle 0 < δ ≤ 1, 81,

2

Pr[X ≤ (1 − δ)µ] ≤ e ^−µδ

²

^/2 f¨ ur alle 0 < δ ≤ 1,

3

Pr[|X − µ| ≥ δµ] ≤ 2e ^−µδ

²

^/3 f¨ ur alle 0 < δ ≤ 1,

4

Pr[X ≥ (1 + δ)µ] ≤

e 1+δ

(1+δ)µ

und

5

Pr[X ≥ t] ≤ 2 ^−t f¨ ur t ≥ 2eµ.

(10)

Beweis:

1 und 2 folgen direkt aus Satz 63 bzw. 65 und Lemma 66.

Aus 1 und 2 zusammen folgt 3.

Die Absch¨ atzung 4 erhalten wir direkt aus Satz 63, da f¨ ur den Z¨ ahler gilt

e ≤ e ^(1+δ) .

5 folgt aus 4, indem man t = (1 + δ)µ setzt, t ≥ 2eµ:

e 1 + δ

(1+δ)µ

≤ e

t/µ t

≤ 1

2 t

.

(11)

Beispiel 68

Wir betrachten wieder balls into bins und werfen n B¨ alle unabh¨ angig und gleichverteilt in n K¨ orbe. Sei

X _i := Anzahl der B¨ alle im i-ten Korb f¨ ur i = 1, . . . , n, sowie X := max 1≤i≤n X _i .

F¨ ur die Analyse von X _i (i ∈ {1, . . . , n} beliebig) verwenden wir Aussage 5 von Korollar 67, mit p 1 = . . . = p n = ¹ _n , µ = 1 und t = 2 log n. Es folgt

Pr[X _i ≥ 2 log n] ≤ 1/n ² .

Daraus ergibt sich

Pr[X ≥ 2 log n] = Pr[X

1

≥ 2 log n ∨ . . . ∨ X

n

≥ 2 log n] ≤ n · 1 n

²

= 1

n .

Es gilt also mit Wahrscheinlichkeit 1 − 1/n, dass X < 2 log n ist.

(12)

7. Erzeugende Funktionen

7.1 Einf¨ uhrung Definition 69

F¨ ur eine Zufallsvariable X mit W _X ⊆ N 0 ist die

(wahrscheinlichkeits-)erzeugende Funktion definiert durch G _X (s) :=

∞

X

k=0

Pr[X = k] · s ^k = E [s ^X ] .

Eine wahrscheinlichkeitserzeugende Funktion ist also die

(gew¨ ohnliche) erzeugende Funktion der Folge (f _i ) i∈N

₀

mit

f _i := Pr[X = i].

(13)

Bei wahrscheinlichkeitserzeugenden Funktionen haben wir kein Problem mit der Konvergenz, da f¨ ur |s| < 1 gilt

|G _X (s)| =

∞

X

k=0

Pr[X = k] · s ^k

≤

∞

X

k=0

Pr[X = k] · |s ^k | ≤

∞

X

k=0

Pr[X = k] = 1 .

(14)

Beobachtung:

Sei Y := X + t mit t ∈ N 0 . Dann gilt

G Y (s) = E[s ^Y ] = E[s ^X ^+t ] = E[s ^t · s ^X ] = s ^t · E[s ^X ] = s ^t · G X (s) .

Ebenso l¨ asst sich leicht nachrechnen, dass G ⁰ _X (s) =

∞

X

k=1

k · Pr[X = k] · s ^k−1 , also G ⁰ _X (0) = Pr[X = 1], sowie

G ⁽ⁱ⁾ _X (0) = Pr[X = i] · i!, also

G ⁽ⁱ⁾ _X (0)/i! = Pr[X = i] .

(15)

Satz 70 (Eindeutigkeit der w.e. Funktion)

Die Dichte und die Verteilung einer Zufallsvariablen X mit W _X ⊆ N sind durch ihre wahrscheinlichkeitserzeugende Funktion eindeutig bestimmt.

Beweis:

Folgt aus der Eindeutigkeit der Potenzreihendarstellung.

(16)

Bernoulli-Verteilung

Sei X eine Bernoulli-verteilte Zufallsvariable mit Pr[X = 0] = 1 − p und Pr[X = 1] = p. Dann gilt

G X (s) = E [s ^X ] = (1 − p) · s ⁰ + p · s ¹ = 1 − p + ps . Gleichverteilung auf {0, . . . , n}

Sei X auf {0, . . . , n} gleichverteilt, d.h. f¨ ur 0 ≤ k ≤ n ist Pr[X = k] = 1/(n + 1). Dann gilt

G X (s) = E[s ^X ] =

n

X

k=0

1 n + 1 · s ^k = s ⁿ⁺¹ − 1

(n + 1)(s − 1) .

(17)

Binomialverteilung

F¨ ur X ∼ Bin(n, p) gilt nach der binomischen Formel G _X (s) = E [s ^X ] =

n

X

k=0

n k

p ^k (1 − p) ^n−k · s ^k = (1 − p + ps) ⁿ .

Geometrische Verteilung

Sei X eine geometrisch verteilte Zufallsvariable mit Erfolgswahrscheinlichkeit p. Dann gilt

G _X (s) = E [s ^X ] =

∞

X

k=1

p(1 − p) ^k−1 · s ^k

= ps ·

∞

X

k=1

((1 − p)s) ^k−1 = ps

1 − (1 − p)s .

(18)

Poisson-Verteilung F¨ ur X ∼ Po(λ) gilt

G X (s) = E [s ^X ] =

∞

X

k=0

e ^−λ λ ^k

k! · s ^k = e ^−λ+λs = e ^λ(s−1) .

(19)

Beispiel 71

Sei X binomialverteilt mit X ∼ Bin(n, λ/n), F¨ ur n → ∞ folgt G _X (s) =

1 − λ

n + λs n

n

=

1 + λ(s − 1) n

n

→ e ^λ(s−1) .

Man kann beweisen, dass aus der Konvergenz der

wahrscheinlichkeitserzeugenden Funktion die Konvergenz der

Verteilung folgt.

(20)

7.1.1 Zusammenhang zwischen der w.e. Funktion und den Momenten

Da

G X (s) :=

∞

X

k=0

Pr[X = k] · s ^k = E[s ^X ] ,

gilt

G ⁰ _X (1) =

∞

X

k=1

k · Pr[X = k] = E [X] .

(21)

Beispiel 72

Sei X binomialverteilt mit X ∼ Bin(n, p), also G X (s) = (1 − p + ps) ⁿ .

Dann gilt

G ⁰ _X (s) = n · (1 − p + ps) ⁿ⁻¹ · p und somit

E [X] = G ⁰ _X (1) = np .

(22)

Beispiel 72 Ebenso ergibt sich

E [X(X − 1) . . . (X − k + 1)] = G ^(k) _X (1) ,

also etwa

Var[X] = E [X(X − 1)] + E [X] − E [X] ²

= G ⁰⁰ _X (1) + G ⁰ _X (1) − (G ⁰ _X (1)) ² .

Andere Momente von X kann man auf ¨ ahnliche Art und Weise

berechnen.

(23)

Momenterzeugende Funktionen Definition 73

Zu einer Zufallsvariablen X ist die momenterzeugende Funktion gem¨ aß

M _X (s) := E [e ^Xs ] definiert.

Es gilt

M _X (s) = E [e ^Xs ] = E

" _∞ X

i=0

(Xs) ⁱ i!

#

=

∞

X

i=0

E [X ⁱ ] i! · s ⁱ und

M X (s) = E [e ^Xs ] = E [(e ^s ) ^X ] = G X (e ^s ) .

(24)

7.2 Summen von Zufallsvariablen

Satz 74 (Erzeugende Funktion einer Summe) F¨ ur unabh¨ angige Zufallsvariablen X ₁ , . . . , X _n und die Zufallsvariable Z := X ₁ + . . . + X _n gilt

G _Z (s) = G _X

₁

(s) · . . . · G _X

_n

(s) .

Ebenso gilt

M _Z (s) = M _X

₁

(s) · . . . · M _X

_n

(s) .

Beweis:

Wegen der Unabh¨ angigkeit von X 1 , . . . , X n gilt

G Z (s) = E[s ^X

¹

^+...+X

ⁿ

] = E[s ^X

¹

]·. . .· E[s ^X

ⁿ

] = G X

1

(s)·. . .·G _X

_n

(s).

(25)

Beispiel 75

Seien X 1 , . . . X _k mit X i ∼ Bin(n i , p) unabh¨ angige Zufallsvariable und Z := X ₁ + . . . + X _k . Dann gilt

G Z (s) =

k

Y

i=1

(1 − p + ps) ⁿ

ⁱ

= (1 − p + ps)

P

_k

i=1

n

i

und somit

Z ∼ Bin(

k

X

i=1

n _i , p) (vgl. Satz 55).

Seien X 1 , . . . , X k ∼ Po(λ) unabh¨ angige Zufallsvariablen. Dann folgt f¨ ur Z := X 1 + . . . + X _k

Sei X eine Indikatorvariable f¨ ur ein Ereignis A, Pr[A] = p. Somit ist X Bernoulli-verteilt mit E [X] = p.

Wahrscheinlichkeit und relative H¨ aufigkeit.

Sei X eine Indikatorvariable f¨ ur ein Ereignis A, Pr[A] = p. Somit ist X Bernoulli-verteilt mit E [X] = p.

Z = n 1 (X 1 + . . . + X n ) gibt die relative H¨ aufigkeit an, mit der A bei n Wiederholungen des Versuchs eintritt, denn

Z = Anzahl der Versuche, bei denen A eingetreten ist Anzahl aller Versuche . Mit Hilfe des obigen Gesetzes der großen Zahlen folgt

Pr[|Z − p| ≥ δ] ≤ ε,

f¨ ur gen¨ ugend großes n. Also n¨ ahert sich die relative H¨ aufigkeit von A bei hinreichend vielen Wiederholungen des Experiments mit beliebiger Sicherheit beliebig nahe an die

” wahre“

Wahrscheinlichkeit p an.

Die obige Variante eines Gesetzes der großen Zahlen geht auf Jakob Bernoulli zur¨ uck, der den Satz in seinem Werk ars conjectandi zeigte.

Es soll betont werden, dass das Gesetz der großen Zahlen die relative Abweichung | n 1 P

i X i − p|

und nicht die

absolute Abweichung | P

i X i − np|

absch¨ atzt!

6.3 Chernoff-Schranken

6.3.1 Chernoff-Schranken f¨ ur Summen von 0–1–Zufallsvariablen

Die hier betrachtete Art von Schranken ist nach Herman Chernoff ( ∗ 1923) benannt. Sie finden in der komplexit¨ atstheoretischen Analyse von Algorithmen eine sehr h¨ aufige Verwendung.

Satz 63

Seien X 1 , . . . , X n unabh¨ angige Bernoulli-verteilte Zufallsvariablen mit Pr[X i = 1] = p i und Pr[X i = 0] = 1 − p i . Dann gilt f¨ ur X := P n

i=1 X i und µ := E[X] = P n

i=1 p i , sowie jedes δ > 0, dass Pr[X ≥ (1 + δ)µ] ≤

e δ (1 + δ) 1+δ

µ

.

Beweis:

F¨ ur t > 0 gilt

Pr[X ≥ (1 + δ)µ] = Pr[e tX ≥ e t(1+δ)µ ] .

Mit der Markov-Ungleichung folgt

Pr[X ≥ (1 + δ)µ] = Pr[e tX ≥ e t(1+δ)µ ] ≤ E [e tX ] e t(1+δ)µ . Wegen der Unabh¨ angigkeit der Zufallsvariablen X 1 , . . . , X n gilt

E[e tX ] = E

"

exp

n

X

i=1

tX i

!#

= E

" n Y

i=1

e tX

#

=

n

Y

i=1

E[e tX

].

Weiter ist f¨ ur i ∈ {1, . . . , n}:

E [e tX

] = e t·1 p i + e t·0 (1 − p i ) = e t p i + 1 − p i = 1 + p i (e t − 1) ,

Beweis (Forts.):

und damit

Pr[X ≥ (1 + δ)µ] ≤ Q n

i=1 (1 + p i (e t − 1)) e t(1+δ)µ

≤ Q n

i=1 exp(p i (e t − 1)) e t(1+δ)µ

= exp( P n

i=1 p i (e t − 1))

e t(1+δ)µ = e (e

−1)µ

e t(1+δ)µ =: f (t) . Wir w¨ ahlen nun t so, dass f (t) minimiert wird, n¨ amlich

t = ln(1 + δ) . Damit wird

f(t) = e (e

−1)µ

e t(1+δ)µ = e δµ

(1 + δ) (1+δ)µ .

Beispiel 64

Wir betrachten wieder das Beispiel, dass wir eine faire M¨ unze n-mal werfen und absch¨ atzen wollen, mit welcher

Wahrscheinlichkeit

” Kopf“

n

2 (1 + 10%) oder ¨ ofter f¨ allt.

n Chebyshev Chernoff

1000 0,1 0,0889

10000 0,01 0,308 · 10 −10 n

n (0,1·

n)

Z = _n ¹ (X ₁ + . . . + X _n ) gibt die relative H¨ aufigkeit an, mit der A bei n Wiederholungen des Versuchs eintritt, denn

Es soll betont werden, dass das Gesetz der großen Zahlen die relative Abweichung | _n ¹ P

i X _i − p|

i X _i − np|

Die hier betrachtete Art von Schranken ist nach Herman Chernoff ( ^∗ 1923) benannt. Sie finden in der komplexit¨ atstheoretischen Analyse von Algorithmen eine sehr h¨ aufige Verwendung.

Seien X 1 , . . . , X n unabh¨ angige Bernoulli-verteilte Zufallsvariablen mit Pr[X _i = 1] = p _i und Pr[X _i = 0] = 1 − p _i . Dann gilt f¨ ur X := P n

e ^δ (1 + δ) ^1+δ

Pr[X ≥ (1 + δ)µ] = Pr[e ^tX ≥ e ^t(1+δ)µ ] .

Pr[X ≥ (1 + δ)µ] = Pr[e ^tX ≥ e ^t(1+δ)µ ] ≤ E [e ^tX ] e ^t(1+δ)µ . Wegen der Unabh¨ angigkeit der Zufallsvariablen X 1 , . . . , X n gilt

E[e ^tX ] = E

" _n Y

e ^tX

E[e ^tX

E [e ^tX

] = e ^t·1 p i + e ^t·0 (1 − p i ) = e ^t p i + 1 − p i = 1 + p i (e ^t − 1) ,

i=1 (1 + p _i (e ^t − 1)) e ^t(1+δ)µ

i=1 exp(p i (e ^t − 1)) e ^t(1+δ)µ

i=1 p _i (e ^t − 1))

e ^t(1+δ)µ = e ^(e

^−1)µ

e ^t(1+δ)µ =: f (t) . Wir w¨ ahlen nun t so, dass f (t) minimiert wird, n¨ amlich

f(t) = e ^(e

^−1)µ

e ^t(1+δ)µ = e ^δµ

(1 + δ) ^(1+δ)µ .

10000 0,01 0,308 · 10 ⁻¹⁰ n

Seien X ₁ , . . . , X _n unabh¨ angige Bernoulli-verteilte Zufallsvariablen mit Pr[X i = 1] = p i und Pr[X i = 0] = 1 − p i . Dann gilt f¨ ur X := P n

i=1 X _i und µ := E [X] = P n

i=1 p _i , sowie jedes 0 < δ < 1, dass

e ^−δ (1 − δ) ^1−δ

(1 − δ) ^1−δ ≥ e ^−δ+δ

^/2 und (1 + δ) ^1+δ ≥ e ^δ+δ

^/3 .

f (x) = (1 − x) ln(1 − x) und g(x) = −x + 1 2 x ² . Es gilt f¨ ur 0 ≤ x < 1:

g ⁰ (x) = x − 1 ≤ − ln(1 − x) − 1 = f ⁰ (x) sowie

Seien X ₁ , . . . , X _n unabh¨ angige Bernoulli-verteilte Zufallsvariablen mit Pr[X i = 1] = p i und Pr[X i = 0] = 1 − p i . Dann gelten folgende Ungleichungen f¨ ur X := P n

i=1 X _i und µ := E [X] = P n

i=1 p _i :

Pr[X ≥ (1 + δ)µ] ≤ e ^−µδ

^/3 f¨ ur alle 0 < δ ≤ 1, 81,

Pr[X ≤ (1 − δ)µ] ≤ e ^−µδ

^/2 f¨ ur alle 0 < δ ≤ 1,

Pr[|X − µ| ≥ δµ] ≤ 2e ^−µδ

^/3 f¨ ur alle 0 < δ ≤ 1,

Pr[X ≥ t] ≤ 2 ^−t f¨ ur t ≥ 2eµ.

e ≤ e ^(1+δ) .

X _i := Anzahl der B¨ alle im i-ten Korb f¨ ur i = 1, . . . , n, sowie X := max 1≤i≤n X _i .

F¨ ur die Analyse von X _i (i ∈ {1, . . . , n} beliebig) verwenden wir Aussage 5 von Korollar 67, mit p 1 = . . . = p n = ¹ _n , µ = 1 und t = 2 log n. Es folgt

Pr[X _i ≥ 2 log n] ≤ 1/n ² .

F¨ ur eine Zufallsvariable X mit W _X ⊆ N 0 ist die

(wahrscheinlichkeits-)erzeugende Funktion definiert durch G _X (s) :=