Die Wahrscheinlichkeit typischer Abweichungen:

(1)

Vorlesung 7b Mittelwerte

Die Wahrscheinlichkeit typischer Abweichungen:

Approximative Normalit ¨at

Die Wahrscheinlichkeit großer Abweichungen:

Chernoff-Schranken

(2)

Teil I

Die Wahrscheinlichkeit typischer Abweichungen beim zuf ¨alligen Mittelwert:

Approximative Normalit ¨at

(3)

1. Populationsmittelwert und Stichprobenmittelwert

(4)

Denken wir an eine Liste (eine “Population”) von reellen Daten

w₁, . . . , w_g

z. B. die Lebensalter aller Frauen in der deutschen Bev ¨olkerung 2014.

w_i ist der Wert (die Kenngr ¨oße) des Individuums i.

Eine komprimierte Darstellung liefern die

Besetzungszahlen (hier der Altersklassen von 1 bis 100+):

(5)

www.destatis.de/

bevoelkerungspyramide/

a

(6)

Angenommen man m ¨ochte den Populationsmittelwert

µ := 1 g

Xg j=1

w_j.

sch ¨atzen,

und zwar aus den Werten einer

aus der Population gezogenen Stichprobe x₁, . . . , x_n

(sagen wir f ¨ur n = 100).

(7)

Als Sch ¨atzwert f ¨ur µ bietet sich an:

m := _n¹(x₁ + . . . + x_n)

Wie zuverl ¨assig ist diese Sch ¨atzung?

(8)

Goldene Idee der Statistik:

Man fasst x₁, . . . , x_n auf als Ergebnis eines rein zuf ¨alligen Ziehens aus der Population:

X₁ := w_J

1, X₂ := w_J

2, . . .

mit J₁, J₂, . . . rein zuf ¨allige Wahl aus {1, . . . , g}

(“Ziehen mit Zur ¨ucklegen”).

(9)

Wir setzen hier g als (sehr) groß gegen ¨uber n voraus, damit entstehen auch

beim n-maligen Ziehen mit Zur ¨ucklegen

Kollisionen nur mit (verschwindend) kleiner W’keit.

Das f ¨uhrt auf die Vorstellung:

x₁, . . . , x_n sind entstanden

durch n-maliges unabh ¨angiges Ziehen X₁, . . . , X_n aus der Verteilung ρ auf R

mit ρ([c, d]) := _g¹#{i : w_i ∈ [c, d]}

(10)

a

(11)

m = 1

n(x₁ + . . . + x_n) fasst man also auf

als eine Realisierung (einen beobachteten Ausgang) der Zufallsvariable

M := X¯ := 1

n(X₁ + . . . + X_n)

(des Mittelwertes der zuf ¨alligen Stichprobe (X₁, . . . , X_n)).

(12)

M := X¯ := 1

n(X₁ + . . . + X_n)

Es gilt:

E[X_j] = 1 g

Xg i

w_i = µ

und damit auch E[M] = µ.

Der Erwartungswert des Stichprobenmittelwertes ist gleich dem Populationsmittelwert.

(13)

2. Populationsvarianz

und Varianz des Stichprobenmittelwertes

(14)

Zur Erinnerung: X₁ war der Wert eines (“des ersten”) aus der Population rein zuf ¨allig gezogenen Individuums.

E[X₁] ist gleich dem Populationsmittelwert µ.

Und Var[X₁] = _g¹

Pg j=1

(w_j − µ)² =: σ².

Diese Zahl σ² nennt man auch die Populationsvarianz.

Der Stichprobenmittelwert war M = 1

n(X₁ + . . . + X_n)

(15)

M = 1

n(X₁ + . . . + X_n) E[M] = µ

Var[M] = ?

Wird mit Zur ¨ucklegen gezogen, dann sind die X_i unabh ¨angig, und es ergibt sich

Var[M] = σ² n

(16)

Wird ohne Zur ¨ucklegen gezogen

und ist die Populationsgr ¨oße g nicht sehr groß

gegen über der Stichprobengr öße n, dann hat es Sinn, die Korrektur f ür endliche Populationen zu ber ücksichtigen

(vgl. Aufgabe 20):

Var[M] = σ²

n · g − n g − 1

Diese Korrektur werden wir

f ¨ur den Rest dieser Vorlesung vernachl ¨assigen (wir denken an großes g, bzw. – wie schon gesagt – an ein wiederholtes

unabh ¨angiges Ziehen aus einer Verteilung).

(17)

F ¨ur ein n-maliges unabh ¨angiges Ziehen gilt:

Var[M] = σ² n ;

die Standardabweichung des Stichprobenmittelwertes M ist also √^σ

n.

(18)

3. Approximative Verteilung des

Stichprobenmittelwertes

(19)

Wie ist (f ¨ur nicht zu kleines n)

der Stichprobenmittelwert M verteilt?

Der Zentrale Grenzwertsatz gibt eine Antwort:

In der oben beschriebenen Situation gilt M ist approximativ N(µ, ^σ_n²)-verteilt.

(20)

4. Die Stichprobenvarianz

als Sch ¨atzung f ¨ur die Populationsvarianz

(21)

Ein Problem in der Praxis: Im Allgem. kennt man σ² nicht.

Auch σ² muss man dann sch ¨atzen.

Zwei Vorschl ¨age f ¨ur die

(aus der Stichprobe) gesch ¨atzte (Populations-)Varianz:

(i) die Stichprobenvarianz σ^² := 1

n

Xn i=1

(x_i − m)².

(ii) die modifizierte Stichprobenvarianz s² := 1

n − 1

Xn i=1

(x_i − m)²

(22)

Es gibt theoretische Begr ündung f ür beide Vorschl äge (vgl. Buch S. 124, S. 138).

Wir halten uns hier erst einmal an den Vorschlag (ii):

s² = 1 n − 1

Xn i=1

(x_i − m)²

(23)

Die Standardabweichung des Stichprobenmittelwertes M ist

√σ n.

Die gesch ¨atzte Standardabweichung des Stichprobenmittelwertes M ist

s/√

n =: f

Diese Gr ¨oße nennen wir auch den Standardfehler.

M ist approximativ N(µ, ^σ_n²)-verteilt.

Und (gut f ¨ur die Praxis):

M ist approximativ N(µ, f²)-verteilt.

(24)

Teil II

Die Wahrscheinlichkeit großer Abweichungen beim zuf ¨alligen Mittelwert:

Chernoff-Schranken

(25)

5. Die Chernoff-Ungleichung f ¨ur Binom(n, p)

Zur Wahrscheinlichkeit

großer Abweichungen vom Erwartungswert bei der M ¨unzwurf-Trefferquote

(26)

Sei X_n Binomial(n, p)-verteilt, und α > p.

Wir wissen schon aus dem Gesetz der großen Zahlen:

P

X_n

n > α

→ 0 f ¨ur n → ∞. Wie schnell ist diese Konvergenz?

Die Chebyshev-Ungleichung liefert nur die Ordnung O(1/n).

Gibt es eine asymptotisch “scharfe” Absch ¨atzung f ¨ur P

X_n

n > α

?

(27)

Es stellt sich heraus:

Die Konvergenz (gegen Null) ist exponentiell schnell.

Genauer: Man hat die Chernoff-Ungleichung P(X_n/n > α) ≤ e^−nH^p^(α)

mit H_p(α) := α ln

α

p

+ (1 − α) ln

1−α

1−p

> 0

... die relative Entropie von Bernoulli(α) bzgl. Bernoulli(p)

(28)

H_p(α)

p = ¹ 1 0 3

ln(_p¹)

ln

1 1−p

α

(29)

Ein Zahlenbeispiel:

n = 10000, p = 0.5, α = 0.6

H_0.5(0.6) = 0.0201

Die Wahrscheinlichkeit,

bei einem 10000-maligen fairen M ¨unzwurf

mindestens 6000 Erfolge zu erzielen, ist nicht gr ¨oßer als e^−nH^p^(α) = e⁻²⁰¹ ≈ 5 · 10⁻⁸⁸

(30)

6. Die exponentielle Markov-Ungleichung

(31)

Als N ¨achstes wenden wir uns dem Beweis der Chernoff-Ungleichung zu.

Ein wesentlicher Schritt dabei ist die exponentielle Markov-Ungleichung:

X sei eine rellwertige ZV’e. Dann gilt f ¨ur alle b ∈ R und t > 0:

P(X ≥ b) = P(e^tX ≥ e^tb) ≤ 1

e^tbE[e^tX].

Also:

P(X ≥ b) ≤ inf

t≥0

1

e^tbE[e^tX]

(32)

7. Herleitung der Chernoff-Ungleichung

f ¨ur die Wahrscheinlichkeit großen Abweichungen bei der Trefferquote des p-M ¨unzwurfs

aus der exponentiellen Markov-Ungleichung:

(33)

P(X ≥ b) ≤ inf

t≥0

1

e^tbE[e^tX]

Wir berechnen die rechte Seite f ¨ur X = X_n := Z₁ + · · · + Z_n, mit einem p-M ¨unzwurf (Z_i). Es gilt:

E[e^tZⁱ] = (1 − p) + pe^t.

Aus der Produktformel f ¨ur Erwartungswerte folgt:

E[e^tX] = ((1 − p) + pe^t)ⁿ. Mit b := αn folgt:

1

e^tbE[e^tX] = e^−tαn((1 − p) + pe^t)ⁿ = ((1 − p)e^−tα + pe^t(1−α))ⁿ

(34)

1

e^tbE[e^tX] = ((1 − p)e^−tα + pe^t(1−α))ⁿ

F ¨ur welches t wird g(t) := (1 − p)e^−tα + pe^t(1−α) minimal?

g konvergiert f ¨ur t → ∞ nach ∞;

g^′(t) = −α(1 − p)e^−tα + p(1 − α)e^t(1−α)

= e^−tα −α(1 − p) + p(1 − α)e^t

ist negativ bei t = 0 und verschwindet genau bei e^t = _1−α^α ^1−p_p .

(35)

e^t = _1−α^α ^1−p_p eingesetzt in (1 − p + pe^t)ⁿ e^tαn

ergibt

(1 − p) + (1 − p)_1−α^α ⁿ

α 1−α

1−p p

αn = p α

!αn 1 − p 1 − α

!(1−α)n

= e⁻ⁿ

αln^α_p+(1−α)ln¹_1−p⁻^α

= e^−nH^p^(α).

(36)

8. Die Chernoff-Ungleichung f ¨ur Gamma(k)

Ubungsaufgabe extra – f ¨ur die stillste Zeit im Jahr:¨ X := Y₁ + . . . + Y_k

mit Y₁, . . . , Y_k unabh ¨angig und Exp(1)-verteilt^∗ (i) Zeigen Sie f ¨ur t < 1: E[e^tX] = 1

(1 − t)^k (ii) Zeigen Sie f ¨ur α > 1:

AAP(X > αk) ≤ e^{−k(α−1−}^ln ^α).

(iii) Finden Sie f ¨ur k = 10000 die Chernoff-Schranke f ¨ur AA P(X > 11000).

∗Ein solches X heißt Gamma(k)-verteilt