• Keine Ergebnisse gefunden

Der zentrale Grenzwertsatz

N/A
N/A
Protected

Academic year: 2022

Aktie "Der zentrale Grenzwertsatz"

Copied!
91
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Vorlesung 7a

Der zentrale Grenzwertsatz

1

(2)

1. Rekapitulation und Auftakt:

Eine Eigenschaft der Normalverteilung

2

(3)

Am Ende von Vorlesung 6b haben wir aus der Rotationsinvarianz der zweidimensionalen

Standard-Normalverteilung gefolgert:

Sind Z1 und Z2 unabh ¨angig und standard-normalverteilt, dann ist auch

1

2(Z1 + Z2)

standard-normalverteilt.

3

(4)

Was 2 recht ist, ist hier auch n billig:

Genau dasselbe geometrische Argument (jetzt im Rn statt im R2) zeigt, dass f ¨ur

unabh ¨angige, standard-normalverteilte Z1, . . . , Zn auch (∗) 1

n(Z1 + · · · + Zn) standard-normalverteilt ist.

Denn: 1

n(~e1 + · · · +~en) =: ~u ist ein Einheitsvektor im Rn (er zeigt in Richtung der Hauptdiagonalen). () ist die ~u- Komponente des

rotationssymmetrisch verteilten Vektors Z~ := Z1~e1 + · · ·Zn~en. Also ist () so verteilt wie Z1, die ~e1-Komponente von Z.~

4

(5)

Folgerung:

Sind Y1, . . . , Yn unabh ¨angig und N(µ, σ2)-verteilt, dann ist Y1 + · · · + Yn − nµ

σ√

n N(0, 1)-verteilt.

Denn dieses ist gleich

√1 n

Y1 − µ

σ + · · · + Yn − µ σ

!

.

Die standardisierte Summe von unabh ¨angigen, identisch normalverteilten Zufallsvariablen

ist standard-normalverteilt.

5

(6)

2. Der Zentrale Grenzwertsatz: Die Botschaft

6

(7)

Die eben getroffene Aussage

“Die standardisierte Summe von unabh ¨angigen, identisch normalverteilten Zufallsvariablen

ist standard-normalverteilt.”

hat eine gewaltige Weiterung (asymptotisch f ¨ur große n) im Zentralen Grenzwertsatz:

7

(8)

Der Zentrale Grenzwertsatz:

“Die standardisierte Summe von VIELEN unabh ¨angigen, identisch verteilten

nicht notwendig normalverteilten R-wertigen Zufallsvariablen

mit endlicher Varianz

ist ann ¨ahernd standard-normalverteilt”

8

(9)

Formal:

Seien X1, X2, . . . unabh ¨angige und identisch verteilte Zufallsvariable mit endlichem Erwartungswert µ

und endlicher Varianz σ2 > 0. Dann gilt f ¨ur alle c < d ∈ R

P

X1 + · · · + Xn − nµ

√nσ2 ∈ [c, d]

−→

n→∞ P(Z ∈ [c, d]). Dabei ist Z standard-normalverteilt.

9

(10)

In Worten:

Die standardisierte Summe von n unabh ¨angigen, identisch verteilten R-wertigen Zufallsvariablen

mit endlicher Varianz

konvergiert f ¨ur n → ∞ in Verteilung

gegen eine standard-normalverteilte Zufallsvariable.

Ein Beweis des Zentralen Grenzwertsatzes findet sich im Buch S. 78-80.

10

(11)

3. Zentraler Grenzwertsatz:

Meilensteine in seiner Geschichte

11

(12)

Abraham de Moivre:

Der faire M ¨unzwurf (1733)

Pierre-Simon Laplace:

Allgemeine binomiale Zufallsgr ¨oßen (1812)

Pafnuty Lvovich Chebyshev:

Skizze eines Beweises f ¨ur den allgemeinen Fall (1887)

12

(13)

Aleksandr Mikhailovich Lyapunov:

Allgemeiner zentraler Grenzwertsatz (1901) Noch allgemeiner (1906)

Andrei Andreyevich Markov:

weitere Verallgemeinerungen (∼ 1910)

13

(14)

Nehmen wir an,

diese Herren h ¨atten sich

auf ihre vielen anderen Interessen beschr ¨ankt.

ZENTRALER GRENZWERTSATZ

Unbekannt

K ¨onnten wir ihn entdecken?

Wie k ¨amen wir auf e−x2/2?

14

(15)

Nehmen wir an,

diese Herren h ¨atten sich

auf ihre vielen anderen Interessen beschr ¨ankt.

ZENTRALER GRENZWERTSATZ

Unbekannt.

K ¨onnten wir ihn entdecken?

Wie k ¨amen wir auf die “Glockenkurve”?

Warum gerade e−x2/2?

15

(16)

e e

Ein Ausflug mit Brooks Ferebee

16

(17)

4. Ein Beispiel: Summen von

unabh ¨angigen uniform verteilten Zufallsvariablen

17

(18)

Wir denken an

Rundungsfehler bei Addition

18

(19)

In Wirklichkeit π =

3.141592653589793238462643383279502884197169399375105...

Im Rechner

π ← 3.14159265358979

19

(20)

MODELL

Zahl = Rechnerdarstellung + Rundungsfehler.

A = a[R] + εX ε = 10−15

Annahme: X uniform verteilt auf [−0.5, 0.5].

Xn i=1

Ai = ? Xn

i=1

Ai =

Xn i=1

a[R]i + ε

Xn i=1

Xi Wie groß ist der Fehler?

Xn i=1

Xi ≈ ?

20

(21)

Der Zentrale Grenzwertsatz gibt die Auskunft:

Xn i=1

Xi ist

f ¨ur große n

approximativ N(0, n σ2X

1)-verteilt.

21

(22)

Ein Beispiel:

X

1

, X

2

, . . . unabh ¨angig

und uniform auf [− 0.5, 0.5 ] verteilt

22

(23)

Empirische Verteilung von Sn := X1 + ... + Xn

100000 Simulationen jeweils f ¨ur

n = 1, 2, ..., 10

n = 15, 20, 30, ..., 100

23

(24)

−0.5 0.0 0.5

0.00.51.01.52.0

Dichtefunktion fX der Verteilung von X

x f X(x)

EX σ

−σ

Aus dieser Verteilung wird 100000-mal eine Stichprobe vom Umfang n gezogen.

24

(25)

−0.6 −0.4 −0.2 0.0 0.2 0.4 0.6

010002000300040005000

123456789123456789Verteilung von S1 = X1 (n = 1)123456789123456789

AnzahlSimulationen(aus100000)

Sn

25

(26)

−1.0 −0.5 0.0 0.5 1.0

02000400060008000

123456789123456789Verteilung von S2 = X1 + X2 (n = 2)123456789123456789

AnzahlSimulationen(aus100000)

Sn

26

(27)

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

050001000015000

123456789123456789Verteilung von Sn (n = 3)123456789123456789

AnzahlSimulationen(aus100000)

Sn

27

(28)

−2 −1 0 1 2

020004000600080001000012000

123456789123456789123456789123456789Verteilung von Sn (n = 4)1234567891234567891234567

AnzahlSimulationen(aus100000)

Sn

28

(29)

−2 −1 0 1 2

020004000600080001000012000

123456789123456789123456789123456789Verteilung von Sn (n = 5)1234567891234567891234567

AnzahlSimulationen(aus100000)

Sn

29

(30)

−3 −2 −1 0 1 2 3

0500010000150002000025000

123456789123456789123456789123456789Verteilung von Sn (n = 6)1234567891234567891234567

AnzahlSimulationen(aus100000)

Sn

30

(31)

−3 −2 −1 0 1 2 3

0500010000150002000025000

123456789123456789123456789123456789Verteilung von Sn (n = 7)1234567891234567891234567

AnzahlSimulationen(aus100000)

Sn

31

(32)

−4 −2 0 2 4

05000100001500020000

123456789123456789123456789123456789Verteilung von Sn (n = 8)1234567891234567891234567

AnzahlSimulationen(aus100000)

Sn

32

(33)

−4 −2 0 2 4

05000100001500020000

123456789123456789123456789123456789Verteilung von Sn (n = 9)1234567891234567891234567

AnzahlSimulationen(aus100000)

Sn

33

(34)

−4 −2 0 2 4

05000100001500020000

123456789123456789123456789123456789Verteilung von Sn (n = 10)1234567891234567891234567

AnzahlSimulationen(aus100000)

Sn

34

(35)

−4 −2 0 2 4

05000100001500020000

123456789123456789123456789123456789Bisher: dynamische Skalierung12345678912345678

AnzahlSimulationen(aus100000)

Sn

35

(36)

−4 −2 0 2 4

05000100001500020000

123456789123456789123456789123456789Jetzt: feste Skalierung123456789123456789123

AnzahlSimulationen(aus100000)

Sn

36

(37)

−15 −10 −5 0 5 10 15

050001000015000

123456789123456789123456789123456789Verteilung von Sn (n = 15)1234567891234567891234567

AnzahlSimulationen(aus100000)

Sn

37

(38)

−15 −10 −5 0 5 10 15

050001000015000

123456789123456789123456789123456789Verteilung von Sn (n = 20)1234567891234567891234567

AnzahlSimulationen(aus100000)

Sn

38

(39)

−15 −10 −5 0 5 10 15

050001000015000

123456789123456789123456789123456789Verteilung von Sn (n = 30)1234567891234567891234567

AnzahlSimulationen(aus100000)

Sn

39

(40)

−15 −10 −5 0 5 10 15

050001000015000

123456789123456789123456789123456789Verteilung von Sn (n = 40)1234567891234567891234567

AnzahlSimulationen(aus100000)

Sn

40

(41)

−15 −10 −5 0 5 10 15

050001000015000

123456789123456789123456789123456789Verteilung von Sn (n = 50)1234567891234567891234567

AnzahlSimulationen(aus100000)

Sn

41

(42)

−15 −10 −5 0 5 10 15

050001000015000

123456789123456789123456789123456789Verteilung von Sn (n = 60)1234567891234567891234567

AnzahlSimulationen(aus100000)

Sn

42

(43)

−15 −10 −5 0 5 10 15

050001000015000

123456789123456789123456789123456789Verteilung von Sn (n = 70)1234567891234567891234567

AnzahlSimulationen(aus100000)

Sn

43

(44)

−15 −10 −5 0 5 10 15

050001000015000

123456789123456789123456789123456789Verteilung von Sn (n = 80)1234567891234567891234567

AnzahlSimulationen(aus100000)

Sn

44

(45)

−15 −10 −5 0 5 10 15

050001000015000

123456789123456789123456789123456789Verteilung von Sn (n = 90)1234567891234567891234567

AnzahlSimulationen(aus100000)

Sn

45

(46)

−15 −10 −5 0 5 10 15

050001000015000

123456789123456789123456789123456789Verteilung von Sn (n = 100)123456789123456789123

AnzahlSimulationen(aus100000)

Sn

46

(47)

z

−4 −2 0 2 4

02000400060008000

89123456789Standardisierung: Zn := (Sn − ESn)/σSn (n = 1)1234567891234567891234567

AnzahlSimulationen(aus100000)

47

(48)

z

−4 −2 0 2 4

02000400060008000

89123456789Standardisierung: Zn := (Sn − ESn)/σSn (n = 2)1234567891234567891234567

AnzahlSimulationen(aus100000)

48

(49)

z

−4 −2 0 2 4

02000400060008000

89123456789Standardisierung: Zn := (Sn − ESn)/σSn (n = 3)1234567891234567891234567

AnzahlSimulationen(aus100000)

49

(50)

z

−4 −2 0 2 4

02000400060008000

89123456789Standardisierung: Zn := (Sn − ESn)/σSn (n = 4)1234567891234567891234567

AnzahlSimulationen(aus100000)

50

(51)

z

−4 −2 0 2 4

02000400060008000

89123456789Standardisierung: Zn := (Sn − ESn)/σSn (n = 5)1234567891234567891234567

AnzahlSimulationen(aus100000)

51

(52)

z

−4 −2 0 2 4

02000400060008000

89123456789Standardisierung: Zn := (Sn − ESn)/σSn (n = 6)1234567891234567891234567

AnzahlSimulationen(aus100000)

52

(53)

z

−4 −2 0 2 4

02000400060008000

89123456789Standardisierung: Zn := (Sn − ESn)/σSn (n = 7)1234567891234567891234567

AnzahlSimulationen(aus100000)

53

(54)

z

−4 −2 0 2 4

02000400060008000

89123456789Standardisierung: Zn := (Sn − ESn)/σSn (n = 8)1234567891234567891234567

AnzahlSimulationen(aus100000)

54

(55)

z

−4 −2 0 2 4

02000400060008000

89123456789Standardisierung: Zn := (Sn − ESn)/σSn (n = 9)1234567891234567891234567

AnzahlSimulationen(aus100000)

55

(56)

z

−4 −2 0 2 4

02000400060008000

123456789123456789123456789123456789Standardisierung: Zn := (Sn − ESn)/σSn (n = 10)1234567891234567891234567

AnzahlSimulationen(aus100000)

56

(57)

z

−4 −2 0 2 4

02000400060008000

123456789123456789123456789123456789Standardisierung: Zn := (Sn − ESn)/σSn (n = 15)1234567891234567891234567

AnzahlSimulationen(aus100000)

57

(58)

z

−4 −2 0 2 4

02000400060008000

123456789123456789123456789123456789Standardisierung: Zn := (Sn − ESn)/σSn (n = 20)1234567891234567891234567

AnzahlSimulationen(aus100000)

58

(59)

z

−4 −2 0 2 4

02000400060008000

123456789123456789123456789123456789Standardisierung: Zn := (Sn − ESn)/σSn (n = 30)1234567891234567891234567

AnzahlSimulationen(aus100000)

59

(60)

z

−4 −2 0 2 4

02000400060008000

123456789123456789123456789123456789Standardisierung: Zn := (Sn − ESn)/σSn (n = 40)1234567891234567891234567

AnzahlSimulationen(aus100000)

60

(61)

z

−4 −2 0 2 4

02000400060008000

123456789123456789123456789123456789Standardisierung: Zn := (Sn − ESn)/σSn (n = 50)1234567891234567891234567

AnzahlSimulationen(aus100000)

61

(62)

z

−4 −2 0 2 4

02000400060008000

123456789123456789123456789123456789Standardisierung: Zn := (Sn − ESn)/σSn (n = 60)1234567891234567891234567

AnzahlSimulationen(aus100000)

62

(63)

z

−4 −2 0 2 4

02000400060008000

123456789123456789123456789123456789Standardisierung: Zn := (Sn − ESn)/σSn (n = 70)1234567891234567891234567

AnzahlSimulationen(aus100000)

63

(64)

z

−4 −2 0 2 4

02000400060008000

123456789123456789123456789123456789Standardisierung: Zn := (Sn − ESn)/σSn (n = 80)1234567891234567891234567

AnzahlSimulationen(aus100000)

64

(65)

z

−4 −2 0 2 4

02000400060008000

123456789123456789123456789123456789Standardisierung: Zn := (Sn − ESn)/σSn (n = 90)1234567891234567891234567

AnzahlSimulationen(aus100000)

65

(66)

z

−4 −2 0 2 4

02000400060008000

9123456789Standardisierung: Zn := (Sn − ESn)/σSn (n = 100)123456789123456789123

AnzahlSimulationen(aus100000)

66

(67)

Die Verteilung von Zn scheint zu konvergieren.

Welche Form

hat die Grenzverteilung?

67

(68)

Die Verteilung von Z100

ist glockenf ¨ormig.

Um welche Glockenkurve handelt es sich genau?

68

(69)

Gl ¨ucklicher Einfall:

Nimm zwei unabh ¨angige Kopien (U, V) := (Z100, Z100 )

Wie sieht die gemeinsame Verteilung von U und V aus?

69

(70)

−4 −2 0 2 4

−4−2024

1234567891234567891234567891234567891000 Simulationen123456789123456789123456

U = Z100

V=Z 100

70

(71)

−4 −2 0 2 4

−4−2024

1234567891234567891234567891234567892000 Simulationen123456789123456789123456

U = Z100

V=Z 100

71

(72)

−4 −2 0 2 4

−4−2024

1234567891234567891234567891234567893000 Simulationen123456789123456789123456

U = Z100

V=Z 100

72

(73)

−4 −2 0 2 4

−4−2024

1234567891234567891234567891234567894000 Simulationen123456789123456789123456

U = Z100

V=Z 100

73

(74)

−4 −2 0 2 4

−4−2024

1234567891234567891234567891234567895000 Simulationen123456789123456789123456

U = Z100

V=Z 100

74

(75)

−4 −2 0 2 4

−4−2024

1234567891234567891234567891234567896000 Simulationen123456789123456789123456

U = Z100

V=Z 100

75

(76)

−4 −2 0 2 4

−4−2024

1234567891234567891234567891234567897000 Simulationen123456789123456789123456

U = Z100

V=Z 100

76

(77)

−4 −2 0 2 4

−4−2024

1234567891234567891234567891234567898000 Simulationen123456789123456789123456

U = Z100

V=Z 100

77

(78)

−4 −2 0 2 4

−4−2024

1234567891234567891234567891234567899000 Simulationen123456789123456789123456

U = Z100

V=Z 100

78

(79)

−4 −2 0 2 4

−4−2024

12345678912345678912345678912345678910000 Simulationen123456789123456789123456

U = Z100

V=Z 100

79

(80)

−4 −2 0 2 4

−4−2024

12345678912345678912345678912345678910000 Simulationen123456789123456789123456

U = Z100

V=Z 100

80

(81)

−4 −2 0 2 4

−4−2024

9123456789Die Verteilung von (U, V) ist ann ¨ahernd rotationssymmetrisch!1234567891234

U = Z100

V=Z 100

81

(82)

5. Eine Charakterisierieung

der zweidimensionalen Standardnormalverteilung

82

(83)

Behauptung:

Aus “U und V unabh ¨angig und identisch verteilt’

und

“Verteilung von (U, V) rotationssymmetrisch”

folgt,

dass U und V normalverteilt sind:

fU(x) = fV(x) = 1

σ

e−x2/(2σ2)

83

(84)

Denn:

U, V unabh ¨angig bedeutet:

(∗) f(U,V)(a, b) = fU(a)fV(b)

f(U,V) rotationssymmetrisch heißt: es existiert ein g mit (∗∗) f(U,V)(a, b) = g(r), r :=

q

a2 + b2.

Mit fU = fV =: h folgt aus (∗) und (∗∗):

h(a)h(b) = g(r), r =

q

a2 + b2

84

(85)

h(a) h(b) = g(r), r =

q

a2 + b2 Die zwei Paare (a, b) und (0,

q

a2 + b2) haben dasselbe r.

Also:

h(a) h(b) = h(0) h(

q

a2 + b2)

Das ist eine Gleichung f ¨ur h. Eine L ¨osung hiervon ist:

h(x) = e−x2

Denn

e−a2e−b2 = 1 · e−(a2+b2)

85

(86)

h(a) h(b) = h(0) h(

q

a2 + b2)

Wie sieht die allgemeine L ¨osung aus?

w(u) := h(√

u), u ≥ 0, erf ¨ullt

w(a2)w(b2) = w(0)w(a2 + b2), a, b ∈ R.

w(u) w(v) = k0 w(u + v), u, v ≥ 0 hat als allgemeine L ¨osung

w(u) = k0e−k1u, k1 ∈ R. Daraus folgt:

h(a) = w(a2) = k0 e−k1a2.

86

(87)

FAZIT

Der Zentrale Grenzwertsatz l ¨asst sich erraten

(in konkreten F ¨allen, mit etwas Gl ¨uck).

87

(88)

Hier ist noch einmal die (im ZGS pr ¨azisierte) Botschaft der Stunde:

Summen (und Mittelwerte) von vielen unabh ¨angigen, identisch verteilten ZV mit endlicher Varianz

sind ann ¨ahernd normalverteilt.

Diese Aussage bleibt ¨ubrigens auch

unter schw ¨acheren Bedingungen bestehen, sowohl was die Unabh ¨angigkeit,

als auch was die identische Verteiltheit betrifft.

88

(89)

Eine Botschaft zum Mitnehmen ins Leben (salopp formuliert):

“Die Summe von vielen

ann ¨ahernd unabh ¨angigen Zufallsvariablen, die nicht notwendig identisch verteilt, aber ungef ¨ahr von derselben Gr ¨oßenordnung sind,

ist ann ¨ahernd normalverteilt.”

89

(90)

6. M ¨unzwurf und Zentraler Grenzwertsatz

90

(91)

Der M ¨unzwurf passt in den Rahmen des Zentralen Grenzwertsatzes:

Sei X1, X2, . . . , ein fortgesetzer p-M ¨unzwurf. Dann ergibt sich aus dem Zentralen Grenzwertsatz der (alte)

Satz von de Moivre und Laplace:

F ¨ur Binomial-(n, p)-verteilte Zufallsvariable Bn (mit festem p) gilt f ¨ur alle c < d ∈ R:

P

Bn − np

√npq ∈ [c, d]

n−→

→∞ P(Z ∈ [c, d]).

Dabei ist Z standard-normalverteilt.

91

Referenzen

ÄHNLICHE DOKUMENTE

Die untenstehenden Grafiken zeigen, dass die Form der Verteilung des Mittelwerts von unabh¨ angigen Zufallsvariablen auch dann der Normalverteilung immer ¨ ahnlicher wird, wenn

absolutstetig verteilt, 75 arcussinus-verteilt, 60 Bernoulli-verteilt, 33 binomialverteilt, 35 diskret, 33. exponentialverteilt, 75 geometrisch verteilt, 41 gleichverteilt,

Bemerkung Der zentrale Grenzwertsatz besagt grob: ”Ein Gesamteffekt, der Summe vieler kleiner zentrierter. unabh¨angiger Einzeleffekte ist, ist n

I Angenommen, es war 34-mal eine rote Seite zu sehen; wie w¨ urden Sie die Anzahl der rot lackierten Seiten auf dem W¨ urfel sch¨ atzen.. I Angenommen, es war 99-mal eine rote Seite

I Angenommen, es war 34-mal eine rote Seite zu sehen; wie w¨urden Sie die Anzahl der rot lackierten Seiten auf dem W¨urfel sch¨atzen.. I Angenommen, es war 99-mal eine rote Seite

Kann in der Situation des exakten 2-Stichproben-t-Test (Y A und Y B sind normalverteilt mit unbekannten Varianzen) auch unter H 0 keine Gleichheit der Varianzen vorausgesetzt werden,

F¨ur einen automatisierten Sortiervorgang werden eine g¨unstige (A) sowie eine hochpreisige Maschine (B ) angeboten.. Ist diese (deutlich) verletzt, ist auch eine

Liegt ein linearer Zusammenhang zwischen zwei Merkmalen X und Y nahe, ist nicht nur die St¨ arke dieses Zusammenhangs interessant, sondern auch die genauere. ” Form“