Statistische Analyseverfahren Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen

(1)

Statistische Analyseverfahren

Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen

Dr. Andreas W¨ unsche

TU Bergakademie Freiberg Institut f¨ur Stochastik

Oktober 2019

(2)

2.1 Zufallsvektoren und mehrdimensionale Verteilungen

I

Eine endliche Familie X

₁

, . . . , X

_n

von Zufallsgr¨ oßen kann als ein Zufallsvektor (ZV)

X = (X

1

, . . . , X

n

)

^T

angesehen werden.

I

Eine doppelt indizierte Familie X

ij

, i = 1, . . . , n ; j = 1, . . . , m , von Zufallsgr¨ oßen kann als eine Zufallsmatrix (ZM)

X = (X

_ij

)

_i=1,...,n_;j_=1,...,m

= (X

_ij

) angesehen werden.

I

Zufallsvariable werden hier im Allgemeinen mit Großbuchstaben bezeichnet, z.B. X , deren Realisierungen durch Angabe von ω oder durch Kleinbuchstaben, z.B. X(ω) = x .

I

Vektoren werden hier durch einen Unterstrich, Matrizen durch zwei

Unterstriche gekennzeichnet.

(3)

Bezeichnungen aus der linearen Algebra

I

Verwendet werden ¨ ubliche Bezeichnungen aus der linearen Algebra.

I

Vektoren werden als Spaltenvektoren angesehen, ·

^T

bezeichnet die Transponierung eines Vektors oder einer Matrix.

I

0

_n

, 0

_n×m

. . . n−dim. Nullvektor, Nullmatrix vom Typ n × m .

I

1

_n

, 1

_n×m

. . . n−dim. Vektor bzw. n × m−Matrix aus Einsen.

I

Analog ∞

_n

, −∞

_n

= −∞

_n

.

I

M

n×m

, M

n

. . . Menge aller n × m− bzw. n × n−Matrizen.

I

M

^≥n

, M

^>n

. . . Menge aller positiv semidefiniten bzw. positiv definiten n × n−Matrizen,

∀ 0 6= x ∈ R

ⁿ

: x

^T

a x ≥ 0 (a ∈ M

^≥n

) bzw. x

^T

a x > 0 (a ∈ M

^>n

) .

I

_n

. . . n × n−Einheitsmatrix.

I

k · k bezeichnet die euklidische Norm.

(4)

Verteilung eines Zufallsvektors

I

Ein Zufallsvektor X wird im Allgemeinen durch seine Verteilung gegeben.

I

Die Verteilung P

X

eines n-dimensionalen Zufallsvektors X

definiert die Wahrscheinlichkeiten daf¨ ur, dass die Realisierungen des Zufallsvektors in geeigneten Teilmengen des R

ⁿ

liegen,

P

X

(B) = P (X ∈ B), B ⊆ R

ⁿ

, geeignet.

I

Analog kann die Verteilung einer n × m−Zufallsmatrix f¨ ur geeignete Teilmengen des Raumes R

^n·m

genutzt werden. Formal kann dies durch die Vektorisierung der Matrix realisiert werden

(Hintereinanderschreiben der Spalten der Matrix zu einem langen

Spaltenvektor).

(5)

Definition Verteilungsfunktion n−dim. Zufallsvektor

I

Bez.

x = (x

1

, . . . , x

n

)

^T

< y = (y

1

, . . . , y

n

)

^T

, falls x

_i

< y

_i

f¨ ur i = 1, . . . , n ;

x = (x

1

, . . . , x

n

)

^T

≤ y = (y

1

, . . . , y

n

)

^T

, falls x

i

≤ y

i

f¨ ur i = 1, . . . , n .

I

F¨ ur einen n−dimensionalen Zufallsvektor X wird die Verteilung eindeutig durch die zugeh¨ orige Verteilungsfunktion F

_X

: R

ⁿ

→ [0, 1]

definiert:

F

_X

(x) = P

X

((−∞

_n

, x)) = P (X < x) , x ∈ R

ⁿ

.

I

Bem.

Oft wird die Verteilungsfunktion von X auch definiert durch

F ˜

_X

(x) = P

X

((−∞

_n

, x]) = P (X ≤ x) , x ∈ R

ⁿ

.

(6)

Eigenschaften Verteilungsfunktion n−dim. Zufallsvektor

I

Bez.: f¨ ur i ∈ {1, . . . , n} , a < b ∈ R sei

∆

_i;a,b

F

_X

(x) :=

F

_X

(x

1

, . . . x

i−1

, b, x

i+1

, . . . , x

n

) − F

_X

(x

1

, . . . x

i−1

, a, x

i+1

, . . . , x

n

) .

I

Eine Verteilungsfunktion F

_X

besitzt die Eigenschaften

(i) lim

xi→−∞,i∈{1,...,n}

F

X

(x) = 0 ; lim

xi→∞,i=1,...,n

F

X

(x) = 1 ; (ii) f¨ ur beliebige a < b gilt

∆

1;a₁,b₁

. . . ∆

n;a_n,b_n

F

X

(x) ≥ 0 , = P

X

([a, b))

⇒ F

X

ist monoton nichtfallend bez¨ uglich jeder Variablen;

(iii) F

X

ist linksseitig stetig bzgl. aller Variablen, d.h. aus x

^(k⁾

↑ x folgt

F

_X

(x

^(k⁾

) ↑ F

_X

(x) , k → ∞ .

(7)

Verteilungsdichte eines n−dimensionalen Zufallsvektors

I

F¨ ur absolut stetige Zufallsvektoren wird die Verteilung auch eindeutig durch die Verteilungsdichte (auch Dichtefunktion) f

_X

: R

ⁿ

→ R gegeben:

F

_X

(x) = P (X < x) = Z

x

−∞_n

f

_X

(u) du , x ∈ R

ⁿ

.

I

Eigenschaften von Dichtefunktionen (etwas vereinfacht):

I

f¨ ur alle x ∈ R

ⁿ

: f

_X

(x) ≥ 0 ;

I

Z

Rⁿ

f

X

(x) dx = 1 .

I

Dann gilt f¨ ur geeignete B ⊆ R

ⁿ

P (X ∈ B) = Z

B

f

_X

(x) dx .

I

Die Dichtefunktion wird im statistischen Kontext, inbesondere bei

unbekannten Parametern und einer gegebenen Realisierung

(Stichprobe) als Likelihood-Funktion bezeichnet.

(8)

Dichte einer zweidimensionalen Normalverteilung

(9)

H¨ ohenlinien einer zweidimensionalen

Normalverteilungsdichte

(10)

Randverteilungen

I

Die Verteilungsfunktion eines Teilvektors eines Zufallsvektors (die Randverteilungsfunktion) kann mit Hilfe der Verteilungsfunktion des Zufallsvektors berechnet werden.

I

Bsp.: X = (X

1

, . . . , X

n

)

^T

⇒

∀ x

₁

∈ R : F

_X₁

(x

₁

) = P (X

₁

< x

₁

) = F

_X

(x

₁

, ∞, . . . , ∞) .

I

Analoges gilt im Fall von absolut stetigen Zufallsvektoren f¨ ur die Randverteilungsdichten.

I

Bsp.: X = (X

1

, . . . , X

n

)

^T

⇒ (etwas vereinfacht)

∀ x

₁

∈ R : f

_X₁

(x

₁

) = Z

Rⁿ⁻¹

f

_X

(x

₁

, x

₂

, . . . , x

_n

) dx

₂

. . . dx

_n

.

I

Aus den Randverteilungsfunktionen bzw. -dichten kann man nur in

Spezialf¨ allen die Verteilungsfunktion bzw. -dichte des gesamten

Zufallsvektors bestimmen.

(11)

Satz von Cram´ er-Wold

Die Verteilung des n−dimensionalen Zufallsvektors X ist vollst¨ andig

bestimmt durch die Familie der (eindimensionalen) Verteilungen der

Zufallsgr¨ oßen t

^T

X , wobei t die Menge R

ⁿ

durchl¨ auft.

(12)

Erwartungswert eines Zufallsvektors

I

Erwartungswerte von Zufallsvektoren und Zufallsmatrizen werden komponentenweise definiert und existieren, falls von jeder

Komponente der skalare Erwartungswert existiert.

I

Erwartungswert des Zufallsvektors X = (X

₁

, . . . , X

_n

)

^T

: E X := ( E X

1

, . . . , E X

n

)

^T

.

I

Erwartungswert der Zufallsmatrix X = (X

ij

) :

E X := ( E X

_ij

) .

(13)

Kovarianzmatrix eines Zufallsvektors

I

Ein Analogon der Varianz f¨ ur Zufallsvektoren, deren Komponenten endliche zweite Momente besitzen, ist die Kovarianzmatrix (oder auch Varianz-Kovarianz-Matrix) des Zufallsvektors.

I

Kovarianzmatrix des Zufallsvektors X = (X

1

, . . . , X

n

)

^T

: VarX := E

h

[X − EX] [X − EX]

^T

i

.

I

Auf der Hauptdiagonale der Kovarianzmatrix von X stehen die Varianzen V arX

_i

der Komponenten, an der Stelle (i , j ) , i 6= j , jeweils die Kovarianz der Zufallsgr¨ oßen X

_i

und X

_j

: C ov[X

_i

, X

_j

] .

I

Eigenschaften einer Kovarianzmatrix Σ = V arX

I

Σ = Σ

^T

(Σ ist symmetrisch) ;

I

∀ x ∈ R

ⁿ

: x

^T

Σ x ≥ 0 (Σ ist positiv semidefinit) .

(14)

Korrelationsmatrix eines Zufallsvektors

I

Gilt f¨ ur alle Komponenten eines Zufallsvektors X = (X

1

, . . . , X

n

)

^T

0 < V arX

_i

< ∞ , kann man die Korrelationsmatrix definieren:

CorrX := (Corr[X

i

, X

j

])

i,j=1,...,n

mit Corr[X

i

, X

j

] := C ov[X

_i

, X

_j

]

p V arX

_i

V arX

_j

.

I

Die Elemente auf der Hauptdiagonale sind 1, das Element an der Stelle (i, j ) ist der Korrelationskoeffizient von X

i

und X

j

.

I

Die Korrelationsmatrix des Zufallsvektors X = (X

₁

, . . . , X

_n

)

^T

ist die Kovarianzmatrix der standardisierten Komponenten von X .

I

Es gilt immer −1 ≤ C orr[X

_i

, X

_j

] ≤ 1 .

I

Im Fall von | Corr[X

i

, X

j

] | = 1 besteht eine lineare Beziehung

zwischen den Zufallsgr¨ oßen X

_i

und X

_j

.

(15)

Kreuzkovarianz zweier Zufallsvektoren

I

Sind X = (X

1

, . . . , X

n

)

^T

und Y = (Y

1

, . . . , Y

m

)

^T

zwei Zufallsvektoren, deren Komponenten endliche zweite Momente besitzen, definiert man die Kreuzkovarianzmatrix dieser

Zufallsvektoren als n × m−Matrix C ov[X, Y] := E

h

[X − E X] [Y − E Y]

^T

i .

I

An der Stelle (i , j ) der Kreuzkovarianzmatrix steht die Kovarianz Cov[X

i

, Y

j

] der Zufallsgr¨ oßen X

i

und Y

j

.

I

F¨ ur einen Zufallsvektor X gilt V arX = C ov[X, X] =: C ovX .

I

Es gilt Cov[X, Y] = Cov[Y, X]

^T

.

I

Analog kann man die Kreuzkorrelationsmatrix C orr[X, Y] zweier Zufallsvektoren X und Y definieren.

I

Gilt C ov[X, Y] = 0

_n×m

, nennt man X und Y unkorreliert.

(16)

Eigenschaften bei linearen Operationen I

I

Geg.: X , Y n−dim. ZV, E kXk < ∞ , E kYk < ∞ .

I

a, b ∈ R ⇒ E [aX + bY] = a E X + b E Y ;

I

d ∈ M

m×n

, c ∈ R

^m

⇒ E

d X + c

= d E X + c .

I

Geg.: X n−dim. ZV, E kXk

²

< ∞ .

I

V arX = E h

X X

^T

i

− ( E X) ( E X)

^T

;

I

a ∈ R

ⁿ

⇒ V ar a

^T

X

= a

^T

V ar[X] a ;

I

a ∈ M

m×n

, b ∈ R

^m

⇒ V ar

a X + b

= a V ar[X] a

^T

.

I

Geg.: X

⁽¹⁾

, X

⁽²⁾

n−dim. ZV, Y m−dim. ZV, E kX

⁽ⁱ⁾

k

²

< ∞ , i = 1, 2 , E kYk

²

< ∞

⇒ C ov h

X

⁽¹⁾

+ X

⁽²⁾

, Y i

= C ov h

X

⁽¹⁾

, Y i

+ C ov h

X

⁽²⁾

, Y i

.

(17)

Eigenschaften bei linearen Operationen II

I

Geg.: X , Y n−dim. ZV, E kXk

²

< ∞ , E kYk

²

< ∞

⇒ V ar[X + Y] = V arX + C ov[X, Y] + C ov[Y, X] + V arY .

I

Geg.: X n

₁

−dim. ZV, Y n

₂

−dim. ZV, E kXk

²

< ∞ , E kYk

²

< ∞ , a ∈ M

m1×n1

, b ∈ M

m2×n2

⇒ C ov

a X, b Y

= a C ov[X, Y] b

^T

.

(18)

Stochastische Unabh¨ angigkeit von Zufallsvektoren

Geg.: X n−dim. ZV, Y m−dim. ZV, Z = (X

^T

, Y

^T

)

^T

.

Die Zufallsvektoren X und Y sind (stochastisch) unabh¨ angig, wenn eine der folgenden ¨ aquivalenten Bedingungen erf¨ ullt ist (Bedingung (iii) nur, falls der (n + m)−dimensionale Zufallsvektor Z (absolut) stetig ist).

(i) ∀ B

1

⊆ R

ⁿ

, ∀ B

2

⊆ R

^m

, geeignet:

P ({X ∈ B

₁

} ∩ {Y ∈ B

₂

}) = P (X ∈ B

₁

) · P (Y ∈ B

₂

) . (ii) ∀ x ∈ R

ⁿ

, ∀ y ∈ R

^m

: F

_Z

(x, y) = F

_X

(x) · F

_Y

(y) . (iii) ∀ x ∈ R

ⁿ

, ∀ y ∈ R

^m

: f

_Z

(x, y) = f

_X

(x) · f

_Y

(y) .

Aus der Unabh¨ angigkeit folgt die Unkorreliertheit, falls die zweiten

Momente existieren.

(19)

2.2 Mehrdimensionale Normalverteilung (Multinormalverteilung)

I

Def. 2.2.1

Ein m−dimensionaler Zufallsvektor X = (X

1

, . . . , X

m

)

^T

besitzt eine m−dimensionale Standardnormalverteilung, falls X

_i

∼ N(0, 1) , i = 1, . . . , m , i.i.d.

I

Bez. X ∼ N

_m

(0

_m

, I

_m

) oder X ∼ N(0

_m

, I

_m

) .

I

Satz 2.2.2

Geg.: Zufallsvektor X ∼ N

m

(0

_m

, I

_m

)

⇒ X ist ein stetiger Zufallsvektor mit Dichtefunktion

f

X

(x) = (2π)

^−m/2

e

⁻¹²^x^T^x

= (2π)

^−m/2

e

⁻¹²^kxk²

, x ∈ R

^m

.

Außerdem gelten E X = 0

_m

und V arX = I

_m

.

(20)

Dichte der zweidimensionalen Standardnormalverteilung

(21)

H¨ ohenlinien der 2-dim. Standardnormalverteilungsdichte

(22)

Allgemeine normalverteilte Zufallsvektoren

I

Def. 2.2.3

Ein p−dimensionaler ZV X = (X

1

, . . . , X

p

)

^T

besitzt eine

p−dimensionale Normalverteilung, falls f¨ ur einen m−dimensionalen standardnormalverteilten Zufallsvektor Z , einen Vektor µ ∈ R

^p

und eine p × m−Matrix a gilt

X = µ + a Z .

I

Satz 2.2.4

F¨ ur den Zufallsvektor X aus Def. 2.2.3 gelten EX = µ und VarX = a a

^T

=: Σ .

I

Bez. X ∼ N

_p

(µ, Σ) oder X ∼ N(µ, Σ) . Man spricht auch von Gaußschen Zufallsvektoren.

I

Bem. Die p × p−Matrix a a

^T

= Σ ist (z.B. als Kovarianzmatrix)

symmetrisch und positiv semidefinit.

(23)

Spektraldarstellung reeller symmetrischer Matrizen

Satz 2.2.5

Ist b eine reelle symmetrische p × p−Matrix, dann kann sie geschrieben werden als

b = Γ Λ Γ

^T

=

p

X

k=1

λ

_k

γ

_k

γ

_k^T

,

wobei Λ die Diagonalmatrix der Eigenwerte von b ist und Γ die zugeh¨ orige orthogonale Matrix, deren Spalten die standardisierten Eigenvektoren enthalten (es gilt Γ Γ

^T

= Γ

^T

Γ = I

_p

).

Ist die Matrix b positiv semidefinit, dann sind alle Eigenwerte nichtnegativ und es gilt

b = Γ Λ

^1/2

Λ

^1/2

T

Γ

^T

=

Γ Λ

^1/2

Γ Λ

^1/2

T

.

Der Rang dieser Matrix ist gleich der Anzahl der Eigenwerte 6= 0 .

(24)

Weitere Eigenschaften

I

Satz 2.2.6

Ein p−dimensionaler Zufallsvektor X = (X

1

, . . . , X

p

)

^T

ist genau dann normalverteilt, wenn f¨ ur jeden Vektor t ∈ R

^p

die skalare Zufallsgr¨ oße t

^T

X normalverteilt (oder eine Konstante) ist.

I

Satz 2.2.7

Sei X = (X

₁

, . . . , X

_p

)

^T

∼ N

_p

(µ, Σ) .

(i) F¨ ur b ∈ R

^d

, a ∈ M

d×p

gilt Y := b + a X ∼ N

d

(b + a µ, a Σ a

^T

) . (ii) Jeder Teilvektor bzw. jede Komponente von X ist ein

normalverteilter Zufallsvektor bzw. eine normalverteilte Zufallsgr¨ oße.

I

Bem.

Ist jede Komponente eines Zufallsvektors eine normalverteilte (oder konstante) Zufallsgr¨ oße, dann muss der Zufallsvektor nicht

unbedingt ein normalverteilter Zufallsvektor sein!

(25)

Regul¨ ar normalverteilte Zufallsvektoren

Def. und Satz 2.2.8

Gilt f¨ ur einen normalverteilten Zufallsvektor X aus Definition 2.2.3 p = m , V arX = a a

^T

=: Σ mit det Σ 6= 0 , dann besitzt X eine regul¨ are Normalverteilung N

p

(µ, Σ) und X ist ein (absolut) stetiger Zufallsvektor mit Dichtefunktion

f

X

(x) = 1 q

(2π)

^p

det Σ

e

⁻¹²^(x−µ)^T^Σ⁻¹^(x−µ)

, x ∈ R

^p

.

Der Normierungsfaktor kann auch als det(2πΣ)

^−1/2

geschrieben

werden, Σ ist eine reelle, symmetrische und positiv definite

p × p−Matrix.

(26)

Zweidimensionale regul¨ ar normalverteilte Zufallsvektoren

Spezialfall m = p = 2 , X = (X

1

, X

2

)

^T

∼ N

2

(µ, Σ) mit µ = (µ

1

, µ

2

)

^T

∈ R

²

, Σ =

σ

₁²

% σ

1

σ

2

% σ

₁

σ

₂

σ

²₂

, σ

²_i

= V arX

_i

> 0 , i = 1, 2 , % = C orr[X

₁

, X

₂

] ∈ (−1, 1)

⇒ det Σ = σ

₁²

σ

₂²

(1 − %

²

) ,

Σ

⁻¹

= 1 det Σ

σ

₂²

−% σ

₁

σ

2

−% σ

₁

σ

₂

σ

²₁

! ,

f

_(X₁_,X₂₎

(x

1

, x

2

) = c · e

⁻

1 2(1−%2)

(x1−µ1)2

σ2 1

−2%^(x¹^−µ_σ¹⁾⁽^x²^−µ²⁾

1σ2 +^(x²^−µ²⁾

2 σ2

2

mit c = 1

2πσ

₁

σ

₂

p

1 − %

²

, (x

1

, x

2

)

^T

∈ R

²

.

(27)

Dichtefunktionsgrafiken zweidimensionaler Normalverteilungen

Dichtefunktionen von normalverteilten Zufallsvektoren (X

₁

, X

₂

)

^T

mit E X

1

= E X

2

= 0 , V arX

1

= V arX

2

= 1 sowie C orr[X

1

, X

2

] = 0 (links),

C orr[X

₁

, X

₂

] = −0.5 (mitte) und C orr[X

₁

, X

₂

] = −0.9 (rechts).

Auf den folgenden Folien folgen die H¨ ohenlinien der jeweiligen

Dichtefunktionen.

(28)

H¨ ohenlinien bei C orr[X 1 , X 2 ] = 0

(29)

H¨ ohenlinien bei C orr[X 1 , X 2 ] = −0.5

(30)

H¨ ohenlinien bei C orr[X 1 , X 2 ] = −0.9

(31)

Unabh¨ angigkeit von Teilvektoren bei Normalverteilung

Satz 2.2.9

Geg. X = (X

₁^T

, X

₂^T

)

^T

∼ N

p

(µ, Σ) ,

X

₁

= (X

1

, . . . , X

k

)

^T

, X

₂

= (X

k+1

, . . . , X

p

)

^T

.

Dann sind X

₁

und X

₂

genau dann stochastisch unabh¨ angig, wenn

C ov[X

₁

, X

₂

] = 0

_k×(p−k)

gilt.