Statistische Analyseverfahren Abschnitt 3: Diskriminanzanalyse

(1)

Statistische Analyseverfahren Abschnitt 3: Diskriminanzanalyse

Dr. Andreas W¨ unsche

TU Bergakademie Freiberg Institut f¨ur Stochastik

Oktober/November 2019

(2)

3 Diskriminanzanalyse 3.1 Einf¨ uhrung

I

Zielstellung einer Diskriminanzanalyse ist es, einen Merkmalstr¨ ager (ein Objekt) mit Hilfe der beobachteten Messwerte zu einer von mehreren Klassen (Gruppen, Populationen, . . . ) zuzuordnen, wobei in der Regel keine eindeutige deterministische Zuordnung mittels einfacher Entscheidungsregeln m¨ oglich ist.

I

Zuerst soll der Fall behandelt werden, dass die unterschiedlichen Klassen durch jeweils bekannte Wahrscheinlichkeitsverteilungen der Merkmalszufallsvektoren charakterisiert werden.

I

Danach wird auf den praktisch relevanteren Fall eingegangen, dass die unterschiedlichen Wahrscheinlichkeitsverteilungen der Merkmalszufallsvektoren nicht vollst¨ andig bekannt sind.

I

Außerdem soll die lineare Diskriminanzanalyse von

Fisher

vorgestellt werden, bei der keine speziellen Verteilungen der

Merkmalszufallsvektoren genutzt werden.

(3)

Beispiele

I

Kredit-Scoring: Beurteilung der Kreditw¨ urdigkeit f¨ ur (z.B.) Neukunden, wobei ein Kunde anhand von bestimmten erhobenen Daten, wie z.B. Familienstand, Alter, Verm¨ ogen, Status als Arbeitsnehmer, Besch¨ aftigungsdauer, etc. in die Klasse der kreditw¨ urdigen oder kreditunw¨ urdigen Kunden eingestuft werden soll.

I

Im Zusammenhang mit dem R-Beispieldatensatz

” Iris“ kann man das Problem betrachten, eine Schwertlilienpflanze anhand der gemessenen Gr¨ oßen L¨ ange des Kelchblattes, Breite des Kelchblattes, L¨ ange des Bl¨ utenblattes und Breite des Bl¨ utenblattes zu einer der drei Blumenarten

” Iris setosa“ (Borsten-Schwertlilie),

” Iris versicolor“ (Verschiedenfarbige Schwertlilie) und

” Iris virginica“

(Virginische Schwertlilie) zuzuordnen.

(4)

Formales Vorgehen

I

Aufgabenstellung: Klassifikation (Klassierung), Zuordnung eines Merkmalstr¨ agers zu einer von g

≥

2 Klassen Π

1

, . . . , Π

g

auf der Grundlage von

” Messwerten“ x als Realisierungen von zuf¨ alligen p−dimensionalen Merkmalsvektoren X

_j

.

I

Ziel: Die Zuordnung soll zu m¨ oglichst wenigen Fehlklassifikationen f¨ uhren.

I

Formales Vorgehen: Der Merkmalsraum (oft

R^d

) wird in g disjunkte Regionen R

₁

, . . . , R

_g

eingeteilt (zerlegt).

I

Diskriminanzregel: Der Merkmalstr¨ ager mit Merkmalsvektor x ( ” der Merkmalsvektor x“) wird der Population Π

_i

(i

∈ {1, . . . ,

g

})

genau dann zugeordnet, wenn x

∈

R

i

gilt.

I

H¨ aufige Annahme: Die Verteilung des Merkmalsvektors f¨ ur jede

Klasse besitze eine Dichtefunktion f

j

, j = 1, . . . , g , bzgl. eines

Maßes auf dem Merkmalsraum (oft die ¨ ubliche Verteilungsdichte).

(5)

Beispiel f¨ ur die Maximum-Likelihood-Diskriminanzregel

I

1 Merkmal, 2 Klassen, Normalverteilungen.

I

Geg. p = 1 , g = 2 , Π

₁

=

N(µ₁

, σ

²

) , Π

₂

=

N(µ₂

, σ

²

) , µ

₁

< µ

₂

; µ

1

, µ

2

, σ

²

bekannt.

I

Maximum-Likelihood-Diskriminanzregel:

Ordne dem Merkmalstr¨ ager mit Merkmalswert x

∈R

diejenige Klasse zu, deren Dichtefunktion im Punkt x maximal wird, bei Gleichheit kann man beliebig (messbar) zuordnen.

I

Da hier f¨ ur alle x < µ

1

+ µ

2

2 gilt f

1

(x) > f

2

(x) , lautet die (oder besser: eine) Diskriminanzregel

x < µ

1

+ µ

2

7−→

Π

1

, Zuordnung zu Klasse 1 ; x

≥

µ

₁

+ µ

₂

2

7−→

Π

₂

, Zuordnung zu Klasse 2 .

(6)

Grafik Dichtefunktionen mit µ

1

= 0, µ

2

= 2, σ

²

= 1

(7)

Simulationsstudie Maximum-Likelihood-Diskriminanzregel

I

In einer Simulationsstudie wurden jeweils 1000 Realisierungen des Merkmals der Klasse 1 mit der Verteilung

N(0,

1) und

der Klasse 2 mit der Verteilung N(2,1)

erzeugt.

I

Mit der Maximum-Likelihood-Diskriminanzregel werden

Realisierungwerte <

1

der Klasse 1 zugeordnet, die anderen (d.h.

≥1) der Klasse 2. Die theoretische Wahrscheinlichkeit f¨

ur eine Fehlklassifikation (eine Realisierung aus der Klasse 1 wird der

Klasse 2

zugeordnet bzw. eine Realisierung aus der

Klasse 2

wird der Klasse 1 zugeordnet) betr¨ agt jeweils 1

−

Φ(1)

≈

0.159 .

I

In der erzeugten Stichprobe werden 148 Realisierungen aus der Klasse 1 der

Klasse 2

zugeordnet und 161 Realisierungen aus der

Klasse 2

der Klasse 1 zugeordnet, also fehlerhaft klassifiziert.

I

Bei einer Trenngrenze von

1.5

statt

1

zum Beispiel w¨ urden 74

Realisierungen aus Klasse 1 und 324 Realisierungen aus

Klasse 2

fehlerhaft klassifiziert.

(8)

Histogramme Simulationsstudie

(9)

Beispiel f¨ ur die Bayes sche Diskriminanzregel

I

Geg. p = 1 , g = 2 , Π

1

=

N(µ1

, σ

²

) , Π

2

=

N(µ2

, σ

²

) , µ

1

< µ

2

; µ

₁

, µ

₂

, σ

²

bekannt, π

₁

, π

₂

a-priori-Wahrscheinlichkeiten f¨ ur die 1. bzw. 2. Klasse.

I Bayes

sche Diskriminanzregel: Ordne dem Merkmalstr¨ ager mit Merkmalswert x

∈R

diejenige Klasse zu, deren a-posteriori- Wahrscheinlichkeit π(j

|x) maximal wird, bei Gleichheit kann man

beliebig (messbar) zuordnen.

I

Es gelten

π(j

|x) =

f

_j

(x)π

_j

f

1

(x)π

1

+ f

2

(x)π

2

∝

f

_j

(x )π

_j

, j = 1, 2 ; π(1|x) > π(2|x)

⇔

x < 1

2 (µ

₁

+ µ

₂

) + σ

²

µ

2−

µ

1

ln π

₁

π

2

.

(10)

Simulationsstudie Bayes sche Diskriminanzregel

I

In einer Simulationsstudie wurden 2000 Realisierungen des Merkmals der Klasse 1 mit der Verteilung

N(0,

1) und 1000 Realisierungen der

Klasse 2 mit der VerteilungN(2,1)

erzeugt. Dies entspricht der Situation mit a-priori-Wahrscheinlichkeiten π

1

=

²₃

, π

2

=

¹₃

.

I

Mit der

Bayes

schen Diskriminanzregel werden Realisierungwerte

<

1 +¹₂ln(2)≈1.347

der Klasse 1 zugeordnet, die anderen der

Klasse 2.

I

In der erzeugten Stichprobe werden 177 Realisierungen aus der Klasse 1 der

Klasse 2

zugeordnet und 255 Realisierungen aus der

Klasse 2

der Klasse 1 zugeordnet (also fehlerhaft klassifiziert), dies entspricht einer relativen H¨ aufigkeit von 0.144.

I

Bei einer Trenngrenze von

1

statt

1.347

zum Beispiel w¨ urden 314

Realisierungen aus Klasse 1 und 154 Realisierungen aus

Klasse 2

fehlerhaft klassifiziert, dies entspricht einer relativen H¨ aufigkeit von

0.156.

(11)

Histogramme Simulationsstudie

(12)

3.2 Diskrimination bei bekannten Verteilungen

I

Allgemeine Maximum-Likelihood-Diskriminanzregel (ML-Diskriminanzregel) bei bekannten Verteilungen:

x

∈

R

i

, falls L(i; x) = max

j=1,...,g

L(j ; x) mit

L(j ; x) := f

_j

(x) , j = 1, . . . , g , (Likelihood-Funktion) mit speziellen Vereinbarungen im Fall mehrfacher Maxima, so dass eine messbare Zuordnung realisiert wird.

I

Beispiel Π

1

=

0 1 0.5

0.5

, Π

2

=

0 1

0.25 0.75

;

x = 0 : L(1; 0) = 0.5 >

0.25

= L(2; 0) , Zuordnung zu Π

₁

;

x = 1 : L(1; 1) =

0.5

<

0.75

= L(2; 1) , Zuordnung zu Π

₂

.

(13)

ML-Diskrimination f¨ ur Normalverteilungen mit identischen regul¨ aren Kovarianzmatrizen

I

Satz 3.2.1 Geg. Π

j

=

Np

(µ

_j

, Σ) , Σ regul¨ ar, j = 1, . . . , g . Die ML-Diskriminanzregel ist dann gegeben durch: x

∈

R

_i ⇔

(x

−

µ

_i

)

^T

Σ

⁻¹

(x

−

µ

_i

) = min

j=1,...,g

(x

−

µ

_j

)

^T

Σ

⁻¹

(x

−

µ

_j

) und eine geeignete Vereinbarung im Fall mehrfacher Minima.

I

Def. 3.2.2 Die Zahl d

M

(x, µ

_j

) :=

(x

−

µ

_j

)

^T

Σ

⁻¹

(x

−

µ

_j

)

1/2

ist der

Mahalanobis

-Abstand von x zum Erwartungswertvektor µ

_j

(oft wird auch keine Quadratwurzel gezogen) .

I

Bem. Nimmt der

Mahalanobis

-Abstand zwischen dem Merkmalsvektor x und dem Erwartungswertvektor µ

i

der i−ten Klasse das Minimum unter allen

Mahalanobis

-Abst¨ anden

zwischen x und µ

_j

(j = 1, . . . , g ) an, so wird der Merkmalstr¨ ager

mit dem Merkmalsvektor x der i

−ten Klasse zugeordnet.

(14)

Allgemeiner Fall von 2 Klassen: Diskriminanzfunktion

I

Bem.

Im Fall mit g = 2 gilt: x

∈

R

1

, falls L(1; x) > L(2; x) , d.h. falls ln L(1; x)

L(2; x) = ln L(1; x)

−

ln L(2; x) > 0 .

I

Def. 3.2.3 Die Funktion

h(x) := ln L(1; x)

L(2; x) = ln L(1; x)

−

ln L(2; x) , x

∈R^p

, wird Diskriminanzfunktion genannt.

I

Bem.

Die Diskriminanzfunktion teilt

R^p

in zwei Teilmengen. Mit der

ML-Diskriminanzregel liegt x in R

₁

, wenn h(x) > 0 gilt.

(15)

Zwei Normalverteilungen mit gleichen Kovarianzmatrizen

I

Satz 3.2.4

Geg. Π

j

=

Np

(µ

_j

, Σ) , Σ regul¨ ar, j = 1, 2 . Dann gelten

x

∈

R

₁ ⇔

h(x) = (µ

₁−

µ

₂

)

^T

Σ

⁻¹

x

−

1 2 (µ

₁

+ µ

₂

)

> 0 . x

∈

R

2 ⇔

h(x)

≤

0 .

Folglich ist die Diskriminanzfunktion h(x) (affin) linear, ihre Nullstellenmenge

{x∈R^p

: h(x) = 0} beschreibt eine Hyperebene (die Trennebene) im Raum

R^p

, die durch den Schwerpunkt (den Mittelpunkt) der beiden Erwartungswertvektoren (µ

1

+ µ

2

)/2 geht.

I

Bem.

Wird eine affin lineare Diskriminanzfunktion zur Klassifizierung genutzt, spricht man auch von

” linearer Diskriminanzanalyse

(LDA)“.

(16)

Zwei Normalverteilungen mit regul¨ aren Kovarianzmatrizen

Bem.

Besitzen die Normalverteilungen unterschiedliche Kovarianzmatrizen, f¨ uhrt die Maximum-Likelihood-Diskriminanzregel zu einer quadratischen Diskriminanzfunktion. Das entsprechende Verfahren wird auch

” quadratische Diskriminanzanalyse (QDA)“ genannt.

Im univariaten Fall (p = 1) gilt dann x

∈

R

₁ ⇔

x

²

1 σ

₁² −

1 σ

₂²

−2x

µ

1

σ

₁² −

µ

2

σ

₂²

+ µ

²₁

σ

²₁ −

µ

²₂

σ

₂²

< 2 ln σ

2

σ

₁

.

(17)

Beispiel 3.2.5

Geg. Π

j

=

N2

(µ

_j

, Σ) ; j = 1, 2 ; Σ =

1 0 0 2

; µ

₁

=

1

1 ; µ

₂

=

0

0 .

Merkmalstr¨ ager mit Merkmalsvektor x = 1

2 , 1

T

.

(18)

Bayes sche Diskriminanzregel

I

Wenn man bereits

” Vorurteile“ bzw. Vorinformationen ¨ uber die Zugeh¨ origkeiten zu den g Klassen hat, kann man diese mit in die Diskriminanzregel aufnehmen.

I

Geg. zus¨ atzlich a-priori-Wahrscheinlichkeiten π

₁ ≥

0, . . . , π

_g ≥

0 mit

g

X

j=1

π

j

= 1 f¨ ur die Klassen Π

1

, . . . , Π

g

.

⇒

a-posteriori-Wahrscheinlichkeiten π(i|x) = L(i ; x)π

_i

Pg

j=1

L(j; x)π

_j ∝

L(i; x)π

_i

, i = 1, . . . , g .

I Bayes

sche Diskriminanzregel: Ordne den Merkmalsvektor x zur Klasse i zu, d.h. x

∈

R

i

, falls

π

_i

L(i; x) = max

j=1,...,g

π

_j

L(j ; x)

(mit speziellen Vereinbarungen im Fall mehrfacher Maxima).

(19)

Bemerkungen zur Bayes schen Diskriminanzregel

I

Die Maximum-Likelihood-Diskriminanzregel erh¨ alt man im Fall π

1

= . . . = π

g

=

_g¹

.

I

Im Spezialfall g = 2 f¨ uhrt das auf eine Verschiebung des kritischen Wertes der Diskriminanzfunktion: x

∈

R

₁ ⇔

h(x) > ln(π

₂

/π

₁

) .

I

Insbesondere lautet die

Bayes

sche Diskriminanzregel bei 2 Klassen von p-dimensional normalverteilten Merkmalsvektoren mit gleichen Kovarianzmatrizen Σ = Σ

₁

= Σ

₂

(vgl. Satz 3.2.4)

x

∈

R

1 ⇔

h(x) = (µ

₁−

µ

₂

)

^T

Σ

⁻¹

x

−

1 2 (µ

₁

+ µ

₂

)

> ln π

2

π

₁

; x

∈

R

₂ ⇔

h(x)

≤

ln

π

₂

π

₁

;

bzw. mit der Diskriminanzfunktion h

1

(x) := h(x)

−

ln π

2

π

₁

:

Zuordnung zu Π

₁

falls h

₁

(x) > 0 , sonst zu Π

₂

.

(20)

Fortsetzung Beispiel 3.2.5

Zus¨ atzlich geg.

π

₁

= 2

3 , π

₂

= 1

3 .

(21)

3.3 Diskrimination, wenn Verteilungen bis auf Parameter bekannt sind

I

Sind die Verteilungen der zuf¨ alligen Merkmalsvektoren f¨ ur die einzelnen Klassen nicht bekannt, ben¨ otigt man eine Lernstichprobe (Trainingsstichprobe) von Merkmalstr¨ agern mit beobachteten Merkmalsvektoren, f¨ ur die die Zugeh¨ origkeit zu einer Klasse bekannt sein muss. Dann kann man f¨ ur weitere Merkmalstr¨ ager die

Diskrimination z.B. mit Hilfe gesch¨ atzter Parameter durchf¨ uhren.

I

Vor. 3.3.1

Es liegt eine Datenmatrix x vor, mit jeweils n

_j

Realisierungen der Population Π

_j

, j = 1, . . . , g , d.h.

x = (x

^T₁

, . . . , x

^T_g

)

^T

, x

_j ∈Rⁿ^j^×p

, x

_j

= (x

_j₁

, . . . , x

_jn_j

)

^T

.

Mit diesen Daten soll eine passende Diskriminanzregel gelernt

werden.

(22)

Prinzip der Stichproben-ML-Diskriminanzregel

Prinzip 3.3.2

(i)

Die unbekannten Parameter von Π

_j

werden mit x

j

gesch¨ atzt.

(ii)

Danach benutzt man die ML-Diskriminanzregel zur Zuordnung mit

gesch¨ atzten statt theoretischen Parametern.

(23)

Univariates Beispiel Stichproben-ML-Diskriminanzregel

3.3.3 Bsp.

Geg. p = 1 , g = 2 , Π

1

=

N(µ1

, σ

²

) , Π

2

=

N(µ2

, σ

²

) , µ

1

< µ

2

; µ

₁

, µ

₂

, σ

²

unbekannt;

Lernstichproben x

₁

= (x

₁₁

, . . . , x

_1n₁

)

^T

, x

₂

= (x

₂₁

, . . . , x

_2n₂

)

^T

; Sch¨ atzwerte µ

j ≈

µ ˆ

j

= x

j

= (x

j1

+ . . . + x

jnj

)/n

j

, j = 1, 2 .

Diskriminanzregel (Fall x

1

< x

2

) : x

∈

R

1

falls x <

¹₂

(x

1

+ x

2

) . Zahlenbeispiel:

x

₁

= (4.09, 1.11, 3.73, 5.21, 2.99, 4.36, 3.46, 2.01, 1.72, 3.38)

^T

, x

₂

= (4.57, 5.41, 3.82, 4.12, 5.20, 4.91, 6.12, 3.72, 2.93, 4.85)

^T

, x

₁

= 3.21 , x

₂

= 4.57 ,

1 2 (x

1

+ x

2

) = 3.89 . x

∈

R

₁

falls x < 3.89 ,

sonst x

∈

R

₂

.

Punktdiagramm Daten:x₁schwarz,x₂rot

(24)

Sch¨ atzung der Parameter der Klassenverteilungen

I

Vor. 3.3.4

Neben Vor. 3.3.1 sind die Daten in den g Klassen p-dimensional normalverteilt mit den Erwartungswertvektoren µ

1

, . . . , µ

g

und

¨

ubereinstimmenden Kovarianzmatrizen Σ = Σ

₁

= . . . = Σ

_g

, d.h.

X

_j ∼N_p

(µ

_j

, Σ) , j = 1, . . . , g ; µ

_j

und Σ sind unbekannt.

I

Beh. 3.3.5

Sch¨ atzwerte aus erwartungstreuen Sch¨ atzfunktionen aus den Datenmatrizen x

_j

sind unter Vor. 3.3.4

I f¨ur die Erwartungswertvektoren ˆ

µj =x_j = 1 nj

nj

X

k=1

x_jk, j= 1, . . . ,g;

I f¨ur die Kovarianzmatrizen Σˆ

j=s

j = 1

n_j−1

nj

X

k=1

(x_jk−x_j)(x_jk−x_j)^T, j = 1, . . . ,g.

(25)

Sch¨ atzung der gemeinsamen Kovarianzmatrix

Beh. 3.3.6

Eine geeignete Sch¨ atzmatrix (mit einer erwartungstreuen Sch¨ atzung) der gemeinsamen Kovarianzmatrix Σ ist unter Vor. 3.3.4 und mit

n = n

1

+ . . . + n

g

gegeben durch Σ ˆ = ˜ s = 1

n

−

g

X

j=1

(n

j−

1)s

_j

= 1

n

−

g

X

j=1 n_j

X

k=1

(x

_jk−

x

_j

)(x

_jk−

x

_j

)

^T

=: 1

n

−

g w .

(26)

Beispiel 3.3.7 (Simulation f¨ ur Beispiel 3.2.5)

Lernstichprobe Klasse 1 k x

1k1

x

1k2

1 1.83 -0.41 2 0.72 -0.57 3 0.64 0.92 4 1.09 2.66 5 3.25 2.49 6 1.83 1.08 7 2.31 -0.04 8 3.50 2.32 9 2.17 3.36 10 0.57 1.79 x

₁

= 1.791 1.360 s

²₁

= 1.102 1.907 r

₁

= 0.336

Lernstichprobe Klasse 2 k x

_2k₁

x

_2k2

1 -0.75 -0.60 2 1.26 0.02 3 0.04 1.00 4 0.19 1.37 5 0.46 -0.88 x

₂

= 0.240 0.182 s

²₂

= 0.528 0.962

r

₂

= 0.053

⇒

˜ s =

0.925 0.348 0.348 1.616

˜ s

⁻¹

=

1.176

−0.254

0.673

(27)

Streudiagramm Beispiel 3.3.7

blau: Merkmalsvektoren Klasse 1 ,

rot: Merkmalsvektoren Klasse 2.

(28)

Stichproben-ML-Diskriminanzregel

Beh. 3.3.8

Unter obigen Voraussetzungen 3.3.4 gilt

I

die folgende Stichproben-ML-Diskriminanzregel: x

∈

R

i ⇔

x

∈

R

_i ⇔

(x

−

µ ˆ

i

)

^T

Σ ˆ

⁻¹

(x

−

µ ˆ

i

) = min

j=1,...,g

(x

−

µ ˆ

j

)

^T

Σ ˆ

⁻¹

(x

−

µ ˆ

j

) und eine geeignete Vereinbarung im Fall mehrfacher Minima.

I

Im Spezialfall von 2 Klassen erh¨ alt man mit der aus der Lernstichprobe gesch¨ atzten (

” gelernten“) Diskriminanzfunktion h(x) = (x ˆ

₁−

x

₂

)

^T

˜ s

⁻¹

x

−

1 2 (x

₁

+ x

₂

)

die (oder besser: eine) Zuordnungsregel

x

∈

R

₁ ⇔

ˆ h(x) > 0 , x

∈

R

₂ ⇔

h(x) ˆ

≤

0 .

(29)

Streudiagramm Beispiel 3.3.7 mit Trenngerade

blau: Merkmalsvektoren Klasse 1 ,

rot: Merkmalsvektoren Klasse 2 ;

Rauten: Mittelwertvektoren.

(30)

Bayes sche Stichprobendiskriminanzregel (2 Klassen)

I

Beh. 3.3.9

Unter obigen Voraussetzungen 3.3.4 f¨ ur 2 Klassen gilt mit a-priori-Wahrscheinlichkeiten π

₁

, π

₂

mit der angepassten gesch¨ atzten Diskriminanzfunktion

h ˆ

₁

(x) = ˆ h(x)

−

ln π

₂

π

₁

die

Bayes

sche Stichprobendiskriminanzregel

x

∈

R

1 ⇔

h ˆ

1

(x) > 0 , x

∈

R

2 ⇔

h ˆ

1

(x)

≤

0 .

I

Bem.

M¨ oglicherweise werden die a-priori-Wahrscheinlichkeiten π

₁

, π

₂

auch aus der Stichprobe gesch¨ atzt (und in der gesch¨ atzten Diskriminanzfunktion statt π

1

, π

2

genutzt):

ˆ

π

₁

= n

₁

n

₁

+ n

₂

, π ˆ

₂

= n

₂

n

₁

+ n

₂

.

(31)

Streudiagramm Bsp. 3.3.7 mit Bayes scher Trenngerade

blau: Merkmalsvektoren Klasse 1 ,

rot: Merkmalsvektoren Klasse 2 ;

gestrichelt: Trenngerade

Bayes

sche Diskriminanzregel;

gr¨un: Erwartungswertvektoren, Trenngeraden theoretische Verteilungen.

(32)

3.4 Einige relevante statistische Tests 3.4.1 Test auf Normalverteilung

I

Verschiedene Apassungstests k¨ onnen f¨ ur multivariate Daten verallgemeinert werden. Dies trifft auch auf die Fragestellung der Uberpr¨ ¨ ufung einer vorliegenden Normalverteilung zu.

I

Eine Variante einer Verallgemeinerung f¨ ur multivariate Daten des

Shapiro-Wilk

-Testes auf Normalverteilung kann mit dem R-Paket

mvnormtest (Befehl mshapiro.test()) realisiert werden.

(33)

Testergebnisse f¨ ur Beispiel 3.3.7

I

1. Lernstichprobe (vgl. R-Skript f¨ ur Bezeichnungen)

> mshapiro.test(t(bsp3 3 7 lk1)) Shapiro-Wilk normality test data: Z

W = 0.9108, p-value = 0.2865

I

2. Lernstichprobe

> mshapiro.test(t(bsp3 3 7 lk2)) Shapiro-Wilk normality test data: Z

W = 0.95874, p-value = 0.7992

I

Zusammengefasste Lernstichprobe

> mshapiro.test(t(bsp3 3 7 lg)) Shapiro-Wilk normality test data: Z

W = 0.96272, p-value = 0.7395

(34)

3.4.2 Test auf Kovarianzhomogenit¨ at

I

Voraussetzung zur Anwendung der MANOVA (siehe 3.4.3) und der Nutzung der oben angegebenen Diskriminanzfunktionen ist die Gleichheit (Homogenit¨ at) der Kovarianzmatrizen. Ein m¨ oglicher Test dazu f¨ ur normalverteilte Daten ist der M-Test von

Box

.

I

Voraussetzung Die Daten sind p-dimensional normalverteilt.

I

Hypothesen

I Die Kovarianzmatrizen sind in alleng Klassen gleich, H₀ : Σ

1=. . .=Σ

g =Σ.

I Es gibt unterschiedliche Kovarianzmatrizen in deng Klassen, HA : es gibt j 6=l : Σ

j 6=Σ

l.

I

Sch¨ atzer f¨ ur Teilstichproben µ ˆ

_j

:= X

_j

= 1 n

_j

n_j

X

k=1

X

_jk

; f¨ ur Kovarianzmatrix S

_j

:= 1

n

−

1

nj

X

(X

_jk−

X

_j

)(X

_jk−

X

_j

)

^T

.

(35)

Fortsetzung M-Test von Box

I

Gepoolte Kovarianzmatrix

˜ S := 1 n

−

g

X

k=1

(n

_k−

1)S

_k

=: 1 n

−

g W , W ist die Inner-Gruppen-Streumatrix, auch Inner-Gruppen- SPP-Matrix (within groups

sum of squares andproducts).

I

Testgr¨ oße

T = (1

−

c)

"

(n

−

g ) ln det ˜ S

−

g

X

k=1

(n

_k −

1) ln det S

_k

#

= (1

−

c)

g

X

k=1

(n

_k −

1) ln det

S

⁻¹_k

S ˜

mit c = 2p

²

+ 3p

−

1 6(p + 1)(g

−

1)

g

X

k=1

1 n

_k −

1

−

1 n

−

g

!

.

(36)

Fortsetzung M-Test von Box

I

Asymptotische Verteilung

T

^asymt.∼

χ

²_p(p+1)(g_−1)/2

Die Approximation ist gut, falls n

_k

> 20 , g

≤

5 , p

≤

5 .

I

Kritischer Bereich K =

n

t

∈R

: t > χ

²_p(p+1)(g−1)/2 ; 1−α

o

.

(37)

Testergebnisse f¨ ur Beispiel 3.3.7

(vgl. R-Skript f¨ ur Berechnungen)

I

p(p + 1)(g

−

1)/2 = 3 ;

I

χ

²_p(p+1)(g−1)/2 ; 1−α≈

7.82 f¨ ur α = 0.05 ;

I

c

≈

0.205 ;

I

s

₁ ≈

1.102 0.486 0.486 1.907

, s

₂ ≈

0.528 0.038 0.038 0.962

,

˜ s

≈

0.925 0.348 0.348 1.616

;

I

det S ˜

≈

1.374 , det S

1 ≈

1.865 , det S

2≈

0.506 ;

I

Realisierungswert der Testgr¨ oße t

≈

0.990

⇒

t < χ

²_p(p+1)(g−1)/2 ; 1−α

, t

6∈

K ,

H0

wird nicht abgelehnt, es gibt

keine signifikanten Unterschiede zwischen den Kovarianzmatrizen.

(38)

3.4.3 Test auf Gleichheit der Erwartungswertvektoren

I

Bem.

Dies ist eine Aufgabenstellug der multivariaten Varianzanalyse (MANOVA). Analog zum univariaten Fall wird die Streuung innerhalb der Klassen verglichen mit der Streuung zwischen den Klassen.

I

Voraussetzungen

I Die Daten sindp-dimensional normalverteilt.

I Die Kovarianzmatrizen in deng Klassen stimmen ¨uberein, d.h.

Σ1=Σ

2=. . .=Σ

g=Σ.

I

Hypothesen

I Die Erwartungswertvektoren sind in alleng Klassen gleich (in diesem Fall ist die Diskriminanzanalyse nicht sinvoll),

H0 : µ₁=. . .=µ_g.

I Es gibt unterschiedliche Erwartungswertvektoren in deng Klassen (in diesem Fall ist die Diskriminanzanalyse sinvoll),

H : es gibt j 6=l :µ 6=µ .

(39)

Forts. Test auf Gleichheit der Erwartungswertvektoren

I

Streuungsmatrix innerhalb der Klassen W :=

g

X

j=1

(n

j −

1)S

_j

=

g

X

j=1 nj

X

k=1

(X

_jk−

X

_j

)(X

_jk−

X

_j

)

^T

;

I

Streuungsmatrix zwischen den Klassen B :=

g

X

j=1

n

_j

(X

_j−

X)(X

_j −

X)

^T

mit X = 1 n

g

X

j=1 nj

X

k=1

X

_jk

;

I

totale Streuungsmatrix S

total

:=

g

X

j=1 nj

X

k=1

(X

_jk−

X)(X

_jk−

X)

^T

;

I

Streuungszerlegung

S

_total

= W + B ;

(40)

Forts. Test auf Gleichheit der Erwartungswertvektoren

I

Testgr¨ oßen basieren z.B. auf der Spur der Matrix W

⁻¹

B oder auf Λ = det W

det B + W = det

I

+ W

⁻¹

B

−1

.

I

Testgr¨ oße im Zweigruppenfall (g = 2) T = (n

−

p

−

1)n

1

n

2

pn(n

−

2) (X

₁−

X

₂

)

^T

S ˜

⁻¹

(X

₁−

X

₂

) .

I

Kritischer Bereich

K =

{t ∈R

: t > F

p;n−p−1; 1−α}

.

(41)

Testergebnisse f¨ ur Beispiel 3.3.7

(vgl. R-Skript f¨ ur Berechnungen)

I

F

p;n−p−1; 1−α≈

3.89 f¨ ur α = 0.05 .

I

Realisierungswert der Testgr¨ oße t

≈

4.364 .

⇒

t

∈

K ,

H₀

wird abgelehnt, es gibt signifikante Unterschiede

zwischen den Erwartungswertvektoren.

(42)

3.5 Wahrscheinlichkeit f¨ ur Fehlklassifikation

I

Bei bekannten Verteilungen kann man Wahrscheinlichkeiten f¨ ur eine Fehlklassifikation (theoretisch) berechnen.

I

Ist

p

_ij

:=

Z

Ri

L(j ; x)

dx

=

Z

Ri

f

_j

(x)

dx

die Wahrscheinlichkeit daf¨ ur, dass ein Merkmalstr¨ ager aus der j -ten Klasse der i -ten Klasse zugeordnet wird, dann ist p

_ij

f¨ ur i

6=

j eine Fehlklassifikationswahrscheinlichkeit .

I

Die Fehlklassifikationswahrscheinlichkeiten sollten m¨ oglichst klein sein.

I

Sind die Verteilungen der Populationen Π

1

, . . . , Π

g

nicht bekannt, k¨ onnen verschiedene Ans¨ atze zur Sch¨ atzung dieser

Wahrscheinlichkeiten genutzt werden.

(43)

3.5.1 Nutzung gesch¨ atzter Parameter

I

Bsp. Geg. g = 2 , Π

i

=

Np

(µ

_i

, Σ) , i = 1, 2 .

I

Die Diskriminanzfunktion (bei bekannten Parametern) lautet dann h(x) = (µ

1−

µ

2

)

^T

Σ

⁻¹

x

−

1 2 (µ

1

+ µ

2

)

, x

∈R^p

.

I

F¨ ur einen Zufallsvektor X aus Π

₁

gilt h(X)

∼N₁

1 2 ∆

²

, ∆

²

, ist X aus Π

2

gilt h(X)

∼N1

−

1 2 ∆

²

, ∆

²

, mit

∆

²

:= (µ

₁−

µ

₂

)

^T

Σ

⁻¹

(µ

₁−

µ

₂

)

(Quadrat des

Mahalanobis

-Abstandes zwischen µ

₁

und µ

₂

) .

(44)

Fortsetzung Beispiel

I

Hieraus folgt

p

12

=

P(h(X)

> 0|Π

₂

) = Φ

−

∆ 2

= p

21

=

P(h(X)

< 0|Π

₁

) .

I

Mit gesch¨ atzten Parametern erh¨ alt man mit

∆ ˆ

²

= (x

₁−

x

₂

)

^T

˜ s

⁻¹

(x

₁−

x

₂

) und

˜ s = 1 n

₁

+ n

₂−

2 (n

₁−

1)s

₁

+ (n

₂−

1)s

₂

: ˆ

p

12

= ˆ p

21

= Φ

−

∆ ˆ 2

!

.

I

F¨ ur Beispiel 3.2.5 bzw. 3.3.7 p

₁₂

= Φ

−

√

1.5 2

!

= 0.2701 , p ˆ

₁₂

= Φ

−

1.684 2

= 0.1998 .

(45)

3.5.2 Resubstitutionsmethode

I

Prinzip Man wendet die aus einer Lernstichprobe konstruierte Diskriminanzregel auf die Lernstichprobe selber an und bestimmt die relative H¨ aufigkeit von Fehlklassifikationen.

I

Sei n

_ij

die Anzahl der n

_j

Individuen von Π

_j

, deren Merkmalsvektor x in R

_i

liegt, die also zu Π

_i

zugeordnet werden m¨ ussen.

I

Dann ist eine Sch¨ atzung der indivuellen Fehlerraten gegeben durch ˆ

p

_ij

= n

ij

n

_j

, i

6=

j .

I

F¨ ur Beispiel 3.3.7 (ML-Diskriminanzregel, siehe Streudiagramm Folie 31)

n

₁₂

= 1 , n

₂₁

= 3 , p ˆ

₁₂

= 1

5 = 0.2 , p ˆ

₂₁

= 3

10 = 0.3 .

(46)

3.5.3 Cross-Validation-Prinzip (

” jack-knifing“)

I

Ausgangspunkt Die in 3.5.1 und 3.5.2 vorgestellten Methoden sind oft zu optimistisch, da diesselben Daten, die die

Diskriminanzregel definieren, zu deren Bewertung herangezogen werden.

I

Cross-Validation (Kreuzvalidierung) ist eine Methode zur Bewertung von statistischen Verfahren, bei der Teile des (bekannten)

Datenmaterials nicht zur Konstruktion des Verfahrens, sondern zu seiner Kontrolle genutzt werden.

I

Wird jede einzelne Beobachtung einmal zur Kontrolle genutzt,

spricht man auch von einer Leave-One-Out-Methode oder

Leave-One-Out-Kreuzvalidierung.

(47)

Leave-One-Out-Methode

I

Geg. x

^T

= (x

^T₁

, . . . , x

^T_j

, . . . , x

^T_g

) .

I

Vorgehen

(i) Streiche r−tes Datum x_jr aus x

j.

(ii) Bestimme die Diskriminanzregel mit den verbleibenden n−1 Daten, das Ergebnis sind die Regionen R₁^(jr), . . . ,Rg^(jr).

(iii) Wende die Diskriminanzregel auf das gestrichene Datum x_jr an;

mache dies nj mal, d.h. f¨ur r= 1, . . . ,nj.

(iv) Sei n^∗_ij die Anzahl der F¨alle, bei denen x_jr aus Πj in R_i^(jr) liegt, d.h. Πi zugeordnet werden w¨urde.

(v) Die gesuchten Sch¨atzungen sind ˆ p_ij =n^∗_ij

n_j .

(48)

3.6 Fisher s lineare Diskriminanzfunktion

I

Bem. Bei dieser Methode wird der Verteilungstyp der Populationen Π

1

, . . . , Π

g

nicht vorausgesetzt.

I

Prinzip Man finde eine lineare Funktion der Datenmatrix, d.h.

einen Vektor a

∈R^p

mit

z :=







x

₁

a

.. . x

_g

a







=







z

₁

.. . z

_g







(z

_j ∈Rⁿ^j

) , so dass in z

Streuung zwischen den Gruppen Streuung innerhalb der Gruppen

= max

!

.

Dann ist die Variation zwischen den Gruppen so groß wie m¨ oglich

und die Variation innerhalb der Gruppen so klein wie m¨ oglich und

(49)

Fisher s lineare Diskriminanzfunktion

I

Man kann zeigen, dass diese Aufgabenstellung ¨ aquivalent ist zu a

^T

b a

a

^T

w a

= max

! a

.

(b und w sind die entsprechenden Ausdr¨ ucke f¨ ur die Variation zwischen (between) und innerhalb (within) der Gruppen, siehe 3.4.3.) Man kann weiterhin zeigen, dass die L¨ osung dieses Problems folgendermaßen bestimmt werden kann.

I

Def.

Sei a

^∗6=

0

_p

ein Eigenvektor zum gr¨ oßten Eigenwert von w

⁻¹

b .

Die Funktion

R^p 3

x

7→

(a

^∗

)

^T

x

∈R

heißt

Fisher

s lineare

Diskriminanzfunktion.

(50)

Diskriminanzregel

x wird der Klasse i zugeordnet, d.h. x

∈

R

_i

, falls f¨ ur alle j

6=

i gilt

|(a^∗

)

^T

x

−

(a

^∗

)

^T

x

_i|

<

|(a^∗

)

^T

x

−

(a

^∗

)

^T

x

_j|