• Keine Ergebnisse gefunden

1 Klassifizieren und diskrimininieren

N/A
N/A
Protected

Academic year: 2021

Aktie "1 Klassifizieren und diskrimininieren"

Copied!
47
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

·

Klassifikations- und Diskriminanzanalyse

1

Skript zur VeranstaltungEvaluation und Forschungsmethoden U. Mortensen

·

FB Psychologie und Sportwissenschaften, Institut III Westf¨alische Wilhelms-Universit¨at M¨unster

1Version 1. September 2014

(2)

Inhaltsverzeichnis

1 Klassifizieren und diskrimininieren 4

1.1 Einf¨uhrung . . . 4

1.2 Entscheidungsregeln . . . 4

1.3 Klassifikation und die multivariate Normalverteilung . . . 9

1.3.1 Multivariate Normalverteilung und Mahalanobis-Distanz . . . 9

1.3.2 Ungleiche Varianz-Kovarianzmatrizen . . . 13

1.3.3 Gleiche Varianz-Kovarianzmatrizen . . . 14

1.3.4 Klassifikationen und Fehlklassifikationen . . . 17

1.3.5 Beispiele . . . 17

1.4 Der Ansatz von Fisher (1936) . . . 20

1.4.1 Diskriminanzfunktionen . . . 20

1.4.2 Die Varianzzerlegung . . . 21

1.4.3 Die Matrixschreibweise f¨ur die Quadratsummen . . . 22

1.4.4 Bestimmung der L¨osung f¨ur⃗uundλ . . . 26

1.4.5 Klassifikation von Beobachtungen . . . 28

1.4.6 Zur Anzahl der kanonischen Variablen . . . 30

1.5 Klassifikation nach Fisher versus Klassifikation nach Gauss . . . 31

1.6 Statistische Tests . . . 32

1.7 Diskriminanzanalyse bei kategorialen Daten . . . 34

1.7.1 Volles multinomiales Modell . . . 34

1.7.2 Unabh¨angige bin¨are Variablen. . . 35

1.7.3 Parametrisierung in Modellfamilien I: log-lineare Modelle . . . 36

1.7.4 Parametrisierung in Modellfamilien I: Logit-Modelle . . . 36

2 Die Beziehung zwischen Diskriminanzanalyse und Kanonischer Korre- lation 37 3 Beispiele 39 4 Anhang: Ungleichungen, Maxima und Beweise 41 4.1 Die Wurzel einer Matrix . . . 41

4.2 Cauchy-Schwarzsche Ungleichung . . . 44

4.3 Verallgemeinerte Cauchy-Schwarzsche Ungleichung . . . 45

(3)

4.4 Die Maximierung quadratischer Formen . . . 46 4.5 Beweis von Satz 1.3 . . . 47

(4)

1 Klassifizieren und diskrimininieren

1.1 Einf¨ uhrung

Aus praktischen oder theoretischen Gr¨unden kann es von Interesse sein, Personen oder Objekte einer von mehreren m¨oglichen Klassen Ω1, . . . ,gzuzuordnen. So muß ein Arzt entscheiden, ob ein Patient ”krank” (Klasse Ω1) oder ”gesund” (Klasse Ω2) ist, oder ein Therapeut muß entscheiden, ob die Depression einer Patientin ”endogen” (Klasse Ω1) oder situationsbedingt (Klasse Ω2) ist. Die jeweilige Zuordnung wird von der Beobachtung bestimmter Merkmale abh¨angen. Es seien insbesondererpsolche Merkmale in Form von Messungenx1, . . . , xpgegeben. Die Sicherheit der Zuordnung wiederum h¨angt davon ab, wie gut sich die Objekte oder die Personen anhand der beobachteten Merkmale in bezug auf die Klassen trennen lassen, d.h. wie gut sich die Objekte oder Personen aufgrund der Messungen jeweils einer der Klassen zuordnen lassen. Es gibt zwei m¨ogliche Ans¨atze, diese Frage zu diskutieren:

1. Man nimmt eine bestimmte bedingte Wahrscheinlichkeitsdichte f(x1, . . . , xp|k)

f¨ur die beobachteten Merkmale an,k= 1,2, . . . , g. Dies ist die Dichte derx1, . . . , xp

unter der Bedingung, dass das Objekt oder die Person aus Ωk ist. Dann lassen sich Entscheidungsregeln aufstellen, durch deren Anwendung sich die Wahrscheinlichkeit einer Fehlentscheidung, oder die mit einer Fehlentscheidung verbundenen Kosten minimisieren lassen.

2. Man kann eine verteilungsfreie Methode zur Entscheidung ¨uber die Zugeh¨origkeit eines Objekts oder einer Person w¨ahlen. Diese Methode wurde von Fisher (1936) eingef¨uhrt. Diese Methode besteht im Wesentlichen darin, eine neue Skala Y zu bestimmen, in bezug auf die sich die Klassen maximal unterscheiden, wobeiY = u1x1+u2x2+· · ·+upxp gelten soll. Die ”Gewichte”u1, u2, . . . , up sind zun¨achst unbekannt und werden so bestimmt, dass die maximal m¨ogliche Separation der Klassen in bezug auf dieY-Werte erreicht wird. Dabei kann es sein, dass nicht nur eine solche VariableY bestimmt werden muß, sondern mehrereY1, . . . , Yr.

Es soll zun¨achst der erste Ansatz beschrieben werden, weil mit diesem Ansatz die all- gemeinen entscheidungstheoretischen Grundlagen verbunden sind, in bezug auf die auch die Entscheidungsfindung nach Maßgabe des zweiten Ansatzes diskutiert werden kann.

1.2 Entscheidungsregeln

Gegeben sei ein Vektor⃗x= (x1, x2, . . . , xp) mit ”Beobachtungen”, d.h. Messungen, und die Aufgabe sei, das Objekt oder die Person, an dem bzw. an der diese Messungen gemacht Wurden, einer der beiden Klassen Ω1oder Ω2zuzuordnen. Die Zuordnung von⃗xzu einer Klasse werde mitD(⃗x) bezeichnet, wobeiD(⃗x) =D1, wenn eine Zuordnung von⃗xzu Ω1

erfolgt, undD(⃗x) =D2, wenn die Zuordnung zu Ω2 erfolgt. Man kann die Mengen bzw.

Klassen Ωk mit TeilmengenRkdesRpidentifizieren. Dann kann die Zuordnungsregel wie

(5)

folgt angeschrieben werden:

D(⃗x) =



D1, ⃗x∈R1 D2, ⃗x∈R2

, R1∪R2=R, R1∩R2=∅, (1) d.h. wenn⃗x∈R1ist, soll das Objekt der Klasse Ω1zugeordnet werden, und wenn⃗x∈R2

ist, soll das Objekt der Klasse Ω2zugeordnet werden. Die Aufgabe ist jetzt,R1undR2so zu bestimmen, dass diese den Mengen dem gew¨ahlten Entscheidungskriterium entspre- chen. Es sei also eine Grundgesamtheit Ω gegeben, z.B. die Menge der psychiatrischen Patienten, oder die Menge aller Angestellten einer Firma, die Menge aller Studierenden des Faches Psychologie, etc. Ω sei zerlegbar in disjunkte g Teilmengen (Gruppen), d.h.

es gelte

Ω = Ω12∪ · · · ∪g,ij=∅, =j. (2) F¨ur ein Elementω∈Ω werdenpMessungenx1, x2, . . . , xpvonpverschiedenen Variablen durchgef¨uhrt. Mit ⃗x = (x1, . . . , xp) werde der Vektor dieser p Messungen bezeichnet, und mit⃗x(ω) ist insbesondere der Vektor der Messungen f¨ur das Elementω gemeint. Die Aufgabe besteht nun darin, anhand von ⃗x(ω) das Element ω einer Klasse oder Gruppe Ωk, 1≤k≤g, zuzuordnen.

Kosten:Es seienKij die Kosten, die entstehen, wenn ein Objekt aus der KlasseCider KlasseCj zugeordnet wird, wobeii, j= 1,2. Im allgemeinen wirdKij ̸=Kji gelten, d.h.

die Kosten, die bei einer Fehlklassifikation eines Objekts aus der Klasse Ci entstehen, m¨ussen nicht gleich den Kosten sein, die bei einer Fehlklassifikation eines Objekts aus Cj entstehen. So sei etwa Ω1 die Klasse der gesunden Personen, und Ω2 die Klasse der an einer bestimmten Krankheit leidenden Personen.K12sind die Kosten der f¨alschlichen Diagnose einer gesunden Person als ”krank”, und K21sind die Kosten der falschen Dia- gnose einer kranken Person als ”gesund”. Handelt es sich z.B. bei der Krankheit um TBC und ist die Diagnose eine R¨ontgendiagnose im Rahmen einer Reihenuntersuchung, so ist sicherlich K21 > K12; die f¨alschlich als krank betrachtete Person wird sich in Folgeun- tersuchungen als gesund herausstellen, aber die f¨alschlich als gesund klassifizierte Person wird m¨oglicherweise noch kr¨anker, andere anstecken, etc.

Man kann nun dieerwarteten Kosteneiner Fehlklassifikation definieren:

E(K) = K11P(D1|1)p(Ω1) +K12p(D2|1)p(Ω1)

+K21P(D1|2)p(Ω2) +K22P(D2|2)p(Ω2). (3) Kij wird hier also wie eine zuf¨allige Ver¨anderliche betrachtet, was auch korrekt ist, denn die Zuordnung einer Person zu einer Klasse ist ja in der Weise zuf¨allig, wie die Mes- sungen X mit einem zuf¨alligen Fehler behaftet sind. p(Ci), i = 1,2 sind die a priori Wahrscheinlichkeiten f¨ur die Wahl eines Objektes oder einer Person ausCi. Es ist

P(D1|1) =

R1

f1(⃗x)dX, P(D1|2) =

R1

f2(⃗x)dx. (4) P(D2|1) = 1−P(D1|2), P(D2|2) = 1−P(D1|2). (5) Diese Ausdr¨ucke k¨onnen in (3) eingesetzt werden; fasst man die korrespondierenden Aus- dr¨ucke zusammen, so ergibt sich

E(K) = P(Ω1)K21+ (1−P(Ω1))K22

+

R1

((1−P(Ω1))(K12−K22)f2(x)−p(Ω1)(K21−K11)f1(x)dX. (6)

(6)

Minimierung der erwarteten Kosten: Da die Kosten und die a priori Wahrschein- lichkeiten festliegen, sind die ersten beiden Terme auf der rechten Seite fest. Um E(K) zu minimieren, muß der Bereich R1 geeignet gew¨ahlt werden. Die Funktion, f¨ur die das Integral ¨uberR1in (6) berechnet werden soll, ist

ϕ(⃗x) = ((1−P(Ω1))(K12−K22)f2(⃗x)−p(Ω1)(K21−K11)f1(⃗x). (7) Ein m¨oglicher Verlauf vonϕ(⃗x) wird in Abb. 1 gezeigt. Das Integral der Funktionϕist die Differenz der Teilintegrale ¨uber (i) den Bereich, in demϕ >0 ist, und (ii) den Bereich,

Abbildung 1: Zur Bestimmung des Integrationsbereichs

2 3 4 5 6 7 8

-1,0 -0,5 0,0 0,5 1,0

R1

(x)

X

F

in dem ϕ < 0 ist. Das Integral wird dann minimal, wenn man nur ¨uber den Bereich integriert, in demϕ <0 ist; dies ist der BereichR1. Istϕwie in (7) definiert, so istϕ <0 wenn die Ungleichung

(1−P(Ω1))(K12−K22)f2(⃗x)< p(Ω1)(K21−K11)f1(⃗x) (8) gilt. F¨ur jedenx-Wert aus dem so definierten BereichR1 gilt demnach (8). Die Unglei- chung l¨aßt sich wie folgt umformen:

f2(⃗x)

f1(⃗x) < p(Ω1) 1−p(Ω1)

(K21−K11)

(K12−K22) (9)

Der Quotient auf der linken Seite spielt in entscheidungstheoretischen Fragen eine zentrale Rolle:

Definition 1.1 Es seif(x|i) die Dichte vonxunter der Bedingungi, d.h. die Like- lihoodvonxunter der Bedingungi,i= 1,2. Dann heißt

λ(⃗x) =f(⃗x|2)

f(⃗x|1) (10)

derLikelihood-Quotientf¨ur die Messungen⃗x.

Die Entscheidung nach Maßgabe von (9) ist dann eine Entscheidung anhand des Likelihood- Quotienten: setzt man

λ0= p(Ω1) 1−P(Ω1)

(K21−K11

K12−K22 )

, (11)

so entscheidet man nach der Regel

λ(⃗x)< λ0⇒D(⃗x) =D1, λ(⃗x)≥λ0⇒D(⃗x) =D2, (12)

(7)

wobei nach (1)D1die Entscheidung f¨ur Ω1 undD2die Entscheidung f¨ur Ω2 bdeutet, so wird man332im Durchschnittdie Kosten minimieren.

Entscheidungsregeln: Die Beziehung (10) definiert bereits die allgemeine Entschei- dungsregel: entscheide auf der Basis der Daten xf¨ur Ω2, wenn der Likelihood-Quotient λ(⃗x) gr¨oßer alsλ0ist, und f¨ur Ω1, wenn er kleiner alsλ0ist. Der ”kritische” Wertλ0wird (i) durch die a priori-Wahrscheinlichkeiten p1 = p(Ω1) und p2 =p(Ω2), und (ii) durch die KostenKij bestimmt. Allerdings hat man das Problem, die Kosten explizit angeben zu m¨ussen, damit die Regel (10) angewendet werden kann. Dies ist in vielen F¨allen nicht m¨oglich. Ein Ausweg aus dieser Lage ergibt sich, wenn man die Annahme

(K21−K11 K12−K22

)

= 1. (13)

macht. Diesen Fall hat man insbesondere dann, wenn manKii = 0 und Kij =Kji an- nehmen kann, wenn also korrekte Entscheidungen keine Kosten und Fehlentscheidungen gleiche Kosten verursachen. Diese Annahmen sind nicht in allen F¨allen plausibel, aber sie sind gleichbedeutend mit dem Ansatz, die Kosten nicht explizit in Rechnung zu stellen.

Jedenfalls ist, wenn (13) gilt, λ0=p(Ω1)/p(Ω2). Giltλ(⃗x)> λ0, so folgt aus (10) λ(⃗x)p(Ω2)

p(Ω1) =f(⃗x|2) f(⃗x|1)

p(Ω2)

p(Ω1)>1; (14)

eine analoge Aussage gilt f¨ur λ(⃗x) λ0. Aber f(⃗x|1)p(Ω1) und f(⃗x|2)p(Ω2) ent- sprechen nach dem Satz von Bayes den a posteriori-Wahrscheinlichkeiten f(Ω1|⃗x) und f(Ω2|⃗x), so daß (14) dem Quotienten

f(Ω2|⃗x)

f(Ω1|⃗x)= f(⃗x|2) f(⃗x|1)

p(Ω2)

p(Ω1) (15)

entspricht. Dieser Quotient f¨uhrt zu den beiden folgenden Entscheidungsregeln:

1. Maximum-a-priori-Regel:Die a-priori-Wahrscheinlichkeitenp(Ωi) seien bekannt.

Man entscheide sich f¨ur Ω2, wennp(Ω2|x)> p(Ω1|⃗x), andernfalls f¨ur Ω1.

Die Regel l¨aßt sich f¨urgAlternativen verallgemeinern. Demnach hat man die Regel Entscheide f¨ur Ωk, wennp(Ωk|⃗x) = max

1jgp(Ωj|⃗x). (16) Die Regel heißt auch Bayes-Regel, da sie sich direkt aus dem Bayeschen Satz ergibt.

2. Maximum-Likelihood (ML)-Regel:Gelegentlich sind die a priori-Wahrschein- lichkeiten nicht bekannt; man kann dann den Fall gleicher a priori-Wahrscheinlich- keiten annehmen. Die a priori-Wahrscheinlichkeiten k¨urzen sich dann in (15) heraus und man erh¨alt die Maximum-Likelihood (ML)-Regel

Entscheide f¨ur Ωk, wennf(⃗x|k) = max

1jgf(⃗x|j). (17) Diskriminanzfunktionen: Nach (14) und (16) entscheidet man h f¨ur Ω2, wenn der Quotientf(⃗x|2)p(Ω2)/(f(⃗x|1)p(Ω1)>1 ist, andernfalls entscheidet man f¨ur Ω1, d.h.

man entscheidet sich f¨ur Ω2, wenn

f(⃗x|2)p(Ω2)> f(⃗x|1)p(Ω1)

(8)

ist, andernfalls f¨ur Ω1. Nun ist der Logarithmus log(x) eine monotone Funktion von x:

w¨achst x, so auch log(x), und f¨allt x, so auch log(x) (dies gilt f¨ur einen Logarithmus zu einer beliebigen Basis; hier wird immer der nat¨urliche Logarithmus betrachtet). Die Entscheidungsregel kann also auch in der Form

logf(x|2) + logp(Ω2)>logf(x|1) + logp(Ω1) (18) geschrieben werden. Es wird die folgende Funktion eingef¨uhrt:

Definition 1.2 Es sei

dk(⃗x) = logf(⃗x|k) + logp(Ωk), 1≤k≤g. (19) dk heißt dannDiskriminanzfunktion.

F¨urg= 2 hat man nur zwischen zwei Gruppen oder Klassen Ω1und Ω2 zu entscheiden.

Die Einf¨uhrung der Diskriminanzfunktion erleichtert es, die Entscheidung zwischen einer gr¨oßeren Zahlgvon Klassen oder Gruppen zu diskutieren. F¨urg >2 kann man paarweise den Likelihood-Quotienten betrachten und sich f¨ur dasjenige Ωk entscheiden, das den gr¨oßten Quotienten liefert. Dies entspricht der Regel

Entscheide f¨ur Ωk (d.h.⃗x∈Rk), wenndk(⃗x) = max

1jgdj(x). (20) Diese Regel enth¨alt dann als Spezialfall die ML-Regel, wenn die a priori-Wahrschein- lichkeiten nicht ber¨ucksichtigt werden sollen bzw. wenn sie identisch sind.

Trennfl¨achen: Will man zwischen den beiden Klassen Ωj und Ωk entscheiden, so wird man sich also f¨ur Ωj entscheiden, wenndj(⃗x)> dk(⃗x), und f¨urdk, wenndj(⃗x)< dk(⃗x).

Es sei⃗x0 derart, daß

dj(⃗x0) =dk(⃗x0), =k. (21)

x0 trennt dann die Bereiche von Datenvektoren x, f¨ur die man sich f¨ur Ωj oder f¨ur Ωk entscheidet. Die Menge der Vektoren x, die der Gleichung (21) gen¨ugt, bildet im allgemeinen Fall eine (Hyper-)Fl¨ache imp-dimensionalen Raum, wennpdie Anzahl der Komponenten des Vektors⃗x0ist. Diese Fl¨achen werden durch die Art der Dichtenf(x|Ω) definiert, wobei man sich i.a. auf die multivariate Normalverteilung konzentriert, die in Abschnitt 1.3 eingef¨uhrt wird.

Im allgemeinen Fall istg >2; um sich f¨ur eine Klasse Ωk zu entscheiden, muß man im Prinzip(g

2

)=g(g−1)/2 Vergleiche durchf¨uhren. Andererseits wird durch die Bedin- gungen (21) der Raum in Teilr¨aumeRk,k= 1,2, . . . , g aufgeteilt; findet man⃗x∈Rk, so wird man sich f¨ur Ωk entscheiden. Ist z.B. g = 3, so gibt es die Teilr¨aume R1, R2 und R3. Die Rk sind durch die Bedingungen

d1(⃗x) = d2(⃗x) undd1(⃗x) =d3(⃗x) (22) d2(⃗x) = d1(⃗x) undd2(⃗x) =d3(⃗x) (23) d3(⃗x) = d1(⃗x) undd3(⃗x) =d2(⃗x) (24) definiert.

Fehlerraten:Alle hier betrachteten Entscheidungen sind probabilistisch und damit kann die M¨oglichkeit einer Fehlentscheidung nicht ausgeschlossen werden. Dementsprechend

(9)

kann man die Fehlerrate bestimmen. Dazu seiT die Menge der Werte, diex¨uberhaupt annehmen kann. Jede Entscheidungsregel definiert implizit einen Teilbereich Tk derart, dass man f¨ur Ωk entscheidet, wenn⃗x ∈Tk. F¨ur den Fall, dass man nur zwischen zwei M¨oglichkeiten entscheiden muß, macht man also einen Fehler, wenn man f¨ur Ω1entschei- det, obwohl Ω2 zutrifft, und umgekehrt. Die Wahrscheinlichkeit eines Fehlers ist dann durch

ϵ=

T2

f(⃗x|1)p(Ω1)d⃗x+

T1

f(⃗x|2)p(Ω2)d⃗x (25) gegeben.

1.3 Klassifikation und die multivariate Normalverteilung

1.3.1 Multivariate Normalverteilung und Mahalanobis-Distanz

Es werde angenommen, dass⃗x p-dimensional normalverteilt ist, d.h. man misstp”Sym- ptome”, die jeweils normalverteilt sind und die paarweise korreliert sein d¨urfen (nicht m¨ussen). Diep-dimensionale Normalverteilung ist durch

f(⃗x|k) = 1

(2π)p/2|Σk|1/2exp (

1

2(⃗x−⃗µk)Σk1(⃗x−⃗µk) )

(26) definiert.⃗µkist der Vektor der Erwartungs- (Mittel-)werte der Komponenten von⃗x(also den gemessenen ”Symptomen”), wenn Ωkdie Klasse ist, aus derω kommt, und Σk ist die Matrix der Kovarianzen bzw. Varianzen (oder Korrelationen) zwischen den Komponenten von⃗x∈k, und Σk1ist die zu Σkinverse Matrix; es wird vorausgesetzt, dass diese Inverse tats¨achlich existiert, d.h. dass|Σ1| ̸= 0 gilt2.

Sind⃗xund⃗y zweip-dimensionale Vektoren, so ist die L¨ange des Vektors⃗x−⃗y oder des Vektors⃗y−⃗xdurch

dxy=dyx=

∑p

j=1

(xj−yj)2

1/2

gegeben, d.h. durch die Anwendung des Satzes von Pythagoras auf die Differenzen der korrespondierenden Komponenten von⃗xund⃗y.dxy=dyxheißt auchEuklidische Distanz zwischen den Endpunkten dieser beiden Vektoren. Die Euklidische Distanz ist einfach die L¨ange der k¨urzesten Verbindung zwischen den Punkten. Dieser Distanzbegriff ist aber ein Spezialfall: will man in einer Stadt von einem Punkt zu einem anderen gelangen, so wird man i.a. nicht die Luftlinie, eben die Euklidische Distanz zu bew¨altigen haben. Sind die Straßen, wie in Manhattan, in zwei Mengen jeweils parallel zueinander verlaufenden Straßen angeordnet, wobei die Straßen der einen Menge orthogonal zu denen der andere Menge verlaufen, so wird die zur¨uckzulegende Strecke die Summe von jeweils orthogona- len Teilstrecken sein. Die Distanz ist dann definiert durch

dMxy=

p j=1

|xj−yj|, p≥1.

2Mit1|wird dieDeterminantevon Σ1bezeichnet. Die Determinante einer Matrix ist eine reelle Zahl, die ungleich Null ist, wenn diep×p-Matrix Σ den vollen Rangphat. Determinanten werden im Folgenden nicht weiter ben¨otigt, so dass keine weitere Definition dieser Gr¨oße gegeben wird.

(10)

Diese Definition ist wiederum ein Spezialfall einer klasse von Distanzen, auf die aber nicht weiter eingegangen werden muß, der Zweck dieser Betrachtungen ist nur, zu zeigen, dass der Distanzbegriff mehr als eine Spezifikation zul¨aßt. F¨ur die Zwecke dieses Skrip- tums ist der in der folgenden Definition eingef¨uhrte Begriff der Mahalanobis-Distanz von Bedeutung:

Definition 1.3 Die Gr¨oße

δ(⃗x, ⃗µk) =

(⃗x−⃗µk)Σk1(⃗x−⃗µk) (27) heißt Mahalanobis-Distanz3 zwischen den durch die Endpunkte der Vektoren ⃗x und ⃗µk

definierten Punkten.

Anmerkungen zum Begriff der Mahalanobis-Distanz:

1. Die Menge der⃗x, f¨ur dieδ(⃗x, ⃗µk) = konstant ist, hat nach (26) die gleiche Dichte, d.h.δ(⃗x, ⃗µk) = konstant definiert einen geometrischen Ort gleicher Wahrscheinlich- keit4.

Es sei ⃗ξk =⃗x−⃗µk der Vektor der Differenzen xj−µkj, xj die j-te Komponente von⃗xundµkj diej-te Komponente von⃗µk. Dann ist

δ2= (⃗x−⃗µk)Σk1(⃗x−⃗µk) =ξ⃗kΣk1⃗ξk (28) f¨ur festesδeinequadratische Form:δ2ist stets eine positive reelle Zahl, d.h.δ20.

Die Endpunkte der Vektoren⃗ξk, f¨ur dieδ2 einen bestimmten Wert hat, liegen auf der Oberfl¨ache eines p-dimensionalen Ellipsoids; f¨ur p = 2 ist dies gerade eine Ellipse.

Die L¨ange des Vektors ⃗ξk ist gerade die L¨ange des Vektors, der vom Endpunkt des Vektors⃗xzum Endpunkt des Vektors ⃗µk zeigt, d.h. die L¨ange des Vektorsξ⃗k

ist gerade die euklidische Distanz zwischen den Endpunkten von ⃗xund ⃗µk. Man betrachte nun die Menge der Vektorenξ, f¨ur die⃗ξΣ1⃗ξ=δ2eine Konstante ist. Der Anschaulichkeit wegen seip= 2. Σ1ist eine symmetrische, positiv definite Matrix und definiert damit ein Menge von Ellipsoiden, d.h. im Fall p = 2 eine Menge von Ellipsen, und die Endpunkte der Vektoren ξ⃗ liegen auf der durch den Wert von δ2 festgelegten speziellen Ellipse. Es seien insbesondere ⃗ξ1 undξ⃗2 die beiden Vektoren, die mit den beiden Hauptachsen dieser Ellipse zusammenfallen. Sie haben dann die gleiche Orientierung wie die beiden Eigenvektoren ⃗y1 und ⃗y2 von Σ1; sie unterscheiden sich von den Eigenvektoren nur insofern, als die Eigenvektoren

¨ublicherweise die L¨ange 1 haben, aber diese Normierung ist nicht wesentlich. Es sei Y die Matrix der Eigenvektoren von Σ1; dann gilt Σ1Y =YΛ, und wegen der Orthonormalit¨at vonY folgt Σ1=YΛY. Die Inverse von Σ1ist Σ, so dass

Σ = (YΛY)1= (Y)1Λ1Y1=YΛ1Y, (29) denn es istY1=Y. Die Matrizen Σ und Σ1 haben also die gleichen Eigenvek- toren, und die Eigenvektoren von Σ sind die Reziprokwerte der Eigenvektoren von

3Mahalanobis, P.C. (1936) On the generalized distance in statistics. Proc. Nat. Inst. Sci. Calcutta, 12, 49-55

4Diese Ausdrucksweise ist ein wenig lax, da Dichten ja keine Wahrscheinlichkeiten sind; streng ge- nommen kann man nur vonf(⃗x|k)d⃗x, wobei das Differentiald⃗xist, als einer Wahrscheinlichkeit reden.

(11)

Σ1. Insbesondere gilt dann

Σ1⃗y1= (1/λ1)⃗y1, Σ1⃗y2= (1/λ2)⃗y2. (30) und wegen der Orthonormalit¨at von⃗y1 und⃗y2 folgen die Beziehungen

δ21=⃗y1Σ1⃗y1= 1/λ1, δ22=⃗y2Σ1⃗y2= 1/λ2, (31) d.h. die Quadrate der Mahalanobis-Distanzen f¨ur die Eigenwerte⃗y1und⃗y2sind ge- rade durch die Reziprokwerte der Eigenwerte von Σ gegeben, d.h. aberδ1= 1/

λ1

undδ2= 1/

λ2. Daλ1undλ2Eigenwerte von Σ sind, gilt λ1≥√

λ2, und mithin δ1 < δ2. Nun sind die L¨angen der Hauptachsen der durch die Varianz-Kovarianz- Matrix Σ definierten Ellipsen stets proportional zu 1/λk,k= 1,2, vergl. das Skrip- tum Faktorenanalyse, Seite 28, d.h. die L¨ange der ersten Hauptachse ist gleich a1=√

k01, die der zweiten ist gleicha2=√

k02. Die Mahalanobis-Distanzen f¨ur die Eigenvektoren sind gerade proportional zu den L¨angen der Hauptachsen.

Die Konstantek0= 1 korrespondiert dann zur L¨ange der Eigenvektoren.

Obwohl also ⃗y1 und ⃗y2 die gleiche L¨ange haben, sind die zugeh¨origen Mahala- nobis-Distanzen verschieden. Die Mahalanobis-Distanz zum Endpunkt von ⃗y1 ist kleiner als die zum Endpunkt von⃗y2; es l¨aßt sich zeigen, dass die Mahalanobis- Distanz f¨ur einen Punkt, der auf der durch ⃗y1 liegenden Geraden liegt und einen euklidischen Abstand von de vom Zentrum der Ellipse hat, minimal ist relativ zu den Mahalanobis-Distanzen f¨ur Punkte mit gleichem euklidischen Abstand de

vom Zentrum dr Ellipse, aber mit einer von ⃗y1 abweichenden Orientierung. Die Mahalanobis-Distanz wird maximal, wenn der Punkt mit Abstanddeauf der Gera- den liegt, deren Richtung mit der von⃗y2 zusammen f¨allt. Die Lage der Ellipse, die durch Σ beschrieben wird, wird ja durch die korrelative Beziehung zweier Variablen, etwaX1undX2, bestimmt. F¨ur einen gegebenen Wertx1vonX1ist dann derjenige X2-Wert am wahrscheinlichsten, f¨ur den x2 =b1x1+b0 gilt, wobeib1 =r(s1/s2) und b0 die Regressionskoeffizienten sind. Der Punkt hat die euklidische Distanz de = [(x1−µ1)2+ (x2−µ2)2]1/2 = (ξ12+ξ22)1/2. Punkte (ξ1, ξ2), die auf einer Geraden liegen, deren Richtung sich von der der Regressionsgeraden unterscheidet, haben eine geringere Wahrscheinlichkeit, wenn sie die gleiche euklidische Distanzde von (µ1, µ2) haben. Die Wahrschlichkeit wird minimal (relativ zude), wenn sie auf einer Geraden liegen, deren Orientierung orthogonal zu der der Regressionsgeraden ist.

2. F¨ur den 2-dimensionalen Fall kann man sich eine ¨Ubersicht ¨uber die Abh¨angigkeit vonδvon den Elementen von∑

geben. Dazu sei Σ =

( σ21 σ12

σ21 σ22 )

, σ12=σ21. (32)

Die zu Σ inverse Matrix Σ1ist dann durch

Σ1=



σ22

σ21σ22σ122 , σ2 σ12 1σ22σ212

σ2σ12

1σ22σ212, σ2 σ12 1σ22σ212

=



1

σ12(1r2) σ12r21

σ12r21

1 σ22(1r2)

 (33)

gegeben, wobei sich die einfachere rechte Matrix ergibt, wenn man von der Be- ziehung r=σ121σ2 Gebrauch macht. F¨ur die Mahalanobis-Distanz erh¨alt man

(12)

dann

δ2=ξ⃗Σ1ξ⃗=ξ21σ22+ξ22σ211ξ2σ12

σ21σ22−σ212 , (34) wobei wiederξ⃗= (ξ1, ξ2) = ((x1−µ1),(x2−µ2)) gesetzt wurde; (34) definiert, wie oben schon angedeutet, f¨urδ= konstant eine Ellipse, die f¨urσ12= 0 achsenparallel wird. F¨ur gegebenen Wert vonσ12 liegt damit jeder Punkt auf einer vom Ellipsen haben die gleiche, durchσ12 defnierte Orientierung.

Man kann nun untersuchen, wieδf¨ur gegebenen Vektorξ⃗vonσ12 abh¨angt:

(a) σ12= 0. In diesem Fall erh¨alt man δ2= ξ12σ22+ξ22σ12

σ12σ22 = (x1−µ1)2

σ12 +(x2−µ2)2

σ22 =z12+z22. (35) Dies ist die Euklidische Distanz zwischen den Punkten (x1, x2) und (µ1, µ2), allerdings in mit 1/σ1bzw. 1/σ2skalierten Koordinaten. Der geometrische Ort aller Punkte (z1, z2), f¨ur dieδeinen bestimmten Wert hat, ist demnach eine achsenparallele Ellipse.

(b) σ12̸= 0. In diesem Fall h¨angt der Wert vonδeinerseits vonξ1σ2undξ2σ1ab, andererseits vom Produkt ξ1ξ2σ12 ab. Wichtig dabei ist die Lage der Punk- te (x1, x2) relativ zum Punkt (µ1, µ2). Um zu einer Veranschaulichung der Verh¨altnisse zu gelangen, faßt manξ1 =x1−µ1 und ξ2 =x2−µ2 als Kon- stante auf, h¨alt ebenfallsσ1 undσ2 konstant und variiertσ12in (34), etwa im Intervall5

−σ1σ2< σ12< σ1σ2. (36) F¨ur σ12→σ1σ2 folgtδ→ ∞, da dann der Nenner in (34) gegen Null strebt.

Um das Verhalten von δ in Abh¨angigkeit von σ12 zu verdeutlichen, ist es illustrativer, ein kleineres Intervall zu betrachten, in dem 12| < σ1σ2 gilt, etwa

min(σ1, σ2)≤σ12min(σ1, σ2). (37) Die Inspektion von (34) zeigt, daß der Wert vonδ als Funktion vonσ12 vom Vorzeichen der Differenzenξ1undξ2abh¨angt; sind die Vorzeichen gleich, wird sich ein anderer Verlauf ergeben als wenn sie ungleich sind. In Abbildung 2 sind verschiedene Verl¨aufe der Mahalanobis-Distanz in Abh¨angigkeit von der Kovarianz σ12 dargestellt worden. Die Form des Verlaufs und der Wertebe- reich von δ h¨angen von den Positionen des jeweiligen Punktepaares ab. Hier war einer der beiden Punkte, der Punkt mit den Koordinaten (1, 1), stets der Mittelpunkt eines Kreises und die Punkte P1, P2, P3 und P4 liegen auf dem Umfang des Kreises; sie haben deshalb alle den gleichen (euklidischen) Abstand von (1, 1). Kovariieren die x-Komponenten von x positiv, so m¨uß- ten alle Punkte in der Nachbarschaft der Geraden durch P1 und P3 liegen,

5Die Kovarianz ist durchsxy=

i(xix)(y¯ iy)/n, definiert, die Varianzen durch¯ s2x=

i(xx)¯2, s2y=

i(yiy)¯2. Es seiai=xix,¯ bi=yiy. Dann gilt die Schwarzsche Ungleichung¯

|

i

aibi|2

i

|ai|2

i

|bi|2; der Faktor 1/nurzt sich heraus. Also folgt|sxy| ≤

s2xs2y=sxsy. Das Gleichheitszeichen 903gilt f¨ur den Spezialfallσ1=σ2.

(13)

Abbildung 2: Mahalanobis-Distanzen zwischen (1,1) und verschiedenen Punkten f¨ur ver- schiedene Kovarianzen

-1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2

4 6 8 10 12 14

16 P1: (-1,-1)

x = - 2, y = - 2

Mahalanobis-Distanz

Kovarianz

-1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2

4 6 8 10 12 14

16 P2: (-1,3) x = -2, y = 2

Mahalanobis-Distanz

Kovarianz

-1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2

4 6 8 10 12 14

16 P3: (3, 3)

x = 2, y = 2

Mahalanobis-Distanz

Kovarianz

-1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2

4 6 8 10 12 14 16

P4: (3, -1) x = 2, x = - 2

Mahalanobis-Distanz

Kovarianz

-1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0

2,5 3,0 3,5 4,0 4,5

P: (-1,1) x = -2, y = 0

Mahalanobis-Distanz

Kovarianz

-1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0

2,5 3,0 3,5 4,0 4,5

P6: (3, 1) x = 2, y = 0

Mahalanobis-Distanz

Kovarianz -2 -1 0 1 2 3 4

-2 -1 0 1 2 3 4

P4 P2 P3

P1

(1, 1) X2

X1 P5

P6

kovariieren sie negativ, so liegen sie in der Nachbarschaft der Geraden durch P2 undP4liegen. F¨ur die PunkteP1 undP3 ergibt sich demnach der gleiche Zusammenhang zwischen δ und σ12: F¨ur negative Werte von σ12 ist δ groß, d.h.σ12→ −σ1σ2folgtδ→ ∞, und f¨urσ12→σ1σ2folgtδ→0, d.h. je gr¨oßer die Kovarianz, desto kleiner wirdδ. F¨ur die PunkteP2 undP4ergibt sich der umgekehrte Zusammenhang: je gr¨oßer der Wert der Kovarianz, desto gr¨oßer wird auch die Mahalanobis-Distanzδ; f¨urσ12→σ1σ2 folgtδ→ ∞.

Die PunkteP5undP6liegen nicht auf den Geraden, die einer perfekten Kova- rianz entsprechen, es ergeben sich die in Abb. 2 gezeigten U-f¨ormigen Zusam- menh¨ange. Die Mahalanobis-Distanzen sind hier minimal, wenn die Kovarianz gleich Null ist.

1.3.2 Ungleiche Varianz-Kovarianzmatrizen

F¨ur die multivariate Normalverteilung sind die Diskriminanzfunktionen f¨ur die Maximum- a posteriori-Regel gem¨aß (19) durch

dk(⃗x) = 1

2(⃗x−⃗µk)Σk1(⃗x−⃗µk)log|Σk1| −logp(Ωk) (38) gegeben. Man sieht, dass dk u.a. durch die in (27) eingef¨uhrte Mahalanobis-Distanz

δ(⃗x, ⃗µk) = (⃗x−⃗µk)Σk1(⃗x−⃗µk)

(14)

definiert ist, denn offenbar gilt dk(⃗x) = 1

2δ(⃗x, ⃗µk)log|Σk1| −logp(Ωk). (39) Multipliziert man den Term (⃗x−⃗µk)Σk1(⃗x−⃗µk) aus, so erh¨alt man

(⃗x−⃗µk)Σk1(⃗x−⃗µk) =⃗xΣk1⃗x−2⃗µkΣk1⃗x+⃗µkΣk1⃗µk, so dass

dk(⃗x) =1

2⃗xΣk1⃗x−⃗µkΣk1⃗x+1

2⃗µkΣk1⃗µk1

2(log|Σk1| −logp(Ωk)), (40) oder

dk(⃗x) =⃗xAk⃗x−Bk⃗x+Ck0, (41) mitAk= (1/2)Σk1,Bk =⃗µkΣk1undCk0=12(log|Σk1|−logp(Ωk)).Akist eine sym- metrische Matrix, weshalb⃗xAk⃗xeinequadratische Form6ist. Die Diskriminanzfunktion h¨angt also von den Quadraten der Komponenten von ⃗xab.

Die Trennfl¨achen sind L¨osungen der Gleichungendj(⃗x)−dk(⃗x) = 0. (41) liefert 0 =dj(⃗x)−dk(⃗x) = ⃗xAj⃗x−Bj⃗x+Cj0−⃗xAk⃗x+Bk⃗x−Ck0

= ⃗x(Aj−Ak)⃗x−(Bj−Bk)⃗x+Cj0−Ck0 (42) Die L¨osungen dieser Gleichung sind im Spezialfallp= 2 Ellipsen, Hyperbeln oder Para- beln; f¨urp >2 ergeben sich die entsprechenden Fl¨achen.

Abbildung 3: Gaussverteilungen mit ungleichen Varianz-Kovarianz-Matrizen und nicht- linearer Trennung der Bereiche;M1undM2Mittelpunkte der Ellipsen.

R

R 1

2 M1

M 2

1.3.3 Gleiche Varianz-Kovarianzmatrizen

Es gelte nun Σk = Σ f¨ur alle k. Der Spezialfall gleicher Kovarianzmatrizen ist f¨ur die Praxis von großer Bedeutung, da einerseits nicht f¨ur jedes Ωk eine besondere Varianz- Kovarianzmatrix gesch¨atzt werden muß, und andererseits sich einfachere Diskriminanz- funktionen ergeben. Das Quadrat der Mahlanobis-Distanz ist nun

δ2(⃗x, ⃗µk) = (⃗x−⃗µk)Σ1(⃗x−⃗µk),

6Der Indexkwerde der Einfachheit halber fortgelassen. F¨ur symmetrischesAistxA⃗x=

kaiix2i+ 2

i̸=jaijxixj; deshalb der Ausdruck quadratische Form.

(15)

d.h. es ist Σk = Σ f¨ur allek, so dass nach (39) dk(⃗x) = 1

2δ(⃗x, ⃗µk)log|Σ1| −logp(Ωk). (43) Aus (40) erh¨alt man f¨ur Σk= Σ sofort

dk(⃗x) = 1

2xΣ1⃗x−µkΣ1⃗x+1

2⃗µkΣ1⃗µk1

2(log|Σ1| −logp(Ωk)). (44) Da Σ f¨ur allekidentisch ist, tragen die Terme⃗xΣ1⃗xund log|Σ1|nichts zur Diskrimi- nierung bei und k¨onnen bei der Definition der Diskriminanzfunktion weggelassen werden.

Dementsprechend re-definiert mandk(⃗x) und betrachtet die Funktion dk(⃗x) =−⃗µkΣ1⃗x+1

2⃗µkΣ1⃗µklogp(Ωk)). (45) Fl¨achen gleicher Distanz:Diese Fl¨achen sind nach (21) durch die Gleichungendj(⃗x) = dk(⃗x) definiert, d.h. es solldj(⃗x)−dk(⃗x) = 0 gelten. Man findet

dj(⃗x)−dk(⃗x) =⃗µkΣ1⃗x−⃗µjΣ1⃗x+1

2⃗µjΣ1⃗µj1

2⃗µkΣ1⃗µklog

(p(Ωk) p(Ωj)

) . (46) Diese Gleichung l¨aßt sich zu

dj(⃗x)−dk(⃗x) = (⃗µk−⃗µj)Σ1⃗x−1

2(⃗µk−⃗µj)Σ1(⃗µk+⃗µj)log

(p(Ωk) p(Ωj)

)

(47) vereinfachen. F¨ur die die Trennfl¨achen definierenden⃗xmuß demnach

(⃗µk−⃗µj)Σ1⃗x1

2(⃗µj−⃗µk)Σ1(⃗µj+⃗µk)log

(p(Ωk) p(Ωj) )

= 0, d.h.

(⃗µk−⃗µj)Σ1⃗x= 1

2(⃗µj−⃗µk)Σ1(⃗µj+⃗µk)log

(p(Ωk) p(Ωj)

)

(48) gelten. Da aber (⃗µj−⃗µk)Σ1(⃗µj+⃗µk) ein Skalar ist, ist die rechte Seite eine Konstante.

(⃗µj−⃗µk) ist ein (Zeilen-)Vektor, so dass das Produkt mit der Matrix Σ1, d.h. (⃗µk

µj)Σ1, ebenfalls ein Zeilenvektor ist, also etwa

(⃗µk−⃗µj)Σ1=⃗bkj= (b(1)kj, . . . , b(p)kj). (49) Dann ist (⃗µk−⃗µj)Σ1⃗xein Skalarprodukt, und (48) kann in der Form

(⃗µk−⃗µj)Σ1⃗x=b(1)kjx1+b2x2+· · ·+b(p)kjxp=Kjk= konstant (50) geschrieben werden, wobei die KonstanteKjk durch die rechte Seite von (48), also

Kjk= 1

2(⃗µj−⃗µk)Σ1(⃗µj+⃗µk)log

(p(Ωk) p(Ωj)

)

gegeben ist. Dies ist die Gleichung einer Hyperebene, und die verschiedenen Ωk-Bereiche werden demnach durch Hyperebenen getrennt. F¨ur den Fallp= 3 erh¨alt man die Glei- chung

b(1)kjx1+b(2)kjx2+b(3)kjx3=Kjk, (51)

Abbildung

Abbildung 1: Zur Bestimmung des Integrationsbereichs
Abbildung 2: Mahalanobis-Distanzen zwischen (1, 1) und verschiedenen Punkten f¨ ur ver- ver-schiedene Kovarianzen -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5246810121416P1:  (-1,-1)  x = - 2, y = - 2Mahalanobis-Distanz Kovarianz -1,5 -1,0 -0,5 0,0 0,5 1,0 1,52468101214
Abbildung 3: Gaussverteilungen mit ungleichen Varianz-Kovarianz-Matrizen und nicht- nicht-linearer Trennung der Bereiche; M 1 und M 2 Mittelpunkte der Ellipsen.
Abbildung 4: (a) Gaussverteilungen mit gleicher Varianz; der Pfeil zeigt auf c 0 = (µ 1 + µ 2 )/2
+7

Referenzen

ÄHNLICHE DOKUMENTE

Zeigen Sie, dass das Vollst¨andigkeitsaxiom f¨ ur Q

Haben wir eine Menge von n + 1 Planeten mit der Erde als Element dieser Menge, so greifen wir zwei verschiedene Teilmengen von jeweils n Planeten her- aus, welche beide die

(c) Zeigen Sie, dass die Vereinigungen abz¨ahlbar vieler abgeschlossener Mengen im Allgemei- nen nicht abgeschlossen ist und dass der Durchschnitt abz¨ahlbar vieler offener Mengen

Schreiben Sie die folgenden Aussagen in der Form A ⇒ B und formulieren Sie dann die Umkehrung als

Finde eine allgemeine Formel f¨ ur die Summe der ersten ungeraden Zahlen und zeige die G¨ ultigkeit der Formel mit Hilfe der

Fachbereich Mathematik Prof.. Steffen

Beweisen Sie den Nachsatz erst, wenn Sie mit dem Rest des Blattes schon fertig sind, denn er wird f¨ ur das weitere nicht gebraucht und ist nur der Vollst¨andigkeit halber

Fachbereich Mathematik Prof.. Steffen