M¨oglichkeit, bei der Datenanalyse zwischen Originalwerten und even-tuell gesch¨atzten
”missing values“ zu unterscheiden.
In Rahmen dieses Kapitel4wird untersucht, ob, inwieweit und in welcher Form es m¨oglich ist, die Verfahren der Fuzzy-Clusteranalyse so zu adaptie-ren, daß sie mit Daten mit fehlenden Werten umgehen k¨onnen.
-6
× × ×(?,2)
2
2 6
Abbildung 4.1: Ein Datensatz mit zwei kugelf¨ormigen Klassen. Die Zen-tren sind durch×markiert. Falls Informationen ¨uber eine clusterspezifische H¨aufigkeit von fehlenden Werten vorliegen, k¨onnen sie bei der Klassifikation des Datums (?,2) verwendet werden. Ansonsten sollte der Zugeh¨ origkeits-grad des Datums zu beiden Klassen gleich sein.
Datum beiden Klassen zu dem gleichen Grad zuzuweisen. Falls jedoch be-kannt ist, daß bei Daten des Clusters mit dem Zentrum (2,2) eine geringere Wahrscheinlichkeit f¨ur das Fehlen von Attributen vorliegt als bei Daten des anderen Clusters, ist es naheliegend, das Datum (?,2) eher dem Cluster mit dem Zentrum (6,2) zuzuordnen. Der Zugeh¨origkeitsgrad des Datums zu dieser Klasse sollte in diesem Fall daher gr¨oßer als der zu der anderen Klasse sein.
Die o.g. Beispiele verdeutlichen, daß es sinnvoll ist, zwischen verschiede-nen Arten von fehlenden Werten zu unterscheiden. Daher werden im folgen-den Abschnitt die verschiefolgen-denen Arten von
”missing values“ n¨aher erl¨autert.
4.2.2 Formale Betrachtung
F¨ur den Umgang mit fehlenden Werten ist es sinnvoll, zuerst die Modellie-rung fehlender Werte n¨aher zu betrachten. Die Einteilung der verschiedenen Arten von fehlenden Werten orientiert sich an [86,109].
Das Modell f¨ur fehlende Werte basiert auf folgenden Annahmen:
• Der die Daten erzeugende Prozeß l¨aßt sich durch die Angabe von zwei Parameters¨atzenθ undξvollst¨andig beschreiben:
– Der Parametersatzθbestimmt, eventuell zusammen mit dem Pa-rametersatz ξ, die Wahrscheinlichkeitsverteilungen der Zufalls-variablen, deren Realisierungen die (wahren) Daten sind. θ hat keinen Einfluß darauf, welche Daten beobachtbar sind.
– Der Parametersatz ξ bestimmt, welche Realisierungen beobach-tet werden k¨onnen. Daneben kann er eventuell mitθ die
Ymis θ Yobs
ξ
R
-?
@
@
@
@ I J
J J
J J
J J
J
^
a b
c
Abbildung 4.2: Ein allgemeines Modell f¨ur
”missing values“. (Bedingter Un-abh¨angigkeitsgraph)
scheinlichkeitsverteilungen der Zufallsvariablen, deren Realisie-rungen die (wahren) Daten sind, beeinflussen.
• Die Parameters¨atzeθundξsind, aufgefaßt als Zufallsvariablen, mar-ginal unabh¨angig.
• Gegeben θ und ξ sind die Zufallsvariablen, deren Realisierungen die wahren Werte sind, bedingt unabh¨angig.
Wenn man die wahren Daten Y in die beobachteten Daten Yobs und in die unbeobachteten (fehlenden) Daten Ymis aufteilt und eine Zufallsva-riable bzw. Indikatormatrix R verwendet, die angibt, ob ein Wert von Y beobachtet werden kann (er ist in Yobs) oder nicht beobachtbar ist (er ist inYmis), kann ein allgemeines Modell fehlender Werte durch den bedingten Unabh¨angigkeitsgraph in Abb.4.2dargestellt werden.
Eine erste Einteilung von fehlenden Werten erfolgt in die Klassen
” igno-rable“ und
”non-ignorable“. Daten werden als
”ignorable“ bezeichnet, wenn f¨ur die Sch¨atzung der Parameters¨atzeθundξ die wahren fehlenden Werte Ymis ignoriert werden k¨onnen. Andernfalls werden sie als
”non-ignorable“
bezeichnet.1
Eine notwendige und hinreichende Bedingung f¨ur den
”ignorable“-Fall ist das Fehlen der drei Kanten a, b, c in Abb. 4.2. Denn damit θ und ξ unabh¨angig von den wahren WertenYmisgesch¨atzt werden k¨onnen, m¨ussen R und Ymis bedingt unabh¨angig gegeben Yobs sein. Mit der Kante a gibt es jedoch den aktiven Pfad R — ξ — Ymis, mit der Kante b den aktiven Pfad R —ξ—Yobs —θ—Ymisund mit der Kante c den aktiven Pfad R
—Ymis.
Das Fehlen der Kanten a und b wird als
”distinctness“ der Parame-ters¨atze θ und ξ bezeichnet. Die Parameters¨atze θ und ξ (aufgefaßt als Zufallsvariablen) sind marginal unabh¨angig [86,109].
Bei fehlenden Werten, die
”non-ignorable“ sind, k¨onnen die Parame-ters¨atze θ und ξ ohne Ymis nicht gesch¨atzt werden. Da Ymis aber nicht bekannt ist, ist eine Sch¨atzung von θ ohne weiteres Wissen ¨uber das Ver-fahren, das fehlende Werte verursacht, und dessen Parametersatz ξ nicht m¨oglich. Im folgenden werden daher nur noch Daten, die “ignorable“ sind, betrachtet.
Das Modell fehlender Daten, die als
”ignorable“ bezeichnet werden, sieht daher wie in dem in Abb. 4.3 gezeigten bedingten Unabh¨angigkeitsgraph aus.
Wenn die Wahrscheinlichkeit, daß ein Datum nicht beobachtet werden kann, von den beobachteten Daten Yobs, nicht jedoch von den fehlenden DatenYmis abh¨angt, werden die fehlenden Daten als
”missing at random“
(MAR)bezeichnet. Bei Daten
”missing at random“ giltP(R|Yobs,Ymis, ξ)
= P(R|Yobs, ξ) [86, 109]. In dem in Abb. 4.3 gezeigten bedingten Un-abh¨angigkeitsgraphen wird dies durch die Kante d modelliert.
Daten
”missing at random“ liegen z.B. vor, wenn bei einer Studie ¨uber die Leistungsf¨ahigkeit von Studenten in einem Semester unter anderem die Ergebnisse verschiedener Tests als Attributwerte verwendet werden. Unter der Annahme, daß leistungsschw¨achere Studenten h¨aufiger die Vorlesung nicht bis zum Ende besuchen als leistungsst¨arkere Studenten und somit auch an den letzten Tests nicht teilnehmen, kann das Fehlen der den letzten Tests zugeordneten Attributwerte aus den vorliegenden abgeleitet werden.
Bei Daten
”missing at random“ kann die Wahrscheinlichkeit f¨ur das Feh-len von Daten aus den beobachteten Daten Yobs abgeleitet werden. Wenn
1Eine gebr¨auchliche Definition f¨ur den Begriff
”ignorable“ ist die Forderung, daß die fehlenden Werte
”missing at random“ sind und die Parameters¨atzeθund ξ
”distinct“
sind [86,109]. Diese Definition entspricht der anschaulichen Darstellung in diesem Ab-schnitt. Die Begriffe
”missing at random“ und
”distinct“ werden im weiteren Verlauf dieses Abschnitts vorgestellt.
Ymis θ Yobs
ξ
R
-?
d
Abbildung 4.3: Ein Modell f¨ur
”missing values“, die “ignorable“ sind. (Be-dingter Unabh¨angigkeitsgraph)
dies nicht m¨oglich ist (die Wahrscheinlichkeit, daß ein Datum fehlt, kann nicht aus den Daten Yobs oder Ymis abgeleitet werden), werden die feh-lenden Daten als
”missing completely at random“ (MCAR) bezeichnet. Es gilt P(R|Yobs,Ymis, ξ) = P(R|ξ) [86, 109]. In dem in Abb. 4.3 gezeigten bedingten Unabh¨angigkeitsgraphen bedeutet dies, daß bei Daten
”missing completely at random“ die Kante d nicht vorliegt.
Ein anschauliches Beispiel f¨ur Daten mit
”missing values missing com-pletely at random“ ist [62]: Gegeben sei ein vollst¨andiger Datensatz. Ein Mitarbeiter mischt diesen Datensatz und entfernt willk¨urlich einzelne At-tributwerte. Diese Werte fehlen
”missing completely at random“.