• Keine Ergebnisse gefunden

Konventionelle Methoden zur Behandlung fehlender Werte

Modelle und Prozeduren

2.3 Spezielle Probleme der Parametersch¨atzung

2.3.1.1 Konventionelle Methoden zur Behandlung fehlender Werte

Es hat w¨ahrend der letzten beiden Jahrzehnte eine intensive wissenschaftliche Besch¨af-tigung mit dem Problem fehlender Werte stattgefunden, die zur Entwicklung komplexer statistischer Verfahren zum Umgang mit denselben gef¨uhrt hat – und die bislang nur wenig Eingang in die empiriewissenschaftliche Forschungspraxis gefunden zu haben scheint, wo allem Anschein nach bis zum gegenw¨artigen Zeitpunkt einige allgemein bekannte ¨altere Vorgehensweisen beim Umgang mit fehlenden Werten – v.a. deren fallweiser Ausschluß – vorherrschen. Dieses mag zum Teil daran liegen, daß diese gebr¨auchlichen Verfahren sehr einfach anzuwenden und in vielen herk¨ommlichen Statistiksoftwareprogrammen bereits als Voreinstellung f¨ur die Behandlung unvollst¨andiger Datens¨atze implementiert sind, zum Teil aber auch daran, daß die besagten neueren statistischen Abhandlungen zum Thema oft ei-ne f¨ur den Nichtspezialisten nur schwer verst¨andliche formale Komplexit¨at aufweisen (vgl.

z.B. die diesbez¨uglichen Kapitel bei Diggle et al., 2002; Verbeke & Molenberghs, 2000) bzw. daß die neueren Verfahren selbst komplexer sind und erst allm¨ahlich durch entspre-chende Statistikprogramme einfacher handhabbar werden. Zumindest hinsichtlich des er-sten dieser beiden Aspekte k¨onnte dank ihrer m.E. sehr guten Lesbarkeit die erst in j¨ungster Zeit erschienene Bestandsaufnahme von Schafer & Graham (2002) Abhilfe schaffen.

Die besagten ¨alteren und herk¨ommlichen Verfahren zum Umgang mit fehlenden Wer-ten lassen sich in solche des Ausschlusses von F¨allen und solche der einfachen Ersetzung fehlender Werte unterteilen. Die allgemein bekannten Ausschlußverfahren sind der fallwei-se Ausschluß (

”listwise deletion“,

”complete-case analysis“) und der paarweise Ausschluß (”pairwise deletion“,

”available-case analysis“) von fehlenden Werten. Die bekanntesten Verfahren der einfachen Ersetzung fehlender Werte d¨urften die Ersetzung durch den Stich-probenmittelwert (

”(unconditional) mean imputation“) und die Ersetzung durch eine regres-sionsbasierte Sch¨atzung (

”conditional mean imputation“) sein.

Beim fallweisen Ausschluß wird jede Observation i, die in einer der zu analysieren-den Variablen fehlende Werte aufweist, vor der Durchf¨uhrung der statistischen Analyse aus dem Datensatz eliminiert bzw. es werden nur diejenigen F¨alle analysiert, die keiner-lei fehlende Werte aufweisen. Auch wenn diese Methode die wohl am h¨aufigsten und oft gewohnheitsm¨aßig zur Behandlung fehlender Werte angewandte ist, so ist sie doch mit offensichtlichen Nachteilen verbunden. Denn zum einen ist dabei zu fragen, ob und in wel-cher Weise der Ausschluß von F¨allen die Ergebnisse der Analyse beeinflußt, – n¨amlich dann, wenn die Datenausf¨alle selbst in irgendeiner Art und Weise mit den untersuchten Va-riablen statistisch zusammenh¨angen, so daß die Verteilung dieser AnalysevaVa-riablen in der durch den fallweisen Ausschluß bereinigten Stichprobe nicht mehr die Populationsvertei-lung repr¨asentiert. Zum zweiten aber reduziert der fallweise Ausschluß die den Analysen zugrundeliegende Stichprobengr¨oße und damit auch die Effizienz der Parametersch¨atzun-gen. Gerade in L¨angsschnittstudien mit vielen Wiederholungsmessungen w¨urde so infolge

”attrition“ eine oft enorme Reduktion der Stichprobengr¨oße bewirkt – so auch im SOEP,

(vgl. Tabelle 3.2 in Kapitel 3.1.3, sowie Tabelle B.1 in Anhang B).

Beim paarweisen Ausschluß werden nicht alle F¨alle mit fehlenden Werten in einer Analysevariablen ausgeschlossen, sondern es werden bei der Berechnung von Statistiken (z.B. Mittelwerten, Varianzen, Korrelationen etc.) alle jeweils daf¨ur vorhandenen Werte einbezogen. Wenn also bei einem Falliin der AnalysevariablenX1 der Wert fehlt, jedoch in den VariablenX2 undX3 Meßwerte vorhanden sind, so w¨urde beispielsweise dieser Fall in die Berechnung der MittelwerteX¯2 und X¯3 und der Korrelation von X2 undX3 einbe-zogen und w¨are von der Berechnung des MittelwertsX¯1 und der Korrelationen vonX1mit X2 bzw.X3 ausgeschlossen. Die Bezeichnung

”available-case analysis“ beschreibt also im Grunde die Vorgehensweise genauer, w¨ahrend die bekanntere und weithin gebr¨auchliche-re Bezeichnung

”pairwise deletion“ eigentlich nur dem Verfahren bei der Berechnung von Kovarianzen bzw. Korrelationen entlehnt ist. Somit kommt es dabei nicht zu den Datenver-lusten, die die Methode des fallweisen Ausschlusses kennzeichnen. Jedoch entstehen durch den paarweisen Ausschluß statistische Probleme komplexerer Natur dadurch, daß bei die-ser Vorgehensweise unterschiedliche Statistiken auf unterschiedlichen F¨allen beruhen, – f¨ur die Berechnung von Strukturgleichungsmodellen fallen zwei daraus resultierende Proble-me besonders ins Gewicht: Zum einen kann die multivariate Wahrscheinlichkeitsverteilung der Varianz-Kovarianz-Matrix der beobachteten Modellvariablen, auf der die statistische Evaluation der Modellanpassung beruht, nicht mehr ohne weiteres bestimmt werden, wenn die Elemente dieser Matrix aus unterschiedlichen Fallzahlen errechnet wurden (vgl. Bol-len, 1989, 370f; Wothke, 2000). Zum zweiten besteht ein sehr ernsthaftes Problem in der M¨oglichkeit gewisser Inkonsistenzen bei der Berechnung der Varianzen und Kovarianzen der beobachteten Modellvariablen aus sozusagen jeweils unterschiedlichen Anteilen des Datensatzes: Es k¨onnen so Varianz-Kovarianz-Matrizen resultieren, die nicht positiv-definit sind, was ein Problem f¨ur die Anwendung der Modellanpassungsfunktionen (Sch¨atzalgo-rithmen) bedeutet, da diese dann nicht mehr durch das theoretische Minimum Null (bei optimaler Anpassung) beschr¨ankt sind (vgl. Wothke, 1993). Ein sehr einfaches und an-schauliches Beispiel daf¨ur zeigt Wothke (2000): Dabei resultiert aus der mittels des paar-weisen Ausschlusses berechneten Varianz-Kovarianz-Matrix zweier Variablen ein Korrela-tionswert außerhalb des zul¨assigen Wertebereichs.

Angesichts der Probleme, die bei den Methoden des fallweisen oder paarweisen Aus-schlusses daraus resultieren, daß entweder die Stichprobengr¨oße insgesamt reduziert wird, oder aber verschiedene Statistiken auf der Basis unterschiedlicher Stichprobengr¨oßen be-rechnet werden, erscheint es auf den ersten Blick vorteilhaft, jeglichen Ausschluß von F¨allen dadurch zu umgehen, daß die fehlenden Werte gesch¨atzt und jeweils durch einen Sch¨atzwert ersetzt werden. Die wohl bekannteste und einfachste derartige Vorgehensweise ist die Ersetzung fehlender Werte durch den Stichprobenmittelwert, d.h. durch das arith-metische Mittel der Werte aller vorhandenen Werte in der jeweiligen Analysevariablen.

Dieses Verfahren ist allerdings in mehrfacher Hinsicht problematisch: Sein Rationale be-ruht darauf, daß das arithmetische Stichprobenmittel einer VariablenXein

erwartungstreu-er Sch¨atzerwartungstreu-er des entsprechenden Populationsmittelwerwartungstreu-ertes bzw. Erwartungswerwartungstreu-ertsE(X) ist, welcher wiederum der effektivste Sch¨atzer f¨ur jeden individuellen WertXi aus der Popu-lationsverteilung vonX ist (solange keine zus¨atzliche spezifische Information ¨uber den zu sch¨atzenden Wert verwendet wird). Damit aber ist auch klar, daß der Stichprobenmittelwert nur dann ein

”guter“ Ersatz f¨ur die fehlenden X-Werte sein kann, wenn diese derselben Populationsverteilung entstammen, wie die vorhandenen bzw. wenn sich die F¨alle mit feh-lenden von denen mit vorhandenenX-Werten nicht systematisch unterscheiden. Damit ist wiederum die M¨oglichkeit gemeint, daß die Ausf¨alle nicht zuf¨allig, sondern im Zusammen-hang mit der Auspr¨agung des Merkmals, welches durchX gemessen wird, stattgefunden haben, wie es z.B. der Fall w¨are, wenn Personen mit wachsender X-Auspr¨agung st¨arker dazu tendieren, die Antwort zu verweigern, so daß sozusagen E(X) in der theoretischen Verteilung aller verweigerten Werte unterE(X)in der theoretischen Verteilung aller nicht verweigerten Werte l¨age. Dann n¨amlich w¨are der Stichprobenmittelwert der vorhandenen X-Werte sowohl ein verzerrter Sch¨atzer jedes einzelnen nicht vorhandenen Meßwerts, als auch des Mittelwerts der gesamten Grundgesamtheit allerX-Werte. Ein weiteres Problem bei der Ersetzung fehlender Werte durch den Stichprobenmittelwert ist auch ohne entspre-chende formale Ableitung offensichtlich: Das Verfahren reduziert die Stichprobenvarian-zen bzw. Varianzsch¨atzungen, z.B. im Vergleich zu denen, die bei paarweisem Ausschluß errechnet w¨urden. In die Quadratsumme der Abweichungen vom Stichprobenmittelwert ge-hen dann sozusagen viele Nullsummanden mit ein, so daß diese Quadratsumme durch die Imputation der Werte nicht vergr¨oßert wird, w¨ahrend jedoch Anzahl der Summanden und damit auch der scheinbaren Freiheitsgrade, durch die diese Quadratsumme zur Sch¨atzung der Populationsvarianz zu teilen w¨are, w¨achst. Die tats¨achlichen Freiheitsgrade der Abwei-chungsquadratsumme bleiben nat¨urlich durch die Imputation unber¨uhrt, aber dieses

”weiß“

ein SEM-Computerprogramm nicht, wenn es ¨uber einen mittels Mittelwertsimputation be-handelten Datensatz l¨auft, so daß ein negativer Bias bei den Varianzsch¨atzungen im Grunde unvermeidbar ist. Entsprechendes gilt auch f¨ur Kovarianzen, so daß bei der Anwendung dieser Methode die Sch¨atzung von Strukturgleichungsmodellen ¨uber die Modellanpassung an eine verzerrte Sch¨atzung der Varianz-Kovarianz-Matrix der beobachteten Modellvaria-blen erfolgt. Dieses Problem allein wiegt schwer genug, um hier dem diesbez¨uglichen Fazit von Graham & Hofer (2000, 205) zuzustimmen:

”This procedure should never be used.“

Ein weiteres bekanntes Verfahren der einfachen Ersetzung basiert auf der Regression der vorhandenen Werte einer VariablenX, deren fehlende Werte ersetzt werden sollen, auf andere Variablen im Datensatz (mit vorhandenen Werten), so daß dann mittels des so be-rechneten Regressionsmodells aus den Werten dieser Pr¨adiktoren die fehlendenX-Werte gesch¨atzt werden k¨onnen. Dieses wird als

”conditional mean imputation“ bezeichnet, da ja der so gesch¨atzte Wert der auf der Basis des Regressionsmodells bedingte Mittelwert aller F¨alle mit der jeweils gleichen Auspr¨agung in den Pr¨adiktorvariablen ist. Letztendlich sind auch diese Mittelwertssch¨atzungen prinzipiell mit den Problemen verbunden, die f¨ur die Ersetzung durch den

”unbedingten“ Stichprobenmittelwert skizziert wurden (wenn auch in

m¨oglicherweise abgeschw¨achter Form), insbesondere hinsichtlich der Sch¨atzung von Vari-anzen und KovariVari-anzen. Eine einleuchtende Verbesserung dieses Verfahrens der Ersetzung durch eine regressionsbasierte Sch¨atzung besteht darin, zu dem so ermittelten Sch¨atzwert einen zuf¨allig gezogenen Residualwert aus der Fehlerverteilung des Regressionsmodells (also in der Regel aus einer Normalverteilung um den Mittelwert Null mit der gesch¨atzen Fehlervarianz des Regressionsmodells) zu addieren. Mit dieser als

”imputing from a con-ditional distribution“ bezeichneten Vorgehensweise kann die Verzerrung von Varianz- und Kovarianzsch¨atzungen vermieden werden (vgl. Schafer & Graham, 2002, 159), allerdings ist die Durchf¨uhrung dieses Verfahrens zumindest dann, wenn bei mehreren Variablen im zu analysierenden Datensatz fehlende Werte auftreten, genauso komplex, wie die im folgen-den dargestellten neueren Verfahren, gegen¨uber folgen-denen es somit, angesichts der insgesamt

¨uberlegenen Qualit¨aten derselben, keinen Vorteil mehr b¨ote.

Auch die sonstigen

”¨alteren“ Methoden zum Umgang mit fehlenden Werten, die Scha-fer & Graham (2002) behandeln, sind gegen¨uber diesen neueren Verfahren prinzipiell im Nachteil, so daß in den neueren statistischen Abhandlungen nahezu einstimmig von der Ver-wendung der herk¨ommlichen einfachen Verfahren abgeraten wird bzw. als einziger Grund f¨ur diese Verwendung deren praktische Einfachheit bleibt, welcher dann zu rechtfertigen ist, wenn der zu behandelnde Datenausfall nur geringf¨ugig oder im Sinne der im folgenden dargestellten Bedingung

”missing completely at random“ ist (vgl. Schafer & Graham, 2002;

Graham & Hofer, 2000; Verbeke & Molenberghs, 2000, 221-229) . 2.3.1.2 Stochastische Mechanismen des Datenausfalls

F¨ur die Entwicklung spezieller neuerer Verfahren zum Umgang mit fehlenden Werten war die von Rubin (1976) bzw. Little & Rubin (1987) eingef¨uhrte konzeptionelle und termi-nologische Unterscheidung von verschiedenartigen Mechanismen der Datenausf¨alle grund-legend – n¨amlich

”missing completely at random“ (MCAR),

”missing at random“ (MAR) und”missing not at random“ (MNAR).18 Bei dieser Unterscheidung wird das Fehlen von Werten als probabilistisches Ph¨anomen betrachtet, welches durch entsprechende Zufalls-variablen dargestellt werden kann: Zu den zu analysierenden VariablenXj (j = 1, . . . , k) werden die VariablenRj definiert, die den Datenausfall bei den Messungen f¨urXj beschrei-ben (Rj sind also Kodiervariablen des Datenausfalls, z.B. mitRji = 1, wenn der WertRji vorhanden ist undRji = 0, wenn dieser Wert fehlt). Die verschiedenartigen Mechanismen des Datenausfalls sind Unterscheidungen bez¨uglich der Wahrscheinlichkeitsverteilung der Rj. Schafer & Graham (2002) weisen auf das Mißverst¨andnis hin, welches durch die daf¨ur h¨aufig gew¨ahlte Bezeichnung als

”missingness mechanism“ (oder ¨ahnlich) resultieren kann und in einer kausalen Interpretation dieser sogenannten Mechanismen besteht. Denn die

18Die Bezeichnungen variieren in der diesbez¨uglichen Fachliteratur: MAR wurde auch als

accessible mis-singness“ bezeichnet (z.B. Graham & Donaldson, 1993; Graham et al., 2001), MNAR als

missing informa-tive“ (z.B. Diggle et al., 2000),

missing nonignorable“ (z.B. Wothke, 2000) oder

inaccessible missingness“

(z.B. Graham & Donaldson, 1993; Graham et al., 2001).

Unterscheidung bezieht sich nicht auf tats¨achliche, realweltliche Ausfallursachen, sondern auf mathematische Eigenschaften der Wahrscheinlichkeiten des Fehlens von Werten. Diese k¨onnen auf relativ einfache Weise dargestellt werden (vgl. Schafer & Graham, 2002, 151;

vgl. auch die komplexeren formalen Definitionen z.B. bei Verbeke & Molenberghs, 2000, 215ff; eine daran angelehnte deutschsprachige und auf l¨angsschnittliche

”attrition“ bezoge-ne Darstellung liefert Zimprich, 2002, 99ff):Xisei der vollst¨andige Vektor der Werte eines Merkmalstr¨agers i (aus der untersuchten Stichprobe mit i = 1, . . . , n) in den Variablen Xj, welcher in die Vektoren der bei ibeobachteten bzw. im Datensatz f¨ur i vorhandenen WerteX(v)i und der beiinicht beobachteten bzw. im Datensatz f¨urifehlenden WerteX(fi ) partitioniert werden kann,Risei der Vektor der Werte des Merkmalstr¨agersiin den Varia-blenRj. Dann bezeichnen die Bedingungen MCAR, MAR und MNAR Eigenschaften von P(Ri|Xi), d.h. der bedingten Wahrscheinlichkeit von Ri (das Vorhandensein/Fehlen von Xj-Werten) bei gegebenen WertenXi. Die Datenausf¨alle sind MAR, wenn gilt:

P(Ri|Xi) =P(Ri|Xi(v)) (2.56) D.h. die Wahrscheinlichkeit f¨ur das Vorhandensein/Fehlen vonXj Werten h¨angt nicht vonXi(f), sondern lediglich vonXi(v)ab. Dieses bedeutet also, daß f¨ur jeden Merkmalstr¨a-geri die jeweiligen Wahrscheinlichkeiten f¨ur das Fehlen/Vorhandensein des Werts in den VariablenXjlediglich von den Werten in denjenigenXj-Variablen abh¨angen, die beiiauch beobachtet werden konnten und nicht von denjenigenXj-Werten, die beiifehlen. Es sind somit bei einem gegebenen Datensatz f¨urn Merkmalstr¨ager prinzipiell verschiedene Mu-ster stochastischer Abh¨angigkeit des Datenausfalls m¨oglich, die Gleichung 2.56 erf¨ullen, je nachdem, wieviele Muster vorhandener Werte es gibt. Bei z.B.k = 3 Variablen d¨urfte die Wahrscheinlichkeit f¨urR3, also f¨ur einen Datenausfall in X3 in der Subgruppe derjenigen Merkmalstr¨ager mitR1i = 1, R2i = 1, d.h. mit vorhandenen X1- undX2-Werten, von X1 undX2 abh¨angen, in der Subgruppe aller Merkmalstr¨ager mit R1i = 1, R2i = 0 dagegen nur vonX1und in der Subgruppe mitR1i = 0, R2i = 1nur vonX2, entsprechendes m¨ußte f¨ur dieR1- undR2-Wahrscheinlichkeiten gelten.

Die MCAR-Bedingung ist demgegen¨uber einfacher zu verstehen:

P(Ri|Xi) =P(Ri) (2.57)

Gleichung 2.57 bezeichnet schlicht die stochastische Unabh¨angigkeit vonRi und Xi (vgl. z.B. Schilling, 1998, 71). MCAR sind die Datenausf¨alle also dann, wenn ihre Wahr-scheinlichkeit von keiner der Modellvariablen abh¨angt.

MNAR ist der Ausfall dann, wenn weder MCAR-, noch die MAR-Bedingungen erf¨ullt ist – d.h., wenn das Fehlen bzw. die Wahrscheinlichkeit eines Datenausfalls in einer Va-riablen Xj von Xj selbst bzw. wenn Ri auch von X(f)i abh¨angt. Um Mißverst¨andnissen vorzubeugen ist dazu anzumerken, daß der Zusammenhang vonRiundX(f)i nach Auspar-tialisierung vonX(v)i gemeint ist: Denn ansonsten w¨urde, wenn die VariablenXj

unterein-ander korreliert sind, jegliche stochastische Abh¨angigkeit des Datenausfalls vonX(v)i auch automatisch eine Abh¨angigkeit von X(f)i nach sich ziehen, so daß die MAR-Bedingung nur dann erf¨ullt sein k¨onnte, wenn dieXj-Variablen keinerlei Abh¨angigkeiten untereinan-der aufweisen. Dieses betrifft insbesonuntereinan-dere auch den Datenausfall durch l¨angsschnittliche

”attrition“, wie er bei den folgenden Stabilit¨atsanalysen f¨ur die Mehrzahl aller F¨alle mit unvollst¨andigen Daten kennzeichnend ist: Eine hohe Korrelation der zeitlich aufeinander-folgenden Zufriedenheitsvariablen ist ja die hypothetische Voraussetzung der Stabilit¨ats-analyse und wenn demnach die Zufriedenheit zu einem Zeitpunktthoch korreliert mit der Zufriedenheit zu einem sp¨ateren Zeitpunktt0, so w¨urde immer dann, wenn der Dropout zut0 mit der Zufriedenheit zutzusammenh¨angt, dieser auch mit der Zufriedenheit zut0 zusam-menh¨angen. MNAR w¨are der Datenausfall hier jedoch nur dann, wenn ein Zusammenhang mit der Zufriedenheit zut0 auch nach der statistischen Auspartialisierung des Zusammen-hangs mit der Zufriedenheit zutnoch besteht.

Fast alle der im Unterkapitel 2.3.1.1 aufgef¨uhrten Methoden zum Umgang mit fehlen-den Werten f¨uhren lediglich unter der sehr restriktiven MCAR-Bedingung zu unverzerrten Parametersch¨atzungen (Schafer & Graham, 2002; Wothke, 2000; Little & Schenker, 1995).

Die Ausnahme bildet hier lediglich das

”imputation from a conditional distribution“, wel-ches auch dann unverzerrte Sch¨atzungen liefern kann, wenn die Datenausf¨alle lediglich MAR sind. Diese herk¨ommlichen Verfahren sind deshalb generell nur dann anwendbar, wenn entweder von MCAR-Datenausf¨allen ausgegangen werden kann, oder wenn damit nur eine sehr geringe Zahl von fehlenden Werten behandelt werden muß, denn nat¨urlich w¨achst ein m¨oglicher Bias mit der Anzahl der auszuschließenden F¨alle oder zu ersetzenden Werte. Zu dieser Einschr¨ankung ihrer Anwendbarkeit auf die MCAR-Bedingung kommt ein weiterer gravierender genereller Nachteil der Verfahren des Ausschlusses oder der ein-fachen Ersetzung, n¨amlich der ihrer Ineffizienz im Vergleich zu neueren Verfahren, die im folgenden behandelt werden. Es sind somit selbst dann, wenn die MCAR-Bedingung erf¨ullt ist, bei Ausschluß oder einfacher Ersetzung der fehlenden Werte Parametersch¨atzun-gen zu erwarten, die mit h¨oheren Standardfehlern behaftet sind, als Sch¨atzunParametersch¨atzun-gen, die aus den neueren Verfahren resultieren. Sowohl diese Ineffektivit¨at, wie auch die Verzerrungen von Sch¨atzern unter MAR-Datenausf¨allen, konnte in einer Vielzahl von Simulationsstudien belegt werden (z.B. Schafer & Graham, 2002; Enders, 2001a; Enders & Bandalos, 2001;

Wothke, 2000; Arbuckle, 1996; Brown, 1994; Muth´en et al., 1987).

Outline

ÄHNLICHE DOKUMENTE