• Keine Ergebnisse gefunden

Zum Umgang mit fehlenden Daten in großzahligen empirischen Erhebungen

N/A
N/A
Protected

Academic year: 2022

Aktie "Zum Umgang mit fehlenden Daten in großzahligen empirischen Erhebungen"

Copied!
18
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

empirischen Erhebungen

Stephan E. Göthlich

1 Problemstellung

Großzahliges, quantitativ auswertbares Datenmaterial stellt heute die Grundlage zahlreicher, wenn nicht gar der meisten Studien und Forschungsarbeiten in den Wirtschafts- und Sozialwissenschaften dar. Typisch in Bereichen wie beispiels- weise der Organisations- und Marketingforschung oder der Volkswirtschaftsleh- re sind Umfragen, Panels oder Zeitreihen, die diese Grundlage bilden. Werden Daten nicht in einem kontrollierten oder experimentellen Umfeld gewonnen, geht mit der Datenerhebung regelmäßig das Problem fehlender Werte einher:

Die Probanden antworten nicht auf alle gestellten Fragen, sodass Lücken in den für die Auswertung vorgesehenen Datenmatrizen verbleiben. Diese Lücken bergen die Gefahr, dass es bei der Analyse zu Verzerrungen und in der Konse- quenz zu Fehlschlüssen und Fehlentscheidungen kommt. Die Standardverfahren der Statistiksoftware ignorieren dieses Problem und nehmen implizit an, der Anwender hätte eine vollständige Datentabelle geliefert. Fehlende Daten stellen damit eines der fundamentalen Probleme empirischer Arbeit dar und sind zudem ein Problem, das durch den Einsatz von Statistiksoftware allein nicht gelöst werden kann. Dennoch werden noch immer zahlreiche großzahlige empirische Studien veröffentlicht, ohne dass darin über das Ausmaß fehlender Werte und die Art und Weise, wie mit ihnen umgegangen wurde, berichtet wird. In der Folge verlieren diese Arbeiten an Überzeugungskraft. Der folgende Aufsatz will dazu beitragen, die Problematik fehlender Daten stärker in das Bewusstsein der Anwender zu rücken, und eröffnet – unter bewusstem Verzicht auf mathemati- sche Ausführungen – einen schnellen Einstieg in die Thematik.

2 Charakterisierung fehlender Daten 2.1 Formen der Nichtantwort und ihre Ursachen

Es lassen sich sechs Formen der Nichtantwort unterscheiden: In der Hauptsache wird nach Unit-Nonresponse und Item-Nonresponse differenziert (Schnell, Hill und Esser 1999, S. 286), daneben gibt es die Wave-Nonresponse, Drop-Outs, Observation-Nonresponse und das Missing by Design.

Bei der Unit-Nonresponse reagiert ein Befragter gar nicht oder verweigert die Beteiligung an der Untersuchung, was sich beispielsweise in einer traditio-

(2)

nellen Umfrage dergestalt äußert, dass man von einer befragten Person keinen ausgefüllten Fragebogen zurückerhält. Die Unit-Nonresponse bedingt gleichzei- tig die Rücklaufquote, über die zwar in den allermeisten Studien berichtet wird.

Allerdings fehlen dabei oftmals Informationen über den möglichen Grund der Nichtantwort. Werden lediglich einzelne Fragen (items) nicht beantwortet, spricht man von Item-Nonresponse. Der vom Respondenten gelieferte Datensatz ist also unvollständig. Eine Spezialform ist die Wave-Nonresponse. Darunter versteht man Nichtantworten (Unit oder Item), die in Längsschnittuntersuchun- gen wie den Panels mit mehreren Erhebungswellen entstehen. Probanden lassen eine Erhebungswelle aus, nehmen an anderen aber wiederum teil. Drop-outs entstehen ebenfalls in Längsschnittuntersuchungen. Panels sind dafür bekannt, dass sie nicht über den gesamten Zeitraum in ihrer Zusammensetzung konstant bleiben. Einzelne Objekte gehen im Zeitverlauf verloren, was zum Phänomen des Panelsterbens (auch: Panelmortalität) führt. Von einer Observation- Nonresponse ist die Rede, wenn Antworten durch einzelne Probanden eines vorher definierten Clusters fehlen. Ein solches Cluster könnte beispielsweise eine Familie sein, bei der zum Zeitpunkt der Beobachtung nicht alle Mitglieder erfasst werden können. Ähnliches ergibt sich auch in anderen Wissenschaften, beispielsweise in der Biologie bei der Beobachtung von Populationen einer bestimmten Spezies. Beim Missing by Design werden Daten nicht erhoben. Als Beispiel diene eine Umfrage über betriebliches Umweltmanagement. Die erste Frage, mit den Antwortmöglichkeiten ja oder nein, könnte lauten, ob die befrag- te Unternehmung über ein Umweltmanagementsystem verfüge. Die Folgefragen beziehen sich auf die Ausgestaltung dieses Systems. Wird die erste Frage mit nein beantwortet, können folgerichtig die nächsten Fragen nicht beantwortet werden.

Neben dem Missing by Design, bei dem das Fehlen von Daten einkalkuliert ist, können die Ursachen für die einzelnen Formen der Nichtantwort vielfältiger Natur sein. Ein Proband ist nicht immer erreichbar, wie beispielsweise bei Tele- fonumfragen; einzelne Fragen oder Seiten des Fragebogens werden übersehen;

bei geschlossenen Fragestellungen sind unter Umständen alle vorgegebenen Antwortmöglichkeiten aus Sicht des Befragten unpassend; Fragen werden nicht verstanden, können aufgrund mangelnden Wissens nicht beantwortet werden oder ein Proband möchte auf eine bestimmte Frage nicht antworten. Daneben kann es durch Datenfehler – z.B. Tippfehler, unzulässige Antworten, Missver- ständnisse (z.B. in der Telefonumfrage), Übertragungsfehler (z.B. bei Online- Befragungen) – zu Datenausfällen kommen (Schnell, Hill und Esser 1999, S. 287; Schnell 1997, S. 18 f. und 106 ff.).

Kritisch ist nun, dass diese Ursachen der Nichtantwort für den Zweck der Befragung relevante Informationen beinhalten können, aber nicht müssen. Ein fehlender Antwortwille kann auf einen mangelnden Anreiz zurückzuführen sein,

(3)

wenn der Aufwand des Antwortens in keinem akzeptablen Verhältnis zum wahr- genommenen Nutzen steht. Er ist dann aber nicht zwangsläufig mit den abge- fragten Variablen korreliert. Andererseits kann die Antwortverweigerung auch darauf zurückzuführen sein, dass bestimmte Informationen nicht der Öffentlich- keit zugänglich gemacht werden sollen: Ein Unternehmen möchte nicht an einer Umfrage über betrieblichen Umweltschutz teilnehmen, weil es keinen Umwelt- schutz betreibt.

2.2 Fehlendmechanismen und ihre Konsequenzen

Damit ist das Problem der Fehlendmechanismen angesprochen. Wie das zuletzt genannte Beispiel zeigt, kann der Datenausfall in einem Zusammenhang mit dem Untersuchungsinhalt stehen oder aber rein zufällig erfolgen. Es werden drei Fehlendmechanismen unterschieden (Rubin 1976; Little und Rubin 2002):

Missing Completely At Random (MCAR),

d.h. ein vollkommen zufälliger Datenausfall, und die beobachteten Daten beinhalten keine Information über einen Fehlendmechanismus.

Beispiel: Die Rückantwort auf eine Befragung zum betrieblichen Umwelt- schutz geht auf dem Postwege verloren. Der Datenausfall korreliert also mit keiner der abgefragten Variablen.

Missing At Random (MAR, auch: ignorierbare Nichtantwort),

d.h. ein bedingt zufälliger Datenausfall, bei dem die beobachteten Werte die Information über den Fehlendmechanismus beinhalten.

Beispiel: Die Bereitschaft zur Antwort auf eine Frage zum Ausmaß des Umweltengagements einer Unternehmung sei abhängig von der Frage, ob eine Unternehmung publizitätspflichtig ist oder nicht. Die Publizitätspflicht der Unternehmen wurde abgefragt. So könnte es nun sein, dass publizitäts- pflichtige Unternehmen bereitwillig Auskunft geben, andere Unternehmen die Auskunft verweigern. Antwort bzw. Nichtantwort sind aber nicht abhän- gig vom Ausmaß des Umweltengagements der Unternehmen.

Missing Not At Random (MNAR, auch: nicht ignorierbare Nichtantwort), d.h. der Datenausfall ist nicht zufällig und damit verzerrend; die Antwort- wahrscheinlichkeit hängt von den fehlenden Daten ab.

Beispiel: Bei der Frage „Wieviel Euro investiert Ihr Unternehmen in den Umweltschutz?“ hänge die Antwortwahrscheinlichkeit von der absoluten Höhe dieses Betrages ab: Je geringer der Betrag, desto eher wird die Ant- wort aus Imagegründen verweigert.

Zusätzlich wird in der Literatur der Observed At Random-(OAR)-Mechanismus genannt (Rubin 1976, S. 584). Während beim MAR die Antwort zu einer Vari- ablen unabhängig von der Ausprägung dieser Variable ist, ist beim OAR die Antwort zu einer Variablen unabhängig von der Ausprägung der anderen Vari-

(4)

ablen. MCAR ergibt sich dann als eine Kombination aus MAR und OAR. Es ist leicht ersichtlich, dass der MCAR-Ausfall sowohl bei der Unit- als auch der Item-Nonresponse unproblematisch ist, abgesehen davon, dass durch den Infor- mationsverlust die Analysen ungenauer werden. Es entsteht aber keine grund- sätzliche Verfälschung der späteren Analyseergebnisse. Dasselbe gilt für nicht erhobene Daten (Missing by Design). Hingegen führt ein MNAR-Ausfall immer zu verzerrten, nicht die Realität wiedergebenden Resultaten.

2.3 Fehlendmuster

Bei der Beschreibung des Datenausfalls unterscheidet man verschiedene Muster.

In Abbildung 9.1 sind die vier grundsätzlichen Muster – univariates, monotones, disjunktes, allgemeines Fehlendmuster – schematisch dargestellt (Kastner 2001, S. 43). In den Matrizen finden sich in den Zeilen die Datensätze (auch: Objekte, Cases, Beobachtungen, Observations, die Antworten eines Probanden) und in den Spalten die Variablen (auch: Items, die einzelnen Fragen). Datenfelder, für die ein Wert vorliegt, sind grau dargestellt, die „Missings“ weiß.

Die Kenntnis des Fehlendmusters erlaubt in bestimmten Fällen Rückschlüsse auf den Fehlendmechanismus (Kastner 2001, S. 49 f.). Eine Prüfung auf einen MCAR-Ausfall lässt sich beispielsweise bei einem univariaten Ausfallmuster einfach durchführen: Im ersten Schritt werden die Datensätze nach vollständigen und unvollständigen getrennt. In den Teildatensätzen werden für die vorhande- nen Variablen die Verteilungen ermittelt und schließlich im dritten Schritt zwi- schen den Teildatensätzen mittels t-Test oder Maximum-Likelihood-Quotienten- Test verglichen. Liegen keine signifikanten Differenzen vor, kann von einem MCAR-Ausfall ausgegangen werden. Komplizierter wird diese Überprüfung bei anderen Fehlendmustern (Little 1988b; Park und Davis 1993; Park und Lee 1997). Für einen Test auf einen MAR-Ausfall liegen noch keine gesicherten Verfahren vor (siehe aber Kastner 2001, S. 52; sowie Toutenburg, Fieger 2000, für mögliche Lösungsansätze).

2.4 Quantifizierung des Datenausfalls

Die Bezifferung des Umfangs des Datenausfalls wird in der Literatur uneinheit- lich gehandhabt. Es lassen sich verschiedene Maße anführen, wie z.B. die Rela- tionen leere Datenfelder zu allen Datenfeldern oder Datensätze mit fehlenden Werten relativ zu allen Datensätzen, wobei die Unit-Nonresponse hier nicht mit eingerechnet wird, sondern in der Rücklaufquote Erwähnung findet. Daneben lassen sich die fehlenden Werte zu jeder Variable sowie die fehlenden Werte jedes Datensatzes angeben. Eine Übersicht verschiedener Maßzahlen zur Kenn- zeichnung des Datenausfalls bietet Bankhofer (1995, S. 31).

(5)

Abbildung 9.1: Fehlendmuster

Variablen

Datensätze

Variablen

Datensätze

Variablen

Datensätze

Variablen

Datensätze

univariat monoton disjunkt allgemein

3 Verfahren zur Behandlung fehlender Daten

Zum Umgang mit fehlenden Daten und zur Korrektur der Nichtantwort stehen zahlreiche Verfahren zur Verfügung, die sich gemäß Abbildung 9.2 systemati- sieren lassen und im Folgenden in ihrer Grundidee skizziert werden. Hierbei wird, wo nicht gesondert angegeben, angelehnt an den Aufsatz von Rässler (2000) vorgegangen.

3.1 Verfahren der Fallreduktion 3.1.1 Complete Case Analysis (CC)

Die Complete Case Analysis, eine alternative Bezeichnung ist Listwise Deletion, ist das einfachste vorstellbare Verfahren, universell anwendbar und gleichzeitig die Standardeinstellung in statistischer Analysesoftware. Hierbei werden sämtli- che Datensätze, die fehlende Werte aufweisen, gelöscht bzw. ignoriert. Zur Auswertung kommen nur die vollständigen Sätze (complete cases). Ebenso wie die Available Case Analysis setzt das Verfahren einen MCAR-Ausfall voraus, will man unverzerrte Parameter ermitteln, und ist noch am ehesten bei univaria- ten Fehlendmustern geeignet. Hinzu kommt, dass mit zunehmender Zahl fehlen- der Werte der Informationsverlust anwächst.

3.1.2 Available Case Analysis (AC)

Bei der Available Case Analysis oder auch Pairwise Deletion werden die Vertei- lungsmaße der einzelnen Variablen jeweils für alle verfügbaren Daten ermittelt.

Maße wie z.B. Kovarianzen zwischen Variablen hingegen werden nur für die

(6)

vollständigen Datensätze berechnet. Damit wird ein Teil des Informationsverlus- tes aus der Complete Case Analysis vermieden, allerdings zu dem Preis, dass nun die auf unterschiedlicher Stichprobenbasis bestimmten Maße nicht mehr zueinander passen und nicht vergleichbar sind.

Abbildung 9.2: Übersicht über Verfahren zur Behandlung fehlender Daten

Verfahren zur Behandlung fehlender Daten

Fallreduktion Sample-Selection-Modelle Gewichtungsverfahren Imputationsverfahren

Complete Case Analysis Available Case Analysis

Expertenschätzung Mittelwert-/Modus-/

Medianergänzung Regressionsimputation a) deterministisch b) mit zufälligem Störterm

Historische Ergänzung und Interpolation

Hot Deck a) nearest neighbour b) random within cell

Doppeln Predictive Mean Matching

Dummy Variable Adjustment

Cold Deck

Markov Chain Monte Carlo (MCMC)- Verfahren der Datenvermehrung (Data Augmentation, DA)

Maximum Likelihood Schätzung auf Basis eines Expectation Maximization Algorithmus (EM) konventionelle oder

Ad hoc-Verfahren

modellbasierte Verfahren (single imputation) (multiple imputation) Einfache ImputationMehrfache Imputation

3.2 Sample-Selection-Modelle

Die Sample-Selection-Modelle (Heckman 1976; Christensen, Clement, Albers und Guldner 2004) streben an, auch einem MNAR-Ausfall wirksam zu begeg- nen, sofern der Ausfallmechanismus exakt spezifiziert, d.h. beschrieben und modelliert werden kann. Da letzteres gewöhnlich kaum möglich sein wird, wird die Anwendbarkeit dieser Verfahren in Frage gestellt (Schnell 1997, S. 248 f.) oder aber doch höchst kritisch gesehen; zusätzliche (Sensitivitäts-)Analysen werden als notwendig erachtet, um die zur Anwendung gebrachten Modelle auf ihre Verlässlichkeit zu prüfen (Allison 2002, S. 5 und S. 77 ff.).

3.3 Gewichtungsverfahren

Der Gedanke hinter den Gewichtungsverfahren ist der, Datensätze mit fehlenden Werten zu entfernen und stattdessen die vollständigen mit einem stärkeren Ge-

(7)

wicht innerhalb der Stichprobe in die Analysen eingehen zu lassen. Eine speziel- le Form sind Resampling Methoden wie das Bootstrapping (siehe den Beitrag von Reimer zum Bootstrapping in diesem Buch), bei dem aus den beobachteten Werten zufällig (und mit Zurücklegen) neue gezogen und dadurch der Datenbe- stand vergrößert wird.

3.4 Imputationsverfahren

3.4.1 Konventionelle oder Ad hoc-Verfahren 3.4.1.1 Expertenschätzung

Grundidee aller Imputationsverfahren ist es, die weißen Felder in den Matrizen auszufüllen (engl. to impute: unterstellen). Bei der Expertenschätzung (Schnell 1986, S. 96) wird das Ausfüllen der in der Datentabelle verbliebenen Lücken einem oder mehreren Experten überlassen, idealerweise also einem Personen- kreis, der im Hinblick auf die untersuchte Materie über einen anerkanntermaßen großen Erfahrungsschatz verfügt. Das Verfahren ist insofern kritisch zu beurtei- len, als dadurch die intersubjektive Überprüfbarkeit einer Untersuchung in Frage gestellt wird. Die Experten müssten im einzelnen und in dokumentierter Form darlegen, wie sie zu ihren Urteilen kommen. Der damit verbundene Aufwand wird dieses Verfahren im Regelfall unwirtschaftlich werden lassen.

3.4.1.2 Mittelwertergänzung

Die Mittelwertergänzung (Mean Imputation) geht so vor, dass für die fehlenden Werte das arithmetische Mittel (alternativ auch der Modus oder der Median, siehe Bankhofer 1995, S. 106) über die für die Variable verfügbaren Werte eingesetzt wird. Dieses Verfahren ist einfach in der Anwendung und erhält in jedem Falle den Mittelwert. Dafür werden alle weiteren Verteilungsmaße ver- zerrt, ebenso wie die Verhältnisse unter den Variablen.

3.4.1.3 Regressionsimputation

Im Grundsatz wird bei den Regressionsverfahren (auch: Conditional Mean Im- putation) in zwei Schritten vorgegangen: Zuerst wird für die vorhandenen Werte eine Regression gerechnet. Mit Hilfe der dabei ermittelten Koeffizienten können im zweiten Schritt für die noch offenen Datenfelder Werte errechnet werden (vgl. das unten stehende Beispiel). Diese Werte liegen dann per definitionem auf der Regressionskurve, es sei denn, man korrigiert die errechneten Werte um einen zufälligen Störterm, sodass die imputierten Werte um die Kurve streuen.

Die Verfahren sind wie die vorgenannten bei MCAR-Ausfall einsetzbar, es ist jedoch zu bedenken, dass die mit den imputierten Werten errechneten Standard-

(8)

fehler gemessen an den „wahren Werten“ unterschätzt, weitere Teststatistiken überschätzt werden.

In einem Beispiel werden in Abbildung 9.3 vier der bislang dargelegten Me- thoden visualisiert. Bei einer Untersuchung solle herausgefunden werden, ob ein Zusammenhang bestehe zwischen der Größe einer Unternehmung, gemessen am Umsatz in Millionen Euro, und ihren jährlichen Investitionen in ein Umweltma- nagementsystem, beziffert in Tausend Euro. Das erste Diagramm zeigt die „wah- ren Werte“ für 20 Unternehmen in einem Streudiagramm. Aus der dazugehöri- gen Datentabelle werden im zweiten Schritt bei fünf Datensätzen – bei den Unternehmen mit 50, 150, 300, 450 und 600 Mio. Euro Umsatz – die zugehöri- gen Investitionssummen willkürlich entfernt, also fehlende Werte künstlich er- zeugt. Auf Basis der verbleibenden 15 vollständigen Datensätze wird im zweiten Diagramm eine Complete Case Analysis dargestellt. Im dritten Diagramm er- folgt eine Mittelwertimputation, im vierten eine Regressionsimputation ohne und im letzten eine mit Störterm. Die imputierten Werte sind jeweils mit einem Pfeil markiert. Rechts neben den Diagrammen sind ferner die Standardfehler der Koeffizienten und die Residuenquadratsummen angegeben. Die Varianzen wer- den, verglichen mit den „wahren Werten“, z.T. deutlich unterschätzt, Ausnahme ist in diesem Beispiel die Mittelwertimputation. Die „wahre Regressionsgerade“

ist in den mittleren Diagrammen gestrichelt eingezeichnet.

3.4.1.4 Predictive Mean Matching

Das Predictive Mean Matching (Little 1988a) stellt eine Erweiterung zu den Regressionsmethoden dar. Hierbei wird im ersten Schritt eine Regressions- imputation vorgenommen. Zweitens wird in den vollständigen Datensätzen nach Werten gesucht, die den imputierten möglichst nahe sind. Drittens werden die Imputationen ausgewechselt durch diese nahe gelegenen realen (wenngleich im Empfängerdatensatz nicht mehr wahren) Werte. Die Spenderdatensätze bleiben unverändert. Auf diese Weise wird erreicht, dass es sich bei den eingesetzten Werte um solche handelt, die im Feld auch tatsächlich beobachtbar sind.

3.4.1.5 Historische Ergänzung und Interpolation

Mit der Historischen Ergänzung, auch bezeichnet mit Last Observation/Value Carried Forward, LOCF, kann im Falle von Längsschnittdaten gearbeitet wer- den. Dabei werden die korrespondierenden Werte aus früheren Erhebungen – unter Umständen um einen Trend korrigiert – fortgeschrieben. In Zeitreihen besteht ferner die Option der linearen Interpolation, die einen oder mehrere Fehlendwerte, die zwischen zwei vorhandenen Werten liegen, quasi mit einer Gerade „überbrückt“.

(9)

Abbildung 9.3: Complete Case Analysis sowie Mittelwert- und Regressionsimputati- onen im Beispiel

Umsatz 800 750 700 650 600 550 500 450 400 350 300 250 200 150 100 50 0 Investitionen (true values) 200

150

100

50

0 Rsq = 0,8905

s. e.: 18,37

Umsatz 800 750 700 650 600 550 500 450 400 350 300 250 200 150 100 50 0 Investitionen (CC) 200

150

100

50

0 Rsq = 0,9365

s. e.: 13,53

Umsatz 800 750 700 650 600 550 500 450 400 350 300 250 200 150 100 50 0 Investitionen (mean imputation) 200

150

100

50

0 Rsq = 0,7198

s. e.: 24,159

Umsatz 800 750 700 650 600 550 500 450 400 350 300 250 200 150 100 50 0 Investitionen (reg) 200

150

100

50

0 Rsq = 0,9505

s. e.: 11,50

Umsatz 800 750 700 650 600 550 500 450 400 350 300 250 200 150 100 50 0 Investitionen (reg + e) 200

150

100

50

0 Rsq = 0,9463

s. e.: 11,88

N = 20 s.e.: 18,37 Rsq = 0,8905

N = 15 N = 20

N = 20 N = 20

Streudiagramm und Regression für den vollständigen Datensatz

Complete Case Analysis (25% fehlende Werte)

Mittelwertimputation

Regressionsimputation Regressionsimputation mit Störterm N = 15

s.e.: 13,53 Rsq = 0,9365

N = 20 s.e.: 24,159 Rsq = 0,7198

N = 20 s.e.: 11,50 Rsq = 0,9505

N = 20 s.e.: 11,88 Rsq = 0,9463

(10)

3.4.1.6 Dummy Variable Adjustment

Beim Dummy Variable Adjustment (Cohen und Cohen 1985), z. T. auch als Missing Indicator Method bezeichnet, werden die fehlenden Werte einer unab- hängigen Variable in einer Regressionsgleichung durch eine Konstante, z.B.

Null oder das beobachtete Mittel, ersetzt. Zusätzlich wird eine Dummyvariable in die Gleichung eingesetzt, die anzeigt, ob ein fehlender Wert vorlag oder nicht.

Allerdings generiert diese Methode verzerrte Schätzer (Jones 1996), außerdem wird der zu schätzende Parameter umdefiniert.

3.4.1.7 Hot-Deck- und Cold-Deck-Verfahren

Hot-Deck-Verfahren gibt es in zwei Varianten: Random Within Cell (rwc) und Nearest Neighbour (nn). Beim erstgenannten werden zunächst sämtliche Daten- sätze in sinnvolle Imputationsklassen aufgeteilt (cells), also Klassen von Objek- ten, bei denen davon auszugehen ist, dass sie sich untereinander ähnlich sind.

Innerhalb dieser Klassen wird dann aus allen beobachteten Werten einer Variab- le für alle fehlenden ein Wert zufällig gezogen, ein Grundgedanke, der auch dem oben genannten Bootstrapping zugrunde liegt. Im Gegensatz dazu ist das Nea- rest Neighbour Vorgehen deterministisch: Die Datensätze werden nach vollstän- digen und solchen mit fehlenden Werten getrennt. Zu letzteren wird jeweils aus der Menge der vollständigen mittels eines Distanzmaßes ein möglichst ähnlicher Satz ermittelt. Die Daten der entsprechenden Variablen dieses „nächsten Nach- barn“ werden dann an den Partner gespendet, um dessen Lücken aufzufüllen.

Die Hot-Deck-Verfahren werden u.a. vom US Census Bureau angewendet.

Cold-Deck-Verfahren sind vom Procedere her im Wesentlichen identisch mit den Hot-Deck-Verfahren, mit dem Unterschied, dass als Datenquelle Datensätze früherer, „kalter“ Erhebungen (bei Längsschnittdaten) dienen.

3.4.1.8 Doppeln

Nachdem zunächst eine Reduktion der Datentabelle um die Datensätze mit feh- lenden Werten vorgenommen wurde (Listwise Deletion), wird beim Doppeln pro gelöschtem Datensatz aus den vollständigen Datensätzen einer zufällig ausge- wählt und kopiert (Esser, Grohmann, Müller und Schäffer 1989, S. 152 f.).

Durch das Doppeln wird eine große Fallzahl erhalten.

3.4.2 Modellbasierte Verfahren

Bei den modellbasierten Verfahren handelt es sich um Methoden zur Bestim- mung von Parametern wie Mittelwerte, Varianzen, Kovarianzen etc. Zur An- wendung kommen Maximum-Likelihood-(ML)-Modelle und Bayes- Schätzungen. Das prominenteste Verfahren im Bereich der ML-Modelle ist der

(11)

iterativ arbeitende Expectation-Maximization-(EM)-Algorithmus (Dempster, Laird und Rubin 1977). Im ersten, dem „expectation“ Schritt werden für einen Datenbestand mit fehlenden Werten die Parameter geschätzt, wobei hier in der ersten Iteration ein Fallreduktionsverfahren herangezogen werden kann. Mit Hilfe der dabei erhaltenen Parameter und Kovarianzmatrizen kann auf einzelne fehlende Werte zurückgeschlossen werden. In der ersten Iteration arbeitet der Algorithmus also wie ein konventionelles Imputationsverfahren. Im zweiten, dem „maximization“ Schritt werden neue Parameterwerte auf Basis der beobach- teten und imputierten Werte berechnet. Danach wird mit den neu erhaltenen Werten mit dem „expectation“ Schritt fortgefahren. Die Schleife wird solange durchlaufen, bis sich die Parameterwerte nicht mehr verändern, der Algorithmus also konvergiert.

Verfahren der Bayesianischen Datenvermehrung (Data Augmentation, DA) gehören zu den Markov-Chain-Monte-Carlo-Methoden (MCMC) und sind vom Ablauf her dem EM-Algorithmus ähnlich. Der Unterschied besteht darin, dass zusätzlich mit Zufallswerten gearbeitet wird. Die Imputation wird durch einen Zufallsterm ergänzt, und für die erneuten Imputationsschleifen werden aus einer posteriori Verteilung zufällig Werte für Mittelwerte und Kovarianzen gezogen.

Zu beiden Verfahren gibt Allison (2002, S. 19 ff. und 34 ff.) eine anschauliche Einführung und Rechenbeispiele.

3.5 Einfache vs. Multiple Imputation

Eine Imputation fehlender Werte ist stets mit Unsicherheit behaftet. Bei den oben beschriebenen Verfahren findet diese Unsicherheit keine Berücksichtigung.

Für jeden fehlenden Wert wird stets nur ein einzelner imputiert. Anders ist dies bei der von Rubin (1977 und 1987) vorgeschlagenen Multiplen Imputation (MI), bei der man der genannten Unsicherheit dadurch Rechnung zu tragen versucht, dass pro leerem Datenfeld nicht ein einzelner, sondern m > 1 Werte eingesetzt werden. Die Zahl m wird dabei willkürlich festgelegt und liegt in der Praxis gewöhnlich zwischen drei und zehn (Rubin 1987; Schafer 1999). Auf diese Weise erhält man m vollständige Datentabellen, die parallel mit den Standard- methoden analysiert werden können. Die errechneten m Maßzahlen und Statisti- ken werden abschließend über alle m gemittelt (Rubin 1987). Abbildung 9.4 stellt diesen Gedanken schematisch dar. Grundlage für die Imputation der Werte können verschiedene der oben genannten stochastischen Verfahren sein, also z.B. Hot-Deck-Verfahren oder Regressionsimputationen; von den Hauptvertre- tern der Multiplen Imputation werden Monte-Carlo-Techniken präferiert (Scha- fer 1999). Im Ergebnis liefern multiple Imputationsverfahren auch bei MAR- Ausfall meist verlässliche Ergebnisse (Schafer 1999, S. 5).

(12)

Abbildung 9.4: Multiple Imputation Variablen

Datensätze

mehrfache Imputation 1, 2, 3, .... m

....

....

....

....

....

....

....

....

Liefert m vollstän- dige Datentabel- len, die mit Stan- dardverfahren ausgewertet wer- den. Die Ergebnis- se werden an- schließend kombi- niert.

4 Literaturüberblick und Evaluation verschiedener Verfahren In der Literatur finden sich zahlreiche Studien, in denen Eignung und Qualität verschiedener Verfahren zum Umgang mit fehlenden Daten gegeneinander ab- gewogen und beurteilt werden. Tabelle 9.1 fasst eine Auswahl solcher Studien nebst den Kernaussagen chronologisch zusammen. Bei den Simulationsstudien handelt es sich um Testdatensätze, aus denen, ähnlich wie oben im Beispiel demonstriert, künstlich Werte entfernt werden, um sie anschließend mit Hilfe der Verfahren zur Behandlung fehlender Daten auszuwerten. Diese Auswertungen können dann mit den Ergebnissen aus der Analyse der ursprünglichen und voll- ständigen Datentabelle verglichen werden. Eine eindeutige und universelle Ü- berlegenheit eines Verfahrens gegenüber anderen in dem Sinne, dass am wenigs- ten verzerrende Ergebnisse geliefert werden, kann vor dem Hintergrund dieser Untersuchungen nicht gemacht werden. Das Problem des nichtzufälligen (MNAR-)Datenausfalls kann von keinem Verfahren geheilt werden. Dennoch zeichnet sich der Trend ab, dass die neueren, modellbasierten Verfahren und die Multiple Imputation den „wahren Werten“ am nächsten kommen. Varianzen werden bei der einfachen Imputation in der Regel stark unterschätzt, hingegen bei der Multiplen Imputation leicht und bei der Fallreduktion stark überschätzt.

Bislang sind noch keine Fälle dokumentiert, in denen durch Anwendung der neueren Verfahren die Ergebnisse von Studien, in denen fehlende Daten igno- riert oder nach traditionellen Verfahrensweisen behandelt wurden, hätten revi- diert werden müssen.

(13)

Tabelle 9.1: Literaturquellen mit Evaluation verschiedener Missing-Data-Techniken

Quelle Art der Untersuchung Resultate

Haitovsky (1968) Vergleich der Fallreduktionsverfahren unter MCAR

Complete Case besser als Available Case Analysis Kim, Curry

(1977)

wie vor, nur unter schwach korrelieren- den Daten

Available Case besser als Complete Case Analysis Schnell (1985) Simulationsstudie uneinheitliche Ergebnisse

Hübler (1986) Vergleich der Ex post-Prognosegüte einer empirischen Studie, fehlende Werte (2,5%-20%) werden künstlich erzeugt

lineare Regression und Mittelwert etwa gleich gut und besser als Fallreduktion (alles aber unterlegen einem eigenen Maximum-Likelihood-basierten Verfahren)

Bankhofer (1995) Dissertation, Überblick über Missing Data-Verfahren

u.a. Zusammenfassung der älteren Literatur, bestätigt die o.g. uneinheitlichen Ergebnisse Kastner, Ziegler

(1997)

Simulationsstudie, Längsschnittdaten, Complete Case vs. Weighted Estimating Equations (Gewichtungsverfahren), 10%-30% fehlende Werte

Weighted Estimating Equations besser als Complete Case Analysis

Noack, Schlittgen (2000)

Simulationsstudie, Zeitreihen, 20%

fehlende Werte

Kleinstquadratregression ist besser als Mittelwert ist besser als Interpolation

Rässler (2000) Simulationsstudie, Surveydaten, ca. 50%

fehlende Werte

Data Augmentation besser als andere Verfahren;

Varianzergänzung bei Regression vorteilhaft;

Predictive Mean Matching und Hot-Deck (nn) etwa gleichwertig; Fallreduktion, Hot-Deck, Predictive Mean Matching nur bei MCAR taug- lich; MNAR-Problem kann nicht gelöst werden Klasen (2000);

Gartner (2000);

Gartner, Scheid (2003)

Klasen liefert empirische Studie (Ernäh- rung und Sterblichkeit in Afrika und Asien) mit fehlenden Werten (ca. 33%), die in den Arbeiten von Gartner und Scheid ergänzt werden.

Multiple Markov-Chain-Monte-Carlo-Imputation und Regression mit Störterm kommen zum Ein- satz; eine Verbesserung der Resultate wird er- reicht, ohne aber die Ergebnisse der Klasen-Studie zu ändern.

Kastner (2001) Untersuchung von Weighted Estimating Equations (WEE, Gewichtung) im Vergleich mit den Imputationsverfahren

„... weder die WEE Methodik noch ein anderes Verfahren den restlichen Verfahren in allen Situationen überlegen...“ (S. 126) Allison (2002) Lehrbuch Complete Case Analysis reicht aus, wenn der

Datenausfall zu hoch ist, sollte man mit Maximum Likelihood und Multipler Imputation arbeiten, bei Daten, die später in LISREL weiterverarbeitet werden, wird Maximum Likelihood empfohlen, bei nichtlinearen Modellen die Multiple Imputation.

Nittner (2002a+b)

Simulationsstudie, 10% bis 50% fehlen- de Werte unter MCAR und MAR

Hot-Deck (nn) besser als Regression mit Störterm, Complete Case Analysis ungenügend bei mehr als 10% fehlender Werte

Bernaards et al.

(2003)

Surveydaten, Vergleich der Resultate verschiedener Multipler Imputationsver- fahren, bis max. ca. 25% fehlende Werte bei einzelnen Variablen

Multiple Hot-Deck-/Regressions-Imputation und multiples Expectation-Maximation- Algorithmus- Verfahren liefern vergleichbare Ergebnisse Kölling, Rässler

(2003)

Datenergänzung mit Data Augmentation am IAB-Betriebspanel mit ca. 40%

fehlenden Werten

Data Augmentation liefert gute Ergebnisse auch unter MAR

Lemieux, McA- lister (2005)

Simulationsstudie, Kundendaten, Vergleich von Complete Case Analysis, Mittelwert, Hot-Deck, Expectation- Maximization, Data Augmentation und Multipler Imputation

Complete Case Analysis soll nie verwendet werden. Mittelwert liefert gute Koeffizienten in Prognosemodellen, daher für Praktiker zur Ent- scheidungsunterstützung empfehlenswert.

(14)

5 Überblick über Softwareanwendungen zur Behandlung fehlender Daten

Des Problems fehlender Daten haben sich die Hersteller der statistischen Stan- dardsoftwarepakete angenommen und Module zur Untersuchung und Behand- lung des Problems implementiert. Standardeinstellung ist stets die Fallreduktion in Form der Complete Case Analysis. Daneben existieren unabhängige Anwen- dungen, die sich auf Analyse und Imputation fehlender Werte spezialisieren.

Eines der in Wissenschaft und Praxis am weitesten verbreiteten Softwarepa- kete ist SPSS. Zu SPSS gibt es ein eigenes Modul, SPSS Missing Value Analy- sis, das Routinen zur Analyse des Problems bereitstellt und Fehlendmuster auf- zeigt. Es wird auf kritische Fragestellungen, auf die nicht geantwortet wurde, und ob nicht beantwortete Items untereinander korrelieren hingewiesen, sodass bei zukünftigen Erhebungen durch Abänderung der Fragestellungen einem Da- tenausfall vorgebeugt werden kann. Neben der Fallreduktion bietet das Modul einen EM- sowie einen Regressions-Algorithmus. Die Statistiksoftware STATA hält sich mit Verfahren zu fehlenden Werten etwas mehr zurück und bietet nur rudimentäre Verfahren zur Darstellung des Ausfallproblems und stellt keine Analysen zur Verfügung. Für die Imputation wird ein Regressionsverfahren angeboten. Die Pakete SAS des SAS Institute und S-Plus der Firma Insightful bieten mehrere Verfahren zur Analyse und Behandlung von Fehlendwerten. S- Plus verwendet z.B. einen EM-Algorithmus. Die Software setzt allerdings einige Einarbeitungszeit in die proprietäre Programmiersprache voraus.

Zu den Spezialanwendungen gehören die Programme SOLAS, NORM, MI- CE und BUGS. Das Programm SOLAS ist auf Multiple Imputationsverfahren spezialisiert, deckt in seinem Funktionsumfang aber auch die meisten der hier beschriebenen konventionellen einfachen Imputationsverfahren ab. Bei den anderen genannten Anwendungen handelt es sich um frei verfügbare Software.

NORM, ebenfalls auf Multiple Imputation ausgerichtet, ist auf der Homepage von Joseph Schafer erhältlich. Ähnlich ausgelegt ist auch das Programm MICE (Multivariate Imputation by Chained Equations). BUGS (Bayesian inference Using Gibbs Sampling) ist ein Softwareentwicklungsprojekt, dass sich auf die Entwicklung von MCMC-Verfahren konzentriert. Internetfundstellen der ge- nannten Softwarepakete sind am Ende dieses Artikels zusammengefasst. Eine Diskussion einzelner Softwarepakete mit Vergleich und Evaluation sowie Rechenbei- spielen bieten Horton und Lipsitz (2001) sowie Eberle und Toutenburg (1999).

6 Ausblick und Schlussfolgerungen

In jüngeren Arbeiten (Rubin 1993; Reiter 2002; Raghunathan, Reiter und Rubin 2003) wird angeregt, die Multiple Imputation zur Erzeugung synthetischer Daten zu verwenden. Dahinter steht ursprünglich die Idee, erhobene Daten zu Zwecken des Datenschutzes zu maskieren. Die erzeugten synthetischen Daten erhalten

(15)

idealerweise alle Eigenschaften der Stichprobe, erlauben aber keine Rückschlüs- se mehr auf einzelne Probanden. Sollten sich diese Ansätze durchsetzen, wird es Forschern in den Wirtschafts- und Sozialwissenschaften neuen Zugang zu Daten und neue Forschungsfelder eröffnen.

Gegenwärtig ist hinsichtlich der Behandlung fehlender Werte in Datentabel- len noch keine „best practice“ etabliert. Selbst wenn der aktuelle Stand der Technik in den modellbasierten Verfahren und der Multiplen Imputation zu sehen ist, rechtfertigt dies noch nicht deren Erhebung zum Standard. Die Wis- senschaft hat dem Postulat der Utilitarität gerecht zu werden, folglich ist im Einzelfall zu prüfen, ob der mit den modernen Verfahren verbundene Aufwand an Zeit und Kosten dem Zweck der Untersuchung gerecht wird und ob am Ende eine substanzielle Ergebnisverbesserung zu erwarten ist. Auch darf nicht ver- kannt werden, dass selbst die modernen Verfahren einem MNAR-Ausfall, der anerkanntermaßen der wahrscheinlichste Ausfallmechanismus ist (Schafer 1997, S. 22; Pindyck und Rubinfeld 1986, S. 249), nicht wirksam begegnen können (Schnell, Hill und Esser 1999, S. 431; Esser, Grohmann, Müller und Schäffer 1989, S. 163). Somit besteht tendenziell eine Gefahr, mit zusätzlichem Metho- denaufwand eine Genauigkeit zu suggerieren, die in Wahrheit gar nicht existiert, und auf diese Weise grundlegende Probleme zu übersehen.

Es ist unvermeidbar, dem Problem des Datenausfalls ins Auge zu sehen und bei allen Untersuchungen über Art und Ausmaß zu berichten. Als Daumenregel gilt dabei, dass fehlende Werte im Umfang von 1 bis 10 % als normal anzusehen seien (Schnell, Hill und Esser 1999, S. 430; gerechnet als Datensätze mit fehlen- den Werten in Relation zu allen vorhandenen Datensätzen), die Unit- Nonresponse nicht eingeschlossen. Wichtiger noch ist es, den Datenausfall be- reits bei der Gestaltung einer Erhebung zu antizipieren. Mit zunehmender Länge eines Fragebogens steigt beispielsweise die Wahrscheinlichkeit der Nichtant- wort; die Art der Fragestellung kann die Verständlichkeit erhöhen oder ein- schränken und damit den Antwortwillen der Probanden beeinflussen. Vorstudien und Pretests helfen, Ausfälle dieser Art zu vermeiden. Durch die Gestaltung der Fragestellungen sollte versucht werden, Informationen über den Grund der Nichtantwort zu erhalten. Es ließe sich z.B. bei den einzelnen Items neben den Antwortmöglichkeiten eine weitere Option – „hierüber liegen keine Informatio- nen vor“, „Antwortmöglichkeiten unpassend“ – hinzufügen, sodass eine bewuss- te Antwortverweigerung der Respondenten ausgeschlossen werden kann. Bei ge- schlossenen Fragen (mit vorgegebenen Antworten) kann es sinnvoll sein, eine Option offen zu lassen, die eine freie, alternative Antwort oder Kommentare zulässt (Schnell, Hill und Esser 1999, S. 297 ff.). In interaktiven Befragungen via Internet eröffnen sich zusätzliche Möglichkeiten, z.B. die der Wiederholung der nicht beantworteten Fragen am Ende. Eines der wertvollsten, allerdings auch aufwendigsten Procedere ist, den Fragebogen gemeinsam mit dem Forscher oder

(16)

einem Assistenten ausfüllen zu lassen. Bei einer Antwortverweigerung kann der Grund unmittelbar abgefragt werden, was wiederum verlässlichere Informatio- nen über den Ausfallmechanismus erschließt. Im Beispiel, das sich durch diesen Beitrag zog, verbleibend gilt also bei empirischen Erhebungen dasselbe wie im Umweltmanagement: Vorsorge ist besser als Nachsorge.

Literatur

Allison, P.D. (2002) : Missing Data, Thousand Oaks et al.

Bankhofer, U. (1995): Unvollständige Daten und Distanzmatrizen in der Multivariaten Datenanalyse, Bergisch Gladbach, Köln.

Bernaards, C.A., M.M. Farmer, K. Qi, G.S. Dulai, P.A. Ganz und K.L. Kahn (2003):

Comparison of Two Multiple Imputation Procedures in a Cancer Screening Survey, Journal of Data Science, 1, 293-312.

Christensen, B., M. Clement, S. Albers und S. Guldner (2004): Zur Relevanz der Kon- trollgruppenauswahl in der empirischen Forschung, Arbeitspapier, Kiel.

Cohen, J. und P. Cohen (1985): Applied Multiple Regression and Correlation Analysis for the Behavioral Sciences, 2. Aufl., Hillsdale, NJ.

Dempster, A.P., N.M. Laird und D.B. Rubin (1977): Maximum Likelihood from Incomplete Data Via the EM Algorithm, Journal of the Royal Statistical Society, B, 39, 1-38.

Eberle, W. und H. Toutenburg (1999): Handling of Missing Values in Statistical Software Packages for Windows, SFB 386, Arbeitspapier 170, München.

Esser, H., H. Grohmann, W. Müller, K.-A. Schäffer (1989): Mikrozensus im Wandel, Stuttgart.

Gartner, H. (2000): Die Ersetzung fehlender Werte: Ein Test alternativer Methoden mit Makrodaten, SFB 386, Arbeitspapier 216, München.

Gartner, H. und S. Scheid (2003): Multiple Imputation von fehlenden Werten mit Daten über Unterernährung und Kindersterblichkeit, SFB 386, Arbeitspapier 322, München.

Haitovsky, Y. (1968): Missing Data in Regression Analysis, Journal of the Royal Statistical Society, B, 30, 67-82.

Heckman, J.J. (1976): The Common Structure of Statistical Models of Truncation, Sample Selection, and Limited Dependent Variables and a Simple Estimator for Such Models, Annals of Economic and Social Measurement, 5, 475-492.

Horton, N.J. und S.R. Lipsitz (2001): Multiple Imputation in Practice, The American Statistician, 55, 244-254.

Hübler, O. (1986): Zufällig und systematisch fehlende Werte in linearen Regressionsmo- dellen, Allgemeines Statistisches Archiv, 74, 138-157.

(17)

Jones, M.P. (1996): Indicator and Stratification Methods for Missing Explanatory Variables in Multiple Linear Regression, Journal of the American Statistical Association, 91, 222-230.

Kastner, C. (2001): Fehlende Werte bei korrelierten Beobachtungen, Frankfurt/M. et al.

Kastner, C. und A. Ziegler (1997): Cross-sectional Analysis of Longitudinal Data with Missing Values in the Dependent Variables, SFB 386, Arbeitspapier 64, München.

Kim, J.O. und J. Curry (1977): The Treatment of Missing Data in Multivariate Analysis, Sociological Methods and Research, 6, 215-239.

Klasen, S. (2000): Malnourished and Surviving in South Asia, Better Nourished and Dying Young in Africa, SFB 386, Arbeitspapier 214, München.

Kölling, A. und S. Rässler (2003): Die Einflüsse von Antwortverweigerung und mehrfa- cher Ergänzung fehlender Daten auf Produktivitätsschätzungen mit dem IAB- Betriebspanel, Jahrbücher für Nationalökonomie und Statistik, 223, 279-311.

Lemieux, J. und L. McAlister (2005) : Handling Missing Values in Marketing Data: A Comparison of Techniques, MSI-Working Paper Series, 2, Report 05-107.

Little, R.J.A. (1988a): Missing Data Adjustments in Large Surveys, Journal of Business and Economic Statistics, 6, 287-310.

Little, R.J.A (1988b): A Test of Missing Completely at Random for Multivariate Data with Missing Values, Journal of the American Statistical Association, 83, 1198-1202.

Little, R.J.A. und D.B. Rubin (2002): Statistical Analysis With Missing Data, 2. Aufl., Thousand Oaks.

Nittner, T. (2002a): The Additive Model with Missing Values in the Independent Variable: Theory and Simulation, SFB 386, Arbeitspapier 272, München.

Nittner, T. (2002b): Missing at Random (MAR) in Nonparametric Regression: A Simulation Experiment, SFB 386, Arbeitspapier 284, München.

Noack, T. und R. Schlittgen (2000): Nonparametric Estimation of Missing Values in Time Series, Allgemeines Statistisches Archiv, 84, 23-32.

Park, T. und C.S. Davis (1993): A Test of the Missing Data Mechanism for Repeated Categorical Data, Biometrics, 49, 631-638.

Park, T. und S.-Y. Lee (1997): A Test of Missing Completely at Random for Longitudinal Data with Missing Observations, Statistics in Medicine, 16, 1859-1871.

Pindyck, R.S. und D.L. Rubinfeld (1986): Econometric Models and Economic Forecasts, 2. Aufl., Auckland et al.

Rässler, S. (2000): Ergänzung fehlender Daten in Umfragen, Jahrbücher für National- ökonomie und Statistik, 220, 64-94.

Raghunathan, T.E., J.P. Reiter und D.B. Rubin (2003): Multiple Imputation for Statistical Disclosure Limitation, Journal of Official Statistics, 19, 1-16.

(18)

Reiter, J.P. (2002): Satisfying Disclosure Restrictions With Synthetic Data Sets, Journal of Official Statistics, 18, 531-543.

Rubin, D.B. (1976): Inference and Missing Data, Biometrika, 63, 581-592.

Rubin, D.B. (1977): Formalizing Subjective Notion About the Effect of Nonrespondents in Sample Surveys, Journal of the American Statistical Association, 72, 538-543.

Rubin, D.B. (1987): Multiple Imputation for Nonresponse in Surveys, New York et al.

Rubin, D.B. (1993): Statistical Disclosure Limitation, Journal of Official Statistics, 9, 461-468.

Schafer, J.L. (1997): Analysis of Incomplete Multivariate Data, London et al.

Schafer, J.L. (1999): Multiple Imputation: a Primer, Statistical Methods in Medical Research, 8, 3-15.

Schnell, R. (1985): Zur Effizienz einiger Missing-Data-Techniken: Ergebnisse einer Computer-Simulation, ZUMA-Nachrichten, 17, November.

Schnell, R.(1986): Missing-data-Probleme in der empirischen Sozialforschung, Bochum.

Schnell, R. (1997): Nonresponse in Bevölkerungsumfragen, Opladen.

Schnell, R., P.B. Hill und E. Esser (1999): Methoden der empirischen Sozialforschung, 6. Aufl., München et al.

Toutenburg, H. und A. Fieger (2000): Using Diagnostic Measures to Detect Non-MCAR Processes in Linear Regression Models with Missing Covariates, SFB 386, Arbeitspapier 204, München.

Internetquellen (Stand: November 2005)

Homepage von P. Allison: http://www.ssc.upenn.edu/~allison/

Homepage von J.L. Schafer (NORM Software): http://www.stat.psu.edu/~jls/

Kompetenzzentrum Empirische Methoden des Instituts für Arbeitsmarkt- und Be- rufsforschung (IAB):

http://www.iab.de/asp/mitarbeiterDB/nodeBereichDetails.asp?pkyNode=16 Multiple Imputation Online (MICE Software): http://www.multiple-imputation.com SAS Software: http://www.sas.com

SOLAS Software: http://www.statsol.ie/solas/solas.htm

Sonderforschungsbereich 386 “Statistical Analysis of Discrete Structures: Modelling and Application in Biometrics and Econometrics”:

http://www.stat.uni-muenchen.de/sfb386/welcome-e.html SPSS Software: http://www.spss.com/spssbi/missing_value/

STATA Software: http://www.stata.com

S-Plus Software: http://www.insightful.com/default.asp?bhcp=1

The BUGS Project: http://www.mrc-bsu.cam.ac.uk/bugs/overview/contents.shtml

Referenzen

ÄHNLICHE DOKUMENTE

Beachte: Diese Definition bedeutet, dass Metadaten Daten sind, das Präfix Meta- wird nur durch den Kontext bestimmt und kann im Prinzip beliebig geschachtelt werden..

▪ Haben Sie gegen eine Datenverarbeitung Widerspruch (nach Art. 1 DSGVO) eingelegt (siehe auch Punkt 5.7) und es steht noch nicht fest, ob unsere Interessen an einer Verarbeitung

Das Need-to-know-Prinzip bedeutet, dass unsere Mitarbeiter nur auf die Daten zugreifen können, die sie zur Erfüllung ihrer Aufgabe benötigen.. Da- rüber hinausgehende Daten sind

Google als meistgenutzte Suchmaschine Deutschlands verfügt über viele Daten, um Werbung erfolgreich zu machen. Das Angebot nutzen

So konnte eine genetische Komponente für Diabetes mellitus, Alz- heimersche Erkrankung, Muskeldystrophie, Mukoviszi- dose, Adipositas und Krebs nachgewiesen werden.. Und vor

Daraus resultiert ein intensiver Wettbewerb um die Möglichkeit, mobile Daten aus den technischen Syste- men, von Sensoren und letztendlich von den NutzerInnen selbst und über

Einen methodischen Zugang zur Bearbeitung dieser Fragestellung bietet die Wahrscheinlichkeitstheorie (Probabilistik) mit ihren Verfahren.. zur probabilistischen Modellbildung.

Sinnvoll ist zum Beispiel ein Verweis auf die San Francisco Declaration on Research Assessment (Cagan 2013), das Leiden Manifesto for Research Metrics (Hicks et al. 2015) oder die