• Keine Ergebnisse gefunden

3 Verfahren zur Behandlung von Nonresponse

3.4 Imputation fehlender Werte

Imputation bezeichnet allgemein das Ersetzen fehlender Werte durch Einsetzen g¨ultiger Wer-te. Der Vorteil von Imputationsverfahren liegt unter anderem darin, dass alle ¨ubrigen Infor-mationen der Beobachtung erhalten bleiben und sich, im Gegensatz zu Gewichtungsverfah-ren, die Fallzahl der ungewichteten Stichprobe nicht verringert: eine Analyse basiert auf allen Beobachtungen der Stichprobe. Im Falle von ¨uber die Zeit vergleichsweise stabilen Merkma-len k¨onnen Merkmale der letzten Welle Wt−1 als Imputationen in der folgenden Welle Wt direkt ¨ubernommen werden (

”Last Observation Carried Forward, LOCF“). Als

”Spender“

f¨ur einen fehlenden Wert einer Beobachtung i1 bei einer

”Hot-Deck-Imputation“ kann eine Beobachtung i2 dienen, die in der vorherigen Welle gleiche oder ¨ahnliche Auspr¨agungen auf einer oder mehreren Variablen hat68; dazu werden aus Variablen der Welle Wt−1 Imputa-tionszellen ¨ahnlich den Hochrechnungszellen gebildet; als Spender f¨ur eine Beobachtung i1 wird dann eine Beobachtung i2 aus den gleichen Imputationszellen verwendet69.

Sehr einfache Imputationsverfahren setzen f¨ur fehlende Werte ymi einen unbedingten Mittelwert ¯yjo aller j beobachteten, nicht-fehlenden Werte ein70, oder bedingte Mittelwerte nach festgelegten Imputationsschmemata vergleichbar den Hochrechnungszellen71. Die Panel-struktur hat dabei gegen¨uber der Querschnittsstruktur den Vorteil, dass nicht nur unbeding-te oder bedingunbeding-te Mitunbeding-telwerunbeding-te innerhalb der gleichen Welle (

”Column-Imputation“) gebildet werden k¨onnen, sondern auch Mittelwerte ¨uber verschiedene Wellen hinweg (

” Column-and-Row-Imputation“), bspw. bei nichtmonotonen Ausfallmuster durch tempor¨are Ausf¨allen. Mit

68

Hot Deck within Adjustment Cells“ und

Nearest Neighbour Hot Deck“ (Little und Rubin, 1987, S. 65f).

69Im Falle von Unit-Nonresponse entspricht diese Hot-Deck-Imputation einer Nonresponse-Gewichtung:

ur Unit-Nonresponse m¨ussen alle Merkmale von einem Spender ¨ubernommen werden, der Gewichtungsfaktor (bspw. ein Designgewicht)wi des Spenders erh¨oht sich dadurch um den Faktor 2 (allgemein:wi=wi+wi Anzahl der Empf¨anger).

70Eingesetzt werden Werte aus der Mitte der beobachteten Verteilung. Dadurch wird die Varianz und Kovarianz untersch¨atzt (vgl. Little und Rubin, 1987, S. 44).

71Eine Berechnung der Mittelwerte ist nur f¨ur kontinuierliche Merkmale sinnvoll, bei Merkmalen mit dis-kreten, kategorialen Auspr¨agungen kann anstelle des Mittelwerts bspw. der Modus zur Imputation verwendet werden (Kalton, 1986, S. 310).

der Imputation durch bedingte Mittelwerte eng verbunden ist der Regressionsansatz; hierbei werden bedingte Mittelwerte bspw. durch Regressionsmodelle auf Basis der vollst¨andigen Beobachtungen in Welle Wt−1 vorhergesagt und als Imputation f¨ur Beobachtungen mit feh-lenden Werten in Welle Wt verwendet72. Pr¨adiktoren im Regressionsmodell sind Variablen des Sampling-Frames (f¨ur Nonresponse in der ersten Welle) oder Variablen aus der letzten Welle, in der Variablen f¨ur Nonrespondenten und Respondenten vorliegen. Vorraussetzung f¨ur eine Korrektur von Nonresponse ist eine gute Vorhersagekraft des Regressionsmodells, al-lerdings

”a high correlation for the respondents does not guarantee that the nonrespondents’

values will be predicted well“ (Kalton, 1986, S. 309), gleiches gilt analog f¨ur die Imputation fehlender Beobachtungen auf Basis der Informationen vorheriger Wellen. Annahme dieser Imputationsverfahren ist, dass Ausf¨alle nur von den im Regressionsmodell bzw. zur Bildung der Imputationszellen verwendeten Variablen abh¨angen (Missing at Random, MAR). Ein Problem bei diesen Imputationsverfahren besteht darin, dass sie fehlende Werte mit Werten aus der Mitte der (bedingten oder unbedingten) Verteilung der Beobachtungen ohne fehlende Werte ersetzen; dadurch wird die Varianz (und dadurch Standardfehler und Signifikanzni-veaus) untersch¨atzt. eine M¨oglichkeit besteht zumindest beim Regressionsansatz darin, auf den zur Imputation f¨ur Beobachtung i gesch¨atzten Wert ˆyi eine Residuum ej einer Beob-achtung j zu addieren (Taris, 2000, S. 33); dadurch erhalten nicht alle Beobachtungen mit imputierten Werten einen bedingten Mittelwert ˆy, sondern der bedingte Mittelwert erh¨alt selbst eine Varianz.

Ein Nachteil der Korrektur von Nonresponse durch Imputation besteht darin, dass die imputierten Werte nicht die Unsicherheit des Imputationsprozesses widerspiegeln:

”They will thus attribute greater precision to the survey estimates than is jsutified“ (Kalton, 1986, S. 305); Imputationen verursachen unter Umst¨anden Artefakte (dann, wenn die zur Impu-tation verwendeten Variablen kaum oder nur schlecht die zu imputierenden Werte vorher-sagen k¨onnen), daher m¨ussen imputierte Werte als solche im Datensatz zu erkennen sein

72Imputierte Werte liegen dann auf der Regressionsgeraden, die sich durch die Regression vonYoauf die be-dingenden VariablenXk(Kovariaten) ergibt; dadurch werden zwar auch Varianz und Kovarianz untersch¨atzt, allerdings nicht so stark wie bei einer Imputation mit unbedingten Mittelwerten; die Untersch¨atzung ist umso kleiner, je besserY durchXk vorhergesagt werden kann (Little und Rubin, 1987, S. 46).

(und Ergebnisse auf ihre Sensitivit¨at gegen¨uber Imputationen ¨uberpr¨uft werden). Zudem bewahren Imputationsverfahren im Gegensatz zu Gewichtungsverfahren lediglich die Kor-relationsstruktur der zur Imputation verwendeten Variablen, aber nicht notwendigerweise zu allen anderen Variablen der Beobachtungen. Schafer (1997, S. 2) fasst die Probleme der Imputationsverfahren folgendermaßen zusammen:

”Ad hoc methods of imputation are [...]

problematic. Imputing averages on a variable-by-variable basis preserves the observed sam-ple means, but distorts the covariance structure, biasing estimated variances and covariances towards zero. Imputing predicted values from regression models, on the other hand, tends to inflate correlations, biasing them away from zero“.

Als L¨osung des Problems der fehlenden Unsicherheit bei der Imputation fehlender Wer-te schl¨agt Rubin (1987, S. 15ff) multiple Imputationen vor. Die Idee dabei ist, f¨ur einen fehlenden Wert nicht einen g¨ultigen Wert einzusetzen, sondern mehrere Imputationen eines fehlenden Wertes vorzunehmen; Multiple Imputationen haben gegen¨uber einfachen Impu-tationen mehrere Vorteile, vor allem besteht bei multiplen ImpuImpu-tationen die M¨oglichkeit, Unsicherheit bei der Imputation der fehlenden der Imputationen zu ber¨ucksichtigen; das ist einmal die Unsicherheit bei der Imputation eines fehlenden Wertes aufgrund der Stich-probenvarianz; die Stichprobenvarianz kann dadurch ber¨ucksichtigt werden, dass nicht nur ein Wert, sondern mehrere Werte bei jedem Imputationsschema verwendet werden. Zweiter Bestandteil der Unsicherheit betrifft die Unsicherheit des der Imputation zugrunde gelegten Imputationsschemas, nach dem fehlende Werte eingesetzt werden; sie wird dadurch ausge-dr¨uckt, dass f¨ur fehlende Werte nicht nur ein Imputationsschema angewandt wird, sondern mehrere; dadurch kann zudem die Sensitivit¨at der Ergebnisse aufgrund der verschiedenen imputierten Werte ¨uberpr¨uft werden73. F¨ur multiple Imputationen k¨onnen grunds¨atzlich die

73Daneben beschreibt Rubin (1987, S. 17f) auch den Nachteil, den multiple Imputationsverfahren haben:

mehr Aufwand und Arbeit zur Imputation und mehr Speicherplatz f¨ur die imputierten Datens¨atze. Schließlich erh¨oht sich auch der Aufwand, da jeder der imputierten Datens¨atze analysiert werden muss; allerdings bleiben auch hier die Vorteile gegen¨uber einfachen Imputationen bestehen:

These advantages are not serious when m [die Anzahl der multiplen Imputationen, TG] is modest [...] When fractions of missing information are large, modest-mmultiple imputation is not fully satisfactory, but then single imputation can be disastrous“

(S. 18).

gleichen Techniken wie f¨ur einfache Imputationen verwendet werden:

”often the multiple-imputation version of an existing single-multiple-imputation scheme is not difficult to implement“

(Rubin, 1987, S. 18).

Ein besonderes Problem f¨ur Imputationen stellen nichtmonotone Ausfallmuster (siehe Abschnitt 1.5.3 ab Seite 37) dar; Marini et al. (1980) stellen jedoch einen Ansatz vor, der eine Maximum-Likelihood-Sch¨atzung der Parameter bei nichtmonotonen Ausfallmustern oh-ne Imputatiooh-nen allein durch Manipulation der Varianz-Kovarianzmatrix erm¨oglicht. Scha-fer (1997) schl¨agt Imputationen auf Basis des EM-Algorithmus und Monte-Carlo-Markov-Simulationen vor.

Insgesamt bleibt f¨ur alle Verfahren zur Korrektur von Nonresponse die Kritik:

”With mes-sy data, the confidence schould be reduced as compared to the hypothetical data, that would have contained no mess. Such a reduction in the assessed confidence should be indicated in the conclusions of the analysis“ (Longford, 2005, S. 15).