• Keine Ergebnisse gefunden

𝜋𝑙𝑖 Auswahlwahrscheinlichkeit für das i-te Individuum im l-te Cluster

𝑚 Umfang des Clusters in der Stichprobe 𝑀 Umfang des Clusters in der Grundgesamtheit Mehrstufige und mehrphasige Zufallsstichprobe

Darüber hinaus können auch mehrstufige und mehrphasige Auswahlverfahren angewendet werden.

Mehrstufige Verfahren zeichnen sich dadurch aus, dass die in der ersten Stufe gezogene Stichprobe die Basis für die in der zweiten Stufe zu ziehende Stichprobe bildet [Kauermann et al. 2010]. Abweichend davon werden bei mehrphasigen Verfahren in einer ersten Phase eine große Zufallsstichprobe und in einer zweiten Phase kleinere Stichproben gezogen [Kauermann et al. 2010].

3.2 Datenaufbereitung und Datenhaltung

Bevor die erhobenen Daten analysiert werden können, sind in der Regel umfangreiche Verfahrensschritte zur Aufbereitung der gesammelten Daten notwendig. Hierzu zählen die Datentransformation, Datenbereinigung und Datenintegration. Diese werden nachstehend beschrieben, ergänzt um die Grundzüge der Datenhaltung.

3.2.1 Datentransformation

Die Datentransformation versteht im Allgemeinen die Umwandlung der vorliegenden Daten in ein für die Weiterverarbeitung geeignetes Format. In diesem Zusammenhang ist neben der Anpassung von Datentypen, Maßeinheiten und Skalierungen auch eine einheitliche Codierung der Daten zu nennen [Cleve et al. 2014]. Insbesondere beim Zusammenführen verschiedener Datenquellen besteht die Herausforderung darin, die Angaben zu vereinheitlichen. Im Rahmen eines Codeplans sind neben den Informationen zu den gespeicherten Inhalten der Variablen (Variablenlabel) auch deren Ausprägungen (Wertelabels) zu dokumentieren. Dies ist vor allem dann von Bedeutung, wenn die Information keine Zahl ist [Lück et al. 2014].

3.2.2 Datenbereinigung

Unbenommen der Sorgfalt bei der Durchführung einer Datenerhebung ist es nicht auszuschließen, dass unmögliche, unwahrscheinliche oder widersprüchliche Werte erhoben werden, die im Rahmen der Datenbereinigung zu identifizieren und zu korrigieren oder eliminieren sind [Hippner et al. 2001] [Lück et al. 2014]. Ergänzend dazu treten in nahezu jeder Datenerhebung fehlende Datensätze sowie fehlende Werte auf. Während der Umgang mit fehlenden Daten in der Methodenlehre Berücksichtigung findet, erfolgt dies nach [Lück 2011] kaum für fehlerhafte Daten.

Auf die Qualität der Ergebnisse haben jedoch beide Aspekte einen erheblichen Einfluss. Folglich werden nachstehend die Ursachen und der Umgang sowohl mit fehlerhaften als auch mit fehlenden Daten näher beleuchtet.

Fehlerhafte und inkonsistente Daten

Eine Vielzahl an Verfahren dienen dem Aufdecken von unmöglichen/unrealistischen Werten und fehlerhaften Variablenformatierungen. Eine erste Datensichtung ermöglicht die Identifikation nicht zulässiger Werte. Extremwerte und Ausreißer können anhand von Häufigkeitsverteilungen identifiziert werden. Dabei ist jedoch im Kontext zu prüfen, inwiefern diese realistisch sein können [Lück 2011].

Die Ursachen von fehlerhaften und inkonsistenten Daten sind vielfältig und können bereits in der Gestaltung des Erhebungsinstrumentes (z. B. Filterführung, Antwortoptionen) begründet sein. Zusätzlich kann die Interpretation des Fragebogens, die Reaktivität, irrtümlich oder bewusst falsche Antworten der Befragten, die Kommunikation zwischen Interviewer und Befragten sowie Fälschungen durch den Interviewer zu fehlerhaften Daten führen. Komplettiert wird die Liste der Ursachen durch technische Fehler bei der Datenerfassung sowie Tippfehler bei der Dateneingabe [Lück et al. 2014].

Grundlegend sind fehlerhafte Daten durch Nachrecherche zu beheben. Ist dies nicht möglich, kann das betroffene Merkmal oder der gesamte Merkmalsträger gelöscht werden. Alternativ können auch Attribute, in denen wiederholt fehlerhafte Werte enthalten sind, entfernt werden [Cleve et al. 2014], [Lück et al. 2014]. Eine andere Möglichkeit ist das Eliminieren von Ausreißern infolge der Korrelations-untersuchung zweier Variablen. Sowohl in [Runkler 2010] als auch [Hippner et al. 2001] wird diese Vorgehensweise allerdings kritisch gesehen, da so selten auftretende, jedoch reale Aspekte entfernt werden.

Fehlende Datensätze und Werte

Grundlegend ist zwischen dem Fehlen ganzer Datensätze (Unit-Nonresponse) und dem Fehlen einzelner Werte/Merkmalsausprägungen (Item-Nonresponse) zu unterscheiden [Graham 2012].

· Unit-Nonresponse kann bei Datenerhebungen nicht vollständig ausgeschlossen werden und ist bei der Untersuchungsplanung zu berücksichtigen. Maßgeblich führen Verweigerung und Nichterreich-barkeit zu Unit-Nonresponse. Reduziert werden kann die Unit-Nonresponse durch Nachrecherche von Adressen, Erinnerungsschreiben an die noch ausstehende Teilnahme sowie das Angebot einer Mixed-Mode-Survey (z. B. Telefon- anstelle Online-Erhebung) [Engel et al. 2014].

· Item-Nonresponse kann ebenfalls auf den Befragungsmodus und Designelemente einer Umfrage, aber auch auf den kognitiven Prozess der Antwortfindung, die Interaktion zwischen den Interviewpartnern oder eine mangelnde Motivation sowie den Sensitivitätsgrad einer Frage zurückgeführt werden. Darüber hinaus verursachen auch Übertragungsfehler sowie das Löschen fehlerhafter, nicht korrigierbarer Werte Item-Nonresponse [Decker et al. 2008], [Göthlich 2007].

Der Frage nach dem Umgang mit Unit- und Item-Nonresponse ist die Fragestellung zu den Mechanismen voranzustellen, die zum Ausfall führen. Grundlegend ist zwischen den drei nachstehenden Ausfallmechanismen zu differenzieren:

· Missing completely at random (MCAR). Mit MCAR wird der rein zufällige Datenausfall beschrieben.

Dieser führt lediglich zu ungenaueren und nicht verfälschten Analyseergebnissen [Göthlich 2007].

· Missing at random (MAR) MAR wurde erstmals in [Rubin 1976] definiert und beschreibt einen bedingt zufälligen Datenausfall. Die Antwortwahrscheinlichkeit hängt nicht von der Ausprägung des interessierenden Merkmals (z. B. Einkommen) ab, sondern von der Ausprägung eines anderen erhobenen Merkmals (z. B. Alter) [Rässler 2000].

· Missing not at random (MNAR). Bei dem Mechanismus MNAR (oder NMAR) hängt die Antwortwahrscheinlichkeit von der Ausprägung des interessierenden Merkmals (z. B. Einkommen) ab. Dies führt zu einer Verzerrung der Analyseergebnisse [Graham 2012].

Schlussfolgernd können MCAR und MAR bei großen Stichproben ignoriert werden. Dies gilt aufgrund der verzerrenden Wirkung von MNAR auf das Analyseergebnis nicht [Decker et al. 2008].

Der Umgang mit fehlenden Werten ist ein weites Feld, welches nachstehend nur angerissen werden kann.

Grundlegend können die verfügbaren Verfahren in die drei Gruppen Fallreduktion, Gewichtung und Imputation eingeteilt werden.

· Die Fallreduktion steht für den Ausschluss der Datensätze aus der Datenanalyse, die mindestens für ein Merkmal einen fehlenden Wert aufweisen (Item-Nonresponse) [Decker et al. 2008]. Dieses Verfahren bietet zwar eine einheitliche Fallzahl bei der Auswertung, führt jedoch gleichzeitig zu gegebenenfalls erheblichen Informationsverlusten sowie Verzerrungen bei MAR und MNAR [Decker et al. 2008], [Göthlich 2007].

· Mittels Gewichtung kann einer unterschiedlichen Teilnahmebereitschaft einzelner Schichten begegnet und somit eine unverzerrte Schätzung erhalten werden [Arzheimer 2009], [Kiesl 2014]. Der Einfluss von Gewichtungsverfahren wird in [Arzheimer 2009] in Bezug auf die Schätzung von Mittelwerten und Varianzen nur einen geringen Einfluss zugesprochen und ist bei Regressionsanalysen obsolet, wenn die Gewichtungsvariable ohnehin im Regressionsmodell enthalten ist [Arzheimer 2009].

· Imputationsverfahren stehen für das Ersetzen fehlender Werte in einer Datenmatrix und sind beim Umgang mit Unit- und Item-Nonresponse eine große Bedeutung zuzusprechen.

Bei der einfachen Imputation wird der fehlende Wert mit einem Wert ersetzt. Hierzu zählen die in [Rässler 2000] umfangreich beschriebenen Verfahren der Expertenschätzung, Mittelwertergänzung, Doppeln, Dummy Variable Adjustment, der Regressionsimputation, dem Predictive Mean Matching und den Hot-Deck-Verfahren. Diese Methoden werden jedoch in [Graham et al. 2003] als nicht akzeptabel und in [Schafer et al. 2002] als nicht mehr zeitgemäß eingestuft. Maßgeblich basiert die

Kritik auf der Unsicherheit hinsichtlich der tatsächlichen Ausprägung der nicht beobachteten Werte [Decker et al. 2008]. Zudem führen diese Verfahren zur Verzerrung von Verteilungsmaßen und Schätzern, zur Unterschätzung der Standardfehler und zur Überschätzung von Teststatistiken [Göthlich 2007].

Bei der multiplen Imputation werden für jeden fehlenden Wert auf Basis statistischer Modelle mehrere Werte – gewöhnlich zwischen 3 und 10 – eingesetzt [Rubin 1987]. Somit werden die mit den Schätzwerten verbundenen Unsicherheiten berücksichtigt. Die allgemeine Vorgehensweise kann dabei in drei Schritte untergliedert werden: Imputation, Einzelanalyse und Integration [Decker et al. 2008]. Bei der Imputation werden die fehlenden Werte unter Berücksichtigung der Informationen aus dem Datensatz durch m Werte ersetzt. In der Einzelanalyse werden Standard-verfahren zur Datenanalyse angewandt, deren Ergebnisse unter Berücksichtigung der Unsicherheiten zu dem Endergebnis integriert werden. Die multiplen Imputationsverfahren können eingeteilt werden in die Maximum-Likelihood-Modelle und Bayesscher Verfahren [Göthlich 2007]. Weiterführende Informationen liefern [Göthlich 2007] und [Bankhofer 1995].

3.2.3 Datenintegration

Die Datenintegration steht für das Zusammenführen von Daten unterschiedlicher Quellen [Cielebak et al. 2014]. Anhand eindeutig identifizierbarer Schlüssel sind die Daten zusammenzuführen. Liegen diese fehlerfrei vor, so kann ein einfacher Ist-Gleich-Abgleich angewendet werden. Anderenfalls bedarf es einer Ähnlichkeitssuche in den Datensätzen [Cielebak et al. 2014]. Grundlegend besteht der Dateninte-grationsprozess aus fünf Schritten: Bereitstellung der zu verknüpfenden Datensätze, Standardisierung von Verknüpfungsschlüsseln, Berechnung der Ähnlichkeit potentieller Paare, Verknüpfung der ungeklärten Fälle und Zusammenführung der Datensätze [Schnell et al. 2005].

3.2.4 Datenhaltung

Für die Verwaltung großer Datenmengen werden in der Regel Datenbanksysteme eingesetzt.

Wesentlicher Vorteil eines Datenbanksystems gegenüber einer isolierten Datenhaltung liegt in der Vermeidung der redundanten Speicherung einzelner Informationen, die bei einer Aktualisierung zu Inkonsistenzen führen kann oder – entsprechend des Umfangs – einen erheblichen Arbeits- und Organisationsaufwand bedürfen. Darüber hinaus bieten Datenbanksysteme die entscheidenden Vorteile einer Verknüpfung der sonst isolierten Daten sowie eine Kontrolle und Erzwingung zur Einhaltung von Integrations- und Konsistenzbedingungen [Kemper et al. 1999]. Die Grundlage für eine Datenbankentwicklung bildet die Definition der Entitäten und deren Beziehungen in einem Entity-Relationship-Modell.