Datenerhebung - Entwicklung einer Methode zur Verwendung der Daten des Schorn-steinfegerhandwer

Im empirischen Forschungsprozess ist die Datenerhebung ein Grundbaustein zur Beantwortung von Forschungsfragen und umfasst nach [Kaya 2007] systematische und gezielte Aktivitäten zur Beschaffung von Informationen.

Grundsätzlich sind Daten gezielt und systematisch zu erheben, wobei zwischen primärstatistischen, sekundärstatistischen und tertiärstatistischen Erhebungen differenziert wird [Kaya 2007]. Primär-statistische Erhebungen werden neu für die Beantwortung einer Fragestellung durchgeführt. Wird hingegen auf vorhandenen Originaldaten zurückgegriffen, handelt es sich um eine sekundärstatistische Erhebung. Häufig liegen Daten jedoch nicht im Original, sondern in einer aggregierten oder manipulierten Form vor. In diesem Fall spricht man von einer tertiärstatistischen Erhebung [Hartung et al. 2009]. Die nachstehenden Ausführungen zu den Methoden der Datenerhebung beziehen sich ausschließlich auf die Konzeption neuer Datenerhebungen (=primärstatistische Erhebungen).

3.1.1 Methoden der Datenerhebung

Bei der Konzeption der Datenerhebung ist zunächst zu klären, ob die Ergebnisse sich auf einen bestimmten Zeitpunkt (Querschnitts-Untersuchung) beziehen oder einen definierten Zeitraum (Längsschnitt-Untersuchung) betrachten [Kuß et al. 2014]. Methoden der Datenerhebung sind in Abbildung 3-1 zusammengefasst.

Abbildung 3-1 Überblick zu den Methoden der Datenerhebung [eigene Darstellung]

Mit der Zielstellung der Arbeit den Anlagenbestand und Brennstoffeinsatz zu einem definierten Zeitpunkt abzubilden, wird nachstehend ausschließlich auf die Methoden der Querschnitts-Untersuchungen eingegangen. Zu denen zählen Befragungen und Beobachtungen. Bei den Beobachtungen werden die Gegebenheiten und Verhaltensweisen unmittelbar und ohne direkte Kommunikation zwischen

Befragung auf direkter Kommunikation zwischen den erhebenden und auskunftsgebenden Personen [Kuß et al. 2014]. Dabei ist zwischen qualitativen und quantitativen Befragungen zu unterscheiden.

Repräsentative Aussagen unter Verwendung statistischer Analysemethoden können ausschließlich anhand quantitativer Befragungen gewonnen werden. Dem hingegen steht die interpretierende Analyse bei den qualitativen Befragungen im Vordergrund, in der nicht standardisierte Fragebögen bei kleinen Fallzahlen eingesetzt werden.

Voraussetzung für quantitative Befragungen sind standardisierte Erhebungen, beispielsweise in Form eines Fragebogens. Ziel dessen ist die Minimierung von Störeinflüssen durch die strategische Anordnung der vorformulierten Fragen und gegebenenfalls der Angabe von Antwortkategorien [Möhring et al. 2013], [Reinecke 2014]. Bei der Frageformulierung sind auf eine klare Formulierung der Fragen und die Vermeidung von komplexen, hypothetischen und mehrdimensionalen Fragen zu achten. Ein weiterer wichtiger Aspekt ist das Herstellen eines eindeutig zeitlichen Bezugs [Möhring et al. 2013]. Zudem beeinflussen vorgegebene Antwortkategorien bzw. -alternativen die Antwort der Befragten. Daher sind die Abdeckung des gesamten Spektrums sowie die klare Abtrennung der Antwortkategorien und die ein-deutige Zuordnung des Bezugsrahmens (z. B. Einheiten) essentiell [Möhring et al. 2013]. Ein weiterer Aspekt ist die Dramaturgie des Gesamtfragebogens. Hierzu zählt neben dem Spannungsbogen auch der Halo-Effekt - die Ausstrahlung einer auf die nächste Frage [Häder 2015]. Nicht zuletzt ist auch auf das Layout zu achten, denn es erleichtert nicht nur die Arbeit der Befragungspartner, sondern hinterlässt zusätzlich bei den Befragten einen positiven Eindruck auf das Forschungsvorhaben [Häder 2015].

Standardisierte Fragebögen können für verschiedene Kommunikationsformen (persönlich, telefonisch, schriftlich, Online) eingesetzt werden. Während mündliche Befragungen bei einer beabsichtigten regionalen Streuung der Interviewpartner einen erheblichen organisatorischen Aufwand erfordern, kann dieser durch die telefonische oder schriftliche Befragung sowie Online-Erhebungen deutlich minimiert werden [Kuß et al. 2014]. Internetbasierte bzw. Online-Erhebungen zeichnen sich nach [Ehling 2003]

dadurch aus, dass die Teilnehmer den Fragebogen online ausfüllen oder per Mail erhalten bzw. aus dem Internet herunterladen und zurücksenden.

Nach [Bethlehem et al. 2011] kann ein adaptives Umfragedesign, auch Mixed Mode Survey genannt, die Teilnahmebereitschaft erhöhen, indem der Interviewpartner aus verschiedenen Erhebungsmodi wählen kann. Dabei besteht zum einen die Möglichkeit für verschiedene Befragungsgruppen (z. B. jung/alt) unterschiedliche Befragungsmodi (z. B. Internet/Telefon) bereitzustellen. Zum anderen kann der Gruppe der Antwortverweigerer in einer zweiten Phase ein anderes Erhebungsinstrument angeboten werden [de Leeuw 2015].

In die Entwicklung standardisierter Fragebögen sind Experten einzubinden, deren distanzierte Sicht gegebenenfalls die Form und Struktur der Fragen und Antwortkategorien beeinflussen. Zudem ist die technische Umsetzung, das Fragebogenkonzept sowie die Fragenformulierung und die Antwort-möglichkeiten des Erhebungsinstruments im Rahmen eines Pretests zu testen [Weichbold 2014].

3.1.2 Verfahren der Datenerhebung

Datenerhebungen werden mit dem Ziel, Aussagen über eine definierte Grundgesamtheit zu treffen, durchgeführt. Grundlegend kann dabei zwischen Vollerhebungen und Stichprobenerhebungen unterschieden werden, wobei letztgenannte nur einen definierten Teil der Grundgesamtheit betrachtet.

Zurückzuführen auf den organisatorischen, zeitlichen und damit auch monetären Aufwand von Vollerhebungen werden in der Praxis meist Stichprobenerhebungen durchgeführt [Hartung et al. 2009], [Schulz et al. 2012]. Eine Stichprobe lässt sich als Teilmenge definieren, die für eine Untersuchung aus der Grundgesamtheit – unter Verwendung statistischer Auswahlverfahren – entnommen wird [Eckstein 2014].

Grundlage für Stichprobenerhebungen ist eine sachliche, räumliche und zeitliche Abgrenzung der Einheiten (z. B. Einwohner, Betriebe, Anlagen), die im Rahmen einer statistischen Untersuchung zu beschreiben sind. Die Summe der interessierenden Einheiten wird Grundgesamtheit genannt [Leiner 1994], [Kuß et al. 2014]. Während Auswahleinheiten oder Merkmalsträger die unmittelbar in der Datenerhebung beobachteten Einheiten umfassen, beschreiben die Untersuchungseinheiten die Einheiten, über die repräsentative Aussagen zu treffen sind. Entsprechend des Untersuchungsdesigns stimmen Auswahl- und Untersuchungseinheiten nicht zwingend überein [Stenger 1971].

Für die Durchführung von Stichprobenerhebungen sind eine Vielzahl an Verfahren etabliert, die entsprechend Abbildung 3-2 gegliedert werden können.

nicht zufallsgesteuerte Stichprobenverfahren Abbildung 3-2 Überblick zu den Stichprobenverfahren [eigene Darstellung]

Zahlreiche statistische Verfahren können nur dann angewendet werden, wenn vor der Ziehung die Wahrscheinlichkeit, mit der ein Merkmalsträger in die Stichprobe gelangt, bekannt ist [Kauermann et al. 2010], [Schwaiger 1993]. Nicht zufällige Verfahren erfüllen diese Prämisse nicht, so dass diese weiterführend nicht näher betrachtet werden.

Einfache Zufallsstichprobe

Die einfache Zufallsstichprobe zeichnet sich dadurch aus, dass jedes Element der Grundgesamtheit über die gleiche Auswahlwahrscheinlichkeit 𝜋 verfügt, um in die Stichprobe zu gelangen, siehe Gleichung (1) nach [Kauermann et al. 2010].

𝜋_𝑖 = 𝑛 𝑁

(1) 𝜋_𝑖 Auswahlwahrscheinlichkeit für das i-te Individuum

n Umfang der Stichprobe N Umfang der Grundgesamtheit

Grundgesamtheiten zeichnen sich häufig durch einen hohen Umfang sowie Heterogenität aus. Um diesem Aspekt zu begegnen und die Aussagequalität der Stichprobenergebnisse zu verbessern, wurden Stichprobenverfahren entwickelt, die auf der Zerlegung der Grundgesamtheit beruhen – darunter die geschichtete oder mehrstufige Zufallsstichprobe sowie die Clusteranalyse [Kauermann et al. 2010].

Geschichtete Zufallsstichprobe

Bei der geschichteten Stichprobe wird die Grundgesamtheit, unter Verwendung eines mit dem Untersuchungsmerkmal korrelierenden Hilfsmerkmals (=Schichtungsmerkmal), gruppiert. Ziel dieser Vorgehensweise ist die Unterteilung der heterogenen Grundgesamtheit in in sich homogene, jedoch untereinander heterogene Schichten [Hartung et al. 2009]. Dies ist nur dann möglich, wenn Untersuchungs- und Schichtungsmerkmale gut messbar sind [Cochran 1977]. Voraussetzung hierfür ist die Kenntnis über die Verteilung der Schichtungsmerkmale in der Grundgesamtheit und die Möglichkeit, alle Elemente der Grundgesamtheit genau einer Schicht zuzuordnen [Stier 1999].

Vorangestellte Ausführungen beziehen sich auf die Schichtung anhand eines sachlichen Schichtungsmerkmals (z. B. Alter, Geschlecht). Aus organisatorischen Gründen kann auch eine Schichtung nach regionalen Aspekten (z. B. Land, Bundesland) von Bedeutung sein. Dies trifft beispiels-weise auf die amtliche Statistik zu, bei der die Landesämter die Erhebungen durchführen [Stenger 1971].

In [Cochran 1977] werden unterschiedliche Anforderungen an die Erhebung innerhalb einer Population als weiteren Grund für die Durchführung einer geschichteten Stichprobe angeführt.

Der Stichprobenumfang einer Schicht kann sowohl proportional als auch disproportional zum Anteil in der Grundgesamtheit vorgenommen werden. Insbesondere bei schwach besetzten Schichten ist nach [Hartung et al. 2009] eine disproportionale Schichtung von Vorteil. Zusätzlich ist von einer proportionalen Schichtung abzusehen, wenn die Grundgesamtheit aus sehr großen und sehr kleinen Einheiten besteht und die Datenerhebung für einige Schichten einen deutlich größeren Aufwand darstellen als für andere Schichten [Cochran 1977]. Die Auswahlwahrscheinlichkeit in einer Schicht kann für eine Auswahleinheit gemäß [Kauermann et al. 2010] nach Gleichung (2) bestimmt werden.

𝜋_ℎ𝑖 =𝑛_ℎ

𝑁_ℎ ⁽²⁾

𝜋_ℎ𝑖 Auswahlwahrscheinlichkeit für das i-te Individuum in der h-ten Schicht 𝑛_ℎ Umfang der Stichprobe in der h-ten Schicht

𝑁_ℎ Umfang der Grundgesamtheit in der h-ten Schicht

Bei der geschichteten Stichprobe wird zunächst die Grundgesamtheit in Schichten zerlegt und anschließend je Schicht eine einfache Zufallsstichprobe gezogen (Prä-Stratifizierung). Alternativ dazu kann die Schichtung auch nach der Stichprobenentnahme erfolgen (Post-Stratifizierung), beispielsweise, wenn die Schichtungsvariablen erst mit der Datenerhebung ermittelt werden oder die Genauigkeit der Schätzung bei großen Unterschieden des interessierenden Merkmals erhöht werden kann [Cochran 1977]. Sind die Schichtgrößen bekannt, so kann die Schichtung nach Erhebung vorgenommen werden [Quatember 2014]. Darüber hinaus kann mit einer nachträglichen Schichtung Verzerrungen durch unterschiedliche Rücklaufquoten begegnet werden. Dies wird auch als Gewichtung bezeichnet [Kauermann et al. 2010].

Im Wesentlichen kann zwischen drei verschiedenen Gewichtungsverfahren differenziert werden, die Designgewichtung, die Kalibrierungsschätzer und die Anpassungsgewichtung. Grundlegend zeigt eine Simulationsstudie in [Arzheimer 2009], dass nur bei einem sehr engen Zusammenhang zwischen Untersuchungs- und Schichtungsmerkmal die Gewichtung einen substantiellen Einfluss auf das Ergebnis hat. In Regressionsmodellen werden diese Merkmale häufig schon berücksichtigt, so dass eine

der Verzerrung in der Stichprobenerhebung die Genauigkeit der Schätzung und somit die Qualität des Ergebnisses zu verbessern [Little 1993].

Clusteranalyse

Eine Einteilung der Grundgesamtheit in überlappungsfreie Gruppen spielt auch bei der Clusteranalyse eine Rolle. Abweichend zur geschichteten Stichprobe sind Cluster jedoch in sich heterogen und untereinander homogen. Nachdem ein Cluster per einfacher Zufallsstichprobe ausgewählt wurde, wird in dem Cluster eine Vollerhebung durchgeführt [Kauermann et al. 2010], [Quatember 2014].

Die Auswahlwahrscheinlichkeit für ein Cluster ist nach [Kauermann et al. 2010] gemäß Gleichung (3) definiert.

𝜋_𝑙𝑖 =𝑚 𝑀

Im Dokument Entwicklung einer Methode zur Verwendung der Daten des Schorn-steinfegerhandwerks für die energie-wirtschaftliche Berichterstattung (Seite 31-35)