Von der Stichprobe zur Grundgesamtheit: Die Methodik der Stichprobentheorie

(1)

Von der Stichprobe zur Grundgesamtheit: Die Methodik der Stichprobentheorie

Es wird ein knapper Überblick über Basiskonzepte der Stichprobentheorie im Stile eines Crash-Kurses gegeben.

Ein einführendes Lehrbuch ist: Lohr (2010) Sampling: Design and Analysis (2. ed. Boston : Brooks/Cole).

Inhaltsverzeichnis

Der Design-basierte Ansatz Inklusionswahrscheinlichkeiten Interessierende Populationsparameter Der $\pi$-Schätzer und seine Eigenschaften Die einfache zufällige Stichprobe

Sequentielle Stichprobenverfahren Probability Proportional Size Geschichtete Stichprobe

Klumpen-Stichproben (Cluster Sampling) Systematisches Ziehen

2-Stage Sampling Kalibrationsschätzer

Der Generalized Regression (GREG) Schätzer Der Verhältnisschätzer (Ratio estimator) Der Poststratifizierungsansatz

Varianzschätzung für den Greg Der Beispieldatensatz ALLBUS 2014 Software

Der Design-basierte Ansatz

Der Design-basierte Ansatz behandelt die Ziehung einer Stichprobe aus einer endlichen

Grundgesamtheit. Hierbei sind die Merkmale der Elemente der Grundgesamtheit feste Grössen. Zufällig ist allein die Auswahl der Einheiten für die Stichprobe. Das Wahrscheinlichkeitsgesetz, nach dem eine Stichprobe gezogen wird, bezeichnet man als Stichproben-Design.

Das Stichproben-Design ist bekannt. Es muss nicht geschätzt werden. Geschätzt werden sollen fixe Grössen der Grundgesamtheit, z.B. die Gesamtanzahl von Personen mit einem bestimmten Merkmal in der Grundgesamtheit. Beispielsweise die Gesamtanzahl der Personen in Deutschland, die zu einem bestimmten Zeitpunkt studieren. Diese Zahl soll auf Basis der zufälligen Stichprobe geschätzt werden.

Damit ist die Schätzung des Populationswerts auf Basis der Stichprobe eine zufällige Grösse. Als Zufall fungiert hier die zufällige Stichprobe.

Alle Aussagen über die Varianz der Schätzer basieren auf der Zufälligkeit der Stichprobe. Die Stichprobentheorie präsentiert verschiedene Designs (Stichprobenverfahren), die diese Varianz unter bestimmten Umständen klein werden lassen.

Aufgaben der Stichprobentheorie:

Angabe von Schätzern für Populationswerte.

Schätzung der Genauigkeit (=Varianz) dieser Schätzer.

Bestimmung eines Varianz-optimalen Stichprobenverfahrens (=Designs) Optimale Allokation des Stichprobenumfangs (Kostenoptimalität)

Weitere Felder sind: Die Behandlung von Nonresponse und die Behandlung von Zusatzinformationen aus anderen Quellen über Kalibration.

Welchem Fachbereich gehören Sie an?

Auswahl Ihre Wahl

Erziehungswissen schaften und Psychologie Politik und Sozialwissenschaft en

Veterinärmedizin Wirtschaftswissens chaft

Sonstige

fu:stat bietet regelmäßig Schulungen für Hochschulan

sowie für gehörige Unterneh men und weitere Institutionen an. Die Inhalte reichen von Statistikgrundlagen (Deskriptive, Testen, Schätzen, lineare Regression) bis zu Methoden für Big Data. Es werden außerdem Kurse zu verschiedenen Software- Paketen gegeben. Auf Anfrage können wir auch gerne individuelle Inhouse- Schulungen

bei Ihnen anbieten.

(2)

Inklusionswahrscheinlichkeiten

Eine zufällige Stichprobe $S \subset U $ werde gemäß einer \(\textbf{bekannten

Wahrscheinlichkeitsverteilung}\) $p$ gezogen. Für die realisierte Stichprobe $s$ gilt damit :

$$P(S=s)=p(s)$$

Über das Design $p$ sind dann auch die Inklusionswahrscheinlichkeiten für jede Einheit $k \in U$ bestimmt. Es sei $I_k=1$, falls Einheit $k$ mit der Stichprobe gezogen wird. Ist $k$ nicht in der Stichprobe, so wird dies durch $I_k=0$ angezeigt.

\begin{eqnarray*} P( k \in S )&=& \sum\limits_{s \ni k} p(s) \\ &=& P(I_k=1) \\ &=& \pi_k \end{eqnarray*}

Hierbei bezeichnet der erste Term auf der rechten Seite die Summe über alle möglichen Stichproben, die die Einheit $k$ enthalten.

Analog definiert man die Wahrscheinlichkeit $\pi_{k,l}$ über das Ereignis, dass die Einheiten $k$ und \ (l\) ausgewählt werden. Man erhält:

\begin{eqnarray*} P( k,l \in S )&=& \sum\limits_{s \ni k,l} p(s) \\ &=& P(I_k=1, I_l=1) \\ &=& \pi_{k,l} \end {eqnarray*}

Interessierende Populationsparameter

Von Interesse sind meist einfach zu interpretierende Grössen der Grundgesamtheit wie das Gesamtaufkommen (Total), Mittelwerte oder Verhältnisse (Ratios):

$$t_y=\sum_{k\in U}y_k \quad \quad \mbox{(Totals)} $$

$$\overline{y}_U=\frac{1}{N} \sum_{k\in U}y_k \quad \quad \mbox{(Mittelwerte)} $$

$$\frac{t_y}{t_x}=\frac{\overline{y}_U}{\overline{x}_U} \quad \quad \mbox{(Ratios)}$$

Zur Schätzung dieser Populationswerte braucht man eine Schätzfunktion auf Basis der Stichprobe $s$.

Der $\pi$-Schätzer und seine Eigenschaften

Die Schätzung über den Kehrwert der Auswahlwahrscheinlichkeit (kurz: der $\pi$-Schätzer) schätzt das Gesamtaufkommen $t_y$ durch:

\begin{eqnarray} \nonumber \hat{t}_y &=& \sum_{k \in U}\frac{I_k}{\pi_k}y_k \\ &=& \sum_{k \in s}\frac {y_k}{\pi_k} \label{app_2} \end{eqnarray}

Im deutschsprachigen Bereich wird dieser Schätzer auch als ''Freie Hochrechnung'' bezeichnet.

Der Schätzer besitzt eine sehr einfache Interpretation: Jede Person $k$ in der Stichprobe zählt wie $1< 1 /\pi_k$ Personen in der Grundgesamtkeit. Im Mikrozensus gilt beispielsweise $1/\pi_k = 100$. Der Faktor $w_k=1/\pi_k$ wird auch als Designgewicht bezeichnet.

Der $\pi$-Schätzer ist erwartungstreu über alle möglichen Stichprobenziehungen, d.h. es gilt:

$$E_p (\hat{t}_y)= t_y$$

Gesetz der großen Zahlen

Die relative Häufigkeit eines Zufallsergebnisses konvergiert in der Regel gegen die theoretische Wahrscheinlichkeit der Grundgesamtheit, wenn das Zufallsexperiment unter denselben Bedingungen wiederholt wird. Ein interaktives Tool zum Gesetz

wurde der großen Zahlen am Institut für Meteorologie an der Freien Universität Berlin entwickelt.

(3)

Er hat die Varianz:

\begin{eqnarray} \nonumber V_p(\hat{t}_y )&=& \sum_{k \in U} \sum_{l \in U}Cov (I_k,I_l)\frac{y_k}

{\pi_k} \frac{y_l}{\pi_l} \\ &=& \sum_{k \in U}\sum_{l \in U} (\pi_{k,l}- \pi_{k} \pi_{l}) \frac{y_k}{\pi_k} \frac {y_l}{\pi_l} \end{eqnarray}

Hierbei bedeutet die Doppelsumme $\sum_{k \in U}\sum_{l \in U}$ die Summation über alle $(k,l)$- Kombinationen der Grundgesamtheit. Die Kovarianz $Cov (I_k,I_l)$ der Inklusionsindikatoren $I_k$ und \ (I_l\) berechnet sich als $\pi_{k,l}- \pi_{k} \pi_{l}$.

Schließlich benötigt man noch eine Schätzung für die obige Varianz auf Basis der Stichprobe. Man erhält diese durch einen Standardtrick, indem man die Doppelsumme über die Grundgesamtheit durch die Doppelsumme über die Stichprobe ersetzt und den Gewichtungsfaktior $\frac{1}{\pi_{k,l}}$ benutzt:

$$\widehat{V}(\hat{t}_y )= \sum_{k \in s} \sum_{l \in s} \frac{Cov(I_k,I_l)}{\pi_{k,l}}\frac{y_k}{\pi_k} \frac{y_l }{\pi_l} $$

Es ist das Ziel des Einsatzes von unterschiedlichen Stichprobenverfahren die Varianz $V_p(\hat{t}_y )$ möglichst klein zu halten.

Die einfache zufällige Stichprobe

Simple Random Sampling ohne Zurücklegen (Notation: SI, SRS, SRSWOR) oder mit Zurücklegen (Notation: SIR, SRSWR)

Eigenschaften: Fester Stichprobenumfang $n$. Konstante Auswahlwahrscheinlichkeiten \(\pi_k=\frac{n}

{N}\) und $\pi_{k,l}=\frac{n(n-1)}{N(N-1)}$ (Ohne Zurücklegen).

Populationsschätzer:

$$\hat{t}_y = N \bar{y}_s \qquad \bar{y}_s= \frac{1}{n}\sum_{k \in s} y_k $$

Varianz:

$$\hat{V}(\hat{t}_\pi)=N^2\left(\frac{1}{n}-\frac{1}{N}\right) S_{y,s}^2 \qquad S_{y,s}^2=\frac{1}{n-1}\sum_

{k \in s} (y_k-\bar{y}_s)^2$$

Ein einfaches Beispiel für eine einfache zufällige Stichprobe wird in dem Video von Shawn Burke gegeben (in englischer Sprache):

Simple Random Sampling

Sequentielle Stichprobenverfahren

Für jede Einheit der Grundgesamtheit wird per Zufall unabhängig entschieden, ob die Einheit in die Stichprobe gelangt oder nicht: Bernoulliexperiement! Damit ist der Stichprobenumfang zufällig (\

(\Rightarrow\) Varianzvergrößerung).

Bernoulli-Sampling: Erfolgswahrscheinlichkeit konstant $\pi$. Erwarteter Stichprobenumfang: $E (n)=N \pi$

Poisson-Sampling: Erfolgswahrscheinlichkeit $\pi_k$ variiert. Erwarteter Stichprobenumfang: $E (n)=\sum_{k \in U} \pi_k$

Probability Proportional Size

Motivation: Die Varianz des $\pi$-Schätzers wird sehr klein, falls $\pi_k \approx const \times y_k$, da dann $\hat{t}_y =\sum_{k \in s} \frac{y_k}{\pi_k}\approx n \times 1/const$.

In der Praxis wird man ein Merkmal $x_k$ wählen, das mit $y_k$ hoch korreliert ist und für alle $k \in U$ bekannt sein muss. Dies ist bei Firmendaten häufig der Fall. Beispiel: $y_k$= Ausgaben F+E in Betrieb \ (k\). $x_k$=Anzahl Beschaftigte in Betrieb $k$

Die Realisierung eines Ziehungsverfahrens ist beim Ziehen mit Zurücklegen (PPS) relativ einfach: Jede Einheit $k$ wird durch eine Strecke der Länge $x_k$ auf einem Intervall der Gesamtlänge \(L= \sum_{k

\in U} x_k\) repräsentiert. Es wird eine gleichverteilte Zufallszahl aus dem Intervall $[0,L]$ gezogen und die Einheit gewählt, in deren Bereich die Zufallszahl gefallen ist.

Die Realisierung eines Ziehungsverfahrens ohne Zurücklegen ($\pi$ps) ist schwierig und aufwändig.

Geschichtete Stichprobe

(4)

Die Verteilung der Stichprobenumfänge auf einzelne Teilgruppen (Englisch: Strata) der Grundgesamtheit. Hierzu muss die separate Ziehung einer Stichprobe innerhalb jedes Stratums realisierbar sein. Die Strata sollen so gewählt werden, dass die Streuung zwischen den Strata- Mittelwerten (Between-Varianz) möglichst groß ist. Die Varianz des $\pi$-Schätzers ist dann durch die verbliebene Within-Streuung gegeben. Verwendet man den $SI$-Sampling in jeder Schicht, so erhält man:

$$\hat{t}_y= \sum_{h=1}^H N_h \bar{y}_{s_h}$$

und:

$$\hat{V}(\hat{t}_y)=\sum_{h=1}^H N_h^2\left(\frac{1}{n_h}-\frac{1}{N_h}\right)S_{y,s_h}^2 \qquad S_{y, s_h}^2= \frac{1}{n_h-1}\sum_{k \in s_{h}} (y_k-\bar{y}_{s_h})^2$$

Hierbei ist $h$ der Schichtindex, $n_h$ der Umfang der Stichprobe $s_h$ in Schicht $h$ und $N_h$ der Populationsumfang der Schicht $h$.

Häufig wird nach regionalen Merkmalen, z.B. Bundesland, und innerhalb dieser Regionalschichten nach Siedlungstypen, z.B. fachliche Gliederung beim Mikrozensus, geschichtet.

Häufig wird der Umfang der Stichproben in der jeweiligen Schicht proportional zur (bekannten!) Schichtgröße gewählt.

Klumpen-Stichproben (Cluster Sampling)

Klumpen-Stichproben benötigt man, wenn man keinen Auswahlrahmen auf den benötigten Einheiten hat.

Beispielsweise gibt es kein nationales Verzeichnis von Schülern. Allerdings kann man zunächst Schulen auswählen und dann alle Schüler der ausgewählten Schule.

Eine weitere Motivation für Cluster Sampling ist die Reduktion der Feldkosten in einer Interviewer- basierten Befragung wie dem Mikrozensus. Hier wird ganz Deutschland in kleineste Flächenstücke von jeweils ca. 12 Haushalten eingeteilt und alle Haushalte dieses ''Auswahlbezirks'' werden interviewt.

Cluster Sampling führt aufgrund der häufigen räumlichen Korrelation der Merkmale in der Stichprobe zu einer Vergrösserung der Varianz des Populationsschätzers.

Systematisches Ziehen

Das Ziehungsverfahren basiert auf:

Einer Reihung der Auswahleinheiten in der Grundgesamtheit Der Festlegung einer Größe $x_{k}$ für jede Einheit $k$

Anordnung Größe Kumulierte Größe

1 $x_1$ $X_1=x_1$

2 $x_2$ $X_2=x_1+x_2$

$\vdots$ $\vdots$ $\vdots$

3 $x_N$ $X_N=\sum_{k=1}^N x_k $

Bestimmung einer Intervalllänge $d$ über die angestrebte Stichprobengröße $n$:

$$(n+1)d= X_{N} = \sum_{k=1}^N x_{k}$$

Ein zufälliger Startwert $Z$ gleichverteilt auf dem Intervall [0,d] wird gezogen.

Es werden diejenigen Einheiten $i$ ausgewählt, wo einer der Werte $z + kd$ \((k = 0,1,

\ldots, (n-1))\) in das Intervall $(X_{i-1}, X_{i}]$ fällt.

Bei diesem Ziehungsverfahren gibt es zu jeder zufälligen Startzahl ein Cluster von gezogenen Einheiten.

Es wird jedoch nur ein einziges Cluster gezogen, so dass eine Varianzschätzung prinzipiell nicht möglich ist. Simulationsstudien belegen, dass die Varianz der Populationsschätzer in vielen Fällen deutlich geringer als die Varianz einer einfachen Stichprobe ist.

Das Verfahren wird in der Praxis häufig als sogenanntes Random-Route Verfahren angewendet:

Ausgehend von einer festen Startadresse wird ein Stadtbezirk nach festen Begungsregeln abgelaufen.

Längst der Route wird jeder d. Klingelknopf ausgewählt. Dieses Verfahren wird auch bei der Auswahl von Haushalten beim ADM-Verfahren (Arbeitsgemeinschaft Deutscher Markforschungsinstitute) angewendet.

(5)

2-Stage Sampling

Zweistufige Ziehungsverfahren werden angewendet, wenn ein Auswahlrahmen (Sampling Frame) für die eigentlich interessierenden Einheiten nicht vorliegt.

In diesem Fall werden zunächst größere Einheiten auf der ersten Auswahlstufe (Primary Sampling Units (=PSU's)) ausgewählt. Aus den PSU's werden dann auf der zweiten Auswahlstufe die Secondary Sampling Units (SSU's) ausgewählt.

Auswahl der PSU's gemäss Design $p_{I,i}$ Auswahl der SSU $k$ aus PSU $i$ gemäss $P_{k|i}$

Auswahl auf der zweiten Stufe meist nach dem gleichen Design und unabhängig von der Auswahl in den anderen PSU's.

Kann als Modell für Nonresponse genutzt werden:

Erste Stufe: Designauswahl

Zweite Stufe: Auswahl der Respondenten aus der Bruttostichprobe.

Einteilung der Bruttostichprobe in homogene Untergruppen mit jeweils gleicher Responsewahrscheinlichkeit (Response

Homogeneity Group Model).

Auswahl der Respondenten über Bernoulli-Sampling mit jeweils gleicher Erfolgswahrscheinlichkeit innerhalb der jeweiligen Responsegruppe.

Die Varianz bestimmt sich zu einem über die Zufälligkeit der Auswahl der Primäreinheiten ($V_{PSU}$) und zum anderen über die Zufälligkeit der Auswahl der SSU's aus den ausgewählten Primäreinheiten (\

(V_{SSU}\)). Meist ist $V_{PSU}$ wesentlich grösser als $V_{SSU}$.

Fast alle Programmpakete benutzt daher die Varianzapproximation:

$$\hat{V}^{*} = \sum_{i \in s_I} \sum_{j \in s_I} \frac{Cov_I(I_i,I_j)}{\pi_ {I,ij}} \frac{\hat{t}_{\pi,i}}{\pi_{I,i}}

\frac{\hat{t}_{\pi,j}}{\pi_{I,j}}$$

Hierbei ist $\hat{t}_{\pi,i}$ der $\pi$-Schätzer für das Total der Primäreinheit $i$ und $s_I$ die Stichprobe der PSU's. Die Berechnung von $\hat{V}^{*}$ ist damit identisch mit den üblichen Varianzschätzern auf der Ebene der Primäreinheiten. Man hat statt der Merkmalswerte $y_k$ lediglich die geschätzten Merkmalstotals $\hat{t}_{\pi,i}$ zu benutzten.

Kalibrationsschätzer

Kalibrationsschätzer nutzen Zusatzwissen über die Grundgesamtheit aus und liefern für bestimmte Merkmale exakt die bekannten Werte als Schätzung, was auch als Kalibration bezeichnet wird.

Kalibration kann zu einer bedeutsamen Reduktion der Varianz führen. Im Fall von Nonresponse werden Kalibrationsschätzer auch zur Reduktion eines Nonresponse-Bias eingesetzt.

Ein Modell-basierter Zugang zur Kalibration kann über ein Prädiktionsmodell hergestellt werden. Es sei \ (\hat{y}_k\) ein guter Prädiktor für $y_k$. Dann bezeichne $e_k=y_k -\hat{y}_k$ den Prädiktionsfehler.

Ein Prädiktionsschätzer ist definiert durch:

$$\hat{t}_{y}=\sum_{k \in U} \hat{y}_k + \sum_{k \in s} e_k / \pi_k$$

Damit dieser Schätzer berechnet werden kann, muss $\hat{y}_k$ für alle $k \in U$ bekannt sein. Für ein lineares Modell mit $\hat{y}_k=\mathbf{x'}_k B$, wobei $B$ ein geeigneter Regressionsvektor ist, genügt jedoch die Kenntnis der $\mathbf{x}$-Totals. Nach Schätzung von $B$ durch $\hat{B}$ berechnet sich der Kalibrationsschätzer durch:

$$\hat{t}_{y}=(t_\mathbf{x})'\hat{B} + \sum_{k \in s} e_k \pi_k$$

Der Generalized Regression (GREG) Schätzer

Der Design-basierte verallgemeinerte Kleinste-Quadrate-Schätzer mit $\sigma^2_k=1/q_k$ berechnet sich als:

$$ \widehat{\mathbf{B}}=\Big(\sum_{k \in s} d_k q_k \mathbf{x}_k \mathbf{x}_k'\Big)^{-1}\Big(\sum_{k \in s} d_k q_k \mathbf{x}_k y_k\Big) $$

wobei $\sigma^2_k$ die Varianz der Residualgrößen im Regressionsmodell \(y_k=x'_k \beta+

\epsilon_k\) ist.

Für den Fall, dass sich die Varianz als Linearkombination $\sigma^2_k= \mu'\mathbf{x}_k$ für einen geeigneten Vektor $\mu$ für alle $k \in U$ darstellen lässt, vereinfacht sich der GREG zu:

$$\hat{t}_{GREG}=(\sum_{k \in U} \mathbf{x}_k)'\widehat{\mathbf{B}}$$

Der Verhältnisschätzer (Ratio estimator)

Der Verhältnisschätzer $\hat{t}_{ra}$ basiert auf einem heteroskedastischen Modell:

(6)

$$y_k = \beta_x x_k + \epsilon_k$$

wobei $Var(\epsilon_k)=\sigma^2 x_k$. Für diese Varianz gilt die vereinfachte Darstellung ohne den Residualterm. Man erhält mit $\hat{B}= \hat{t}_y/\hat{t}_x$:

\begin{eqnarray*} \hat{t}_{ra}& = & \sum_{k \in U} \hat{B} x_k \\ & = &\sum_{k \in s} \frac{t_x}{\hat{t}_x}\,

\frac{y_k}{\pi_k} \end{eqnarray*}

Der Schätzter benutzt also eine Korrektur des Design-Gewichts $1/\pi_k$ durch den Faktor \(t_x/\hat{t}

_x\). Dies wird auch manchmal ''SOLL/IST''-Anpassung genannt.

Der Poststratifizierungsansatz

In vielen Fällen kennt man die Größe bestimmte Teilpopulationen, z.B. die Anzahl von Männern und Frauen in Altersklassen nach Bundesländern. Bei 10 Altersgruppen und 16 Bundesländern ergeben sich insgesamt $G= 10 \times 2 \times 16=320$ Gruppen, die die Gesamtpopulation unterteilen.

Es sei $N_g$ der Umfang der Gruppe $g$. weiterhin sei $n_g$ die Anzahl der interviewten (!) Mitglieder der Gruppe g. Nonresponse sei hier ausdrücklich berücksichtigt!

Der Poststratifikationsschätzer kann auf den GREG zurückgeführt werden. Das Model benutzt gruppenweise konstante Mittelwerte. Hierbei wird die Gruppenzugehörigkeit durch jeweils eine

Indikatorwariable $X_{g,k}$ angezeigt, mit $(X_{g,k}=1)$ falls Einheit $k$ der Gruppe $g$ angehört und

$(X_{g,k}=0)$ sonst. Das Group-Mean Modell lautet:

$$E_\xi (Y_k)=\sum_{g=1}^G \beta_g X_{g,k}$$

mit $Var_\xi (Y_k) = \sigma^2_g$ für $k\in U_g$

Als Kleinste-Quadrate-Schätzung für die $\beta_g$ erhält man die Gruppenmittelwerte in der Grundgesamtheit. Diese Gruppenmittelwerte werden ihrerseits geschätzt durch:

$$\hat{B}_g = \frac{\sideset{}{_{s_g}}\sum \frac{y_k}{\pi_k}}{\sideset{}{_{s_g}}\sum \frac{1}{\pi_k}},\quad g=1,\ldots,G.$$

Auch für diesen Schätzer erhält man die vereinfachte Darstellung ohne den Residualterm:

\begin{align} \hat{t}_{GREG} = \sum_{k \in U} \hat{y}_k = \sum_{g=1}^G\sum_{k\in U_g} \hat{y}_k = \sum_

{g=1}^G\sum_{k\in U_g} \hat{B}_g = \sum_{g=1}^G N_g\hat{B}_g \end{align}

Insgesamt erhält man für

$\hat{t}_{GREG}$:

$$\hat{t}_{GREG}= \sum_{g=1}^G \frac{N_g}{\hat{N}_g} \sideset{}{_{s_g}}\sum \frac{y_k}{\pi_k}$$

wobei $\hat{N}_g=\sum_{k \in s} \frac{X_{g,k}}{\pi_k}$ die geschätzte Gruppengrösse ist. Der

Korrekturterm der Designgewichte hat damit wieder eine SOLL/IST Struktur, wobei $N_g$ der Soll-Wert ist und $\hat{N}_g$ den IST-Wert darstellt.

Die geläufige Bezeichnung ''Poststratifikation'' wird damit begründet, dass dieser Schätzer sehr ähnliche Eigenschaften zu einem Stratifizierungsansatz hat, wenn man die Gruppen als Stratifizierungsvariablen gewählt hätte. Man hat die Stichprobe quasi nachträglich stratifiziert.

Varianzschätzung für den Greg

Ignoriert man bei der Darstellung

$$ \hat{t}_{y}=(t_\mathbf{x})'\hat{B} + \sum_{k \in s} e_k / \pi_k$$

die Varianz von $\hat{B}$, so ist die Varianz des $GREG$ durch die Varianz des $\pi$-Schätzers für die Residuen gegeben. Es können somit alle bekannten Varianzformeln angewendet werden, indem man die

$y_k$ durch deren Residualgrössen $e_k$ ersetzt.

Der Beispieldatensatz ALLBUS 2014

(7)

Der Beispieldatensatz ALLBUS ist über eine Erhebung im Jahr 2014 realisiert worden. Die Stichprobe wurde getrennt für Ost- und Westdeutschland erhoben. Hierbei wurde die ostdeutsche Stichprobe größer angelegt als es ihrem Bevölkerungsanteil in Deutschland entspricht. Neben dieser Ost/West-Schichtung wurden noch weitere regionale Schichtungsmerkmale bis hinunter zur Ebene von Stimmbezirken mit ca.

400 Haushalten angewendet. Diese "Sampling Points" waren die Primäreinheiten in einen dreistufigen Au . Auf der zweiten Stufe wurden Haushalte über swahlverfahren nach dem ADM-Ziehungsdesign

Klingelknöpfe nach dem Verfahren "Systematisches Ziehen mit zufälligem Startpunkt" ausgewählt.

Ausgangspunkt ist dabei eine zufällige Startadresse in einem Sample-Point. Anhand von festen Begehungsregeln werden dann die Häuser innerhalb des Stimmbezirks angelaufen. Innerhalb jedes Hauses gibt es eine genaue Regel für die Reihung der Klingelknöpfe. Längs dieser Sequenz von Klingelknöpfen wird jeder 10. Klingelknopf (Intervalllänge) ausgewählt Als Resultat dieses "Random Route Verfahrens" haben alle Haushalte (Sekundäre Auswahleinheiten) von Design her jeweils in Ost- und Westdeutschland die gleiche Auswahlchance. Man beachte, dass es sich hierbei nicht um eine einfache Stichprobe von Haushalten sondern um einen wesentlich komplexeren Auswahlprozeß handelt.

Die Motivation für diese Alternative liegt hierbei an einem fehlenden Personen- und Haushaltsregister für Deutschland. Schließlich wird in einer dritten Auswahlstufe pro Haushalt jeweils eine Person (Tertiäre Auswahleinheit) im Befragungsalter von 18 Jahren ausgewählt. Die Auswahl der Person erfolgte über das Geburtsdatum. Die Person mit dem nächsten Geburtstagstermin wird als Befragungsperson ausgewählt.

Damit ist die Auswahlchance einer Person umgekehrt proportional zu der Anzahl der potentiellen Befragungspersonen in einem Haushalt: Auf der Ebene der Personen bedeutet dies, dass beispielsweise Fallzahlen von Personen aus Dreipersonen-Haushalten dreimal so hoch gewichtet werden wie Ergebnisse von Personen aus Einpersonenhaushalten. Ergebnisse auf Haushaltsebene bedürfen bis auf die Unterscheidung nach Ost- und West-Haushalten keiner separaten Gewichtung, da ja alle Haushalte innerhalb ihres Erhebungsgebiets die gleiche Auswahlchance haben. Einzelheiten entnehme man dem Erhebungsreport zum ALLBUS 2014.

Allerdings müssen die hierfür erforderlichen Gewichtungsvariablen noch aus dem GESIS Datenarchiv her untergeladen werden. Da jedoch der Beispieldatensatz an einigen Stellen aus Datenschutzgründen modifiziert wurde, sollte der Nutzer besser die Survey-Gewichte zusammen mit den Originaldaten benutzen. Bei vielen Datensätzen sind die Survey-Gewichte so normiert, dass Ihre Summe gerade dem Stichprobenumfang n entspricht. Dies ist auch hier der Fall. Falls man mit dem $\pi $ -Schätzer ein Total, also die Anzahl aller Personen mit einer bestimmten Merkmalsausprägung, schätzen will, so muss man die Gewichtungsvariable mit dem inversen Auswahlfaktor \{N/n\} multiplizieren.

Für die Berechnung der Varianzen der Populationsschätzer benötigt man Informationen die Zugehörigkeit der Personen zu den Primäreinheiten (Sample Points).

Software

SAS ist die Standard-Software im Bereich der Amtlichen Statistik. Alle Prozeduren des Survey Bereichs beginnen mit ''Survey...'', z.B. kann man mit Proc Surveyselect Stichproben generieren. Einen ausführlichen Überblick erhält man hier.

Einen Überblick über die Survey Pakete in findet man unter dieser R Adresse. Das Survey-Package von Thomas Lumley ist mit einem R-Lehrbuch (Complex Surveys, A Guide to Analysis using R, Wiley ) erschienen.

Von der Stichprobe zur Grundgesamtheit: Die Methodik der Stichprobentheorie