B-Annahmen: Annahmen zur Spezifikation

3.1 Vorüberlegungen zu den Schätzungen

3.1.1 Aspekte der Modellspezifikation

3.1.1.1 Gauss-Markov-Annahmen

3.1.1.1.2 B-Annahmen: Annahmen zur Spezifikation

Annahme B2: var ( ) = σ² für i = 1, 2, …, N;

Annahme B3: cov ( , ) = 0 für alle i ≠ j sowie i = 1, 2, …, N und j = 1, 2, …, N;

Annahme B4: ~ N (E( ), var( )) für i = 1, 2, …, N.

Annahme B1 fordert, dass der Mittelwert der Fehler Null ist. Wenn der Erwar-tungswert der Störgröße von Null verschieden ist, sind Punkt- und Intervallschätzer des Niveauparameters α verzerrt; die Schätzwerte der Steigungsparameter sind von der Annahmeverletzung jedoch nicht betroffen.¹⁴⁶ Da in der vorliegenden Arbeit jedoch nur die Steigungsparameter interessieren, ist eine etwaige Verlet-zung der Annahme B1 hier ohne Belang.

Annahme B2 – auch Homoskedastizitätsannahme genannt – fordert, dass die Varianz der Fehler für alle Werte der erklärenden Variablen gleich ist: In wie-derholten Stichproben besitzt die Streuung innerhalb jeder der N Beobachtungen den Wert σ². Heteroskedastizität führt zu verzerrten Schätzungen der Varianz von Parametern. Dies hat falsche t-Werte und Konfidenzintervalle zur Folge, was wiederum die Gefahr erhöht, dass die Interpretation der Signifikanz der ge-schätzten Koeffizienten in die Irre führt. Zudem führt Heteroskedastizität zu ineffizienten Schätzungen der Parameter. Das Problem tritt häufig auf, wenn die abhängige Variable nicht symmetrisch ist.¹⁴⁷ Zur Beseitigung der Asymmetrie ist die abhängige Variable zu logarithmieren. Um auf eine asymmetrische Verteilung

146 Vgl. Kennedy (2003), S. 129.

147 Vgl. zu den Lösungsmöglichkeiten für Heteroskedastizität mit Stata Kohler/Kreuter (2006), S. 230-232.

der Lohnvariablen zu testen, werden Symmetrieplots angefertigt.¹⁴⁸ Abbildung 7 und 8 zeigen, dass der Bruttostundenlohn rechtsschief verteilt ist, sowohl mit als auch ohne anteilige Einmalzahlungen:

Abbildung 7: Abschätzung der Schiefe des Lohnes mit anteiligen Einmalzahlungen

Die Abstände über dem Median sind größer als jene unter dem Median. Die Logarithmierung der endogenen Variable in der Lohngleichung war also gerecht-fertigt. Ob das Problem der Heteroskedastizität damit gelöst ist, muss im An-schluss an die Schätzung – beispielsweise durch geeignete Tests wie den Gold-feld-Quandt-Test, den Breusch-Pagan-Test (1979) oder den White-Test (1982) – beantwortet werden.¹⁴⁹ Sollten sich unakzeptable Schwankungen in der Varianz

148 Der Symmetrieplot wird in Stata 7.0 durch die „symplot“-Syntax erzeugt. Dabei wird zunächst der Median bestimmt, der für den realen Bruttostundenlohn ohne anteilige Einmalzahlungen 12,06 € und für jenen mit anteiligen Einmalzahlungen 12,96 € beträgt. Danach werden die Ab-stände der nächstgrößeren Beobachtung und der nächstkleinerern Beobachtung zum Median be-stimmt und einander gegenübergestellt. So wird sukzessive mit allen übrigen Beobachtungen verfahren. Sind die Abstände der Beobachtungen über dem Median zum Median größer als die Abstände der Beobachtungen unter dem Median zum Median, ist die Verteilung rechtsschief, im umgekehrten Fall linksschief.

149 Die Tests generiert man mit der Stata 7.0-Syntax „hettest varlist“ bzw. mit der Syntax „whitetst“ im Anschluss an den Regressionsbefehl. Der White-Test ist ein Spezialfall des Breusch-Pagan-Tests. Eine Definition der Heteroskedastizität-betroffenen Variablen ist nicht notwendig, da das Programm diese Liste selbst aus der Liste der Regressoren erstellt. Allerdings bereitet der Test

der Residuen herausstellen, können die Standardfehler der Koeffizienten mit dem Huber-White-sandwich Schätzer berechnet werden, der heteroskedastierobust ist;

die Standardfehler sind dann als Basis eines Signifikanztests verwendbar.¹⁵⁰ Abbildung 8: Abschätzung der Schiefe des Lohnes ohne anteilige Einmalzahlungen

Annahme B3 fordert, dass die Fehler untereinander unkorreliert sind (Freiheit von Autokorrelation). Freiheit von Autokorrelation meint, dass die Störgröße einer Beobachtung unkorreliert mit der Störgröße einer anderen Beobachtung ist.

Autokorrelierte Störgrößen führen zu ineffizienten Kleinst-Quadrate-Schätzern;

die Varianz der Steigungsparameter würde zudem verzerrt ausgewiesen, so dass Intervallschätzer und Hypthesentests ihre Aussagekraft verlören.

Die Annahme der Freiheit von Autokorrelation kann sowohl in Querschnitts- als auch in Längsschnittsbetrachtungen verletzt sein. In Querschnittsbetrachtungen kann die Zuordnung eines Interviewers zu mehreren Befragungspersonen dazu führen, dass die Befragungswerte dieser Personen einander ähneln, weil der Inter-viewer beispielsweise zu einer Überschätzung von Schätzdaten neigt (systemati-scher Fehler). Das – gemessen an allen weiblichen SOEP-Befragungspersonen –

Probleme bei einer großen Variablenanzahl, daher muss zunächst über den Befehl „set matsize“

die maximal verarbeitbare Anzahl der Variablen erhöht werden.

150 In Stata 7.0 wird der Huber/White/Sandwich-Estimator durch die „robust“-Option der „regress“-Syntax erzeugt.

scher Fehler). Das – gemessen an allen weiblichen SOEP-Befragungspersonen – relativ kleine Sample der in der Lohnschätzung berücksichtigten Frauen, deren Wohnorte zumal breit über das (west-) deutsche Bundesgebiet streuen, legt die Vermutung nahe, dass hier von systematischen Interviewerfehlern abgesehen werden darf.

Im Längsschnitt tritt das Problem der Autokorrelation häufiger auf, daher soll auf diesen Punkt – im Vorgriff auf die den später anzustellenden Panelschätzungen zu Grunde liegende Schätzgleichung (12), die einen Zeitindex t zusätzlich zum Personenindex i beinhaltet – kurz eingegangen werden. So spricht man von serieller Autokorrelation, wenn Zeitreihendaten eines engen Beobachtungszeitraums ein-ander ähnlicher sind als Daten von zeitlich weiter auseinein-ander liegenden Jahren.¹⁵¹ Dieser Fall ist prinzipiell auch für die hier zu untersuchenden Lohnbeobachtungen plausibel, da die die Einkommenserzielung beeinflussenden Umstände binnen Jahresfrist in ihrer Gesamtheit nicht drastisch wechseln dürften (dies ist allein schon auf Grund der hier vorgenommenen Konstruktion der erwerbsbiografischen Variablen anzunehmen). Andererseits schränkt der relativ kurze, hier betrachtete Zeitraum von fünf Jahren die Beobachtung von Autokorrelation ein. Dass zeitlich aufeinander folgende Störgrößen miteinander korreliert sind, wäre daran erkenn-bar, dass auf positive Störgrößen der Vorperiode häufiger positive und auf negative Störgrößen der Vorperiode häufiger negative Störgrößen folgen.¹⁵² Eine derartige Wellenbewegung war im Streudiagramm der Lohnbeobachtungen über die fünf einbezogenen Jahre 2001-2005 jedoch nicht ersichtlich.

Annahme B4 fordert, dass die Störgrößen normalverteilt sind. Zwar weist von Auer (2007) darauf hin, dass für die Punktschätzung der Kleinst-Quadrate-Methode die Erfüllung der Annahme, dass die Störgrößen normalverteilt sind, nicht notwendig ist, wohl aber ist sie es für Intervallschätzer und Hypothesentests, deren Ergebnisse irreführend wären, wenn die Stichprobe klein und die Störgrößen nicht normalverteilt sind.¹⁵³ Allerdings stellt der zentrale Grenzwertsatz bei hinrei-chend großem Stichprobenumfang sicher, dass die Wahrscheinlichkeitsverteilung der Kleinst-Quadrate-Schätzer gegen eine Normalverteilung konvergiert. Bei hin-reichend großem Stichprobenumfang – wovon hier auszugehen ist – sind die Kleinst-Quadrate-Schätzer also auch normalverteilt, wenn es die zu Grunde liegen-den Störgrößen nicht sind.¹⁵⁴

151 Vgl. Kohler/Kreuter (2006), S. 233.

152 Vgl. von Auer (2007), S. 391.

153 Vgl. von Auer (2007), S. 420-421.

154 Vgl. von Auer (2007), S. 426-427.

Im Dokument Peter Lang (Seite 91-95)