• Keine Ergebnisse gefunden

Schätzung der Beschäftigungsgleichung

Im Dokument Peter Lang (Seite 109-117)

3.2 Schätzungen der Lohn- und Beschäftigungsgleichung

3.2.2 Schätzung der Beschäftigungsgleichung

Löhne sind nur auf Basis der Informationen von aktuell Beschäftigten verfügbar.

Da nur (abhängig) beschäftigte Frauen im Lohnsample enthalten sind, ist das Lohn-sample kleiner als das zusätzlich nichtbeschäftigte, selbstständige und in Ausbil-dung befindliche Frauen enthaltende Beschäftigungssample.

Wählen sich Personen auf Grund nicht beobachtbarer lohnrelevanter Merkmale selbst in die Gruppe der (abhängig) Beschäftigten ein, sind die Ergebnisse der Lohnschätzung nicht für alle Frauen des Samples repräsentativ, da sich die Unter-gruppe der beschäftigten Frauen von der UnterUnter-gruppe der nicht beschäftigten Frau-en in wesFrau-entlichFrau-en lohnrelevantFrau-en MerkmalFrau-en unterscheidet.Wie die deskriptive Statistik zeigt (vgl. die Erläuterungen hierzu in Abschnitt 2.4), bestehen bei den beobachteten Variablen die vermuteten Unterschiede hinsichtlich Ausbildung, familiärem Hintergrund und Erwerbserfahrung. Dies lässt Unterschiede auch bei den unbeobachteten Charakteristika vermuten. In der seitens von Auer vorge-nommen Klassifikation handelt es sich bei der Beschäftigungsneigung um einen speziellen unbeobachteten Einfluss, der erstens lohnrelevant ist und zweitens mit anderen im Modell enthaltenen Variablen – den Erwerbserfahrungsvariablen –

korreliert, so dass Annahme B1 verletzt ist (der Erwartungswert des Fehlers ist ungleich Null). Die als exogen angenommenen Variablen der Erwerbsbiografie sind in Wahrheit nicht exogen, sondern werden endogen durch Hintergrundvariab-len bestimmt, wobei der Fehlerterm der Beschäftigungsgleichung mit dem Fehler-term der Lohngleichung (positiv oder negativ) korreliert ist.

Um dem Problem der verzerrenden Stichprobenauswahl zu begegnen, wurden – wie bereits erwähnt – für das Lohnsample zum einen unbalancierte Paneldaten verwendet: Indem für das Lohnsample auch Frauen berücksichtigt werden, für die weniger als fünf Lohnbeobachtungen vorliegen – die also nicht während des gesamten Beobachtungszeitraumes erwerbstätig waren –, wird die Wahrschein-lichkeit der Abweichung in unbeobachteten Charakteristika zwischen den Frauen des Beschäftigungs- und des Lohnsamples gemindert.

Zum anderen wurde ein zweistufiger Schätzansatz gewählt, wie ihn Heckman (1979) vorgeschlagen hat. Dabei wurden die vermuteten Hintergrundvariablen, die die Beschäftigungswahrscheinlichkeit einer Person bestimmen und gleichzei-tig auch Lohnrelevanz haben können, als erklärende Variablen der Wahrschein-lichkeit, beschäftigt zu sein, gefasst. Die erzeugte inverse Mill’s Ratio wurde in einem zweiten Schritt als zusätzlicher Regressor in die Lohnfunktion imputiert.

Die dergestalt berechnete Endogene der Lohnfunktion ist nun als Erwartungs-wert des (logarithmierten) Lohnes in Abwesenheit von Selbstselektionseffekten zu interpretieren. Die Korrektur der Selektionsverzerrung äußert sich in nunmehr unkorrelierten Residuen der beiden Gleichungen.

Die Beschäftigungsgleichung wurde wie folgt gefasst:

= γ + ; = 1 falls 0 0 falls 0

Die Beschäftigungsentscheidung wurde durch ein Probit-Modell formuliert.182 Dabei ist eine latente Variable und misst die Neigung des Individuums i, zum Zeitpunkt t (abhängig) beschäftigt zu sein; ist eine beobachtbare dichotome Indikatorvariable, die den Wert 1 annimmt, wenn die Person (abhängig) beschäftigt ist – und sonst den Wert Null. Der Vektor enthält erklärende Variablen (siehe weiter unten). ist ein Störterm undγ der interessierende unbekannte Parameter (Spalten-)Vektor, der die Richtung und Stärke einer erklärenden Variable der Beschäftigungsgleichung auf die Wahrscheinlichkeit, (abhängig) beschäftigt zu sein, angibt.

182 Vgl. bspw. Greene (2000), S. 813ff.

Die Beschäftigungsgleichung wurde mit der Maximum-Likelihood-Methode auf Basis der gepoolten Beobachtungen des Beschäftigungssamples geschätzt.

Die geschätzte Inverse der Mill’s Ratio wurde sodann – in einem zweiten Schritt – als zusätzlicher Regressor in die Lohnfunktion imputiert.183

Welche Variablen kommen als Regressoren der Beschäftigungsgleichung in Betracht? Begibt man sich auf die Suche nach den Zusammenhängen zwischen Ausbildungs-, Arbeitsangebots- und anderen Entscheidungen im Haushaltszu-sammenhang (Scheidungs-, Fertilitätsverhalten etc.), gerät man unmittelbar in ein komplexes Wirkungsgefüge mit vielfältigen gegenseitigen Abhängigkeiten.

Die Annahme, dass der Lohn (unter anderem) erwerbsbiografisch bestimmt wird, geht mit dem Ausschluss der Gegenhypothese, dass die Beschäftigungsentschei-dung in Abhängigkeit vom erzielbaren Lohn erfolgt, einher. Für die Festlegung der Richtung der Kausalität müssen empirische Ergebnisse und theoretische Überlegungen herangezogen werden. Da die theoretischen Überlegungen, wie bereits erläutert, Argumente für beide Wirkungsrichtungen liefern, verbleibt der Blick auf empirische Untersuchungen, die eine bestimmte Kausalität zumindest nahelegen. So wurde im Zusammenhang mit Studien zu Wochenarbeitszeit und Kindesalter (vgl. Abschnitt 2.3.2.3.2) bereits darauf hingewiesen, dass die weib-liche Beschäftigungsentscheidung vermutlich nachrangig vom Lohnsatz und stattdessen stärker vom Familienzusammenhang sowie von geeigneten Arbeits-gelegenheiten abhängig ist.

Für die Spezifikation der Beschäftigungsgleichung wurde es daher als problema-tisch erachtet, den Lohnsatz als Regressor aufzunehmen (abgesehen von der weite-ren Problematik, dass dieser für Nichtbeschäftigte gar nicht beobachtbar war).

Auch bezüglich der persönlichen Charakteristika und den Variablen zum Haus-haltszusammenhang war vereinzelt denkbar, dass es sich nicht um erklärende, sondern aus der Beschäftigungsentscheidung erklärte Variablen handelt (zum Beispiel könnte der Familienstand auch aus steuerlichen Überlegungen heraus gewählt werden). Von potenzieller Endogenität in der Selektionsgleichung wur-de aus Vereinfachungsgrünwur-den jedoch abgesehen.184 Bei den Variablen zu for-maler Ausbildung und Erwerbserfahrung (Stand Vorjahresende) bestand das

183 Dieses Verfahren ist als Zweistufiges Heckman-Verfahren bekannt; vgl. Heckman (1979).

Dabei wird außer Acht gelassen, dass umgekehrt die Beschäftigungswahrscheinlichkeit selbst von der (erwarteten) Lohnstrafe abhängen kann; so werden die mütterlichen Lohneinbußen durch Erwerbsunterbrechung in zahlreichen ökonomischen Fertilitätstheorien als Opportunitäts-kosten von Kindern modelliert, die über den Substitutionseffekt negativ auf die Nachfrage nach Kindern und positiv auf das Arbeitsangebot wirken (vgl. bspw. Becker (1960), Happel et al. (1984), Cigno und Ermisch (1989) oder Walker (1995).

184 Vgl. zu diesem Problem bspw. Lewbel (2003), zitiert nach Dustmann/Rochina-Barrachina (2007), S. 272.

Problem potenzieller Endogenität ohnehin nicht, da die Ausprägungen dieser Variablen zum Zeitpunkt der Beschäftigungsentscheidung bereits feststanden.

Da eine entsprechende Schätzung nur geringe Abweichungen zwischen Hete-roskedastie-robusten und konventionellen Standardfehlern ergab, wurde auf den Ausweis robuster Standardfehler verzichtet.

Die Schätzergebnisse der Beschäftigungsgleichung sind in Tabelle 6 im Anhang zu finden.

Erläuterung der Schätzergebnisse der Beschäftigungsgleichung gemäß Tabelle 6 im Anhang

Da ein geschätzter Regressionskoeffizient der Beschäftigungsgleichung die Ab-leitung der latenten Variable nach x (dem betreffenden Regressor) darstellt, die latente Variable jedoch nicht beobachtbar ist, erschwert dies die Interpretation des Regressionskoeffizienten. Geeigneter ist hier der Marginaleffekt: Der Marginalef-fekt des Regressors j, δPr(y = 1|x) / δxj, gibt – bei metrischen Variablen – den Einfluss einer infinitesimal kleinen Änderung bzw. – bei Dummyvariablen – den Einfluss eines Wechsels von Ausprägung „0“ auf Ausprägung „1“ des Regressors j auf die Wahrscheinlichkeit, beschäftigt zu sein, an.185 Die in Tabelle 6 ausgewie-senen Marginaleffekte sind jene eines durchschnittlichen Individuums, das heißt, sie beziehen sich auf die Sample-durchschnittliche Ausprägung der jeweiligen erklärenden Variable.186

Erwartetermaßen nimmt die Wahrscheinlichkeit der (abhängigen) Beschäfti-gung mit zunehmender formaler Qualifikation zu, worin sich die mit zunehmender Bildung höhere Einkommenserzielungskapazität ausdrückt: Frauen mit niedrigem (Hauptschul-) oder keinem Schulabschluss haben eine geringere Beschäftigungs-wahrscheinlichkeit als Frauen mit mittlerem Schulabschluss. Eine Ausnahme stellt die Variable Hochschulreife dar; dass die Beschäftigungswahrscheinlichkeit hier deutlich hinter jener des mittleren Schulabschlusses zurückbleibt, liegt daran, dass diese Frauen mehrheitlich ihr Studium noch nicht abgeschlossen haben.187 Frauen ohne berufsbildenden Abschluss sind gegenüber Frauen mit abgeschlos-sener Lehre (mittlerer Berufsabschluss) deutlich seltener beschäftigt. Auffallend ist die hohe Beschäftigungsprämie eines Hochschulexamens, die ebenfalls aus früheren Untersuchungen bekannt ist: Frauen mit Hochschulabschluss haben

185 Die Marginaleffekte lassen sich in Stata 7.0 durch die Syntax „dprobit“ oder, mit denselben Ergebnissen, im Anschluss an die Probitschätzung durch die Syntax „mfx compute“ erzeugen.

186 Davon zu unterscheiden sind durchschnittliche Marginaleffekte, die auf individuellen x-Werten basierend berechnet werden; die hierzu erforderliche Syntax ist aber erst ab Stata-Versionen 8.2 aufwärts downloadbar.

187 Der gleiche Befund findet sich in der Studie von Licht/Steiner (1991a), S. 119 in Bezug auf Männer.

eine um mehr als 17 Prozentpunkte höhere Beschäftigungswahrscheinlichkeit als Frauen ohne einen solchen Abschluss.

Die Erwerbswahrscheinlichkeit steigt mit dem Alter und zusätzlich mit der Dauer der Betriebszugehörigkeit.188 Dagegen ist die Wahrscheinlichkeit, be-schäftigt zu sein, umso niedriger, je länger die Phasen der Nichtbeschäftigung in der bisherigen Biografie waren. Personen mit geringer Erwerbserfahrung haben geringere Einkommenserzielungschancen und daher weniger Anreize, sich aktuell um eine Beschäftigung zu bemühen, als Personen mit hoher Erwerbserfahrung.

Dieser Befund einer gewissen Pfadabhängigkeit der Arbeitsmarktnähe bzw. -ferne unterstreicht die Bedeutung der Selektionskorrektur in der Lohnschätzung. Phasen der Arbeitslosigkeit mindern die aktuelle Erwerbswahrscheinlichkeit noch deutli-cher als Phasen der Auszeit (als Hausfrau, in Mutterschutz oder Elternzeit). Dies mag daran liegen, dass familiäre Gründe für eine Auszeit nur temporär vorhanden sind, während die Ursachen von Arbeitslosigkeit längerfristiger Natur sein können, sofern sie in der Person selbst oder in seitens der Person nicht kontrollierbaren Um-feldbedingungen begründet sind. Auch bezüglich der Variablen zum Haushaltszu-sammenhang bestätigen sich die vermuteten Wirkungszusammenhänge: Die Wahr-scheinlichkeit, abhängig beschäftigt zu sein, fällt mit steigender Anzahl der Kinder im Haushalt, wobei der Effekt umso stärker ist, je jünger das jüngste der Kinder ist:

Frauen mit einem 0-1-jährigen Kind im Haushalt haben eine um knapp 50 Prozent geringere Erwerbswahrscheinlichkeit als Frauen ohne ein Kind dieser Altersgruppe im Haushalt. Theoretisch ist dies mit dem abnehmenden komparativen Vorteil der Haushaltsproduktion (im Vergleich zur Erwerbsarbeit) mit zunehmendem Alter der Kinder zu erklären. Auch der Befund, dass verheiratete oder mit einem Partner zusammen lebende Frauen eine um gut fünf Prozent geringere Beschäftigungs-wahrscheinlichkeit aufweisen als allein lebende Frauen, kann mit dem höheren Reservationslohn der erstgenannten Frauengruppe erklärt werden.

Die Beschäftigungswahrscheinlichkeit wird von einer eigenen gesundheitli-chen Behinderung wie auch von der Existenz einer hilfebedürftigen Person im Haushalt gemindert.189

Ein steigendes Nettopartnereinkommen sowie ein steigendes Nichtlohnein-kommen des Haushalts (jeweils pro Kopf der Haushaltsmitglieder und gefasst in

188 Wie Schätzungen mit der Variable Summe erwerbstätiger Jahre anstelle der Betriebszugehörig-keit zeigen, ist das Alter mit der summierten Erwerbsfahrung hoch korreliert; der Koeffizient von Alter wird dann negativ und ist weitaus weniger signifikant. Dieses Ergebnis ist auch aus anderen Studien bekannt (vgl. z. B. Galler (1991). Wesentliche Nichtlinearitäten der Variable Alter waren nicht auffällig.

189 Der Altersabstand zum Partner wirkte sich dagegen nicht auf die Beschäftigungswahrschein-lichkeit aus; auf diese Variable wurde daher ebenso verzichtet wie auf die nicht signifikanten Jahresdummies.

Einheiten von 100 Euro) mindern die Wahrscheinlichkeit, dass die Frau abhängig beschäftigt ist; allerdings zeigen die positiven Vorzeichen der Koeffizienten der quadrierten Terme an, dass sich die negativen Effekte mit zunehmendem Ein-kommen abschwächen. Dass der Erwerbsstatus der Frau sensibler auf das Nicht-lohneinkommen als auf das Partnereinkommen reagiert, mag daran liegen, dass ersteres im Wesentlichen als transitorisch angesehen wird, sodass eher das Ar-beitsangebot als die Konsumgewohnheiten angepasst werden („added worker“-Effekt). Für diese Vermutung spricht auch die Beobachtung aus der deskriptiven Statistik, dass Frauen des Lohnsamples ein geringeres durchschnittliches Nicht-lohn-Haushaltseinkommen haben als Frauen des Beschäftigungssamples. Ein als permanent angesehenes höheres Partnereinkommen setzt demgegenüber weniger Anreize zur Veränderung des Arbeitsangebotes, sondern vielmehr zur Heraufset-zung des Lebensstandards.

Die Stellenandrangszahl hat einen signifikanten Einfluss auf die Beschäfti-gungswahrscheinlichkeit der beobachteten Frauen: Je angespannter die Arbeits-marktlage in jenem Bundesland, in dem die Frau ihren Wohnort hat ist, desto geringer ist die Wahrscheinlichkeit (abhängig) beschäftigt zu sein.190

Wie ist es um Modellgüte und Teststatistik bestellt? Die Zahl der Iterationen ist relativ gering, was belegt, dass das Modell recht problemlos konvergierte.

Auch der deutliche Unterschied zwischen dem Wert der letzten Log Likelihood (der angibt, wie wahrscheinlich die beobachteten Werte bei den zuletzt gewählten beta-Koeffizienten sind) zum Wert der ersten Log Likelihood weist auf den Erklä-rungsvorteil des Modells gegenüber dem Nullmodell hin. Mc Faddens Pseudo R2 – als Analogon zum R2 der linearen Regression – und der Likelihood Ratio Chi2 -Wert sind Maßzahlen für die Güte des Gesamtmodells, wobei eine konkrete inhaltliche Interpretation der Maßzahlen schwierig ist. Beide Größen beruhen auf der Differenz zwischen der ersten und letzten Iteration. Mc Faddens Pseudo R2 ist eine der gebräuchlichsten Maßzahlen zur „Erklärungskraft“ des Modells und basiert auf einem Vergleich der Log-Likelihood des zu evaluierenden Modells mit jener des Nullmodells (das nur die Regressionskonstante enthält). Die Maß-zahl erreicht nur selten den Maximalwert von 1. Der LR Chi2-Wert folgt einer Chi2-Verteilung und kann daher zum Test der Nullhypothese, dass alle Koeffi-zienten außer jener der Konstante Null sind, herangezogen werden. Das Ergebnis ist in der Zeile darunter ausgewiesen: Die Nullhypothese muss zurückgewiesen werden. Da dies aber lediglich bedeutet, dass mindestens einer der Koeffizienten in der Grundgesamtheit nicht Null ist, sind die beiden Maßzahlen des

190 Da die Stellenandrangszahl offenbar einen Großteil der Bundesland-Informationen aufnimmt, sind die Bundesland-Dummies selbst – mit Ausnahme von Baden-Württemberg – nicht mehr signifikant.

Blocks zur Beurteilung der Güte des Modells allein nicht ausreichend. Daher wurde die Modellgüte auch anhand eines Vergleichs der vorhergesagten mit den beobachteten Werten überprüft:191 Die abhängige Beschäftigung wird in 79,48 Prozent, die abhängige Nichtbeschäftigung in 82,81 Prozent der Fälle korrekt prognostiziert.192

Außerdem wurde, zusätzlich zu dem hier dargestellten Modell, ein restringiertes Modell mit einem schmaleren Variablenset geschätzt (ohne humankapitalbezogene Variablen, nur individuelle Charakteristika und Variablen zum Haushaltszu-sammenhang). Die geschätzten Parameter fielen dabei deutlich höher aus, da diese nun auch den Lohneinfluss der weggelassenen Variablen mit aufnahmen.

Es war daher notwendig, die Berechtigung für das restringierte Modell zu testen.

Der Wald-Test für dieses Modell ergab, dass die Nullhypothese, dass die Koeffi-zienten der erwähnten Variablen wie dargestellt ausgewiesen werden, obwohl ihr wahrer Wert in der Grundgesamtheit Null ist, abgelehnt werden muss. Auch die Variablen des „schmaleren“ Modells waren also gemeinsam signifikant, aller-dings war der Testwert geringer als für das umfangreichere Modell. Ein noch präziseres Ergebnis ließ sich durch einen Likelihood Ratio-Test, der das umfang-reichere Modell nicht mit dem Null-Modell, sondern direkt mit dem restringierten Modell vergleicht, erzielen.193 Das Ergebnis zeigt, dass die zusätzlichen Variablen des umfangreicheren Modells die Güte der Regression verbessern. Zudem weist auch Mc Fadden’s Pseudo R2 einen höheren Wert für das umfangreichere Modell aus.194 Die Selektionskorrektur, die im nächsten Schritt vorzunehmen war, wurde daher auf Basis des umfangreicheren Modells berechnet.

191 Kennedy (2003), der das hier vorgestellte Verfahren als mögliche Alternative oder Ergänzung zu einer Pseudo R2-Maßzahl beschreibt, verweist darauf, dass die Summe aus dem Anteil der korrekt vorhergesagten Erfolge und jenem der korrekt prognostizierten Misserfolge den Wert 1 überschreiten sollte, was hier der Fall ist (vgl. Kennedy (2003), S. 267).

192 Eine beobachtbare abhängige Beschäftigung („Erfolg“: Wert „1“ auf der endogenen Variable der Beschäftigungsfunktion) wurde – gemäß der Fassung der Beschäftigungsgleichung weiter oben – als korrekt (inkorrekt) vorhergesagt definiert, wenn die latente Beschäftigungsneigung den Wert 0 überschritt (nicht überschritt). Eine beobachtbare abhängige Nichtbeschäftigung („Misserfolg“: Wert „0“ auf der endogenen Variable der Beschäftigungsfunktion) wurde als korrekt (inkorrekt) prognostiziert definiert, wenn die latente Beschäftigungsneigung den Wert 0 nicht überschritt (überschritt).

193 DieNullhypothese lautet hier, dass die sieben Unterschiedsvariablen zwischen den beiden Modellen gemeinsam insignifikant sind.

194 Mc Fadden (1973), S. 105-142, zitiert nach Kohler/Kreuter (2006), S. 286.

3.2.3 Gepoolte Kleinst-Quadrate-Schätzungen der Lohngleichung mit Selektionskorrektur

Für die Lohnsimulationen in Abschnitt 4 kamen nur die Variablensets der Mo-delle (3) bis (5) in Frage, da nur mit diesen die eingangs formulierten untersu-chungsleitenden Hypothesen vollständig prüfbar sind. Daher wurden nur diese Modelle mit Selektionskorrektur geschätzt. Dabei wurde die aus dem Probit-Modell der Beschäftigungsgleichung hervorgegangene geschätzte Beschäftigungs-wahrscheinlichkeit (Select-Variable) als zusätzlicher Regressor in die Lohnglei-chung aufgenommen und letztere wie gehabt mit der Kleinst-Quadrate-Methode geschätzt.195 Wiederum ergab der White-Test, dass auf den Ausweis heteroske-dastie-robuster Standardfehler nicht verzichtet werden konnte, will man falsche Rückschlüsse aus den Signifikanztests vermeiden.

Die Ergebnisse der gepoolten OLS-Schätzungen der Lohngleichung mit Se-lektionskorrektur für die Modelle (3) bis (5) sind in Tabelle 7 im Anhang ausge-wiesen.

Erläuterungen zu den OLS-Schätzungen der Modelle (3)-(5) mit Selektionskorrektur gemäß Tabelle 7 im Anhang

Die geschätzten Parameter der Ausbildungs- und der Erwerbserfahrungs-Vari-ablen in den drei Modellen mit Selektionskorrektur sind in der Regel etwas nied-riger als in den Modellen ohne Selektionskorrektur; Gleiches gilt für die signifi-kanten Kontrollvariablen. Offenbar wird in der Schätzung ohne Selektionskorrek-tur der Einfluss der Humankapital-Variablen überschätzt, da unbeobachtete lohn-relevante Effekte nicht kontrolliert werden. Die Beschäftigungswahrscheinlich-keit ist streng genommen solch ein lohnrelevanter Effekt, da Löhne gar nicht beobachtet werden können, wenn die Person nicht beschäftigt ist. Die Variable Select weist die Βeschäftigungswahrscheinlichkeit aus und entspricht der so genannten inversen Mill’s Ratio. Das positive Vorzeichen des geschätzten Para-meters der Variable Select indiziert, dass mit steigender Beschäftigungswahr-scheinlichkeit ein höheres Einkommen verbunden ist, das heißt, die Störterme der Beschäftigungs- und Lohnfunktion sind positiv korreliert. Der Parameter der Variable Select bewegt sich in etwa auf dem Niveau anderer Studien.196

195 Probeweise wurde Modell (3) auch als Full ML-Schätzung (mit robusten Standardfehlern) durchgeführt; die Standardfehler waren hierbei leicht höher, die Koeffizienten nahezu identisch zum zweistufigen Heckman-Verfahren. Für Modelle (3)-(5) werden im Folgenden nur die Er-gebnisse der zweistufigen Heckman-Schätzung wie oben beschrieben ausgewiesen.

196 So findet Galler mit SOEP-Daten für deutsche Frauen in einer gepoolten Regression mit Selek-tionskorrektur eine Mill’s Ratio von -0,0457; vgl. Galler (1991), S. 132. Die von Licht und

cherweise leidet die statistische Signifikanz der Parameter durch die Selektions-korrektur nicht, mit Ausnahme der Variable Summe Teilzeitjahre in den Modellen (4) und (5).

Im Dokument Peter Lang (Seite 109-117)