• Keine Ergebnisse gefunden

2.2.1 Verknüpfte Daten aus mehreren Datenquellen

Für die Analyse der oben genannten Fragestellungen werden Informationen zu den Erwerbs-biografien von einzelnen Personen benötigt, insbesondere zu Dauer und Ausmass einer all-fälligen Arbeitslosigkeit. Diese Informationen sind heute nicht in einer einzelnen Datenquelle verfügbar, sondern müssen aus unterschiedlichen Datengrundlagen zusammengezogen werden. Dabei handelt es sich um folgende drei Datenquellen:

Daten der Zentralen Ausgleichsstelle (ZAS): Die AHV-Registerdaten stellen eine Vollerhebung der Erwerbstätigen dar und ermöglichen die Analyse von Erwerbsverläufen.

Die ZAS-Daten umfassen neben allen AHV-pflichtigen Einkommen (inkl. Renteneinkom-men) eine beschränkte Auswahl an soziodemografischen Variablen (Geschlecht, Alter und Nationalität).16 Die ZAS-Daten sind jährlich für jede Person im erwerbsfähigen Alter verfügbar und ermöglichen, die Erwerbsbiografie für einzelne Erwerbspersonen aufzuar-beiten.

Arbeitsvermittlung und Arbeitsmarktstatistik (AVAM):17 Die Daten werden während Anmeldung bei einer regionalen Arbeitsvermittlung (RAV) erhoben und umfassen neben diversen Personenmerkmalen (Geschlecht, Zivilstand, Alter, Ausbildungsniveau) auch mehrere Variablen zur Stellensuche (An- und Abmeldung, Dauer, zuletzt ausgeübter so-wie gesuchter Beruf, Abmeldegrund, Fremdsprachenkenntnisse, Mobilität, etc.).

Daten aus dem Auszahlungssystem der Arbeitslosenkassen (ASAL): Der Datensatz enthält Informationen zu den Rahmenfristen sowie monatliche Angaben zu den ausbe-zahlten Unterstützungsgelder. Ebenfalls sind Informationen enthalten, ob der unterstütz-ten Person im entsprechenden Monat Einstelltage oder Wartetage verfügt wurden oder sie in einem Zwischenverdienst beschäftigt ist, bzw. an einer arbeitsmarktlichen Mass-nahme18 teilnimmt.

Für die Analyse werden die Informationen aus den drei Datenbanken miteinander verknüpft.

Das Vorgehen für die Datenaufbereitung wird im nachfolgenden Abschnitt genauer erläutert.

16 Beim verwendeten Datensatz handelt es sich um ein Datenset mit rückwirkenden Korrekturen (cibasecotXXXX).

Der Datensatz wurde von Michel Kolly vom Bundesamt für Sozialversicherungen für unsere Zwecke aufbereitet.

17 Ab 2001 wurde der Datensatz Stellensuchende (STES) verwendet. Im STES-Datensatz sind die Informationen aus der AVAM und dem ASAL bereits in zusammengefügt. Die Daten wurden uns von Jonathan Gast vom Staatsekretariat für Wirtschaft aufbereitet und zur Verfügung gestellt.

18 Für detailliertere Informationen zu den arbeitsmarktlichen Massnahmen wurden uns zudem von Jonathan Gast (SECO) Informationen aus einer spezifischen Datenbank zur Verfügung gestellt.

2.2.2 Datenaufbereitung in drei Schritten

Die Grundlagendaten wurden von SECO und BSV geliefert und anschliessend von Ecoplan zu einem einzigen Datensatz zusammengeführt. Die Verknüpfung der einzelnen Quellen erfolgt mit Hilfe einer anonymen Registernummer, die von SECO und BSV auf Basis der AHV-Nummer erstellt wurde. Für die Analysen ist es notwendig, die Daten so aufzubereiten, dass jede Person einem bestimmten Erwerbsprofil zugeordnet werden kann. Dazu müssen die verknüpften Daten entsprechend aufbereitet werden. Dies geschieht in drei Aufberei-tungsschritten:

 In einem ersten Schritt wird ein Monatsdatensatz erarbeitet. Der Monatsdatensatz um-fasst für jede Person im Grundsample auf Monatsbasis alle verfügbaren Informationen und besteht somit aus 216 Zeilen pro Person (je eine Zeile für jeden Monat zwischen Ja-nuar 1993 und Dezember 2010). In den 18 Jahren waren rund 2.16 Millionen Personen mindestens einmal von Arbeitslosigkeit betroffen. Insgesamt umfasst der Monatsdaten-satz daher über 466.5 Millionen Einträge.

 In einem zweiten Schritt werden anschliessend die Erwerbsbiografien der einzelnen Personen über die 18 Jahre in unterschiedliche Erwerbsphasen aufgeteilt und auf diese Erwerbsphasen aggregiert (Periodendatensatz). Eine Erwerbsphase umfasst sämtliche Monate, in denen die Person die gleiche im Monatsdatensatz definierte Erwerbssituation aufweist. Ist eine Person beispielsweise über die gesamten 18 Jahre nur einmal arbeitslos und den Rest der Zeit erwerbstätig, hat die Person insgesamt drei Erwerbsphasen: Er-werbstätig bis zur Arbeitslosigkeit (Phase 1), arbeitslos (Phase 2) und erEr-werbstätig nach der Arbeitslosigkeit (Phase 3). Im Periodendatensatz verfügt diese Person somit über drei Einträge mit jeweils aggregierten Informationen zu jeder Erwerbsphase. Über die 18 Jahre kann eine Person eine Vielzahl von Erwerbsphasen aufweisen.

 Im dritten und letzten Schritt der Datenaufbereitung wird jede Person aufgrund der Er-werbsphasen einem Profil zugeordnet. Die Profile werden auf Basis der Anzahl und Dauer der Arbeitslosigkeitsphasen gebildet, weshalb die Erwerbsphasen für die Profilbildung in zwei Kategorien zusammengefasst werden: arbeitslos und nicht arbeitslos. Die verfügba-ren Informationen werden ein weiteres Mal aggregiert, diesmal auf Ebene der Personen, so dass im Profildatensatz jede Person nur noch einmal enthalten ist.

Dieser Profildatensatz bildet die Grundlage für unsere Analysen.

Abbildung 2-6: Dreistufiges Vorgehen zur Bildung der Profildaten

Quelle: Eigene Darstellung

2.2.3 Technischer Fokus: Unvollständige Datenprofile

Der für diese Studie verwendete Datensatz ist keineswegs vollständig. Vielmehr setzt er sich aus vielen einzelnen Einträgen zusammen, welche dann für die einzelnen Personen aggre-giert werden, sofern sie vorhanden sind. Das Problem der unvollständigen Datenprofile be-steht vor allem im Bereich der persönlichen Merkmale. Einige wenige Merkmale (insb. Ge-schlecht, Alter, Zivilstand und Mobilität) sind in allen Fällen vorhanden. Bei anderen Merkma-len (z.B. ausgeübter Beruf) fehMerkma-len weniger als 5% der Angaben. Es kommt aber auch vor, dass, wie im Fall der höchsten abgeschlossenen Ausbildung, die Angaben in rund 40% der Fälle fehlen.

Es zeigt sich, dass insbesondere die Informationen zur höchsten Ausbildung systematisch fehlen. Je länger und häufiger eine Person arbeitslos war, desto eher sind Angaben zur Aus-bildung vorhanden. Dieser Effekt stammt daher, dass die Arbeitsämter in der Praxis gewisse Informationen erst erheben, wenn eine Person über eine längere Zeit oder mehrmals arbeits-los war.

Bei jenen Analysen, in denen diese systematisch unvollständigen Variablen verwendet wer-den, wird somit ein erhöhter Anteil problematischer Erwerbsprofile resultieren. Vor allem beim Vergleich der deskriptiven Resultate ist darum zum Teil eine gewisse Vorsicht angebracht.