• Keine Ergebnisse gefunden

Aggregation der Einzeldatensätze

5 Datenbasis

5.1 Individualkundendaten

5.1.4 Aggregation der Einzeldatensätze

Nachdem die Rohdaten bereinigt und um die oben beschriebenen Dummyvari-ablen ergänzt wurden, konnten die Einzeldatensätze nun sinnvoll zu aggregier-ten Subsamples Ost/West und schließlich zum integrieraggregier-ten Daaggregier-tensatz aller Spar-kassen zusammengefasst werden. Hierbei traten allerdings drei Probleme auf. So konnte erstens Bank 3 die Ausnutzung der Dispositionskredite (Variable DP) zum Stichtag nicht mehr rückwirkend ermitteln, so dass hier keine

Informatio-rung verschwindend klein ist, kann davon ausgegangen werden, dass die große Mehrzahl dieser Kunden tatsächlich bereits gestorben ist, die Information über das Ableben die Sparkassen jedoch noch nicht erreicht hat. Die durch diese Vorgehensweise entstehende Verzerrung, tatsächlich noch lebende Kunden fälschlicherweise aus dem Datensatz herauszunehmen, erscheint kleiner als der Fehler, der entsteht, wenn diese Kunden im Datensatz verbleiben.

Darüber hinaus enthielten die Datensätze vereinzelt Kunden ohne Altersan-gabe. Diese Individuen konnten ebenfalls nicht betrachtet werden, da die Alters-angabe zwingend notwendig für die Regressionsanalyse und die spätere Simula-tion ist. Für einige Kunden war der Wohnort aus der vorliegenden Postleitzahl nicht ermittelbar bzw. es lag keine Postleitzahl vor. Um die sonstigen Informati-onen dieser Kunden dennoch nutzen zu können, wurde diesem Umstand durch die Einführung einer Wohnortdummyvariable Rechnung getragen, die den Wert eins annimmt, wenn der Wohnort nicht ermittelbar war. Die Zahl der betreffen-den Kunbetreffen-den liegt bei ungefähr einem halben Promille aller Beobachtungen (1364 Kunden).

Nicht berücksichtigt wurden weiterhin Leerkunden, d.h. Kunden, die zwar eine Kundenummer aufwiesen, aber hinsichtlich Einkommen, Deckungsbeitrag, Aktiva und Passiva über keine von Null verschiedenen Ausprägungen verfügten.

Abschließend wurden Kunden ohne Geschäft zum Stichtag eliminiert, d.h. Kun-den, die im Referenzjahr zwar Einkommen oder Deckungsbeitrag generiert ha-ben, zum Stichtag jedoch über keinerlei Aktiva oder Passiva verfügten. Auf eine Bereinigung des Datensatzes um vermeintliche Ausreißer und unplausible Aus-prägungen bei Einkommen und Portfoliovariablen, z.B. bei sehr großen Anlage- oder Kreditvolumina, konnte dagegen verzichtet werden, da die Qualität der Da-tenerhebung sich insgesamt als sehr gut herausstellte und keine Anhaltspunkte für Fehler in der Datenextrahierung und -aufbereitung vorlagen.

5.1.4 Aggregation der Einzeldatensätze

Nachdem die Rohdaten bereinigt und um die oben beschriebenen Dummyvari-ablen ergänzt wurden, konnten die Einzeldatensätze nun sinnvoll zu aggregier-ten Subsamples Ost/West und schließlich zum integrieraggregier-ten Daaggregier-tensatz aller Spar-kassen zusammengefasst werden. Hierbei traten allerdings drei Probleme auf. So konnte erstens Bank 3 die Ausnutzung der Dispositionskredite (Variable DP) zum Stichtag nicht mehr rückwirkend ermitteln, so dass hier keine

Informatio-nen über die realisierten Sollsalden zum Stichtag vorliegen. Da zum eiInformatio-nen auf die sonstigen Informationen, die im Datensatz der Sparkasse 3 enthalten sind, nicht verzichtet werden soll und zum anderen vermutet werden kann, dass die Variable DP eine wichtige Determinante des Ertrags ist, wird für die fehlenden Werte eine Substitution vorgenommen. Als erstes Näherungsverfahren wurde eine Ersetzung durch bedingte Mittelwerte durchgeführt (conditional mean value imputation). Da es sich lediglich um ca. 5% aller Beobachtungen für die Variab-le DP handelt, kann die Variab-leichte Ungenauigkeit an dieser StelVariab-le toVariab-leriert werden.

Der entstehende Informationsmehrwert durch Aufnahme der Variable DP in die ökonometrische Analyse scheint in diesem Fall die kleine entstehende Verzer-rung der Schätzergebnisse zu rechtfertigen.

Bei der Überprüfung der Sollsalden für ost- und westdeutsche Sparkassen treten erhebliche, statistisch hoch signifikante Unterschiede bei den durch-schnittlichen Volumina auf, so dass für alle Kunden der Bank 3 der Mittelwert der restlichen ostdeutschen Sparkassen angesetzt wurde. Zusätzlich könnte eine weitere feinere Unterscheidung nach Geschlecht vorgenommen werden, da sich die durchschnittliche Inanspruchnahme von Dispositionskrediten zwischen Männern und Frauen für ostdeutsche Datensätze ebenfalls mit einer Irrtums-wahrscheinlichkeit von weniger als einem Prozent unterscheidet. Der Mehrwert einer solchen feineren elaborierteren Substitution scheint jedoch angesichts der Bedeutung von Bank 3 im Gesamtsample und den sich in Abschnitt 6.3.1 erge-benden äußerst robusten Schätzergebnissen gering. 60

Andere Imputationsverfahren (regression imputation, multiple imputation, Maximum Likelihood-Verfahren) wurden wegen der geringen Korrelation zwi-schen der Variable DP und den anderen Variablen im Datensatz und des zu er-wartenden geringen zusätzlichen Erklärungsgehalts verworfen.61 Zudem hat das Fehlen der Daten hier ausschließlich externe technische Gründe und hängt nicht von den anderen erhobenen Daten ab.

Ein zweites Problem liegt bei der Dummyvariable zum Transfereinkommen (D_transfer) vor. Bank 11 konnte - ebenfalls aus technischen Gründen - die

60 Kontrollregressionen des Gesamtdatensatzes ohne die Variable DP bzw. ohne die Bank 3 führen zu keinen nennenswerten Änderungen der Schätzergebnisse. Die Resultate zei-gen sich insgesamt sehr stabil und nur im gerinzei-gen Ausmaß durch die Imputation bzw.

die Aufnahme der Variable DP tangiert.

61 Zu Verfahren im Umgang mit fehlenden bzw. unvollständigen Daten siehe z.B. Litt-le/Rubin [2002] oder Schafer [1997].

riable D_transfer nicht erheben. Da es sich hier um eine Dummyvariable han-delt, ist eine Substitution durch den Mittelwert nicht sinnvoll. Auch eine zufälli-ge [0,1]-Zuordnung erscheint methodisch äußerst fragwürdig und wurde verwor-fen. Bei der Bank 11 handelt es sich um eine große westdeutsche Sparkasse, de-ren Daten für die Aussagekraft der westdeutschen Ergebnisse und den Ost/West-Vergleich unverzichtbar sind. Bei der Aggregation der Datensätze wurde des-halb für den westdeutschen und den gesamtdeutschen Datensatz auf die erklä-rende Variable Transfereinkommen verzichtet, um die Sparkasse dennoch in die Untersuchung aufnehmen zu können.

Eine letzte Schwierigkeit liegt bei der Variable Termineinlagen (TE) vor.

Bank 10 hat im Privatkundenbereich keine Produkte dieser Kategorie, so dass hier alle Ausprägungen den Wert 0 annehmen. Im Fall der Termineinlagen (TE) wurde ebenfalls auf eine Ersetzung durch den Mittelwert verzichtet, da es sich hier nicht um fehlende, aber real vorhandene Daten, wie z.B. im Fall der Dispo-sitionskredite, handelt. Dort existieren für die einzelnen Kunden bestimmte Vo-lumina, die lediglich nicht erhoben werden konnten. Im Fall Termineinlagen sind jedoch keine Ausprägungen ungleich Null vorhanden, so dass hier nicht einfach ein wie auch immer gearteter Wert zugeschrieben werden kann. Betrof-fen sind in diesem Fall ca. 4% der Beobachtungen für die Variable TE. Da je-doch die Sparkasse 10, ebenso wie die Bank 11, essentiell für die Relevanz der westdeutschen Ergebnisse und den Ost/West-Vergleich ist, sollen ihre Informa-tionen in die aggregierten Datensätze einfließen, d.h. die Bank kann nicht ein-fach komplett ignoriert werden. Darüber hinaus wird erwartet, dass Terminein-lagen eine durchaus wichtige Determinante des DBII sind, so dass die Informa-tionen der Bank 10 zu den Termineinlagen zunächst einfach in die aggregierten Datensätze übernommen werden. Dies hat jedoch zur Folge, dass die Wahr-scheinlichkeit insignifikanter Schätzergebnisse für diese Variable im Gesamtda-tensatz steigt.62

Für den integrierten Datensatz der westdeutschen Sparkassen und den Ge-samtdatensatz muss also auf die die erklärende Variable Transfereinkommen verzichtet werden. Ansonsten sind die potentiellen Determinanten des De-ckungsbeitrags identisch.

62 Wie im Fall der Variable DP wurden Kontrollregressionen für den Gesamtdatensatz ohne Termineinlagen bzw. ohne die Sparkasse 10 durchgeführt. Auch hier ergeben sich im Vergleich zur Ausgangsschätzung nur gering abweichende Ergebnisse.

riable D_transfer nicht erheben. Da es sich hier um eine Dummyvariable han-delt, ist eine Substitution durch den Mittelwert nicht sinnvoll. Auch eine zufälli-ge [0,1]-Zuordnung erscheint methodisch äußerst fragwürdig und wurde verwor-fen. Bei der Bank 11 handelt es sich um eine große westdeutsche Sparkasse, de-ren Daten für die Aussagekraft der westdeutschen Ergebnisse und den Ost/West-Vergleich unverzichtbar sind. Bei der Aggregation der Datensätze wurde des-halb für den westdeutschen und den gesamtdeutschen Datensatz auf die erklä-rende Variable Transfereinkommen verzichtet, um die Sparkasse dennoch in die Untersuchung aufnehmen zu können.

Eine letzte Schwierigkeit liegt bei der Variable Termineinlagen (TE) vor.

Bank 10 hat im Privatkundenbereich keine Produkte dieser Kategorie, so dass hier alle Ausprägungen den Wert 0 annehmen. Im Fall der Termineinlagen (TE) wurde ebenfalls auf eine Ersetzung durch den Mittelwert verzichtet, da es sich hier nicht um fehlende, aber real vorhandene Daten, wie z.B. im Fall der Dispo-sitionskredite, handelt. Dort existieren für die einzelnen Kunden bestimmte Vo-lumina, die lediglich nicht erhoben werden konnten. Im Fall Termineinlagen sind jedoch keine Ausprägungen ungleich Null vorhanden, so dass hier nicht einfach ein wie auch immer gearteter Wert zugeschrieben werden kann. Betrof-fen sind in diesem Fall ca. 4% der Beobachtungen für die Variable TE. Da je-doch die Sparkasse 10, ebenso wie die Bank 11, essentiell für die Relevanz der westdeutschen Ergebnisse und den Ost/West-Vergleich ist, sollen ihre Informa-tionen in die aggregierten Datensätze einfließen, d.h. die Bank kann nicht ein-fach komplett ignoriert werden. Darüber hinaus wird erwartet, dass Terminein-lagen eine durchaus wichtige Determinante des DBII sind, so dass die Informa-tionen der Bank 10 zu den Termineinlagen zunächst einfach in die aggregierten Datensätze übernommen werden. Dies hat jedoch zur Folge, dass die Wahr-scheinlichkeit insignifikanter Schätzergebnisse für diese Variable im Gesamtda-tensatz steigt.62

Für den integrierten Datensatz der westdeutschen Sparkassen und den Ge-samtdatensatz muss also auf die die erklärende Variable Transfereinkommen verzichtet werden. Ansonsten sind die potentiellen Determinanten des De-ckungsbeitrags identisch.

62 Wie im Fall der Variable DP wurden Kontrollregressionen für den Gesamtdatensatz ohne Termineinlagen bzw. ohne die Sparkasse 10 durchgeführt. Auch hier ergeben sich im Vergleich zur Ausgangsschätzung nur gering abweichende Ergebnisse.

Im letzten Schritt wurden zusätzlich noch elf Dummyvariablen kreiert, die die Zugehörigkeit eines Kunden zu einem Kreditinstitut anzeigen („Sparkas-sendummies“). Stammt beispielsweise ein Kunde von der Sparkasse 1, so erhält die zugehörige Dummyvariable den Wert Eins, alle anderen Dummyvariablen, die die Sparkassenzugehörigkeit anzeigen, nehmen den Wert Null an.

Um im weiteren Verlauf der Untersuchung eventuelle strukturelle Unter-schiede zwischen ost- und westdeutschen Kreditinstituten zu untersuchen, wurde zusätzlich eine Eigenschaftsvariable für die Herkunft der Sparkasse eingeführt.

Die Dummyvariable D_org nimmt den Wert 1 an, wenn der Kundendatensatz von einer westdeutschen Sparkasse stammt und den Wert 0, wenn er von einer ostdeutschen Sparkasse kommt.

Im aggregierten Datensatz macht es wenig Sinn, die Wohnortdummies der Einzeldatensätze zu übernehmen, da es kaum regionale Überschneidungen zwi-schen den Sparkassen gibt, d.h. Wohnortdummies würden im Wesentlichen sparkassenindividuelle Effekte bzw. Differenzen messen. Zudem liegen im Ge-samtdatensatz nur höchst selektiv für wenige Kreise Deutschlands Beobachtun-gen in ausreichender Fallzahl vor, so dass aus den Informationen auch keine Wohnortdummies für NUTS II-Regionen abgeleitet werden können.63

Um die Informationen, die in der Postleitzahl enthalten sind, auch im aggre-gierten Datensatz bzw. in der späteren Regression nutzen zu können, wurde eine Dummyvariable D_plzGG eingeführt, die anzeigt, ob ein Kunde im Geschäfts-gebiet seiner Sparkasse wohnt (D_plzGG=1) oder nicht (D_plzGG=0). Kunden deren Wohnort nicht zuzuordnen war, wurde ebenfalls der Wert 0 zugewiesen.

Nachdem die Bereinigung, Aggregation und Erweiterung um die beschrie-benen Eigenschaftsvariablen durchgeführt wurde, liegen drei zusammengefasste Datensätze ost-, westdeutscher und aller Sparkassen vor, die in den nächsten Abschnitten 5.1.5 bis 5.1.8 ausführlich vorgestellt werden. Zunächst erfolgt je-doch eine Beschreibung der Teildatensätze und der zugehörigen Sparkassen.

63 Nur diese Wohnortdummies hätten sinnvoll in die spätere Analyse und Hochrechnung auf NUTS II-Ebene integriert werden können.

5.1.5 Charakterisierung der Sparkassen und Anzahl der