Datenbanken mit finanz- und versicherungsmathematischem Bezug: Beschreibung und Zugriff auf kostenfreie Quellen

(1)

Datenbanken mit finanz- und versicherungsmathematischem Bezug:

Beschreibung und Zugriff auf kostenfreie Quellen

Stand: Mai 2021

Maximilian Euthum¹, Prof. Dr. Ralf Korn², Prof. Dr. Alfred M¨uller³, Prof. Dr. Matthias Scherer⁴

1Technische Universität München, Fakultät für Mathematik, Parkring 11, 85748 Garching–Hochbrück, maximilian.euthum@tum.de

2Technische Universit¨at Kaiserslautern, Fachbereich Mathematik, Gottlieb-Daimler-Straße Geb¨aude 48, 67663 Kaiserslautern, korn@mathematik.uni-kl.de

3Universität Siegen, Fakultät für Mathematik, Walter-Flex-Straße 3, 57068 Siegen, mueller@mathematik.uni-siegen.de

4Technische Universität München, Fakultät für Mathematik, Parkring 11, 85748 Garching–Hochbrück, scherer@tum.de

Abstract

Um die praxisgerechte Ausbildung an Hochschulen zu unterstützen und gleichzeitig Forschenden in den Bereichen der Finanz- und Versicherungsmathematik sowie Statistik und Data Science mit Bezug zur Finanz- und Versi- cherungswirtschaft Benchmark-Datensätze zur Verfügung zu stellen, hat die DGVFM beschlossen, eine Sammlung geeigneter Datensätze aufzubauen. Das zugehörige Projekt ist dem DGVFM-Ausschuss Forschung und Transfer zugeordnet, der hier durch die Vorstandsmitglieder Ralf Korn (TU Kaiserslautern), Alfred Müller (Univ. Siegen) und Matthias Scherer (TU München) vertreten ist.

Das folgende Dokument gibt den aktuellen Stand einer Datensammlung wieder, die maßgeblich von Maximilian Euthum (TU München) recherchiert und dokumentiert wurde. In diesem sind zahlreiche als geeignet identifizierte und frei verfügbare Datensätze einheitlich beschrieben sowie die zugehörigen Quellen verlinkt. Hinweise auf mögliche Ergänzungen werden gerne aufgenommen.

1

(2)

Inhaltsverzeichnis

1

Human Mortality Database (HMD)

5

1.1 Steckbrief . . . 5

1.2 Beschreibung . . . 5

1.3 Daten . . . 5

1.4 Bemerkungen . . . 6

1.5 Beispiele . . . 6

1.6 Literatur. . . 7

2

Strommarktdaten (SMARD)

⁸ 2.1 Steckbrief . . . 8

2.3 Daten . . . 8

2.4 Variablen . . . 9

2.5 Beispiele . . . 9

2.6 Weitere Quellen Energiem¨arkte . . . 10

3

Danish Fire Insurance Claims

12 3.1 Steckbrief . . . 12

3.3 Daten . . . 12

3.4 Variablen . . . 12

4

Versicherungspr¨ amien nach L¨ andern

¹⁴ 4.1 Steckbrief . . . 14

4.3 Daten . . . 14

4.4 Beispiel . . . 14

5

CAS Datasets (Computational Actuarial Science with R)

16 5.1 Naturkatastrophen Australien . . . 16

5.2 Autoversicherung Australien. . . 18

5.3 Erdbeben . . . 20

5.4 Betriebsunterbrechung Frankreich. . . 22

5.5 Hurrikan Historie Nordatlantik . . . 24

5.6 Haftplichtversicherung Schadendreiecke Schweiz . . . 26

6

Reiseversicherung

28 6.1 Steckbrief . . . 28

6.3 Daten . . . 28

7

Allgemeine Branchendaten deutscher Versicherungsmarkt

30 7.1 Steckbrief . . . 30

7.3 Daten . . . 30

(3)

8

Datenpannen (Cyberrisiken)

³²

8.3 Daten . . . 32

9

Risikokapitalberechnung unter Solvency II

34 9.1 Steckbrief . . . 34

9.3 Daten . . . 34

10

Kreditdaten Deutschland

³⁶ 10.1 Steckbrief . . . 36

10.3 Daten . . . 36

11

Schadenf¨ alle Autoversicherung (Insurance Claims)

38 11.1 Steckbrief . . . 38

11.3 Daten . . . 38

12

Wahrscheinlichkeitstafeln PKV

40 12.1 Steckbrief . . . 40

12.3 Daten . . . 40

13

Statistik Erstversicherungsunternehmen Deutschland

⁴² 13.1 Steckbrief . . . 42

13.3 Daten . . . 42

13.4 Beispiele . . . 42

14

Social Policy and Law Shared Database (SPLASH)

44 14.1 Steckbrief . . . 44

14.3 Beispiele . . . 44

15

Globale Entwicklungsdaten

⁴⁶ 15.1 Steckbrief . . . 46

15.3 Daten . . . 46

15.4 Beispiele . . . 46

3

(4)

16

Insurance Fact Book

⁴⁸

16.3 Daten . . . 48

16.4 Beispiele . . . 48

Literaturverzeichnis 50

(5)

1 Human Mortality Database (HMD)

1.1 Steckbrief

Art Mortalit¨atsraten und Sterbetafeln verschiedener Staaten.

Quelle https://www.mortality.org

Datenformat Tabulatorengetrennte Text Dateien (ASCII).

Sprache Englisch.

Verf¨ugbarkeit Registrierung via E-Mail.

Dateiumfang Je nach Tafel unterschiedlich.

Zeithorizont Je nach Land unterschiedlich, 1950-2015 in der Regel abgedeckt.

1.2 Beschreibung

Diese Datenbank enth¨alt detaillierte Populationskennzahlen sowie Sterblichkeitsdaten aus 41 L¨andern/Gebieten.

Darunter befinden sich hauptsächlich europäische Staaten wie Deutschland, UK und Italien, und andere bekannte Länder aus aller Welt wie etwa Australien, Japan, USA etc. Für jedes Land wird eine eigene Seite geöffnet, wo alle verfügbaren Daten und Informationsdokumente zu finden sind.

Die Autoren haben verschiedene Methoden genutzt - welche auf der Website genauer beschrieben werden - um Rohdaten zu bearbeiten und vorzubereiten. Diese Daten stammen haupts¨achlich von nationalen Statistik¨amtern und wurden zum Zwecke der HMD-Berechnungen in bestimmtem Ausmaß bearbeitet.

Zu jedem Land gibt es folgende vier Dokumente:

Das Dokument Background and Documentation beinhaltet grundlegende Informationen in Bezug auf die Bev¨olkerung im jeweiligen Land.

Das DokumentNotes umfasst spezifische Informationen zu bestimmten Datenpunkten.

Die DokumenteData sources undReference beinhalten eine Liste der Datenquellen der benutzten Rohdaten.

Letzteres verf¨ugt dabei ¨uber spezifischere Referenzen von Datenpunkten.

1.3 Daten

Die Daten können auf der Seite als tabulatorengetrennte Text Datei (ASCII) geöffnet werden. Die meisten nach- stehend beschriebenen Daten sind für verschiedene Altersgruppen und Jahre verfügbar. Die zeitliche Abdeckung unterscheidet sich von Land zu Land. Folgende Daten sind in der HMD zu finden:

Geburtenzahl.

Sterbezahl.

Gesamtbev¨olkerung am 1. Januar.

Gesch¨atzte Bev¨olkerungsanzahl, die dem Sterberisiko ausgesetzt ist.

Sterberaten (Periode & Kohorte).

Sterbetafeln (Periode & Kohorte; weiblich, m¨annlich und insgesamt), inkl. Lebenserwartung. Des Weiteren beinhalten die Sterbetafeln folgende Variablen:

5

(6)

– Jahr.

– Alter.

– m(x): Zentrale Sterberate zwischen Alterxund Alterx+n(n= 1,5,10).

– q(x): Sterbewahrscheinlichkeit zwischen Alterxund Alterx+n.

– a(x): Durchschnittliche ¨Uberlebensdauer zwischen Alter xund Alterx+n f¨ur Personen, die in diesem Intervall sterben.

– l(x): Anzahl ¨Uberlebender zum exakten Alter x, angenommen dassl(0) = 100000.

– d(x): Anzahl Toter zwischen Alterxund Alterx+n.

– L(x): Von den Personen zwischen Alterxundx+ndurchlebte Jahre.

– T(x): Anzahl durchlebter Jahre von den Personen ¨alter alsx.

– e(x): Lebenserwartung im Alterx(in Jahren).

1.4 Bemerkungen

Es sei an dieser Stelle bemerkt, dass im Allgemeinen Rohdaten bezüglich Sterblichkeit und Bevölkerung beim jeweiligen nationalen Statistikamt verfügbar sind. Als Beispiel hierfür seien an dieser Stelle die folgenden Beispiele genannt:

Deutschland,Bundesamt f¨ur Statistik.

UK,Office for National Statistics.

Italien,Istat.

Auf EU-Basis besteht mitEurostateine sehr gute Datenbank wenn es um Populations-, Mortalit¨atsgr¨oßen, weitere soziale oder demographische Statistiken auf Regionalebene geht.

1.5 Beispiele

Beispiel Anzahl Geburten Deutschland (1990-)

(7)

Beispiel Sterbetafel Australien (1921-)

1.6 Literatur

Der Datensatz kommt in unz¨ahligen Ver¨offentlichungen vor. Um eine umfassende Arbeit zu Sterblichkeitsmodellen zu nennen, sei hier die Doktorarbeit von A. Villegas genannt [Ram15].

7

(8)

2 Strommarktdaten (SMARD)

2.1 Steckbrief

Art Strommarktdaten.

Quelle SMARD, bzw. dieDaten.

Datenformat CSV, XLS, XML.

Sprache Deutsch, Englisch.

Verf¨ugbarkeit Keine Registrierung notwendig.

Dateiumfang Je nach Datei unterschiedlich, z.B. csv Datei mit 1000 Zeilen, 10 Tagen Daten zu 50 KB.

Zeithorizont Ab Januar 2015, maximal 2 Jahre am St¨uck zum Download. (Stand: Mai 2021).

2.2 Beschreibung

SMARD stellt Strommarktdaten für Deutschland und teilweise auch für Europa nahezu in Echtzeit zur Verfügung.

Daten wie Erzeugung, Verbrauch, Im- und Export und Daten zu Regelenergie können für unterschiedliche Zeiträume ermittelt und kombiniert werden.

Des Weiteren k¨onnen die Daten im Bereich ’Marktdaten visualisieren’ als Grafik oder in einer Tabelle dargestellt werden.

2.3 Daten

Die Datenbank umfasst einerseits Marktdaten, andererseits Kraftwerksdaten.

2.3.1 Marktdaten

In diesem Bereich k¨onnen Erzeugungsdaten aller Energietr¨ager sowie weitere Datenkategorien zum Strommarkt gefunden werden. Diese sind:

Oberkategorie: Stromerzeugung, Stromverbrauch, Markt, Systemstabilit¨at,

Datenkategorie (unterschiedlich je nach Oberkategorie),

Land/Regelzone,

Zeitraum (von maximal 2 Jahren),

Dateiformat,

2.3.2 Kraftwerksdaten

Im Bereich Kraftwerksdaten sind Erzeugungsdaten f¨ur alle Erzeugungseinheiten mit einer installierten Erzeugungs- leistung von mindestens 100 MW zu finden. Diese sind:

Kraftwerk,

Zeitraum (von maximal 2 Jahren),

Dateiformat,

(9)

2.4 Variablen

Die Variablen hängen stark vom ausgewählten Datensatz ab. Als Beispiel, welche Variablen in einem Datensatz vorkommen können, wird auf den folgenden Absatz verwiesen.

2.5 Beispiele

Ein paar Beispiele k¨onnen im Folgenden eingesehen werden:

Beispiel Marktdaten Folgende Filterauswahl

ergibt diesen Output:

Die hier enthaltenen Variablen sind Datum und Uhrzeit, Biomasse, Wasserkraft, Wind Offshore, Wind Onshore, Photovoltaik, Sonstige Erneuerbare, Kernenergie, Braunkohle, Steinkohle, Erdgas, Pumpspeicher, Sonstige Konven- tionelle (alle in MWh).

9

(10)

Beispiel Kraftwerksdaten Folgende Filterauswahl

ergibt diesen Output:

2.6 Weitere Quellen Energiem¨ arkte

Weitere frei zug¨angliche Quellen zu Energiem¨arkten sind hier aufgelistet:

Energy-Charts: (interaktive) Grafiken zu Stromproduktion und B¨orsenstrompreisen.

entsoe: Daten ¨uber Stromerzeugung; Transport, Verbrauch und Vorhersage von Energiedaten verschiedener europ¨aischer Staaten.

Agentur f¨ur erneuerbare Energie: Energie(markt)daten Deutschland, auch auf Bundesl¨anderebene.

TenneT: Daten zum H¨ochstspannungsnetz.

Transnet BW: Daten von einem ¨Ubertragungsnetzbetreiber.

eia: Daten zum US Energiemarkt (Produktion, Handel, etc).

Fraunhofer ISE: Daten zu erneuerbaren Energien.

Open Power System Data: Daten zu Energiem¨arkten, Zeitreihen zu Wind- und Solarpreisen, Haushaltsdaten und Wetterdaten.

(11)

2.7 Literatur

Der Datensatz kommt u.a. im Dezember 2019 erschienenen Artikel

Risikomanagement in der energieorientierten Produktionsplanung und -steuerung von Roth und Reinhart vor [RR19].

11

(12)

3 Danish Fire Insurance Claims

3.1 Steckbrief

Art Brandschutzversicherung Schadenssumme.

Quelle SoftwareR, Packagefitdistrplus (Datens¨atze:danishuni, danishmulti).

Datenformat Liste inR.

Sprache Englisch.

Verf¨ugbarkeit Installieren und Laden des Package inR.

Dateiumfang 2167 Zeilen, 2 bzw. 5 Spalten.

Zeithorizont 1980-1990 (Stand: Mai 2021).

3.2 Beschreibung

Im Packagefitdistrplus gibt es zwei Datens¨atze zur d¨anischen Brandschutzversicherung. Der eine ist univariat, der zweite multivariat.

Der univariate Datensatz beinhaltet 2167 Sch¨aden im Zeitabschnitt 1980 bis 1990. Diese sind inflationsbereinigt und in Million D¨anischer Kronen gelistet.

Der multivariate Datensatz ber¨ucksichtigt dieselben Datenpunkte wie eben. Allerdings wurde der Gesamtschaden unterteilt in building loss, content loss und profit loss.

3.3 Daten

Der univariate Datensatz hat 2 Spalten, das Datum Date ist in der ersten Spalte gelistet, der dazugeh¨orige SchadenLoss in der zweiten. Beide Variablen sind vom Typdouble.

Dermultivariate Datensatzumfasst 5 Spalten,Dateverweist auf das Datum des Ereignisses (day of occurrence), Building auf die Schadenssumme bzgl. des Geb¨audes,Contents auf die Schadenssumme der Inhalte,Profits auf die Schadenssumme aus Profitabdeckung undTotal auf die Gesamtschadensumme. All diese Variablen sind vom Typ double.

3.4 Variablen

Univariater Satz:Die VariableLoss hat folgende Merkmale:

Minimum: 1,00, Mittelwert: 3,385, Maximum: 263,25.

Stark rechtsschief - es treten nur sehr wenige, extreme Sch¨aden auf.

Das empirische 99%-Quantil ist 26,04253.

(13)

Multivariater Satz:Die Variablen haben folgende Merkmale:

Building Contents Profits Total

Minimum 0,0 0,0 0,0 1,0

Mittelwert 1,824 1,31854 0,24214 3,385

Maximum 152,413 132,0132 61,93265 263,25

Schiefe rechtsschief rechtsschief rechtsschief rechtsschief 99%-Quantil 10,70365 15,40274 4,2337 26,04253 Ein Auszug aus dem Datensatz schaut wie folgt aus:

3.5 Bemerkungen

Der univariate Datensatz kann auch ¨uber das Package evir aufgerufen werden. In diesem Fall ist das Datum als Attribut und nicht als Spalte vorhanden.

3.6 Literatur

Der Datensatz kommt in mehreren wissenschaftlichen Publikationen vor, u.a. in

Modeling loss data using mixtures of distributions, [MG16], undModeling actuarial data with a composite lognormal- Pareto model, [KM05].

13

(14)

4 Versicherungspr¨ amien nach L¨ andern

4.1 Steckbrief

Art Versicherungspr¨amien verschiedener L¨ander.

Quelle OECD.Stat.

Datenformat Excel, CSV, PC-axis, Developer API, SDMX (XML).

Sprache Englisch.

Dateiumfang Je nach Datensatz unterschiedlich, z.B. 1604 Zeilen, 15 Spalten, 182 KB.

4.2 Beschreibung

Die Website OECD stellt verschiedene Datensätze zu Versicherungsprämien zur Verfügung. Die Statistiken umfassen eine Reihe europäischer Staaten sowie eine Auswahl verschiedener Staaten der Welt. Genauere Infos zum jeweiligen Datensatz sind über ein Infomationsfenster abrufbar.

Alle Datensätze haben einen Wert pro Land und Jahr (1983-2019). Dieser Wert ist in Mio. US-Dollar gegeben und wurde über den jeweiligen Endjahreswechselkurs aus der entsprechenden Währung in diese Einheit umgerechnet.

Neben den im Steckbrief genannten Ausgabemöglichkeiten verfügt die Seite auch über eine direkte Anzeige der Daten in Tabellenformat.

4.3 Daten

Die OECD verfügt über diverse Versicherungsmarktdaten, bezüglich Prämien sind insbesondere folgende Datensätze zu nennen:

Bruttopr¨amien, sparten¨ubergreifend.

Pr¨amien (brutto, netto, zediert) jeweils f¨ur Non-life und Life, wobei je Sparte noch nach Unterart der Versi- cherung unterschieden werden kann.

Verschiedene Kennzahlen zu Marktanteilen.

Die Verf¨ugbarkeit der Daten ist je nach Land unterschiedlich.

4.4 Beispiel

Als Beispiel sei hier der Datensatz gegeben, der die spartenspezifischen Pr¨amien in Mio. US-Dollar angibt nach

Land,

Jahr,

Pr¨amienart (brutto, netto, zediert),

Erst- oder R¨uckversicherung oder beides,

10 Unterklassen in der Non-life Sparte.

(15)

Ein möglicher Datenauszug für Bruttoprämien im Jahr 2018 im Sektor Erstversicherung schaut wie folgt aus:

4.5 Bemerkungen

Auf der OECD-Seite sind weitere interessante Zahlen zu Versicherungsgeschäften der ausgewählten Länder zu finden.

Darunter finden sich auch Statistiken zu Pensionsfonds, vor allem zu deren Investments und Assets.

15

(16)

5 CAS Datasets (Computational Actuarial Science with R)

Das R-package CASdatasets umfasst eine große Menge an Versicherungsdatensätzen. Ursprünglich wurde diese Sammlung an Datensätzen für das Buch’Computational Actuarial Science with R’ von Arthur Charpentier erstellt.

Das pdf, welches genauere Beschreibungen zu allen Datensätzen enthält, isthierzu finden. Im Folgenden sind eine Reihe von interessanten Datensätzen aus dieser Sammlung aufgelistet und beschrieben. Dabei handelt es sich vor allem um Sätze zur Sparte Nicht-Leben.

Der Erdbebensatz enth¨alt einen Link, welcher viel genauere Daten zu Erdbeben enth¨alt (5.3.4).

Bestimmte Datens¨atze aus dem R-package werden unter anderem in den Actuarial Data Science Tutorien der Schweizer Aktuarsvereinigung verwendet (Link).

5.1 Naturkatastrophen Australien

5.1.1 Steckbrief

Art Katastrophenereignisse in Australien.

Quelle SoftwareR, PackageCASdatasets (Datensatz: auscathist).

Datenformat Dataframe inR.

Sprache Englisch.

Dateiumfang 206 Zeilen, 9 Spalten.

5.1.2 Beschreibung

Dieser Datensatz inR umfasst die Statistik der Naturkatastrophen in Australien zwischen 1967 und 2014.

5.1.3 Daten

Das Dataframe umfasst 206 Zeilen und 9 Spalten. Die Spaltenkategorien sind die folgenden:

Year: numerische Variable f¨ur das Jahr.

Quarter: numerische Variable f¨ur das Quartal in diesem Jahr.

FirstDay: Erster Tag der Katastrophe (Datumsobjekt).

LastDay: Letzter Tag der Katastrophe (Datumsobjekt).

Event: String, welcher das Event beschreibt.

Type: Nominale Variable, welche den Typ des Events beschreibt: ’Cyclone’, ’Earthquake’, ’Flood’, ’Flood,Storm’,

’Hailstorm’, ’Other’, ’Power outage’, ’Storm’, ’Tornado’, ’Weather’, ’Bushfire’.

Location: Beschreibung der Zone der Katastrophe.

OriginalCost: Uspr¨ungliche Kosten in Millionen Australische Dollar (AUD).

NormCost2011: Angepasste Kosten basierend auf Inflation, Wohlstands¨anderung und Bev¨olkerung.

(17)

NormCost2014: Angepasste Kosten aus dem Jahr 2011 basierend auf Inflation, gemessen am CPI (consumer price index).

Das Dataframe inR schaut wie folgt aus:

5.1.4 Aufrufen der Daten

Installieren der Packagessp,xts, zoo, danninstall.packages(’CASdatasets’, repos =

’http://dutangc.free.fr/pub/RRepos/’, type=’source’). Schließlich Aufrufen der Befehle library(CASdatasets) und data(auscathist).

17

(18)

5.2 Autoversicherung Australien

5.2.1 Steckbrief

Art Autoversicherung in Australien.

Quelle SoftwareR, Package CASdatasets (Datensatz:ausprivauto0405).

Sprache Englisch.

5.2.2 Beschreibung

Dieser Datensatz in R beinhaltet Datenpunkte zur Autohaftpflichtversicherung. Es handelt sich um australische Vertr¨age unterschiedlicher Vetragslaufzeiten von maximal einem Jahr, wobei nicht jeder Vertrag einen gemeldeten Schadenfall umfasst.

5.2.3 Daten

Das Dataframe umfasst 67856 Zeilen (1 pro Vertrag) und 9 Spalten. Von den 67856 Vertr¨agen verzeichnen 4624 mindestens einen Schadenfall.

Die Spaltenkategorien sind die folgenden:

Exposure: Vertragslaufzeit ( ≤1 Jahr).

VehValue: Fahrzeugwert in 1000 Australischen Dollar.

VehAge: Altersklasse Fahrzeug.

VehBody: Fahrzeugstyp.

Gender: Geschlecht des Versicherungsnehmers.

DrivAge: Alter des Versicherungsnehmers.

ClaimOcc: Auftreten mind. eines Schadenfalles (0-1).

ClaimNb: Anzahl der Sch¨aden innerhalb des Vertrages.

ClaimAmount: Schadensumme aller Sch¨adenf¨alle des Vertrages.

(19)

’http://dutangc.free.fr/pub/RRepos/’, type=’source’). Schließlich Aufrufen der Befehle library(CASdatasets) und data(ausprivauto0405).

5.2.5 Literatur

Der Datensatz kommt z.B. inGeneralized Linear Models for Insurance Data, [HDJ08], vor.

19

(20)

5.3 Erdbeben

5.3.1 Steckbrief

Art Liste von Erdbeben (Mag.>6).

Quelle Software R, Package CASdatasets (Datensatz:eqlist).

Sprache Englisch.

5.3.2 Beschreibung

Dieser Datensatz inRbeinhaltet eine detailreiche Auflistung aller (laut Packagedokumentation) Erdbeben weltweit mit einer St¨arke/Magnitude gr¨oßer oder gleich 6.

5.3.3 Daten

Das Dataframe umfasst 8425 Erdbeben, welche anhand von 16 Attributen klassifiziert werden. Die beschreibenden Kategorien sind die folgenden:

time: Datum des Erdbebens.

latitude: Breitengrad.

longitude: L¨angengrad.

depth: Tiefe (ohne angegebene Maßeinheit).

mag: Magnitude.

magType: Art der Magnitude.

nst, gap, dmin, rms, net, id, updated.

place: Ort des Erdbebens, Textform.

type.

day: Tag des Erdbebens, ohne Uhrzeit.

(21)

5.3.4 Bemerkungen

Die Daten kommen ursprünglich von Search Earthquake Catalog. Hier sind weit mehr Erdbebendaten zu finden (auch von geringerer Stärke als Magnitude ≥ 6). Des Weiteren können verschiedene Filter angewendet und das Eintreten der Erdbeben kann geographisch auf einer Landkarte eingesehen werden.

’http://dutangc.free.fr/pub/RRepos/’, type=’source’). Schließlich Aufrufen der Befehle library(CASdatasets) und data(eqlist).

21

(22)

5.4 Betriebsunterbrechung Frankreich

5.4.1 Steckbrief

Art Schadenf¨alle in der Betriebsunterbrechungsversicherung.

Quelle SoftwareR, PackageCASdatasets (Datensatz: frebiloss).

Sprache Englisch.

5.4.2 Beschreibung

Dieser Datensatz in R beinhaltet eine Liste von Schadenfällen in der Betriebsunterbrechung. Es sind nur Fälle enthalten, bei welchen der Schaden mindestens 100.000 französische Franken beträgt. Die Schadensummen wurden auch in Euro umgerechnet und in einer separaten Spalte notiert, wobei die Umrechnung auf Größen des Jahres 2007 zurückgeht.

5.4.3 Daten

Das Dataframe umfasst 2387 Betriebsunterbrechungen, welche anhand von folgenden Kategorien beschrieben werden:

Year: Jahr des Schadens.

OccurDate: Datum des Ereignisses.

PolicyID: Vertragsnummer.

ClaimID: Schadennummer.

ClaimCost: Urspr¨unglicher Schaden in franz. Franken.

TotalCost: Schaden + Kosten in franz. Franken.

ClaimCost2007: In (tausend) Euro umgerechneter Schaden.

TotalCost2007: Schaden + Kosten in (tausend) Euro umgerechnet.

(23)

’http://dutangc.free.fr/pub/RRepos/’, type=’source’). Schließlich Aufrufen der Befehle library(CASdatasets) und data(frebiloss).

5.4.5 Literatur

Der Datensatz kommt z.B. inExtreme Values in Business Interruption Insurance, [Zaj96], vor.

23

(24)

5.5 Hurrikan Historie Nordatlantik

5.5.1 Steckbrief

Art Historie von Hurrikans im Nordatlantik.

Quelle SoftwareR, PackageCASdatasets (Datensatz:hurricanehist).

Sprache Englisch.

5.5.2 Beschreibung

Dieser Datensatz inR beinhaltet eine Auflistung der Hurrikans (Wirbelst¨urme) im Nordatlantik.

5.5.3 Daten

Das Dataframe umfasst 2010 Wirbelst¨urme, welche anhand folgender Kategorien spezifiziert werden:

Year: Jahr des Sturms.

Region: Ort des Sturms (Basin, East, Florida, Gulf, US).

Windmax: Maximale Windst¨arke in Knoten (1kt = 0.51_sec^m = 1.85^km_h ).

NAO: North Atlantic Oscillation (NAO) Index als Indikator des Sturmes.

SOI: Southern Oscillation Index (SOI) als Indikator der El Nino-Southern Oszillation.

SST: Atlantic sea-surface temperature (SST) als Indikator der Sturmenergie.

SSTmda, sun.

’http://dutangc.free.fr/pub/RRepos/’, type=’source’). Schließlich Aufrufen der Befehle library(CASdatasets) und data(hurricanehist).

(25)

5.5.5 Literatur

Der Datensatz kommt inModeling tropical cyclone intensity with quantile regression, [JE09], vor.

25

(26)

5.6 Haftplichtversicherung Schadendreiecke Schweiz

5.6.1 Steckbrief

Art Kumulative Schadendreiecke Haftpflicht Schweiz.

Quelle SoftwareR, PackageCASdatasets (Datensatz:swtriangles).

Sprache Englisch.

Dateiumfang 2 Dreiecke, 10×10.

Zeithorizont Zeitunabh¨angig, 10 Schadenjahre, 10 Abwicklungsjahre (Stand: Mai 2021).

5.6.2 Beschreibung

Dieser Datensatz inR beinhaltet 2 Dreiecke mit kumulativen Daten zu Reserven und Schadenzahlungen.

5.6.3 Daten

Jede Zeile entspricht einem Schadenjahr, ¨uber die Spalten sind die Abwicklungsjahre aufgetragen. Maßeinheit ist keine gegeben.

’http://dutangc.free.fr/pub/RRepos/’, type=’source’). Schließlich Aufrufen der Befehle library(CASdatasets) und data(swtri1auto).

(27)

5.6.5 Bemerkungen

Weitere Daten zu Schadendreiecken sind in diesem Package mittels folgender Befehle aufzurufen:

data(sgautoprop9701), data(sgautoBI9301): Singapur, 2 Dreiecke, Kfz-Haftpflicht, inkrementelle Zahlungen.

data(nortritpl8800): Norwegen, 5 Dreiecke, Personensch¨aden, kumulative Zahlungen und Schadenanzahl.

data(fretri1auto9605), data(fretri2auto9605), data(fretri3auto9605), data(fretri4auto9403): fretriXautoYYZZ beinhaltet das Dreieck zur Xth line of business von YY bis ZZ. Für jeden der 4 Datensätze gibt es 3 ×2 Dreiecke, Reserve und Schadenzahlung für Sachschaden, Personenschaden und Totalschaden.

5.6.6 Literatur

Der Datensatz kommt u.a. vor in Estimation of Tail Development Factors in the Paid-Incurred Chain Reserving Method, [MW13].

27

(28)

6 Reiseversicherung

6.1 Steckbrief

Art Haftpflichtversicherung Reiseversicherung.

Quelle Kaggle,Daten.

Datenformat CSV.

Sprache Englisch.

Verf¨ugbarkeit Registrierung via E-Mail.

Dateiumfang 63.326 Zeilen, 11 Spalten (4,36 MB).

Zeithorizont k.A. (Stand: Mai 2021).

6.2 Beschreibung

Dieser Datensatz auf Kaggle beinhaltet Informationen zu Vertr¨agen einer Reiseversicherung aus Singapur. Dieser anonyme Datensatz umfasst unterschiedliche Vertragstypen bei verschiedenen Reiseagenturen und besitzt neben 10 Kovariablen eine Spalte mit Schaden eingetroffen oder nicht. Der Datensatz ist online einsehbar oder steht als csv-Datei zum Download bereit.

6.3 Daten

Die 63326 Vertr¨age werden durch folgende 11 Spalten klassifiziert:

Agency: Reiseagentur.

Agency type: Agenturentyp (Reise oder Airline).

Distribution channel: Vertrieb, online oder offline.

Product Name: Typ der Versicherung.

Claim: Schaden, ja/nein.

Duration: Reisedauer.

Destination: Reiseziel.

Net Sales: Keine genauere Angabe an dieser Stelle.

Commision (in value): Kommission an die Agentur.

Gender: Geschlecht der versicherten Person.

Age: Alter der versicherten Person.

(29)

Die Daten schauen (online) wie folgt aus:

6.4 Bemerkungen

Die Angaben zum Geschlecht sind sehr l¨uckenhaft (71% der Angaben fehlen bei dieser Variable).

6.5 Literatur

Der Datensatz kommt in mehreren Notebooks auf Kaggle vor. Zu finden ist die Liste dieserhierauf Kaggle.

29

(30)

7 Allgemeine Branchendaten deutscher Versicherungsmarkt

7.1 Steckbrief

Art Allgemeine Daten zur Versicherungswirtschaft in Deutschland.

Quelle GDV,Zahlen und Fakten.

Datenformat CSV/Excel.

Sprache Deutsch.

Dateiumfang Zahlreiche Tabellen kleinen Umfangs.

Zeithorizont Letzte Jahre/letztes Jahr, je nach Datensatz auch ¨altere Daten (Stand: Mai 2021).

7.2 Beschreibung

Die Webseite der GDV stellt j¨ahrlich aktualisierte Daten zur Versicherungsbranche zur Verf¨ugung. Diese umfassen die Gebiete Branchendaten, Lebensversicherung, Schaden- und Unfallversicherung und Kfz-Versicherung. Es handelt sich dabei um aggregierte Daten der GDV-Mitgliedsunternehmen aus dem letzten Jahr oder der letzten Jahre.

Hierbei sei erw¨ahnt, dass der Gesamtverband der Deutschen Versicherungswirtschaft (GDV) die Dachorganisation der privaten Versicherer in Deutschland ist und rund 460 Mitglieder mit fast 446 Millionen Versicherungsvertr¨agen umfasst.

Auf der GDV-Seite steht hier das Statistische Taschenbuch der Versicherungswirtschaft Jahr XXXX zum Pdf- Download zur Verf¨ugung. Der Inhalt ist hier etwas granularer als in den csv-Tabellen. Sollte der Link nicht funk- tionieren, ist das Pdf unterZahlen und Fakten - Publikationen zu finden.

7.3 Daten

In der folgenden Auflistung seien die Daten samt Unterkategorien aufgelistet, welche auf der GDV-Seite zu finden sind. Die meisten Kennzahlen beziehen sich auf das Vorjahr, an manchen Stellen sind l¨angere Zeithorizonte abgedeckt.

Branchendaten:

– Uberblick: Beitragsdaten, Anzahl Vertr¨¨ age.

– Versicherer: VU nach Sparten und Standorten.

– Erwerbst¨atige: Daten zu Besch¨aftigten in VU.

– Kapitalanlagen.

– Internationale Märkte: Stärkste Marktanteile nach Ländern.

Lebensversicherung:

– Uberblick: Generelle Kennzahlen.¨

– Renten- und Kapitalversicherungen: Beitrags- und Vertragszahlen.

– Risikoversicherung.

– Riester- und Basisrenten: Beitr¨age und Vertr¨age, letzte 10 Jahre.

– Betriebliche Altersversorgung: Best¨ande und Beitr¨age verschiedener Altersversorgungsfonds.

– Kapitalanlagen: Struktur und Nettoverzinsung.

(31)

Schaden- und Unfallversicherung:

– Uberblick: Kennzahlen zu unterschiedlichen Versicherungssparten.¨

– Wohngeb¨aude, Hausrat, Elementarschaden, Haftpflicht, Rechtsschutz, Kreditversicherung, Unfall, Nicht- Private Sach, Transport und Luftfahrt, Directors-and-Officers.

Kfz-Versicherung:

– Uberblick: Beitr¨¨ age, Leistungen und Schaden-Kosten-Quoten verschiedener Kfz-Versicherungstypen.

– Autodiebstahl: Nach Marke, Modell, Bundesland und Fahrzeugart.

– Schadenarten.

Als Beispiel, wie die Daten (online) ausschauen, sei hier an einer von drei Tabellen des Unterbereichs Hausratver- sicherung gezeigt:

7.4 Bemerkungen

Bei den Daten, die auch als csv-Dateien runtergeladen werden k¨onnen, sind auf der GDV-Seite jeweils Fußnoten und Quellen zu den einzelnen Tabellen zu finden.

Das statistische Taschenbuch der Versicherungswirtschaft steht ebenso in englischer Sprache zur Verf¨ugung. Hier kann es bei den verschiedenen Sprachen zu Unterschieden im Datum der Herausgabe kommen.

31

(32)

8 Datenpannen (Cyberrisiken)

8.1 Steckbrief

Art Daten zu Datenpannen in den USA.

Quelle Privacy Rights Clearinghouse,Datenpannen.

Datenformat CSV.

Sprache Englisch.

Dateiumfang 18889 Zeilen.

8.2 Beschreibung

Diese Webseite stellt eine Auflistung von Datenpannen in den USA zur Verfügung. U.A. beinhaltet der Datensatz Informationen zur Art der Datenpanne und eine genauere Beschreibung des Vorfalls. Daher ist die csv-Datei sehr textlastig und teilweise etwas unvorteilhaft formatiert (Zeilensprünge, mehrere Zeilen für einen Datenpunkt etc.).

Dessen sollte man sich bei der Nutzung bewusst sein.

8.3 Daten

Hier folgend seien die Spalten des Datensatzes genauer erkl¨art.

Date made public: Datum der Ver¨offentlichung der Panne.

Company: Betroffenes Unternehmen (manche in Anf¨uhrungszeichen gelistet, manche nicht).

City, State: Ort des Unternehmens.

Type of breach:

– CARD: Nicht gehackter Kartenbetrug (z.B. am Automaten).

– HACK: Von außen gehackt oder von Malware/Schadsoftware infiziert.

– INSD: Datenpanne von Insider kommend (Mitarbeiter, Kunde etc.).

– PHYS: Verlorene oder gestohlene physische Materialien (z.B. Papierdokumente).

– PORT: Tragbares Ger¨at, verloren, gestohlen o. ¨A. (z.B. Laptop).

– STAT: Station¨are Computerpanne (nicht mobiler Computer, z.B. kein Laptop).

– DISC: Ungewollte Ver¨offentlichung (z.B. ausversehen ver¨offentlicht, verschickt etc.).

– UNKN: Unbekannte Datenpanne.

Type of organization:

– BSF: Finanz- oder Versicherungsunternehmen.

– BSO: Andere Business-Unternehmen.

– BSR: Handelsunternehmen.

– EDU: Bildungseinrichtungen.

– GOV: Staat, Milit¨ar.

(33)

– MED: Gesundheitswesen/-¨amter/-unternehmen.

– NGO: Non-profit Unternehmen.

– UNKN: Unbekannt.

Total Records: Datens¨atze/Aufzeichnungen (Zahl, mit oder ohne Anf¨uhrungszeichen).

Description of incident: Detailliertere Beschreibung der Panne, teilweise l¨angeres Textfeld.

Information Source, Source URL: Quelle.

Year of Breach, Latitude, Longitude: Weitere Angaben zur Panne und deren Unternehmen.

Damit eine Vorstellung des Datensatzes gewonnen werden kann, hier ein kleiner Ausschnitt:

8.4 Bemerkungen

Die Seite wurde (Stand Mai 2021) ¨uberarbeitet, daher kann es sein, dass der Link im Steckbrief veraltet ist.

8.5 Literatur

Der Datensatz wird u.A. in folgendem Paper benutzt:Cyber Risk Management: an actuarial point of view, [Car+19].

33

(34)

9 Risikokapitalberechnung unter Solvency II

9.1 Steckbrief

Art Daten aus einem DAV Use Case zur SCR-Berechnung.

Quelle Aktuar.de,Use Case,Github mit Daten.

Datenformat CSV.

Sprache Deutsch/Englisch.

Dateiumfang 8 csv-Dateien pro 3 Portfolios, insgesamt ca. 30 MB.

Zeithorizont Fiktiv, f¨ur diesen Use Case erzeugt. (Stand: Mai 2021).

9.2 Beschreibung

In der Fallstudie wird bei der SCR-Berechnung unter Solvency II der klassische Least Squares Monte Carlo-Ansatz mit neuronalen Netzen verglichen. Hierf¨ur wurden realistische Projektionsdaten von drei im Rahmen dieses Use Case aufbereiteten Lebensversicherungs- und Krankenversicherungsportfolios erzeugt. Die genaue Beschreibung der Fallstudie ist unter dem im Steckbrief aufgef¨uhrten Link zu finden.

Die für die Fallstudie generierten Datensätze sind 8 pro Portfolio, wovon es wiederum 3 gibt. Man sollte im Hinterkopf behalten, dass es sich um Datensätze handelt, welche für eine Anwendung eines neuronalen Netzwerkes hergenommen werden.

9.3 Daten

Im Folgenden werden die Datens¨atze pro Portfolio genauer erkl¨art.

train input.csv, train result.csv: Fitting-Datenset f¨ur das Training. Ungenaue Auswertungen der Bilanzposi- tionen von einer Vielzahl von Risiko-Szenarien. Own Funds (Output) als Teil der gestressten Marktwertbilanz in den entsprechenden Szenarien.

validation input.csv, validation result.csv: Zur Überprüfung der Güte der Trainingsresultate gibt es dieses sogenannte Out Of Sample Validation Set bestehend aus 256 Szenarien.

stderror validation.csv: Für jedes Szenario der Standardfehler als Maß für die Ungenauigkeit des zugrundelie- genden Schätzers.

nested input.csv, nested result.csv: Alternativer Validationsdatensatz.

stderror nested.csv: Standardfehler dieser letzteren Validierung.

(35)

Als Beispielsdatensatz ist hier ein Ausschnitt des validation input.csv-Datensatzes aufgef¨uhrt:

9.4 Literatur

Der Datensatz wird wie weiter oben erw¨ahnt in der DAV-Fallstudie verwendet, diehierzu finden ist.

35

(36)

10 Kreditdaten Deutschland

10.1 Steckbrief

Art Deutscher Kredit-Datensatz.

Quelle data.world.

Datenformat CSV oder Dataframe inR.

Sprache Englisch.

Verf¨ugbarkeit Registrierung notwendig.

Dateiumfang 1000 Zeilen, 21 Spalten, 14 KB.

Zeithorizont Keine Angabe (Stand Mai 2021).

10.2 Beschreibung

Dieser Datensatz klassifiziert mittels einer Reihe an Attributen Kunden als gute oder schlechte Kreditrisiken. Es werden datensatzinterne Schl¨ussel zur Beschreibung der Kategorien verwendet, weshalb es notwendig ist, unter dem verwiesenen Link die Bezeichnung dieser Kategorien nachzulesen (siehe z.B. die ’A-Werte’ im Screenshot).

10.3 Daten

Das Dataframe umfasst 1000 Datenpunkte und 21 Variablen, von denen einige im Folgenden genauer erl¨autert werden (f¨ur die weiteren Variablen sei auf die angegebene Quelle verwiesen):

checking status: Status des Girokontos.

duration: Dauer des Kredits in Monaten.

credit history: Angabe ¨uber R¨uckzahlungen in der Vergangenheit.

purpose: Verwendung des Kredits (z.B. Autokauf, Urlaub, etc.).

credit amount: Kredith¨ohe in DM.

installment rate: Anzahl Zahlungsraten.

personal status: Angabe ¨uber Geschlecht und Zivilstand des Kreditnehmers.

housing: Wohnzustand.

job: Arbeitsverh¨altnis.

class: kreditw¨urdig ja/nein (0/1).

(37)

Die csv-Datei schaut wie folgt aus:

10.4 Bemerkungen

Beim Download des Datensatzes wird eine weitere csv-Datei runtergeladen, welche sich dann f¨ur Algorithmen eig- net, die numerischer Variablen bed¨urfen.

Dieser Datensatz ist auch Teil desR-PackagesCASdatasets, worunter zahlreiche versicherungstechnische Datens¨atze enthalten sind. Einige davon sind in diesem Dokument gelistet, die vollst¨andige Auflistung isthierzu finden.

Aufrufen der Daten:Installieren der Packagessp,xts,zoo, danninstall.packages(’CASdatasets’, repos =

’http://dutangc.free.fr/pub/RRepos/’, type=’source’). Schließlich Aufrufen der Befehle library(CASdatasets) und data(credit).

10.5 Literatur

Der Datensatz wird u.A. in folgendem Buch benutzt:Data Mining and Statistics for Decision Making, [Tuf11].

37

(38)

11 Schadenf¨ alle Autoversicherung (Insurance Claims)

11.1 Steckbrief

Art Schadenf¨alle in der Autoversicherung mit F¨ulle an Kovariablen.

Quelle Kaggle,Daten.

Datenformat CSV.

Sprache Englisch.

Dateiumfang 1000 Zeilen, 39 Spalten, 260,7 KB.

Zeithorizont Januar-Februar 2015 (Stand Mai 2021).

11.2 Beschreibung

Zum Datensatz gehören Schadenfälle aus der Autoversicherung einzelner US-Bundesstaaten, nämlich Indiana, Ohio und Illinois. Enthalten ist eine große Menge an Variablen inklusive Schadensumme. Währung ist keine angegeben, vermutlich handelt es sich um US Dollar.

11.3 Daten

Der Datensatz umfasst 1000 Datenpunkte und 39 Variablen, von denen einige im Folgenden aufgelistet bzw. genauer erl¨autert werden (f¨ur die weiteren Variablen sei auf die angegebene Quelle verwiesen):

months as customer: Anzahl Monate als Kunde.

age: Alter zwischen 19 und 64, ann¨ahernd normalverteilt.

policy number, policy state.

policy deductible: Selbstbehalt, zwischen 500 und 2000.

policy annual premium (ann¨ahernd normalverteilt), insured sex.

umbrella limit: Manche Vertr¨age beinhalten eine Schadensobergrenze.

insured educational level: (Ausbildungs-)Abschluss des Versicherten, 7 verschiedene Kategorien.

insured occupation: Beruf des Versicherten, 14 Kategorien.

insured hobbies, insured relationship, incident date.

incident type, collision type: Diebstahl, Einzelunfall, Unfall mit mehreren Fahrzeugen, geparktes Auto und f¨ur Unfall Art des Aufpralls.

incident severity (4 Kategorien), authorities contacted, number of vehicles involved, property damage (Ja/Nein/kA), bodily injuries, witnesses

incident state, incident city, incident location: Ort des Schadenfalles.

total claim amount, injury claim, property claim, vehicle claim, auto make, auto model, auto year.

(39)

Die umgeformte csv-Datei schaut wie folgt aus:

11.4 Bemerkungen

Die Spalten collision type, property damage und police report available weisen vereinzelt L¨ucken auf.

11.5 Literatur

Der Datensatz kommt in mehreren Notebooks auf Kaggle vor. Zu finden ist diese Liste dieserhier auf Kaggle.

39

(40)

12 Wahrscheinlichkeitstafeln PKV

12.1 Steckbrief

Art Wahrscheinlichkeitstafeln in der privaten Krankenversicherung.

Quelle BaFin,Daten.

Datenformat Excel/CSV.

Sprache Deutsch.

Dateiumfang 4 Exceltabellen, 1 PDF-Datei, insgesamt 597,7 KB f¨ur 2018.

Zeithorizont 2002-2018 (Stand Mai 2021).

12.2 Beschreibung

Die Statistiken der BaFin enthalten u.A. genauere Daten zu Wahrscheinlichkeitstafeln und Schadenhöhen in der privaten Krankenversicherung. Dabei werden zu Ambulant-, Stationär-, Zahn- und Krankentagegeldtarifen Grund- kopfschäden und Profile jährlich veröffentlicht. Getrennt wird hierbei nach Geschlecht, Schwangerschaft und Mut- terschaft ja/nein und Beamte ja/nein. Zudem werden Stornotafeln zur PKV und GKV veröffentlicht.

Die Daten sind für das Jahr 2018 beispielsweise in 3 Excel-Tabellen zu finden, dazu gibt es eine Datei, welche die Variablen- und Spaltenerklärungen sowie weitere Erläuterungen liefert. Des Weiteren ist eine PDF-Datei zu finden, welche Grafiken der Datenreihen aus der DateiKRAWATTE 2018 Tafeln komplett.csv enthält.

12.3 Daten

Im Folgenden werden kurz die Dateien aus dem verf¨ugbaren Zip-Ordner beschrieben:

Erläuterungen.xlsx: Enthält Informationen zu den anderen Dokumenten und Erläuterungen der Spalten/Variablen.

KRAWATTE 2018 fSB ambulant.csv: Fiktive Selbstbehalte der Tafeln f¨ur den Ambulantbereich.

KRAWATTE 2018 GKS komplett.csv: Einj¨ahrige Grundkopfsch¨aden aller Tafeln.

KRAWATTE 2018 Tafeln komplett.csv: Normierte Profile, normierte rohe Kopfschäden, Kopfschadenreihen und Bestände für alle Tafeln.

KRAWATTE Kopfschadenreihen mit GKS 2018: Grafische Visualisierung der Tafeln aus der DateiTafeln komplett.

(41)

Als Beispiel sei hier ein Ausschnitt der DateiTafeln komplett gezeigt:

In der obersten Zeile (=Spaltenbeschriftung) sind hierbei verschiedene Kennzahlen zu den unterschiedlichen Lei- stungsarten gegeben.

12.4 Literatur

Der Datensatz kommt u.A. im Artikel Beitragsentwicklung und Verteilungseffekte der RfB in PKV-Best¨anden, [Neu16], vor.

12.5 Bemerkungen

Zur privaten Krankenversicherung gibt es weitere Quellen, die jährlich Fakten und Zahlen herausgeben. Mit dazu zählt auch der Verband der Privaten Krankenversicherung selbst (PKV), der jährlich einen Zahlenbericht zu über 100 Seiten im PDF-Format herausgibt. Darin zu finden sind ein Überblick der Branche, Versicherungsbestände, Erträge, Aufwendungen, Statistiken zur Tarifkalkulation und diverse Zeitreihen verschiedener Kennzahlen. Der Bericht isthierzu finden. Dabei ist eine Anmeldung notwendig, die Nutzung der Daten ist weiterhin kostenlos.

41

(42)

13 Statistik Erstversicherungsunternehmen Deutschland

13.1 Steckbrief

Art Statistik der BaFin - Erstversicherungsunternehmen.

Quelle BaFin,Daten.

Datenformat xlsx-Dateien/PDF.

Sprache Deutsch.

Dateiumfang 6 Exceltabellen, mehrere Tabellenbl¨atter, 1 PDF-Datei (75 Seiten in 2019), ges. ca. 3-4 MB/Jahr.

Zeithorizont 2001-2019 (Stand Mai 2021).

13.2 Beschreibung

Unter den Statistiken der BaFin finden sich auch eine Reihe an Datens¨atzen zu deutschen Erstversicherungsunter- nehmen und Pensionsfonds. Einer allgemeinen Erstversicherungsstatistik stehen spezifischere Tabellen pro Sparte gegen¨uber. Die Daten werden jedes Jahr herausgegeben, in Excel- und im PDF-Format.

13.3 Daten

Im Folgenden werden kurz die Dateien beschrieben, die jedes Jahr erscheinen:

BaFin-Erstversicherungsstatistik: Enthält eine Liste zu den Versicherungsunternehmen und Pensionsfonds unter Bundesaufsicht mit Angabe über Ort des VU und Bruttobeiträge. U.A. ist eine Zusammensetzung der Kapitalanlagen pro Sparte gegeben (siehe Beispiel).

Lebensversicherung, Pensionskassen, Krankenversicherung, Schaden- und Unfallversicherung, Pensionsfonds:

Zu all diesen Sparten sind in separaten Exceltabellen auf mehreren Tabellenbl¨attern aggregierte Kennzahlen gegeben.

Gesamtausgabe PDF: Daten zur Gesamtentwicklung, zu den einzelnen Sparten u.A. Beitrags- und Bestand- sentwicklung, R¨uckstellungen, Ertragslage, Eigenkapitalausstattung, Solvibilit¨at.

13.4 Beispiele

Als Beispiel sei hier die Zusammensetzung der Kapitalanlagen aus der DateiErstversicherungsstatistik gezeigt:

(43)

Als weiteres Beispiel seien ausgew¨ahlte Kennzahlen der Lebensversicherungsunternehmen aus der DateiLebensver- sicherungsunternehmen aufgef¨uhrt:

13.5 Literatur

Der Datensatz kommt u.A. im ArtikelDas System der betrieblichen Altersversorgung in Deutschland, [CF15], vor.

43

(44)

14 Social Policy and Law Shared Database (SPLASH)

14.1 Steckbrief

Art Sammlung ¨okonomischer und demographischer Daten, international.

Quelle SPLASH,Daten.

Datenformat Sehr heterogen.

Sprache Englisch.

Dateiumfang Ansammlung vieler Datenquellen und -verlinkungen.

Zeithorizont Nach Datensatz unterschiedlich (Stand Mai 2021).

14.2 Beschreibung

Diese Website ist eine Ansammlung verschiedener ökonomischer und demographischer Datensätze. Dabei werden Datensätze klassifiziert, kurz beschrieben und verlinkt. Die Kategorien sind

Demographic Indicators,

Education,

Family and Children,

Health,

Living Conditions,

Macroeconomic Indicators,

Migration,

Work and Retirement.

14.3 Beispiele

Um einen Eindruck der Gestaltung der Website zu bekommen, seien hier 3 Ausschnitte aufgef¨uhrt, zun¨achst die Ausgabe einer allgemeinen Suchabfrage, dann ein genauer beschriebener Datensatz in 2 Grafiken:

(45)

45

(46)

15 Globale Entwicklungsdaten

15.1 Steckbrief

Art Globale Daten zu Entwicklung und Armut.

Quelle The World Bank,Data Bank.

Datenformat Excel, CSV oder Tabbed TXT.

Sprache Englisch.

Dateiumfang 79 Datens¨atze/Indikatoren.

Zeithorizont 1960-2020, L¨ucken vorhanden, Aktualisierungsdatum unterschiedlich (Stand: Mai 2021).

15.2 Beschreibung

Die Weltbank (World Bank), eine multinationale Entwicklungsbank, stellt auf der oben verlinkten Website globale Entwicklungsdaten jeglicher Art zur Verfügung. Die Datenbanken werden teilweise nicht jährlich aktualisiert und enthalten unter Umständen Lücken.

In den verschiedenen Datens¨atzen gibt es unterschiedliche Variablen, die auch ausf¨uhrlich beschrieben werden.

15.3 Daten

Zu den Datenbanken z¨ahlen unter anderem

World Development Indicators (Weltweite Entwicklungsindikatoren),

Education Statistics (Ausbildungsstatistiken),

Health Nutrition and Population Statistics (Ern¨ahrungs- und Bev¨olkerungsstatistiken),

Jobs (Arbeitsstatistiken Arbeitnehmer, Unternehmen, etc.),

Worldwide Governance Indicators (politische Stabilit¨at, Korruption, Regulatorien, etc.),

Africa Infrastructure, und viele weitere.

15.4 Beispiele

Als Beispiel wird hier der DatensatzWorld Development Indicatorsaufgeführt. Dieser enthält über 1400 Zeitreihen pro Land/Ländergruppe zu mehreren Perioden. Die im Beispiel ausgewählten Kategorien sind den beiden Bildaus- schnitten bzgl. Mali und Europäischer Union zu entnehmen.

(47)

47

(48)

16 Insurance Fact Book

16.1 Steckbrief

Art Globale und US-spezifische Versicherungsdaten.

Quelle Insurance Information Institute,Daten 2019.

Datenformat PDF.

Sprache Englisch.

Verf¨ugbarkeit Keine Registrierung notwendig (f¨ur 2020-Version Registrierung notwendig).

Dateiumfang 2019-Version: 236 Seiten, 15,3 MB.

Zeithorizont 2017-2018 (Version 2019).

16.2 Beschreibung

Dieses

”Faktenbuch“ wird jährlich vomInsurance Information Institute herausgegeben. Es enthält zahlreiche aggregierte Versicherungsdaten, primär zum US-amerikanischen Versicherungsmarkt, teilweise unterteilt nach Bun- desstaat.

16.3 Daten

Die zahlreichenden Tabellen enthalten u.A. Informationen zu

Globalen und US-spezifischen Katastrophen,

Ergebnisse und Investments zur P&C und Lebens-/Krankenversicherung,

Schadenstypen,

R¨uckversicherungsdaten,

Pensionsversicherungen.

16.4 Beispiele

Als Beispiel seien hier zwei Ausschnitte gezeigt, einer zu den größten US-amerikanischen Lebensversicherungen gemessen an den direkten Prämien, und der andere zu den Schäden in der Kfz-Privatversicherung.

(49)

16.5 Bemerkungen

Insurance Factbooks gibt es auch weitere, hier sind noch welche aufgelistet:

Kanadischer Versicherungsmarkt,

US-amerikanische Lebensversicherungsdaten, ACLI (American Council of Life Insurers).

49

(50)

Literaturverzeichnis

[Car+19] Maria Francesca Carfora et al. “Cyber risk management: an actuarial point of view”. In: Journal of Operational Risk 4.14 (2019). webpage, pp. 77–103.

[CF15] Johannes Clemens and Till F¨orstemann. “Das System der betrieblichen Altersversorgung in Deutsch- land”. In:Wirtschaftsdienst 95 (2015).webpage, pp. 627–635.

[HDJ08] Gillian Heller and Piet De Jong.Generalized Linear Models for Insurance Data.Link zum Buch. Cam- bridge University Press, 2008.isbn: 13 978-0-511-38677-0.

[JE09] Thomas H. Jagger and James B. Elsner. “Modeling tropical cyclone intensity with quantile regression”.

In:International Journal of Climatology 29.10 (2009).webpage, pp. 1351–1361.

[KM05] Cooray Kahadawala and M.A. Ananda Malwane. “Modeling actuarial data with a composite lognormal- Pareto model”. In:Scandinavian Actuarial Journal 5 (2005).webpage, pp. 321–334.

[MG16] Tatjana Miljkovic and Bettina Gr¨un. “Modeling loss data using mixtures of distributions”. In:Insurance:

Mathematics and Economics 70 (2016).webpage, pp. 387–396.

[MW13] Michael Merz and Mario V. W¨uthrich. “Estimation of Tail Development Factors in the Paid-Incurred Chain Reserving Method”. In:Variance1.7 (2013).pdf, pp. 61–73.

[Neu16] Thomas Neusius. “Beitragsentwicklung und Verteilungseffekte der RfB in PKV-Best¨anden”. In: Zeit- schrift f¨ur die gesamte Versicherungswissenschaft 105 (2016).Artikel, pp. 171–190.

[Ram15] Andres M. Villegas Ramirez. “Mortality: Modelling, Socio-Economic Differences and Basis Risk”.pdf.

PhD thesis. City University London, 2015.

[RR19] Stefan Roth and Gunther Reinhart. “Risikomanagement in der energieorientierten Produktionsplanung und -steuerung”. In:Zeitschrift f¨ur wirtschaftlichen Fabrikbetrieb 114 (2019).webpage, pp. 823–.

[Tuf11] St´ephane Tuff´ery.Data Mining and Statistics for Decision Making. Link zum Buch. Wiley, 2011.isbn: 978-0-470-97916-7.

[Zaj96] Daniel Zajdenweber. “Extreme Values in Business Interruption Insurance”. In:The Journal of Risk and Insurance 63.1 (1996).webpage, pp. 95–110.