Datenbanken mit finanz- und versicherungsmathematischem Bezug:
Beschreibung und Zugriff auf kostenfreie Quellen
Stand: Mai 2021
Maximilian Euthum1, Prof. Dr. Ralf Korn2, Prof. Dr. Alfred M¨uller3, Prof. Dr. Matthias Scherer4
1Technische Universit¨at M¨unchen, Fakult¨at f¨ur Mathematik, Parkring 11, 85748 Garching–Hochbr¨uck, maximilian.euthum@tum.de
2Technische Universit¨at Kaiserslautern, Fachbereich Mathematik, Gottlieb-Daimler-Straße Geb¨aude 48, 67663 Kaiserslautern, korn@mathematik.uni-kl.de
3Universit¨at Siegen, Fakult¨at f¨ur Mathematik, Walter-Flex-Straße 3, 57068 Siegen, mueller@mathematik.uni-siegen.de
4Technische Universit¨at M¨unchen, Fakult¨at f¨ur Mathematik, Parkring 11, 85748 Garching–Hochbr¨uck, scherer@tum.de
Abstract
Um die praxisgerechte Ausbildung an Hochschulen zu unterst¨utzen und gleichzeitig Forschenden in den Bereichen der Finanz- und Versicherungsmathematik sowie Statistik und Data Science mit Bezug zur Finanz- und Versi- cherungswirtschaft Benchmark-Datens¨atze zur Verf¨ugung zu stellen, hat die DGVFM beschlossen, eine Sammlung geeigneter Datens¨atze aufzubauen. Das zugeh¨orige Projekt ist dem DGVFM-Ausschuss Forschung und Transfer zugeordnet, der hier durch die Vorstandsmitglieder Ralf Korn (TU Kaiserslautern), Alfred M¨uller (Univ. Siegen) und Matthias Scherer (TU M¨unchen) vertreten ist.
Das folgende Dokument gibt den aktuellen Stand einer Datensammlung wieder, die maßgeblich von Maximilian Euthum (TU M¨unchen) recherchiert und dokumentiert wurde. In diesem sind zahlreiche als geeignet identifizierte und frei verf¨ugbare Datens¨atze einheitlich beschrieben sowie die zugeh¨origen Quellen verlinkt. Hinweise auf m¨ogliche Erg¨anzungen werden gerne aufgenommen.
1
Inhaltsverzeichnis
1
Human Mortality Database (HMD)
51.1 Steckbrief . . . 5
1.2 Beschreibung . . . 5
1.3 Daten . . . 5
1.4 Bemerkungen . . . 6
1.5 Beispiele . . . 6
1.6 Literatur. . . 7
2
Strommarktdaten (SMARD)
8 2.1 Steckbrief . . . 82.2 Beschreibung . . . 8
2.3 Daten . . . 8
2.4 Variablen . . . 9
2.5 Beispiele . . . 9
2.6 Weitere Quellen Energiem¨arkte . . . 10
2.7 Literatur. . . 11
3
Danish Fire Insurance Claims
12 3.1 Steckbrief . . . 123.2 Beschreibung . . . 12
3.3 Daten . . . 12
3.4 Variablen . . . 12
3.5 Bemerkungen . . . 13
3.6 Literatur. . . 13
4
Versicherungspr¨ amien nach L¨ andern
14 4.1 Steckbrief . . . 144.2 Beschreibung . . . 14
4.3 Daten . . . 14
4.4 Beispiel . . . 14
4.5 Bemerkungen . . . 15
5
CAS Datasets (Computational Actuarial Science with R)
16 5.1 Naturkatastrophen Australien . . . 165.2 Autoversicherung Australien. . . 18
5.3 Erdbeben . . . 20
5.4 Betriebsunterbrechung Frankreich. . . 22
5.5 Hurrikan Historie Nordatlantik . . . 24
5.6 Haftplichtversicherung Schadendreiecke Schweiz . . . 26
6
Reiseversicherung
28 6.1 Steckbrief . . . 286.2 Beschreibung . . . 28
6.3 Daten . . . 28
6.4 Bemerkungen . . . 29
6.5 Literatur. . . 29
7
Allgemeine Branchendaten deutscher Versicherungsmarkt
30 7.1 Steckbrief . . . 307.2 Beschreibung . . . 30
7.3 Daten . . . 30
7.4 Bemerkungen . . . 31
8
Datenpannen (Cyberrisiken)
328.1 Steckbrief . . . 32
8.2 Beschreibung . . . 32
8.3 Daten . . . 32
8.4 Bemerkungen . . . 33
8.5 Literatur. . . 33
9
Risikokapitalberechnung unter Solvency II
34 9.1 Steckbrief . . . 349.2 Beschreibung . . . 34
9.3 Daten . . . 34
9.4 Literatur. . . 35
10
Kreditdaten Deutschland
36 10.1 Steckbrief . . . 3610.2 Beschreibung . . . 36
10.3 Daten . . . 36
10.4 Bemerkungen . . . 37
10.5 Literatur. . . 37
11
Schadenf¨ alle Autoversicherung (Insurance Claims)
38 11.1 Steckbrief . . . 3811.2 Beschreibung . . . 38
11.3 Daten . . . 38
11.4 Bemerkungen . . . 39
11.5 Literatur. . . 39
12
Wahrscheinlichkeitstafeln PKV
40 12.1 Steckbrief . . . 4012.2 Beschreibung . . . 40
12.3 Daten . . . 40
12.4 Literatur. . . 41
12.5 Bemerkungen . . . 41
13
Statistik Erstversicherungsunternehmen Deutschland
42 13.1 Steckbrief . . . 4213.2 Beschreibung . . . 42
13.3 Daten . . . 42
13.4 Beispiele . . . 42
13.5 Literatur. . . 43
14
Social Policy and Law Shared Database (SPLASH)
44 14.1 Steckbrief . . . 4414.2 Beschreibung . . . 44
14.3 Beispiele . . . 44
15
Globale Entwicklungsdaten
46 15.1 Steckbrief . . . 4615.2 Beschreibung . . . 46
15.3 Daten . . . 46
15.4 Beispiele . . . 46
3
16
Insurance Fact Book
4816.1 Steckbrief . . . 48
16.2 Beschreibung . . . 48
16.3 Daten . . . 48
16.4 Beispiele . . . 48
16.5 Bemerkungen . . . 49
Literaturverzeichnis 50
1 Human Mortality Database (HMD)
1.1 Steckbrief
Art Mortalit¨atsraten und Sterbetafeln verschiedener Staaten.
Quelle https://www.mortality.org
Datenformat Tabulatorengetrennte Text Dateien (ASCII).
Sprache Englisch.
Verf¨ugbarkeit Registrierung via E-Mail.
Dateiumfang Je nach Tafel unterschiedlich.
Zeithorizont Je nach Land unterschiedlich, 1950-2015 in der Regel abgedeckt.
1.2 Beschreibung
Diese Datenbank enth¨alt detaillierte Populationskennzahlen sowie Sterblichkeitsdaten aus 41 L¨andern/Gebieten.
Darunter befinden sich haupts¨achlich europ¨aische Staaten wie Deutschland, UK und Italien, und andere bekannte L¨ander aus aller Welt wie etwa Australien, Japan, USA etc. F¨ur jedes Land wird eine eigene Seite ge¨offnet, wo alle verf¨ugbaren Daten und Informationsdokumente zu finden sind.
Die Autoren haben verschiedene Methoden genutzt - welche auf der Website genauer beschrieben werden - um Rohdaten zu bearbeiten und vorzubereiten. Diese Daten stammen haupts¨achlich von nationalen Statistik¨amtern und wurden zum Zwecke der HMD-Berechnungen in bestimmtem Ausmaß bearbeitet.
Zu jedem Land gibt es folgende vier Dokumente:
Das Dokument Background and Documentation beinhaltet grundlegende Informationen in Bezug auf die Bev¨olkerung im jeweiligen Land.
Das DokumentNotes umfasst spezifische Informationen zu bestimmten Datenpunkten.
Die DokumenteData sources undReference beinhalten eine Liste der Datenquellen der benutzten Rohdaten.
Letzteres verf¨ugt dabei ¨uber spezifischere Referenzen von Datenpunkten.
1.3 Daten
Die Daten k¨onnen auf der Seite als tabulatorengetrennte Text Datei (ASCII) ge¨offnet werden. Die meisten nach- stehend beschriebenen Daten sind f¨ur verschiedene Altersgruppen und Jahre verf¨ugbar. Die zeitliche Abdeckung unterscheidet sich von Land zu Land. Folgende Daten sind in der HMD zu finden:
Geburtenzahl.
Sterbezahl.
Gesamtbev¨olkerung am 1. Januar.
Gesch¨atzte Bev¨olkerungsanzahl, die dem Sterberisiko ausgesetzt ist.
Sterberaten (Periode & Kohorte).
Sterbetafeln (Periode & Kohorte; weiblich, m¨annlich und insgesamt), inkl. Lebenserwartung. Des Weiteren beinhalten die Sterbetafeln folgende Variablen:
5
– Jahr.
– Alter.
– m(x): Zentrale Sterberate zwischen Alterxund Alterx+n(n= 1,5,10).
– q(x): Sterbewahrscheinlichkeit zwischen Alterxund Alterx+n.
– a(x): Durchschnittliche ¨Uberlebensdauer zwischen Alter xund Alterx+n f¨ur Personen, die in diesem Intervall sterben.
– l(x): Anzahl ¨Uberlebender zum exakten Alter x, angenommen dassl(0) = 100000.
– d(x): Anzahl Toter zwischen Alterxund Alterx+n.
– L(x): Von den Personen zwischen Alterxundx+ndurchlebte Jahre.
– T(x): Anzahl durchlebter Jahre von den Personen ¨alter alsx.
– e(x): Lebenserwartung im Alterx(in Jahren).
1.4 Bemerkungen
Es sei an dieser Stelle bemerkt, dass im Allgemeinen Rohdaten bez¨uglich Sterblichkeit und Bev¨olkerung beim jeweiligen nationalen Statistikamt verf¨ugbar sind. Als Beispiel hierf¨ur seien an dieser Stelle die folgenden Beispiele genannt:
Deutschland,Bundesamt f¨ur Statistik.
UK,Office for National Statistics.
Italien,Istat.
Auf EU-Basis besteht mitEurostateine sehr gute Datenbank wenn es um Populations-, Mortalit¨atsgr¨oßen, weitere soziale oder demographische Statistiken auf Regionalebene geht.
1.5 Beispiele
Beispiel Anzahl Geburten Deutschland (1990-)
Beispiel Sterbetafel Australien (1921-)
1.6 Literatur
Der Datensatz kommt in unz¨ahligen Ver¨offentlichungen vor. Um eine umfassende Arbeit zu Sterblichkeitsmodellen zu nennen, sei hier die Doktorarbeit von A. Villegas genannt [Ram15].
7
2 Strommarktdaten (SMARD)
2.1 Steckbrief
Art Strommarktdaten.
Quelle SMARD, bzw. dieDaten.
Datenformat CSV, XLS, XML.
Sprache Deutsch, Englisch.
Verf¨ugbarkeit Keine Registrierung notwendig.
Dateiumfang Je nach Datei unterschiedlich, z.B. csv Datei mit 1000 Zeilen, 10 Tagen Daten zu 50 KB.
Zeithorizont Ab Januar 2015, maximal 2 Jahre am St¨uck zum Download. (Stand: Mai 2021).
2.2 Beschreibung
SMARD stellt Strommarktdaten f¨ur Deutschland und teilweise auch f¨ur Europa nahezu in Echtzeit zur Verf¨ugung.
Daten wie Erzeugung, Verbrauch, Im- und Export und Daten zu Regelenergie k¨onnen f¨ur unterschiedliche Zeitr¨aume ermittelt und kombiniert werden.
Des Weiteren k¨onnen die Daten im Bereich ’Marktdaten visualisieren’ als Grafik oder in einer Tabelle dargestellt werden.
2.3 Daten
Die Datenbank umfasst einerseits Marktdaten, andererseits Kraftwerksdaten.
2.3.1 Marktdaten
In diesem Bereich k¨onnen Erzeugungsdaten aller Energietr¨ager sowie weitere Datenkategorien zum Strommarkt gefunden werden. Diese sind:
Oberkategorie: Stromerzeugung, Stromverbrauch, Markt, Systemstabilit¨at,
Datenkategorie (unterschiedlich je nach Oberkategorie),
Land/Regelzone,
Zeitraum (von maximal 2 Jahren),
Dateiformat,
2.3.2 Kraftwerksdaten
Im Bereich Kraftwerksdaten sind Erzeugungsdaten f¨ur alle Erzeugungseinheiten mit einer installierten Erzeugungs- leistung von mindestens 100 MW zu finden. Diese sind:
Kraftwerk,
Zeitraum (von maximal 2 Jahren),
Dateiformat,
2.4 Variablen
Die Variablen h¨angen stark vom ausgew¨ahlten Datensatz ab. Als Beispiel, welche Variablen in einem Datensatz vorkommen k¨onnen, wird auf den folgenden Absatz verwiesen.
2.5 Beispiele
Ein paar Beispiele k¨onnen im Folgenden eingesehen werden:
Beispiel Marktdaten Folgende Filterauswahl
ergibt diesen Output:
Die hier enthaltenen Variablen sind Datum und Uhrzeit, Biomasse, Wasserkraft, Wind Offshore, Wind Onshore, Photovoltaik, Sonstige Erneuerbare, Kernenergie, Braunkohle, Steinkohle, Erdgas, Pumpspeicher, Sonstige Konven- tionelle (alle in MWh).
9
Beispiel Kraftwerksdaten Folgende Filterauswahl
ergibt diesen Output:
2.6 Weitere Quellen Energiem¨ arkte
Weitere frei zug¨angliche Quellen zu Energiem¨arkten sind hier aufgelistet:
Energy-Charts: (interaktive) Grafiken zu Stromproduktion und B¨orsenstrompreisen.
entsoe: Daten ¨uber Stromerzeugung; Transport, Verbrauch und Vorhersage von Energiedaten verschiedener europ¨aischer Staaten.
Agentur f¨ur erneuerbare Energie: Energie(markt)daten Deutschland, auch auf Bundesl¨anderebene.
TenneT: Daten zum H¨ochstspannungsnetz.
Transnet BW: Daten von einem ¨Ubertragungsnetzbetreiber.
eia: Daten zum US Energiemarkt (Produktion, Handel, etc).
Fraunhofer ISE: Daten zu erneuerbaren Energien.
Open Power System Data: Daten zu Energiem¨arkten, Zeitreihen zu Wind- und Solarpreisen, Haushaltsdaten und Wetterdaten.
2.7 Literatur
Der Datensatz kommt u.a. im Dezember 2019 erschienenen Artikel
Risikomanagement in der energieorientierten Produktionsplanung und -steuerung von Roth und Reinhart vor [RR19].
11
3 Danish Fire Insurance Claims
3.1 Steckbrief
Art Brandschutzversicherung Schadenssumme.
Quelle SoftwareR, Packagefitdistrplus (Datens¨atze:danishuni, danishmulti).
Datenformat Liste inR.
Sprache Englisch.
Verf¨ugbarkeit Installieren und Laden des Package inR.
Dateiumfang 2167 Zeilen, 2 bzw. 5 Spalten.
Zeithorizont 1980-1990 (Stand: Mai 2021).
3.2 Beschreibung
Im Packagefitdistrplus gibt es zwei Datens¨atze zur d¨anischen Brandschutzversicherung. Der eine ist univariat, der zweite multivariat.
Der univariate Datensatz beinhaltet 2167 Sch¨aden im Zeitabschnitt 1980 bis 1990. Diese sind inflationsbereinigt und in Million D¨anischer Kronen gelistet.
Der multivariate Datensatz ber¨ucksichtigt dieselben Datenpunkte wie eben. Allerdings wurde der Gesamtschaden unterteilt in building loss, content loss und profit loss.
3.3 Daten
Der univariate Datensatz hat 2 Spalten, das Datum Date ist in der ersten Spalte gelistet, der dazugeh¨orige SchadenLoss in der zweiten. Beide Variablen sind vom Typdouble.
Dermultivariate Datensatzumfasst 5 Spalten,Dateverweist auf das Datum des Ereignisses (day of occurrence), Building auf die Schadenssumme bzgl. des Geb¨audes,Contents auf die Schadenssumme der Inhalte,Profits auf die Schadenssumme aus Profitabdeckung undTotal auf die Gesamtschadensumme. All diese Variablen sind vom Typ double.
3.4 Variablen
Univariater Satz:Die VariableLoss hat folgende Merkmale:
Minimum: 1,00, Mittelwert: 3,385, Maximum: 263,25.
Stark rechtsschief - es treten nur sehr wenige, extreme Sch¨aden auf.
Das empirische 99%-Quantil ist 26,04253.
Multivariater Satz:Die Variablen haben folgende Merkmale:
Building Contents Profits Total
Minimum 0,0 0,0 0,0 1,0
Mittelwert 1,824 1,31854 0,24214 3,385
Maximum 152,413 132,0132 61,93265 263,25
Schiefe rechtsschief rechtsschief rechtsschief rechtsschief 99%-Quantil 10,70365 15,40274 4,2337 26,04253 Ein Auszug aus dem Datensatz schaut wie folgt aus:
3.5 Bemerkungen
Der univariate Datensatz kann auch ¨uber das Package evir aufgerufen werden. In diesem Fall ist das Datum als Attribut und nicht als Spalte vorhanden.
3.6 Literatur
Der Datensatz kommt in mehreren wissenschaftlichen Publikationen vor, u.a. in
Modeling loss data using mixtures of distributions, [MG16], undModeling actuarial data with a composite lognormal- Pareto model, [KM05].
13
4 Versicherungspr¨ amien nach L¨ andern
4.1 Steckbrief
Art Versicherungspr¨amien verschiedener L¨ander.
Quelle OECD.Stat.
Datenformat Excel, CSV, PC-axis, Developer API, SDMX (XML).
Sprache Englisch.
Verf¨ugbarkeit Keine Registrierung notwendig.
Dateiumfang Je nach Datensatz unterschiedlich, z.B. 1604 Zeilen, 15 Spalten, 182 KB.
Zeithorizont 1983-2019 (Stand: Mai 2021).
4.2 Beschreibung
Die Website OECD stellt verschiedene Datens¨atze zu Versicherungspr¨amien zur Verf¨ugung. Die Statistiken um- fassen eine Reihe europ¨aischer Staaten sowie eine Auswahl verschiedener Staaten der Welt. Genauere Infos zum jeweiligen Datensatz sind ¨uber ein Infomationsfenster abrufbar.
Alle Datens¨atze haben einen Wert pro Land und Jahr (1983-2019). Dieser Wert ist in Mio. US-Dollar gegeben und wurde ¨uber den jeweiligen Endjahreswechselkurs aus der entsprechenden W¨ahrung in diese Einheit umgerechnet.
Neben den im Steckbrief genannten Ausgabem¨oglichkeiten verf¨ugt die Seite auch ¨uber eine direkte Anzeige der Daten in Tabellenformat.
4.3 Daten
Die OECD verf¨ugt ¨uber diverse Versicherungsmarktdaten, bez¨uglich Pr¨amien sind insbesondere folgende Datens¨atze zu nennen:
Bruttopr¨amien, sparten¨ubergreifend.
Pr¨amien (brutto, netto, zediert) jeweils f¨ur Non-life und Life, wobei je Sparte noch nach Unterart der Versi- cherung unterschieden werden kann.
Verschiedene Kennzahlen zu Marktanteilen.
Die Verf¨ugbarkeit der Daten ist je nach Land unterschiedlich.
4.4 Beispiel
Als Beispiel sei hier der Datensatz gegeben, der die spartenspezifischen Pr¨amien in Mio. US-Dollar angibt nach
Land,
Jahr,
Pr¨amienart (brutto, netto, zediert),
Erst- oder R¨uckversicherung oder beides,
10 Unterklassen in der Non-life Sparte.
Ein m¨oglicher Datenauszug f¨ur Bruttopr¨amien im Jahr 2018 im Sektor Erstversicherung schaut wie folgt aus:
4.5 Bemerkungen
Auf der OECD-Seite sind weitere interessante Zahlen zu Versicherungsgesch¨aften der ausgew¨ahlten L¨ander zu finden.
Darunter finden sich auch Statistiken zu Pensionsfonds, vor allem zu deren Investments und Assets.
15
5 CAS Datasets (Computational Actuarial Science with R)
Das R-package CASdatasets umfasst eine große Menge an Versicherungsdatens¨atzen. Urspr¨unglich wurde diese Sammlung an Datens¨atzen f¨ur das Buch’Computational Actuarial Science with R’ von Arthur Charpentier erstellt.
Das pdf, welches genauere Beschreibungen zu allen Datens¨atzen enth¨alt, isthierzu finden. Im Folgenden sind eine Reihe von interessanten Datens¨atzen aus dieser Sammlung aufgelistet und beschrieben. Dabei handelt es sich vor allem um S¨atze zur Sparte Nicht-Leben.
Der Erdbebensatz enth¨alt einen Link, welcher viel genauere Daten zu Erdbeben enth¨alt (5.3.4).
Bestimmte Datens¨atze aus dem R-package werden unter anderem in den Actuarial Data Science Tutorien der Schweizer Aktuarsvereinigung verwendet (Link).
5.1 Naturkatastrophen Australien
5.1.1 Steckbrief
Art Katastrophenereignisse in Australien.
Quelle SoftwareR, PackageCASdatasets (Datensatz: auscathist).
Datenformat Dataframe inR.
Sprache Englisch.
Verf¨ugbarkeit Installieren und Laden des Package inR.
Dateiumfang 206 Zeilen, 9 Spalten.
Zeithorizont 1967-2014 (Stand: Mai 2021).
5.1.2 Beschreibung
Dieser Datensatz inR umfasst die Statistik der Naturkatastrophen in Australien zwischen 1967 und 2014.
5.1.3 Daten
Das Dataframe umfasst 206 Zeilen und 9 Spalten. Die Spaltenkategorien sind die folgenden:
Year: numerische Variable f¨ur das Jahr.
Quarter: numerische Variable f¨ur das Quartal in diesem Jahr.
FirstDay: Erster Tag der Katastrophe (Datumsobjekt).
LastDay: Letzter Tag der Katastrophe (Datumsobjekt).
Event: String, welcher das Event beschreibt.
Type: Nominale Variable, welche den Typ des Events beschreibt: ’Cyclone’, ’Earthquake’, ’Flood’, ’Flood,Storm’,
’Hailstorm’, ’Other’, ’Power outage’, ’Storm’, ’Tornado’, ’Weather’, ’Bushfire’.
Location: Beschreibung der Zone der Katastrophe.
OriginalCost: Uspr¨ungliche Kosten in Millionen Australische Dollar (AUD).
NormCost2011: Angepasste Kosten basierend auf Inflation, Wohlstands¨anderung und Bev¨olkerung.
NormCost2014: Angepasste Kosten aus dem Jahr 2011 basierend auf Inflation, gemessen am CPI (consumer price index).
Das Dataframe inR schaut wie folgt aus:
5.1.4 Aufrufen der Daten
Installieren der Packagessp,xts, zoo, danninstall.packages(’CASdatasets’, repos =
’http://dutangc.free.fr/pub/RRepos/’, type=’source’). Schließlich Aufrufen der Befehle library(CASdatasets) und data(auscathist).
17
5.2 Autoversicherung Australien
5.2.1 Steckbrief
Art Autoversicherung in Australien.
Quelle SoftwareR, Package CASdatasets (Datensatz:ausprivauto0405).
Datenformat Dataframe inR.
Sprache Englisch.
Verf¨ugbarkeit Installieren und Laden des Package inR.
Dateiumfang 67856 Zeilen, 9 Spalten.
Zeithorizont 2004-2005 (Stand: Mai 2021).
5.2.2 Beschreibung
Dieser Datensatz in R beinhaltet Datenpunkte zur Autohaftpflichtversicherung. Es handelt sich um australische Vertr¨age unterschiedlicher Vetragslaufzeiten von maximal einem Jahr, wobei nicht jeder Vertrag einen gemeldeten Schadenfall umfasst.
5.2.3 Daten
Das Dataframe umfasst 67856 Zeilen (1 pro Vertrag) und 9 Spalten. Von den 67856 Vertr¨agen verzeichnen 4624 mindestens einen Schadenfall.
Die Spaltenkategorien sind die folgenden:
Exposure: Vertragslaufzeit ( ≤1 Jahr).
VehValue: Fahrzeugwert in 1000 Australischen Dollar.
VehAge: Altersklasse Fahrzeug.
VehBody: Fahrzeugstyp.
Gender: Geschlecht des Versicherungsnehmers.
DrivAge: Alter des Versicherungsnehmers.
ClaimOcc: Auftreten mind. eines Schadenfalles (0-1).
ClaimNb: Anzahl der Sch¨aden innerhalb des Vertrages.
ClaimAmount: Schadensumme aller Sch¨adenf¨alle des Vertrages.
Das Dataframe inR schaut wie folgt aus:
5.2.4 Aufrufen der Daten
Installieren der Packagessp,xts, zoo, danninstall.packages(’CASdatasets’, repos =
’http://dutangc.free.fr/pub/RRepos/’, type=’source’). Schließlich Aufrufen der Befehle library(CASdatasets) und data(ausprivauto0405).
5.2.5 Literatur
Der Datensatz kommt z.B. inGeneralized Linear Models for Insurance Data, [HDJ08], vor.
19
5.3 Erdbeben
5.3.1 Steckbrief
Art Liste von Erdbeben (Mag.>6).
Quelle Software R, Package CASdatasets (Datensatz:eqlist).
Datenformat Dataframe inR.
Sprache Englisch.
Verf¨ugbarkeit Installieren und Laden des Package inR.
Dateiumfang 8425 Zeilen, 16 Spalten.
Zeithorizont 1900-2014 (Stand: Mai 2021).
5.3.2 Beschreibung
Dieser Datensatz inRbeinhaltet eine detailreiche Auflistung aller (laut Packagedokumentation) Erdbeben weltweit mit einer St¨arke/Magnitude gr¨oßer oder gleich 6.
5.3.3 Daten
Das Dataframe umfasst 8425 Erdbeben, welche anhand von 16 Attributen klassifiziert werden. Die beschreibenden Kategorien sind die folgenden:
time: Datum des Erdbebens.
latitude: Breitengrad.
longitude: L¨angengrad.
depth: Tiefe (ohne angegebene Maßeinheit).
mag: Magnitude.
magType: Art der Magnitude.
nst, gap, dmin, rms, net, id, updated.
place: Ort des Erdbebens, Textform.
type.
day: Tag des Erdbebens, ohne Uhrzeit.
Das Dataframe inR schaut wie folgt aus:
5.3.4 Bemerkungen
Die Daten kommen urspr¨unglich von Search Earthquake Catalog. Hier sind weit mehr Erdbebendaten zu finden (auch von geringerer St¨arke als Magnitude ≥ 6). Des Weiteren k¨onnen verschiedene Filter angewendet und das Eintreten der Erdbeben kann geographisch auf einer Landkarte eingesehen werden.
5.3.5 Aufrufen der Daten
Installieren der Packagessp,xts, zoo, danninstall.packages(’CASdatasets’, repos =
’http://dutangc.free.fr/pub/RRepos/’, type=’source’). Schließlich Aufrufen der Befehle library(CASdatasets) und data(eqlist).
21
5.4 Betriebsunterbrechung Frankreich
5.4.1 Steckbrief
Art Schadenf¨alle in der Betriebsunterbrechungsversicherung.
Quelle SoftwareR, PackageCASdatasets (Datensatz: frebiloss).
Datenformat Dataframe inR.
Sprache Englisch.
Verf¨ugbarkeit Installieren und Laden des Package inR.
Dateiumfang 2387 Zeilen, 8 Spalten.
Zeithorizont 1985-2000 (Stand: Mai 2021).
5.4.2 Beschreibung
Dieser Datensatz in R beinhaltet eine Liste von Schadenf¨allen in der Betriebsunterbrechung. Es sind nur F¨alle enthalten, bei welchen der Schaden mindestens 100.000 franz¨osische Franken betr¨agt. Die Schadensummen wurden auch in Euro umgerechnet und in einer separaten Spalte notiert, wobei die Umrechnung auf Gr¨oßen des Jahres 2007 zur¨uckgeht.
5.4.3 Daten
Das Dataframe umfasst 2387 Betriebsunterbrechungen, welche anhand von folgenden Kategorien beschrieben wer- den:
Year: Jahr des Schadens.
OccurDate: Datum des Ereignisses.
PolicyID: Vertragsnummer.
ClaimID: Schadennummer.
ClaimCost: Urspr¨unglicher Schaden in franz. Franken.
TotalCost: Schaden + Kosten in franz. Franken.
ClaimCost2007: In (tausend) Euro umgerechneter Schaden.
TotalCost2007: Schaden + Kosten in (tausend) Euro umgerechnet.
Das Dataframe inR schaut wie folgt aus:
5.4.4 Aufrufen der Daten
Installieren der Packagessp,xts, zoo, danninstall.packages(’CASdatasets’, repos =
’http://dutangc.free.fr/pub/RRepos/’, type=’source’). Schließlich Aufrufen der Befehle library(CASdatasets) und data(frebiloss).
5.4.5 Literatur
Der Datensatz kommt z.B. inExtreme Values in Business Interruption Insurance, [Zaj96], vor.
23
5.5 Hurrikan Historie Nordatlantik
5.5.1 Steckbrief
Art Historie von Hurrikans im Nordatlantik.
Quelle SoftwareR, PackageCASdatasets (Datensatz:hurricanehist).
Datenformat Dataframe inR.
Sprache Englisch.
Verf¨ugbarkeit Installieren und Laden des Package inR.
Dateiumfang 2010 Zeilen, 8 Spalten.
Zeithorizont 1899-2006 (Stand: Mai 2021).
5.5.2 Beschreibung
Dieser Datensatz inR beinhaltet eine Auflistung der Hurrikans (Wirbelst¨urme) im Nordatlantik.
5.5.3 Daten
Das Dataframe umfasst 2010 Wirbelst¨urme, welche anhand folgender Kategorien spezifiziert werden:
Year: Jahr des Sturms.
Region: Ort des Sturms (Basin, East, Florida, Gulf, US).
Windmax: Maximale Windst¨arke in Knoten (1kt = 0.51secm = 1.85kmh ).
NAO: North Atlantic Oscillation (NAO) Index als Indikator des Sturmes.
SOI: Southern Oscillation Index (SOI) als Indikator der El Nino-Southern Oszillation.
SST: Atlantic sea-surface temperature (SST) als Indikator der Sturmenergie.
SSTmda, sun.
Das Dataframe inR schaut wie folgt aus:
5.5.4 Aufrufen der Daten
Installieren der Packagessp,xts, zoo, danninstall.packages(’CASdatasets’, repos =
’http://dutangc.free.fr/pub/RRepos/’, type=’source’). Schließlich Aufrufen der Befehle library(CASdatasets) und data(hurricanehist).
5.5.5 Literatur
Der Datensatz kommt inModeling tropical cyclone intensity with quantile regression, [JE09], vor.
25
5.6 Haftplichtversicherung Schadendreiecke Schweiz
5.6.1 Steckbrief
Art Kumulative Schadendreiecke Haftpflicht Schweiz.
Quelle SoftwareR, PackageCASdatasets (Datensatz:swtriangles).
Datenformat Dataframe inR.
Sprache Englisch.
Verf¨ugbarkeit Installieren und Laden des Package inR.
Dateiumfang 2 Dreiecke, 10×10.
Zeithorizont Zeitunabh¨angig, 10 Schadenjahre, 10 Abwicklungsjahre (Stand: Mai 2021).
5.6.2 Beschreibung
Dieser Datensatz inR beinhaltet 2 Dreiecke mit kumulativen Daten zu Reserven und Schadenzahlungen.
5.6.3 Daten
Jede Zeile entspricht einem Schadenjahr, ¨uber die Spalten sind die Abwicklungsjahre aufgetragen. Maßeinheit ist keine gegeben.
Das Dataframe inR schaut wie folgt aus:
5.6.4 Aufrufen der Daten
Installieren der Packagessp,xts, zoo, danninstall.packages(’CASdatasets’, repos =
’http://dutangc.free.fr/pub/RRepos/’, type=’source’). Schließlich Aufrufen der Befehle library(CASdatasets) und data(swtri1auto).
5.6.5 Bemerkungen
Weitere Daten zu Schadendreiecken sind in diesem Package mittels folgender Befehle aufzurufen:
data(sgautoprop9701), data(sgautoBI9301): Singapur, 2 Dreiecke, Kfz-Haftpflicht, inkrementelle Zahlungen.
data(nortritpl8800): Norwegen, 5 Dreiecke, Personensch¨aden, kumulative Zahlungen und Schadenanzahl.
data(fretri1auto9605), data(fretri2auto9605), data(fretri3auto9605), data(fretri4auto9403): fretriXautoYYZZ beinhaltet das Dreieck zur Xth line of business von YY bis ZZ. F¨ur jeden der 4 Datens¨atze gibt es 3 ×2 Dreiecke, Reserve und Schadenzahlung f¨ur Sachschaden, Personenschaden und Totalschaden.
5.6.6 Literatur
Der Datensatz kommt u.a. vor in Estimation of Tail Development Factors in the Paid-Incurred Chain Reserving Method, [MW13].
27
6 Reiseversicherung
6.1 Steckbrief
Art Haftpflichtversicherung Reiseversicherung.
Quelle Kaggle,Daten.
Datenformat CSV.
Sprache Englisch.
Verf¨ugbarkeit Registrierung via E-Mail.
Dateiumfang 63.326 Zeilen, 11 Spalten (4,36 MB).
Zeithorizont k.A. (Stand: Mai 2021).
6.2 Beschreibung
Dieser Datensatz auf Kaggle beinhaltet Informationen zu Vertr¨agen einer Reiseversicherung aus Singapur. Dieser anonyme Datensatz umfasst unterschiedliche Vertragstypen bei verschiedenen Reiseagenturen und besitzt neben 10 Kovariablen eine Spalte mit Schaden eingetroffen oder nicht. Der Datensatz ist online einsehbar oder steht als csv-Datei zum Download bereit.
6.3 Daten
Die 63326 Vertr¨age werden durch folgende 11 Spalten klassifiziert:
Agency: Reiseagentur.
Agency type: Agenturentyp (Reise oder Airline).
Distribution channel: Vertrieb, online oder offline.
Product Name: Typ der Versicherung.
Claim: Schaden, ja/nein.
Duration: Reisedauer.
Destination: Reiseziel.
Net Sales: Keine genauere Angabe an dieser Stelle.
Commision (in value): Kommission an die Agentur.
Gender: Geschlecht der versicherten Person.
Age: Alter der versicherten Person.
Die Daten schauen (online) wie folgt aus:
6.4 Bemerkungen
Die Angaben zum Geschlecht sind sehr l¨uckenhaft (71% der Angaben fehlen bei dieser Variable).
6.5 Literatur
Der Datensatz kommt in mehreren Notebooks auf Kaggle vor. Zu finden ist die Liste dieserhierauf Kaggle.
29
7 Allgemeine Branchendaten deutscher Versicherungsmarkt
7.1 Steckbrief
Art Allgemeine Daten zur Versicherungswirtschaft in Deutschland.
Quelle GDV,Zahlen und Fakten.
Datenformat CSV/Excel.
Sprache Deutsch.
Verf¨ugbarkeit Keine Registrierung notwendig.
Dateiumfang Zahlreiche Tabellen kleinen Umfangs.
Zeithorizont Letzte Jahre/letztes Jahr, je nach Datensatz auch ¨altere Daten (Stand: Mai 2021).
7.2 Beschreibung
Die Webseite der GDV stellt j¨ahrlich aktualisierte Daten zur Versicherungsbranche zur Verf¨ugung. Diese umfassen die Gebiete Branchendaten, Lebensversicherung, Schaden- und Unfallversicherung und Kfz-Versicherung. Es han- delt sich dabei um aggregierte Daten der GDV-Mitgliedsunternehmen aus dem letzten Jahr oder der letzten Jahre.
Hierbei sei erw¨ahnt, dass der Gesamtverband der Deutschen Versicherungswirtschaft (GDV) die Dachorganisation der privaten Versicherer in Deutschland ist und rund 460 Mitglieder mit fast 446 Millionen Versicherungsvertr¨agen umfasst.
Auf der GDV-Seite steht hier das Statistische Taschenbuch der Versicherungswirtschaft Jahr XXXX zum Pdf- Download zur Verf¨ugung. Der Inhalt ist hier etwas granularer als in den csv-Tabellen. Sollte der Link nicht funk- tionieren, ist das Pdf unterZahlen und Fakten - Publikationen zu finden.
7.3 Daten
In der folgenden Auflistung seien die Daten samt Unterkategorien aufgelistet, welche auf der GDV-Seite zu fin- den sind. Die meisten Kennzahlen beziehen sich auf das Vorjahr, an manchen Stellen sind l¨angere Zeithorizonte abgedeckt.
Branchendaten:
– Uberblick: Beitragsdaten, Anzahl Vertr¨¨ age.
– Versicherer: VU nach Sparten und Standorten.
– Erwerbst¨atige: Daten zu Besch¨aftigten in VU.
– Kapitalanlagen.
– Internationale M¨arkte: St¨arkste Marktanteile nach L¨andern.
Lebensversicherung:
– Uberblick: Generelle Kennzahlen.¨
– Renten- und Kapitalversicherungen: Beitrags- und Vertragszahlen.
– Risikoversicherung.
– Riester- und Basisrenten: Beitr¨age und Vertr¨age, letzte 10 Jahre.
– Betriebliche Altersversorgung: Best¨ande und Beitr¨age verschiedener Altersversorgungsfonds.
– Kapitalanlagen: Struktur und Nettoverzinsung.
Schaden- und Unfallversicherung:
– Uberblick: Kennzahlen zu unterschiedlichen Versicherungssparten.¨
– Wohngeb¨aude, Hausrat, Elementarschaden, Haftpflicht, Rechtsschutz, Kreditversicherung, Unfall, Nicht- Private Sach, Transport und Luftfahrt, Directors-and-Officers.
Kfz-Versicherung:
– Uberblick: Beitr¨¨ age, Leistungen und Schaden-Kosten-Quoten verschiedener Kfz-Versicherungstypen.
– Autodiebstahl: Nach Marke, Modell, Bundesland und Fahrzeugart.
– Schadenarten.
Als Beispiel, wie die Daten (online) ausschauen, sei hier an einer von drei Tabellen des Unterbereichs Hausratver- sicherung gezeigt:
7.4 Bemerkungen
Bei den Daten, die auch als csv-Dateien runtergeladen werden k¨onnen, sind auf der GDV-Seite jeweils Fußnoten und Quellen zu den einzelnen Tabellen zu finden.
Das statistische Taschenbuch der Versicherungswirtschaft steht ebenso in englischer Sprache zur Verf¨ugung. Hier kann es bei den verschiedenen Sprachen zu Unterschieden im Datum der Herausgabe kommen.
31
8 Datenpannen (Cyberrisiken)
8.1 Steckbrief
Art Daten zu Datenpannen in den USA.
Quelle Privacy Rights Clearinghouse,Datenpannen.
Datenformat CSV.
Sprache Englisch.
Verf¨ugbarkeit Keine Registrierung notwendig.
Dateiumfang 18889 Zeilen.
Zeithorizont 2005-2019 (Stand: Mai 2021).
8.2 Beschreibung
Diese Webseite stellt eine Auflistung von Datenpannen in den USA zur Verf¨ugung. U.A. beinhaltet der Datensatz Informationen zur Art der Datenpanne und eine genauere Beschreibung des Vorfalls. Daher ist die csv-Datei sehr textlastig und teilweise etwas unvorteilhaft formatiert (Zeilenspr¨unge, mehrere Zeilen f¨ur einen Datenpunkt etc.).
Dessen sollte man sich bei der Nutzung bewusst sein.
8.3 Daten
Hier folgend seien die Spalten des Datensatzes genauer erkl¨art.
Date made public: Datum der Ver¨offentlichung der Panne.
Company: Betroffenes Unternehmen (manche in Anf¨uhrungszeichen gelistet, manche nicht).
City, State: Ort des Unternehmens.
Type of breach:
– CARD: Nicht gehackter Kartenbetrug (z.B. am Automaten).
– HACK: Von außen gehackt oder von Malware/Schadsoftware infiziert.
– INSD: Datenpanne von Insider kommend (Mitarbeiter, Kunde etc.).
– PHYS: Verlorene oder gestohlene physische Materialien (z.B. Papierdokumente).
– PORT: Tragbares Ger¨at, verloren, gestohlen o. ¨A. (z.B. Laptop).
– STAT: Station¨are Computerpanne (nicht mobiler Computer, z.B. kein Laptop).
– DISC: Ungewollte Ver¨offentlichung (z.B. ausversehen ver¨offentlicht, verschickt etc.).
– UNKN: Unbekannte Datenpanne.
Type of organization:
– BSF: Finanz- oder Versicherungsunternehmen.
– BSO: Andere Business-Unternehmen.
– BSR: Handelsunternehmen.
– EDU: Bildungseinrichtungen.
– GOV: Staat, Milit¨ar.
– MED: Gesundheitswesen/-¨amter/-unternehmen.
– NGO: Non-profit Unternehmen.
– UNKN: Unbekannt.
Total Records: Datens¨atze/Aufzeichnungen (Zahl, mit oder ohne Anf¨uhrungszeichen).
Description of incident: Detailliertere Beschreibung der Panne, teilweise l¨angeres Textfeld.
Information Source, Source URL: Quelle.
Year of Breach, Latitude, Longitude: Weitere Angaben zur Panne und deren Unternehmen.
Damit eine Vorstellung des Datensatzes gewonnen werden kann, hier ein kleiner Ausschnitt:
8.4 Bemerkungen
Die Seite wurde (Stand Mai 2021) ¨uberarbeitet, daher kann es sein, dass der Link im Steckbrief veraltet ist.
8.5 Literatur
Der Datensatz wird u.A. in folgendem Paper benutzt:Cyber Risk Management: an actuarial point of view, [Car+19].
33
9 Risikokapitalberechnung unter Solvency II
9.1 Steckbrief
Art Daten aus einem DAV Use Case zur SCR-Berechnung.
Quelle Aktuar.de,Use Case,Github mit Daten.
Datenformat CSV.
Sprache Deutsch/Englisch.
Verf¨ugbarkeit Keine Registrierung notwendig.
Dateiumfang 8 csv-Dateien pro 3 Portfolios, insgesamt ca. 30 MB.
Zeithorizont Fiktiv, f¨ur diesen Use Case erzeugt. (Stand: Mai 2021).
9.2 Beschreibung
In der Fallstudie wird bei der SCR-Berechnung unter Solvency II der klassische Least Squares Monte Carlo-Ansatz mit neuronalen Netzen verglichen. Hierf¨ur wurden realistische Projektionsdaten von drei im Rahmen dieses Use Case aufbereiteten Lebensversicherungs- und Krankenversicherungsportfolios erzeugt. Die genaue Beschreibung der Fallstudie ist unter dem im Steckbrief aufgef¨uhrten Link zu finden.
Die f¨ur die Fallstudie generierten Datens¨atze sind 8 pro Portfolio, wovon es wiederum 3 gibt. Man sollte im Hinterkopf behalten, dass es sich um Datens¨atze handelt, welche f¨ur eine Anwendung eines neuronalen Netzwerkes hergenommen werden.
9.3 Daten
Im Folgenden werden die Datens¨atze pro Portfolio genauer erkl¨art.
train input.csv, train result.csv: Fitting-Datenset f¨ur das Training. Ungenaue Auswertungen der Bilanzposi- tionen von einer Vielzahl von Risiko-Szenarien. Own Funds (Output) als Teil der gestressten Marktwertbilanz in den entsprechenden Szenarien.
validation input.csv, validation result.csv: Zur ¨Uberpr¨ufung der G¨ute der Trainingsresultate gibt es dieses sogenannte Out Of Sample Validation Set bestehend aus 256 Szenarien.
stderror validation.csv: F¨ur jedes Szenario der Standardfehler als Maß f¨ur die Ungenauigkeit des zugrundelie- genden Sch¨atzers.
nested input.csv, nested result.csv: Alternativer Validationsdatensatz.
stderror nested.csv: Standardfehler dieser letzteren Validierung.
Als Beispielsdatensatz ist hier ein Ausschnitt des validation input.csv-Datensatzes aufgef¨uhrt:
9.4 Literatur
Der Datensatz wird wie weiter oben erw¨ahnt in der DAV-Fallstudie verwendet, diehierzu finden ist.
35
10 Kreditdaten Deutschland
10.1 Steckbrief
Art Deutscher Kredit-Datensatz.
Quelle data.world.
Datenformat CSV oder Dataframe inR.
Sprache Englisch.
Verf¨ugbarkeit Registrierung notwendig.
Dateiumfang 1000 Zeilen, 21 Spalten, 14 KB.
Zeithorizont Keine Angabe (Stand Mai 2021).
10.2 Beschreibung
Dieser Datensatz klassifiziert mittels einer Reihe an Attributen Kunden als gute oder schlechte Kreditrisiken. Es werden datensatzinterne Schl¨ussel zur Beschreibung der Kategorien verwendet, weshalb es notwendig ist, unter dem verwiesenen Link die Bezeichnung dieser Kategorien nachzulesen (siehe z.B. die ’A-Werte’ im Screenshot).
10.3 Daten
Das Dataframe umfasst 1000 Datenpunkte und 21 Variablen, von denen einige im Folgenden genauer erl¨autert werden (f¨ur die weiteren Variablen sei auf die angegebene Quelle verwiesen):
checking status: Status des Girokontos.
duration: Dauer des Kredits in Monaten.
credit history: Angabe ¨uber R¨uckzahlungen in der Vergangenheit.
purpose: Verwendung des Kredits (z.B. Autokauf, Urlaub, etc.).
credit amount: Kredith¨ohe in DM.
installment rate: Anzahl Zahlungsraten.
personal status: Angabe ¨uber Geschlecht und Zivilstand des Kreditnehmers.
housing: Wohnzustand.
job: Arbeitsverh¨altnis.
class: kreditw¨urdig ja/nein (0/1).
Die csv-Datei schaut wie folgt aus:
10.4 Bemerkungen
Beim Download des Datensatzes wird eine weitere csv-Datei runtergeladen, welche sich dann f¨ur Algorithmen eig- net, die numerischer Variablen bed¨urfen.
Dieser Datensatz ist auch Teil desR-PackagesCASdatasets, worunter zahlreiche versicherungstechnische Datens¨atze enthalten sind. Einige davon sind in diesem Dokument gelistet, die vollst¨andige Auflistung isthierzu finden.
Aufrufen der Daten:Installieren der Packagessp,xts,zoo, danninstall.packages(’CASdatasets’, repos =
’http://dutangc.free.fr/pub/RRepos/’, type=’source’). Schließlich Aufrufen der Befehle library(CASdatasets) und data(credit).
10.5 Literatur
Der Datensatz wird u.A. in folgendem Buch benutzt:Data Mining and Statistics for Decision Making, [Tuf11].
37
11 Schadenf¨ alle Autoversicherung (Insurance Claims)
11.1 Steckbrief
Art Schadenf¨alle in der Autoversicherung mit F¨ulle an Kovariablen.
Quelle Kaggle,Daten.
Datenformat CSV.
Sprache Englisch.
Verf¨ugbarkeit Keine Registrierung notwendig.
Dateiumfang 1000 Zeilen, 39 Spalten, 260,7 KB.
Zeithorizont Januar-Februar 2015 (Stand Mai 2021).
11.2 Beschreibung
Zum Datensatz geh¨oren Schadenf¨alle aus der Autoversicherung einzelner US-Bundesstaaten, n¨amlich Indiana, Ohio und Illinois. Enthalten ist eine große Menge an Variablen inklusive Schadensumme. W¨ahrung ist keine angegeben, vermutlich handelt es sich um US Dollar.
11.3 Daten
Der Datensatz umfasst 1000 Datenpunkte und 39 Variablen, von denen einige im Folgenden aufgelistet bzw. genauer erl¨autert werden (f¨ur die weiteren Variablen sei auf die angegebene Quelle verwiesen):
months as customer: Anzahl Monate als Kunde.
age: Alter zwischen 19 und 64, ann¨ahernd normalverteilt.
policy number, policy state.
policy deductible: Selbstbehalt, zwischen 500 und 2000.
policy annual premium (ann¨ahernd normalverteilt), insured sex.
umbrella limit: Manche Vertr¨age beinhalten eine Schadensobergrenze.
insured educational level: (Ausbildungs-)Abschluss des Versicherten, 7 verschiedene Kategorien.
insured occupation: Beruf des Versicherten, 14 Kategorien.
insured hobbies, insured relationship, incident date.
incident type, collision type: Diebstahl, Einzelunfall, Unfall mit mehreren Fahrzeugen, geparktes Auto und f¨ur Unfall Art des Aufpralls.
incident severity (4 Kategorien), authorities contacted, number of vehicles involved, property damage (Ja/Nein/kA), bodily injuries, witnesses
incident state, incident city, incident location: Ort des Schadenfalles.
total claim amount, injury claim, property claim, vehicle claim, auto make, auto model, auto year.
Die umgeformte csv-Datei schaut wie folgt aus:
11.4 Bemerkungen
Die Spalten collision type, property damage und police report available weisen vereinzelt L¨ucken auf.
11.5 Literatur
Der Datensatz kommt in mehreren Notebooks auf Kaggle vor. Zu finden ist diese Liste dieserhier auf Kaggle.
39
12 Wahrscheinlichkeitstafeln PKV
12.1 Steckbrief
Art Wahrscheinlichkeitstafeln in der privaten Krankenversicherung.
Quelle BaFin,Daten.
Datenformat Excel/CSV.
Sprache Deutsch.
Verf¨ugbarkeit Keine Registrierung notwendig.
Dateiumfang 4 Exceltabellen, 1 PDF-Datei, insgesamt 597,7 KB f¨ur 2018.
Zeithorizont 2002-2018 (Stand Mai 2021).
12.2 Beschreibung
Die Statistiken der BaFin enthalten u.A. genauere Daten zu Wahrscheinlichkeitstafeln und Schadenh¨ohen in der privaten Krankenversicherung. Dabei werden zu Ambulant-, Station¨ar-, Zahn- und Krankentagegeldtarifen Grund- kopfsch¨aden und Profile j¨ahrlich ver¨offentlicht. Getrennt wird hierbei nach Geschlecht, Schwangerschaft und Mut- terschaft ja/nein und Beamte ja/nein. Zudem werden Stornotafeln zur PKV und GKV ver¨offentlicht.
Die Daten sind f¨ur das Jahr 2018 beispielsweise in 3 Excel-Tabellen zu finden, dazu gibt es eine Datei, welche die Variablen- und Spaltenerkl¨arungen sowie weitere Erl¨auterungen liefert. Des Weiteren ist eine PDF-Datei zu finden, welche Grafiken der Datenreihen aus der DateiKRAWATTE 2018 Tafeln komplett.csv enth¨alt.
12.3 Daten
Im Folgenden werden kurz die Dateien aus dem verf¨ugbaren Zip-Ordner beschrieben:
Erl¨auterungen.xlsx: Enth¨alt Informationen zu den anderen Dokumenten und Erl¨auterungen der Spalten/Variablen.
KRAWATTE 2018 fSB ambulant.csv: Fiktive Selbstbehalte der Tafeln f¨ur den Ambulantbereich.
KRAWATTE 2018 GKS komplett.csv: Einj¨ahrige Grundkopfsch¨aden aller Tafeln.
KRAWATTE 2018 Tafeln komplett.csv: Normierte Profile, normierte rohe Kopfsch¨aden, Kopfschadenreihen und Best¨ande f¨ur alle Tafeln.
KRAWATTE Kopfschadenreihen mit GKS 2018: Grafische Visualisierung der Tafeln aus der DateiTafeln komplett.
Als Beispiel sei hier ein Ausschnitt der DateiTafeln komplett gezeigt:
In der obersten Zeile (=Spaltenbeschriftung) sind hierbei verschiedene Kennzahlen zu den unterschiedlichen Lei- stungsarten gegeben.
12.4 Literatur
Der Datensatz kommt u.A. im Artikel Beitragsentwicklung und Verteilungseffekte der RfB in PKV-Best¨anden, [Neu16], vor.
12.5 Bemerkungen
Zur privaten Krankenversicherung gibt es weitere Quellen, die j¨ahrlich Fakten und Zahlen herausgeben. Mit dazu z¨ahlt auch der Verband der Privaten Krankenversicherung selbst (PKV), der j¨ahrlich einen Zahlenbericht zu ¨uber 100 Seiten im PDF-Format herausgibt. Darin zu finden sind ein ¨Uberblick der Branche, Versicherungsbest¨ande, Ertr¨age, Aufwendungen, Statistiken zur Tarifkalkulation und diverse Zeitreihen verschiedener Kennzahlen. Der Bericht isthierzu finden. Dabei ist eine Anmeldung notwendig, die Nutzung der Daten ist weiterhin kostenlos.
41
13 Statistik Erstversicherungsunternehmen Deutschland
13.1 Steckbrief
Art Statistik der BaFin - Erstversicherungsunternehmen.
Quelle BaFin,Daten.
Datenformat xlsx-Dateien/PDF.
Sprache Deutsch.
Verf¨ugbarkeit Keine Registrierung notwendig.
Dateiumfang 6 Exceltabellen, mehrere Tabellenbl¨atter, 1 PDF-Datei (75 Seiten in 2019), ges. ca. 3-4 MB/Jahr.
Zeithorizont 2001-2019 (Stand Mai 2021).
13.2 Beschreibung
Unter den Statistiken der BaFin finden sich auch eine Reihe an Datens¨atzen zu deutschen Erstversicherungsunter- nehmen und Pensionsfonds. Einer allgemeinen Erstversicherungsstatistik stehen spezifischere Tabellen pro Sparte gegen¨uber. Die Daten werden jedes Jahr herausgegeben, in Excel- und im PDF-Format.
13.3 Daten
Im Folgenden werden kurz die Dateien beschrieben, die jedes Jahr erscheinen:
BaFin-Erstversicherungsstatistik: Enth¨alt eine Liste zu den Versicherungsunternehmen und Pensionsfonds unter Bundesaufsicht mit Angabe ¨uber Ort des VU und Bruttobeitr¨age. U.A. ist eine Zusammensetzung der Kapitalanlagen pro Sparte gegeben (siehe Beispiel).
Lebensversicherung, Pensionskassen, Krankenversicherung, Schaden- und Unfallversicherung, Pensionsfonds:
Zu all diesen Sparten sind in separaten Exceltabellen auf mehreren Tabellenbl¨attern aggregierte Kennzahlen gegeben.
Gesamtausgabe PDF: Daten zur Gesamtentwicklung, zu den einzelnen Sparten u.A. Beitrags- und Bestand- sentwicklung, R¨uckstellungen, Ertragslage, Eigenkapitalausstattung, Solvibilit¨at.
13.4 Beispiele
Als Beispiel sei hier die Zusammensetzung der Kapitalanlagen aus der DateiErstversicherungsstatistik gezeigt:
Als weiteres Beispiel seien ausgew¨ahlte Kennzahlen der Lebensversicherungsunternehmen aus der DateiLebensver- sicherungsunternehmen aufgef¨uhrt:
13.5 Literatur
Der Datensatz kommt u.A. im ArtikelDas System der betrieblichen Altersversorgung in Deutschland, [CF15], vor.
43
14 Social Policy and Law Shared Database (SPLASH)
14.1 Steckbrief
Art Sammlung ¨okonomischer und demographischer Daten, international.
Quelle SPLASH,Daten.
Datenformat Sehr heterogen.
Sprache Englisch.
Verf¨ugbarkeit Keine Registrierung notwendig.
Dateiumfang Ansammlung vieler Datenquellen und -verlinkungen.
Zeithorizont Nach Datensatz unterschiedlich (Stand Mai 2021).
14.2 Beschreibung
Diese Website ist eine Ansammlung verschiedener ¨okonomischer und demographischer Datens¨atze. Dabei werden Datens¨atze klassifiziert, kurz beschrieben und verlinkt. Die Kategorien sind
Demographic Indicators,
Education,
Family and Children,
Health,
Living Conditions,
Macroeconomic Indicators,
Migration,
Work and Retirement.
14.3 Beispiele
Um einen Eindruck der Gestaltung der Website zu bekommen, seien hier 3 Ausschnitte aufgef¨uhrt, zun¨achst die Ausgabe einer allgemeinen Suchabfrage, dann ein genauer beschriebener Datensatz in 2 Grafiken:
45
15 Globale Entwicklungsdaten
15.1 Steckbrief
Art Globale Daten zu Entwicklung und Armut.
Quelle The World Bank,Data Bank.
Datenformat Excel, CSV oder Tabbed TXT.
Sprache Englisch.
Verf¨ugbarkeit Keine Registrierung notwendig.
Dateiumfang 79 Datens¨atze/Indikatoren.
Zeithorizont 1960-2020, L¨ucken vorhanden, Aktualisierungsdatum unterschiedlich (Stand: Mai 2021).
15.2 Beschreibung
Die Weltbank (World Bank), eine multinationale Entwicklungsbank, stellt auf der oben verlinkten Website globale Entwicklungsdaten jeglicher Art zur Verf¨ugung. Die Datenbanken werden teilweise nicht j¨ahrlich aktualisiert und enthalten unter Umst¨anden L¨ucken.
In den verschiedenen Datens¨atzen gibt es unterschiedliche Variablen, die auch ausf¨uhrlich beschrieben werden.
15.3 Daten
Zu den Datenbanken z¨ahlen unter anderem
World Development Indicators (Weltweite Entwicklungsindikatoren),
Education Statistics (Ausbildungsstatistiken),
Health Nutrition and Population Statistics (Ern¨ahrungs- und Bev¨olkerungsstatistiken),
Jobs (Arbeitsstatistiken Arbeitnehmer, Unternehmen, etc.),
Worldwide Governance Indicators (politische Stabilit¨at, Korruption, Regulatorien, etc.),
Africa Infrastructure, und viele weitere.
15.4 Beispiele
Als Beispiel wird hier der DatensatzWorld Development Indicatorsaufgef¨uhrt. Dieser enth¨alt ¨uber 1400 Zeitreihen pro Land/L¨andergruppe zu mehreren Perioden. Die im Beispiel ausgew¨ahlten Kategorien sind den beiden Bildaus- schnitten bzgl. Mali und Europ¨aischer Union zu entnehmen.
47
16 Insurance Fact Book
16.1 Steckbrief
Art Globale und US-spezifische Versicherungsdaten.
Quelle Insurance Information Institute,Daten 2019.
Datenformat PDF.
Sprache Englisch.
Verf¨ugbarkeit Keine Registrierung notwendig (f¨ur 2020-Version Registrierung notwendig).
Dateiumfang 2019-Version: 236 Seiten, 15,3 MB.
Zeithorizont 2017-2018 (Version 2019).
16.2 Beschreibung
Dieses
”Faktenbuch“ wird j¨ahrlich vomInsurance Information Institute herausgegeben. Es enth¨alt zahlreiche ag- gregierte Versicherungsdaten, prim¨ar zum US-amerikanischen Versicherungsmarkt, teilweise unterteilt nach Bun- desstaat.
16.3 Daten
Die zahlreichenden Tabellen enthalten u.A. Informationen zu
Globalen und US-spezifischen Katastrophen,
Ergebnisse und Investments zur P&C und Lebens-/Krankenversicherung,
Schadenstypen,
R¨uckversicherungsdaten,
Pensionsversicherungen.
16.4 Beispiele
Als Beispiel seien hier zwei Ausschnitte gezeigt, einer zu den gr¨oßten US-amerikanischen Lebensversicherungen gemessen an den direkten Pr¨amien, und der andere zu den Sch¨aden in der Kfz-Privatversicherung.
16.5 Bemerkungen
Insurance Factbooks gibt es auch weitere, hier sind noch welche aufgelistet:
Kanadischer Versicherungsmarkt,
US-amerikanische Lebensversicherungsdaten, ACLI (American Council of Life Insurers).
49
Literaturverzeichnis
[Car+19] Maria Francesca Carfora et al. “Cyber risk management: an actuarial point of view”. In: Journal of Operational Risk 4.14 (2019). webpage, pp. 77–103.
[CF15] Johannes Clemens and Till F¨orstemann. “Das System der betrieblichen Altersversorgung in Deutsch- land”. In:Wirtschaftsdienst 95 (2015).webpage, pp. 627–635.
[HDJ08] Gillian Heller and Piet De Jong.Generalized Linear Models for Insurance Data.Link zum Buch. Cam- bridge University Press, 2008.isbn: 13 978-0-511-38677-0.
[JE09] Thomas H. Jagger and James B. Elsner. “Modeling tropical cyclone intensity with quantile regression”.
In:International Journal of Climatology 29.10 (2009).webpage, pp. 1351–1361.
[KM05] Cooray Kahadawala and M.A. Ananda Malwane. “Modeling actuarial data with a composite lognormal- Pareto model”. In:Scandinavian Actuarial Journal 5 (2005).webpage, pp. 321–334.
[MG16] Tatjana Miljkovic and Bettina Gr¨un. “Modeling loss data using mixtures of distributions”. In:Insurance:
Mathematics and Economics 70 (2016).webpage, pp. 387–396.
[MW13] Michael Merz and Mario V. W¨uthrich. “Estimation of Tail Development Factors in the Paid-Incurred Chain Reserving Method”. In:Variance1.7 (2013).pdf, pp. 61–73.
[Neu16] Thomas Neusius. “Beitragsentwicklung und Verteilungseffekte der RfB in PKV-Best¨anden”. In: Zeit- schrift f¨ur die gesamte Versicherungswissenschaft 105 (2016).Artikel, pp. 171–190.
[Ram15] Andres M. Villegas Ramirez. “Mortality: Modelling, Socio-Economic Differences and Basis Risk”.pdf.
PhD thesis. City University London, 2015.
[RR19] Stefan Roth and Gunther Reinhart. “Risikomanagement in der energieorientierten Produktionsplanung und -steuerung”. In:Zeitschrift f¨ur wirtschaftlichen Fabrikbetrieb 114 (2019).webpage, pp. 823–.
[Tuf11] St´ephane Tuff´ery.Data Mining and Statistics for Decision Making. Link zum Buch. Wiley, 2011.isbn: 978-0-470-97916-7.
[Zaj96] Daniel Zajdenweber. “Extreme Values in Business Interruption Insurance”. In:The Journal of Risk and Insurance 63.1 (1996).webpage, pp. 95–110.