• Keine Ergebnisse gefunden

Datenbanken mit finanz- und versicherungsmathematischem Bezug: Beschreibung und Zugriff auf kostenfreie Quellen

N/A
N/A
Protected

Academic year: 2022

Aktie "Datenbanken mit finanz- und versicherungsmathematischem Bezug: Beschreibung und Zugriff auf kostenfreie Quellen"

Copied!
50
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Datenbanken mit finanz- und versicherungsmathematischem Bezug:

Beschreibung und Zugriff auf kostenfreie Quellen

Stand: Mai 2021

Maximilian Euthum1, Prof. Dr. Ralf Korn2, Prof. Dr. Alfred M¨uller3, Prof. Dr. Matthias Scherer4

1Technische Universit¨at M¨unchen, Fakult¨at f¨ur Mathematik, Parkring 11, 85748 Garching–Hochbr¨uck, maximilian.euthum@tum.de

2Technische Universit¨at Kaiserslautern, Fachbereich Mathematik, Gottlieb-Daimler-Straße Geb¨aude 48, 67663 Kaiserslautern, korn@mathematik.uni-kl.de

3Universit¨at Siegen, Fakult¨at f¨ur Mathematik, Walter-Flex-Straße 3, 57068 Siegen, mueller@mathematik.uni-siegen.de

4Technische Universit¨at M¨unchen, Fakult¨at f¨ur Mathematik, Parkring 11, 85748 Garching–Hochbr¨uck, scherer@tum.de

Abstract

Um die praxisgerechte Ausbildung an Hochschulen zu unterst¨utzen und gleichzeitig Forschenden in den Bereichen der Finanz- und Versicherungsmathematik sowie Statistik und Data Science mit Bezug zur Finanz- und Versi- cherungswirtschaft Benchmark-Datens¨atze zur Verf¨ugung zu stellen, hat die DGVFM beschlossen, eine Sammlung geeigneter Datens¨atze aufzubauen. Das zugeh¨orige Projekt ist dem DGVFM-Ausschuss Forschung und Transfer zugeordnet, der hier durch die Vorstandsmitglieder Ralf Korn (TU Kaiserslautern), Alfred M¨uller (Univ. Siegen) und Matthias Scherer (TU M¨unchen) vertreten ist.

Das folgende Dokument gibt den aktuellen Stand einer Datensammlung wieder, die maßgeblich von Maximilian Euthum (TU M¨unchen) recherchiert und dokumentiert wurde. In diesem sind zahlreiche als geeignet identifizierte und frei verf¨ugbare Datens¨atze einheitlich beschrieben sowie die zugeh¨origen Quellen verlinkt. Hinweise auf m¨ogliche Erg¨anzungen werden gerne aufgenommen.

1

(2)

Inhaltsverzeichnis

1

Human Mortality Database (HMD)

5

1.1 Steckbrief . . . 5

1.2 Beschreibung . . . 5

1.3 Daten . . . 5

1.4 Bemerkungen . . . 6

1.5 Beispiele . . . 6

1.6 Literatur. . . 7

2

Strommarktdaten (SMARD)

8 2.1 Steckbrief . . . 8

2.2 Beschreibung . . . 8

2.3 Daten . . . 8

2.4 Variablen . . . 9

2.5 Beispiele . . . 9

2.6 Weitere Quellen Energiem¨arkte . . . 10

2.7 Literatur. . . 11

3

Danish Fire Insurance Claims

12 3.1 Steckbrief . . . 12

3.2 Beschreibung . . . 12

3.3 Daten . . . 12

3.4 Variablen . . . 12

3.5 Bemerkungen . . . 13

3.6 Literatur. . . 13

4

Versicherungspr¨ amien nach L¨ andern

14 4.1 Steckbrief . . . 14

4.2 Beschreibung . . . 14

4.3 Daten . . . 14

4.4 Beispiel . . . 14

4.5 Bemerkungen . . . 15

5

CAS Datasets (Computational Actuarial Science with R)

16 5.1 Naturkatastrophen Australien . . . 16

5.2 Autoversicherung Australien. . . 18

5.3 Erdbeben . . . 20

5.4 Betriebsunterbrechung Frankreich. . . 22

5.5 Hurrikan Historie Nordatlantik . . . 24

5.6 Haftplichtversicherung Schadendreiecke Schweiz . . . 26

6

Reiseversicherung

28 6.1 Steckbrief . . . 28

6.2 Beschreibung . . . 28

6.3 Daten . . . 28

6.4 Bemerkungen . . . 29

6.5 Literatur. . . 29

7

Allgemeine Branchendaten deutscher Versicherungsmarkt

30 7.1 Steckbrief . . . 30

7.2 Beschreibung . . . 30

7.3 Daten . . . 30

7.4 Bemerkungen . . . 31

(3)

8

Datenpannen (Cyberrisiken)

32

8.1 Steckbrief . . . 32

8.2 Beschreibung . . . 32

8.3 Daten . . . 32

8.4 Bemerkungen . . . 33

8.5 Literatur. . . 33

9

Risikokapitalberechnung unter Solvency II

34 9.1 Steckbrief . . . 34

9.2 Beschreibung . . . 34

9.3 Daten . . . 34

9.4 Literatur. . . 35

10

Kreditdaten Deutschland

36 10.1 Steckbrief . . . 36

10.2 Beschreibung . . . 36

10.3 Daten . . . 36

10.4 Bemerkungen . . . 37

10.5 Literatur. . . 37

11

Schadenf¨ alle Autoversicherung (Insurance Claims)

38 11.1 Steckbrief . . . 38

11.2 Beschreibung . . . 38

11.3 Daten . . . 38

11.4 Bemerkungen . . . 39

11.5 Literatur. . . 39

12

Wahrscheinlichkeitstafeln PKV

40 12.1 Steckbrief . . . 40

12.2 Beschreibung . . . 40

12.3 Daten . . . 40

12.4 Literatur. . . 41

12.5 Bemerkungen . . . 41

13

Statistik Erstversicherungsunternehmen Deutschland

42 13.1 Steckbrief . . . 42

13.2 Beschreibung . . . 42

13.3 Daten . . . 42

13.4 Beispiele . . . 42

13.5 Literatur. . . 43

14

Social Policy and Law Shared Database (SPLASH)

44 14.1 Steckbrief . . . 44

14.2 Beschreibung . . . 44

14.3 Beispiele . . . 44

15

Globale Entwicklungsdaten

46 15.1 Steckbrief . . . 46

15.2 Beschreibung . . . 46

15.3 Daten . . . 46

15.4 Beispiele . . . 46

3

(4)

16

Insurance Fact Book

48

16.1 Steckbrief . . . 48

16.2 Beschreibung . . . 48

16.3 Daten . . . 48

16.4 Beispiele . . . 48

16.5 Bemerkungen . . . 49

Literaturverzeichnis 50

(5)

1 Human Mortality Database (HMD)

1.1 Steckbrief

Art Mortalit¨atsraten und Sterbetafeln verschiedener Staaten.

Quelle https://www.mortality.org

Datenformat Tabulatorengetrennte Text Dateien (ASCII).

Sprache Englisch.

Verf¨ugbarkeit Registrierung via E-Mail.

Dateiumfang Je nach Tafel unterschiedlich.

Zeithorizont Je nach Land unterschiedlich, 1950-2015 in der Regel abgedeckt.

1.2 Beschreibung

Diese Datenbank enth¨alt detaillierte Populationskennzahlen sowie Sterblichkeitsdaten aus 41 L¨andern/Gebieten.

Darunter befinden sich haupts¨achlich europ¨aische Staaten wie Deutschland, UK und Italien, und andere bekannte L¨ander aus aller Welt wie etwa Australien, Japan, USA etc. F¨ur jedes Land wird eine eigene Seite ge¨offnet, wo alle verf¨ugbaren Daten und Informationsdokumente zu finden sind.

Die Autoren haben verschiedene Methoden genutzt - welche auf der Website genauer beschrieben werden - um Rohdaten zu bearbeiten und vorzubereiten. Diese Daten stammen haupts¨achlich von nationalen Statistik¨amtern und wurden zum Zwecke der HMD-Berechnungen in bestimmtem Ausmaß bearbeitet.

Zu jedem Land gibt es folgende vier Dokumente:

ˆ Das Dokument Background and Documentation beinhaltet grundlegende Informationen in Bezug auf die Bev¨olkerung im jeweiligen Land.

ˆ Das DokumentNotes umfasst spezifische Informationen zu bestimmten Datenpunkten.

ˆ Die DokumenteData sources undReference beinhalten eine Liste der Datenquellen der benutzten Rohdaten.

Letzteres verf¨ugt dabei ¨uber spezifischere Referenzen von Datenpunkten.

1.3 Daten

Die Daten k¨onnen auf der Seite als tabulatorengetrennte Text Datei (ASCII) ge¨offnet werden. Die meisten nach- stehend beschriebenen Daten sind f¨ur verschiedene Altersgruppen und Jahre verf¨ugbar. Die zeitliche Abdeckung unterscheidet sich von Land zu Land. Folgende Daten sind in der HMD zu finden:

ˆ Geburtenzahl.

ˆ Sterbezahl.

ˆ Gesamtbev¨olkerung am 1. Januar.

ˆ Gesch¨atzte Bev¨olkerungsanzahl, die dem Sterberisiko ausgesetzt ist.

ˆ Sterberaten (Periode & Kohorte).

ˆ Sterbetafeln (Periode & Kohorte; weiblich, m¨annlich und insgesamt), inkl. Lebenserwartung. Des Weiteren beinhalten die Sterbetafeln folgende Variablen:

5

(6)

– Jahr.

– Alter.

– m(x): Zentrale Sterberate zwischen Alterxund Alterx+n(n= 1,5,10).

– q(x): Sterbewahrscheinlichkeit zwischen Alterxund Alterx+n.

– a(x): Durchschnittliche ¨Uberlebensdauer zwischen Alter xund Alterx+n f¨ur Personen, die in diesem Intervall sterben.

– l(x): Anzahl ¨Uberlebender zum exakten Alter x, angenommen dassl(0) = 100000.

– d(x): Anzahl Toter zwischen Alterxund Alterx+n.

– L(x): Von den Personen zwischen Alterxundx+ndurchlebte Jahre.

– T(x): Anzahl durchlebter Jahre von den Personen ¨alter alsx.

– e(x): Lebenserwartung im Alterx(in Jahren).

1.4 Bemerkungen

Es sei an dieser Stelle bemerkt, dass im Allgemeinen Rohdaten bez¨uglich Sterblichkeit und Bev¨olkerung beim jeweiligen nationalen Statistikamt verf¨ugbar sind. Als Beispiel hierf¨ur seien an dieser Stelle die folgenden Beispiele genannt:

ˆ Deutschland,Bundesamt f¨ur Statistik.

ˆ UK,Office for National Statistics.

ˆ Italien,Istat.

Auf EU-Basis besteht mitEurostateine sehr gute Datenbank wenn es um Populations-, Mortalit¨atsgr¨oßen, weitere soziale oder demographische Statistiken auf Regionalebene geht.

1.5 Beispiele

Beispiel Anzahl Geburten Deutschland (1990-)

(7)

Beispiel Sterbetafel Australien (1921-)

1.6 Literatur

Der Datensatz kommt in unz¨ahligen Ver¨offentlichungen vor. Um eine umfassende Arbeit zu Sterblichkeitsmodellen zu nennen, sei hier die Doktorarbeit von A. Villegas genannt [Ram15].

7

(8)

2 Strommarktdaten (SMARD)

2.1 Steckbrief

Art Strommarktdaten.

Quelle SMARD, bzw. dieDaten.

Datenformat CSV, XLS, XML.

Sprache Deutsch, Englisch.

Verf¨ugbarkeit Keine Registrierung notwendig.

Dateiumfang Je nach Datei unterschiedlich, z.B. csv Datei mit 1000 Zeilen, 10 Tagen Daten zu 50 KB.

Zeithorizont Ab Januar 2015, maximal 2 Jahre am St¨uck zum Download. (Stand: Mai 2021).

2.2 Beschreibung

SMARD stellt Strommarktdaten f¨ur Deutschland und teilweise auch f¨ur Europa nahezu in Echtzeit zur Verf¨ugung.

Daten wie Erzeugung, Verbrauch, Im- und Export und Daten zu Regelenergie k¨onnen f¨ur unterschiedliche Zeitr¨aume ermittelt und kombiniert werden.

Des Weiteren k¨onnen die Daten im Bereich ’Marktdaten visualisieren’ als Grafik oder in einer Tabelle dargestellt werden.

2.3 Daten

Die Datenbank umfasst einerseits Marktdaten, andererseits Kraftwerksdaten.

2.3.1 Marktdaten

In diesem Bereich k¨onnen Erzeugungsdaten aller Energietr¨ager sowie weitere Datenkategorien zum Strommarkt gefunden werden. Diese sind:

ˆ Oberkategorie: Stromerzeugung, Stromverbrauch, Markt, Systemstabilit¨at,

ˆ Datenkategorie (unterschiedlich je nach Oberkategorie),

ˆ Land/Regelzone,

ˆ Zeitraum (von maximal 2 Jahren),

ˆ Dateiformat,

2.3.2 Kraftwerksdaten

Im Bereich Kraftwerksdaten sind Erzeugungsdaten f¨ur alle Erzeugungseinheiten mit einer installierten Erzeugungs- leistung von mindestens 100 MW zu finden. Diese sind:

ˆ Kraftwerk,

ˆ Zeitraum (von maximal 2 Jahren),

ˆ Dateiformat,

(9)

2.4 Variablen

Die Variablen h¨angen stark vom ausgew¨ahlten Datensatz ab. Als Beispiel, welche Variablen in einem Datensatz vorkommen k¨onnen, wird auf den folgenden Absatz verwiesen.

2.5 Beispiele

Ein paar Beispiele k¨onnen im Folgenden eingesehen werden:

Beispiel Marktdaten Folgende Filterauswahl

ergibt diesen Output:

Die hier enthaltenen Variablen sind Datum und Uhrzeit, Biomasse, Wasserkraft, Wind Offshore, Wind Onshore, Photovoltaik, Sonstige Erneuerbare, Kernenergie, Braunkohle, Steinkohle, Erdgas, Pumpspeicher, Sonstige Konven- tionelle (alle in MWh).

9

(10)

Beispiel Kraftwerksdaten Folgende Filterauswahl

ergibt diesen Output:

2.6 Weitere Quellen Energiem¨ arkte

Weitere frei zug¨angliche Quellen zu Energiem¨arkten sind hier aufgelistet:

ˆ Energy-Charts: (interaktive) Grafiken zu Stromproduktion und B¨orsenstrompreisen.

ˆ entsoe: Daten ¨uber Stromerzeugung; Transport, Verbrauch und Vorhersage von Energiedaten verschiedener europ¨aischer Staaten.

ˆ Agentur f¨ur erneuerbare Energie: Energie(markt)daten Deutschland, auch auf Bundesl¨anderebene.

ˆ TenneT: Daten zum H¨ochstspannungsnetz.

ˆ Transnet BW: Daten von einem ¨Ubertragungsnetzbetreiber.

ˆ eia: Daten zum US Energiemarkt (Produktion, Handel, etc).

ˆ Fraunhofer ISE: Daten zu erneuerbaren Energien.

ˆ Open Power System Data: Daten zu Energiem¨arkten, Zeitreihen zu Wind- und Solarpreisen, Haushaltsdaten und Wetterdaten.

(11)

2.7 Literatur

Der Datensatz kommt u.a. im Dezember 2019 erschienenen Artikel

Risikomanagement in der energieorientierten Produktionsplanung und -steuerung von Roth und Reinhart vor [RR19].

11

(12)

3 Danish Fire Insurance Claims

3.1 Steckbrief

Art Brandschutzversicherung Schadenssumme.

Quelle SoftwareR, Packagefitdistrplus (Datens¨atze:danishuni, danishmulti).

Datenformat Liste inR.

Sprache Englisch.

Verf¨ugbarkeit Installieren und Laden des Package inR.

Dateiumfang 2167 Zeilen, 2 bzw. 5 Spalten.

Zeithorizont 1980-1990 (Stand: Mai 2021).

3.2 Beschreibung

Im Packagefitdistrplus gibt es zwei Datens¨atze zur d¨anischen Brandschutzversicherung. Der eine ist univariat, der zweite multivariat.

Der univariate Datensatz beinhaltet 2167 Sch¨aden im Zeitabschnitt 1980 bis 1990. Diese sind inflationsbereinigt und in Million D¨anischer Kronen gelistet.

Der multivariate Datensatz ber¨ucksichtigt dieselben Datenpunkte wie eben. Allerdings wurde der Gesamtschaden unterteilt in building loss, content loss und profit loss.

3.3 Daten

Der univariate Datensatz hat 2 Spalten, das Datum Date ist in der ersten Spalte gelistet, der dazugeh¨orige SchadenLoss in der zweiten. Beide Variablen sind vom Typdouble.

Dermultivariate Datensatzumfasst 5 Spalten,Dateverweist auf das Datum des Ereignisses (day of occurrence), Building auf die Schadenssumme bzgl. des Geb¨audes,Contents auf die Schadenssumme der Inhalte,Profits auf die Schadenssumme aus Profitabdeckung undTotal auf die Gesamtschadensumme. All diese Variablen sind vom Typ double.

3.4 Variablen

Univariater Satz:Die VariableLoss hat folgende Merkmale:

ˆ Minimum: 1,00, Mittelwert: 3,385, Maximum: 263,25.

ˆ Stark rechtsschief - es treten nur sehr wenige, extreme Sch¨aden auf.

ˆ Das empirische 99%-Quantil ist 26,04253.

(13)

Multivariater Satz:Die Variablen haben folgende Merkmale:

Building Contents Profits Total

Minimum 0,0 0,0 0,0 1,0

Mittelwert 1,824 1,31854 0,24214 3,385

Maximum 152,413 132,0132 61,93265 263,25

Schiefe rechtsschief rechtsschief rechtsschief rechtsschief 99%-Quantil 10,70365 15,40274 4,2337 26,04253 Ein Auszug aus dem Datensatz schaut wie folgt aus:

3.5 Bemerkungen

Der univariate Datensatz kann auch ¨uber das Package evir aufgerufen werden. In diesem Fall ist das Datum als Attribut und nicht als Spalte vorhanden.

3.6 Literatur

Der Datensatz kommt in mehreren wissenschaftlichen Publikationen vor, u.a. in

Modeling loss data using mixtures of distributions, [MG16], undModeling actuarial data with a composite lognormal- Pareto model, [KM05].

13

(14)

4 Versicherungspr¨ amien nach L¨ andern

4.1 Steckbrief

Art Versicherungspr¨amien verschiedener L¨ander.

Quelle OECD.Stat.

Datenformat Excel, CSV, PC-axis, Developer API, SDMX (XML).

Sprache Englisch.

Verf¨ugbarkeit Keine Registrierung notwendig.

Dateiumfang Je nach Datensatz unterschiedlich, z.B. 1604 Zeilen, 15 Spalten, 182 KB.

Zeithorizont 1983-2019 (Stand: Mai 2021).

4.2 Beschreibung

Die Website OECD stellt verschiedene Datens¨atze zu Versicherungspr¨amien zur Verf¨ugung. Die Statistiken um- fassen eine Reihe europ¨aischer Staaten sowie eine Auswahl verschiedener Staaten der Welt. Genauere Infos zum jeweiligen Datensatz sind ¨uber ein Infomationsfenster abrufbar.

Alle Datens¨atze haben einen Wert pro Land und Jahr (1983-2019). Dieser Wert ist in Mio. US-Dollar gegeben und wurde ¨uber den jeweiligen Endjahreswechselkurs aus der entsprechenden W¨ahrung in diese Einheit umgerechnet.

Neben den im Steckbrief genannten Ausgabem¨oglichkeiten verf¨ugt die Seite auch ¨uber eine direkte Anzeige der Daten in Tabellenformat.

4.3 Daten

Die OECD verf¨ugt ¨uber diverse Versicherungsmarktdaten, bez¨uglich Pr¨amien sind insbesondere folgende Datens¨atze zu nennen:

ˆ Bruttopr¨amien, sparten¨ubergreifend.

ˆ Pr¨amien (brutto, netto, zediert) jeweils f¨ur Non-life und Life, wobei je Sparte noch nach Unterart der Versi- cherung unterschieden werden kann.

ˆ Verschiedene Kennzahlen zu Marktanteilen.

Die Verf¨ugbarkeit der Daten ist je nach Land unterschiedlich.

4.4 Beispiel

Als Beispiel sei hier der Datensatz gegeben, der die spartenspezifischen Pr¨amien in Mio. US-Dollar angibt nach

ˆ Land,

ˆ Jahr,

ˆ Pr¨amienart (brutto, netto, zediert),

ˆ Erst- oder R¨uckversicherung oder beides,

ˆ 10 Unterklassen in der Non-life Sparte.

(15)

Ein m¨oglicher Datenauszug f¨ur Bruttopr¨amien im Jahr 2018 im Sektor Erstversicherung schaut wie folgt aus:

4.5 Bemerkungen

Auf der OECD-Seite sind weitere interessante Zahlen zu Versicherungsgesch¨aften der ausgew¨ahlten L¨ander zu finden.

Darunter finden sich auch Statistiken zu Pensionsfonds, vor allem zu deren Investments und Assets.

15

(16)

5 CAS Datasets (Computational Actuarial Science with R)

Das R-package CASdatasets umfasst eine große Menge an Versicherungsdatens¨atzen. Urspr¨unglich wurde diese Sammlung an Datens¨atzen f¨ur das Buch’Computational Actuarial Science with R’ von Arthur Charpentier erstellt.

Das pdf, welches genauere Beschreibungen zu allen Datens¨atzen enth¨alt, isthierzu finden. Im Folgenden sind eine Reihe von interessanten Datens¨atzen aus dieser Sammlung aufgelistet und beschrieben. Dabei handelt es sich vor allem um S¨atze zur Sparte Nicht-Leben.

Der Erdbebensatz enth¨alt einen Link, welcher viel genauere Daten zu Erdbeben enth¨alt (5.3.4).

Bestimmte Datens¨atze aus dem R-package werden unter anderem in den Actuarial Data Science Tutorien der Schweizer Aktuarsvereinigung verwendet (Link).

5.1 Naturkatastrophen Australien

5.1.1 Steckbrief

Art Katastrophenereignisse in Australien.

Quelle SoftwareR, PackageCASdatasets (Datensatz: auscathist).

Datenformat Dataframe inR.

Sprache Englisch.

Verf¨ugbarkeit Installieren und Laden des Package inR.

Dateiumfang 206 Zeilen, 9 Spalten.

Zeithorizont 1967-2014 (Stand: Mai 2021).

5.1.2 Beschreibung

Dieser Datensatz inR umfasst die Statistik der Naturkatastrophen in Australien zwischen 1967 und 2014.

5.1.3 Daten

Das Dataframe umfasst 206 Zeilen und 9 Spalten. Die Spaltenkategorien sind die folgenden:

ˆ Year: numerische Variable f¨ur das Jahr.

ˆ Quarter: numerische Variable f¨ur das Quartal in diesem Jahr.

ˆ FirstDay: Erster Tag der Katastrophe (Datumsobjekt).

ˆ LastDay: Letzter Tag der Katastrophe (Datumsobjekt).

ˆ Event: String, welcher das Event beschreibt.

ˆ Type: Nominale Variable, welche den Typ des Events beschreibt: ’Cyclone’, ’Earthquake’, ’Flood’, ’Flood,Storm’,

’Hailstorm’, ’Other’, ’Power outage’, ’Storm’, ’Tornado’, ’Weather’, ’Bushfire’.

ˆ Location: Beschreibung der Zone der Katastrophe.

ˆ OriginalCost: Uspr¨ungliche Kosten in Millionen Australische Dollar (AUD).

ˆ NormCost2011: Angepasste Kosten basierend auf Inflation, Wohlstands¨anderung und Bev¨olkerung.

(17)

ˆ NormCost2014: Angepasste Kosten aus dem Jahr 2011 basierend auf Inflation, gemessen am CPI (consumer price index).

Das Dataframe inR schaut wie folgt aus:

5.1.4 Aufrufen der Daten

Installieren der Packagessp,xts, zoo, danninstall.packages(’CASdatasets’, repos =

’http://dutangc.free.fr/pub/RRepos/’, type=’source’). Schließlich Aufrufen der Befehle library(CASdatasets) und data(auscathist).

17

(18)

5.2 Autoversicherung Australien

5.2.1 Steckbrief

Art Autoversicherung in Australien.

Quelle SoftwareR, Package CASdatasets (Datensatz:ausprivauto0405).

Datenformat Dataframe inR.

Sprache Englisch.

Verf¨ugbarkeit Installieren und Laden des Package inR.

Dateiumfang 67856 Zeilen, 9 Spalten.

Zeithorizont 2004-2005 (Stand: Mai 2021).

5.2.2 Beschreibung

Dieser Datensatz in R beinhaltet Datenpunkte zur Autohaftpflichtversicherung. Es handelt sich um australische Vertr¨age unterschiedlicher Vetragslaufzeiten von maximal einem Jahr, wobei nicht jeder Vertrag einen gemeldeten Schadenfall umfasst.

5.2.3 Daten

Das Dataframe umfasst 67856 Zeilen (1 pro Vertrag) und 9 Spalten. Von den 67856 Vertr¨agen verzeichnen 4624 mindestens einen Schadenfall.

Die Spaltenkategorien sind die folgenden:

ˆ Exposure: Vertragslaufzeit ( ≤1 Jahr).

ˆ VehValue: Fahrzeugwert in 1000 Australischen Dollar.

ˆ VehAge: Altersklasse Fahrzeug.

ˆ VehBody: Fahrzeugstyp.

ˆ Gender: Geschlecht des Versicherungsnehmers.

ˆ DrivAge: Alter des Versicherungsnehmers.

ˆ ClaimOcc: Auftreten mind. eines Schadenfalles (0-1).

ˆ ClaimNb: Anzahl der Sch¨aden innerhalb des Vertrages.

ˆ ClaimAmount: Schadensumme aller Sch¨adenf¨alle des Vertrages.

(19)

Das Dataframe inR schaut wie folgt aus:

5.2.4 Aufrufen der Daten

Installieren der Packagessp,xts, zoo, danninstall.packages(’CASdatasets’, repos =

’http://dutangc.free.fr/pub/RRepos/’, type=’source’). Schließlich Aufrufen der Befehle library(CASdatasets) und data(ausprivauto0405).

5.2.5 Literatur

Der Datensatz kommt z.B. inGeneralized Linear Models for Insurance Data, [HDJ08], vor.

19

(20)

5.3 Erdbeben

5.3.1 Steckbrief

Art Liste von Erdbeben (Mag.>6).

Quelle Software R, Package CASdatasets (Datensatz:eqlist).

Datenformat Dataframe inR.

Sprache Englisch.

Verf¨ugbarkeit Installieren und Laden des Package inR.

Dateiumfang 8425 Zeilen, 16 Spalten.

Zeithorizont 1900-2014 (Stand: Mai 2021).

5.3.2 Beschreibung

Dieser Datensatz inRbeinhaltet eine detailreiche Auflistung aller (laut Packagedokumentation) Erdbeben weltweit mit einer St¨arke/Magnitude gr¨oßer oder gleich 6.

5.3.3 Daten

Das Dataframe umfasst 8425 Erdbeben, welche anhand von 16 Attributen klassifiziert werden. Die beschreibenden Kategorien sind die folgenden:

ˆ time: Datum des Erdbebens.

ˆ latitude: Breitengrad.

ˆ longitude: L¨angengrad.

ˆ depth: Tiefe (ohne angegebene Maßeinheit).

ˆ mag: Magnitude.

ˆ magType: Art der Magnitude.

ˆ nst, gap, dmin, rms, net, id, updated.

ˆ place: Ort des Erdbebens, Textform.

ˆ type.

ˆ day: Tag des Erdbebens, ohne Uhrzeit.

(21)

Das Dataframe inR schaut wie folgt aus:

5.3.4 Bemerkungen

Die Daten kommen urspr¨unglich von Search Earthquake Catalog. Hier sind weit mehr Erdbebendaten zu finden (auch von geringerer St¨arke als Magnitude ≥ 6). Des Weiteren k¨onnen verschiedene Filter angewendet und das Eintreten der Erdbeben kann geographisch auf einer Landkarte eingesehen werden.

5.3.5 Aufrufen der Daten

Installieren der Packagessp,xts, zoo, danninstall.packages(’CASdatasets’, repos =

’http://dutangc.free.fr/pub/RRepos/’, type=’source’). Schließlich Aufrufen der Befehle library(CASdatasets) und data(eqlist).

21

(22)

5.4 Betriebsunterbrechung Frankreich

5.4.1 Steckbrief

Art Schadenf¨alle in der Betriebsunterbrechungsversicherung.

Quelle SoftwareR, PackageCASdatasets (Datensatz: frebiloss).

Datenformat Dataframe inR.

Sprache Englisch.

Verf¨ugbarkeit Installieren und Laden des Package inR.

Dateiumfang 2387 Zeilen, 8 Spalten.

Zeithorizont 1985-2000 (Stand: Mai 2021).

5.4.2 Beschreibung

Dieser Datensatz in R beinhaltet eine Liste von Schadenf¨allen in der Betriebsunterbrechung. Es sind nur F¨alle enthalten, bei welchen der Schaden mindestens 100.000 franz¨osische Franken betr¨agt. Die Schadensummen wurden auch in Euro umgerechnet und in einer separaten Spalte notiert, wobei die Umrechnung auf Gr¨oßen des Jahres 2007 zur¨uckgeht.

5.4.3 Daten

Das Dataframe umfasst 2387 Betriebsunterbrechungen, welche anhand von folgenden Kategorien beschrieben wer- den:

ˆ Year: Jahr des Schadens.

ˆ OccurDate: Datum des Ereignisses.

ˆ PolicyID: Vertragsnummer.

ˆ ClaimID: Schadennummer.

ˆ ClaimCost: Urspr¨unglicher Schaden in franz. Franken.

ˆ TotalCost: Schaden + Kosten in franz. Franken.

ˆ ClaimCost2007: In (tausend) Euro umgerechneter Schaden.

ˆ TotalCost2007: Schaden + Kosten in (tausend) Euro umgerechnet.

Das Dataframe inR schaut wie folgt aus:

(23)

5.4.4 Aufrufen der Daten

Installieren der Packagessp,xts, zoo, danninstall.packages(’CASdatasets’, repos =

’http://dutangc.free.fr/pub/RRepos/’, type=’source’). Schließlich Aufrufen der Befehle library(CASdatasets) und data(frebiloss).

5.4.5 Literatur

Der Datensatz kommt z.B. inExtreme Values in Business Interruption Insurance, [Zaj96], vor.

23

(24)

5.5 Hurrikan Historie Nordatlantik

5.5.1 Steckbrief

Art Historie von Hurrikans im Nordatlantik.

Quelle SoftwareR, PackageCASdatasets (Datensatz:hurricanehist).

Datenformat Dataframe inR.

Sprache Englisch.

Verf¨ugbarkeit Installieren und Laden des Package inR.

Dateiumfang 2010 Zeilen, 8 Spalten.

Zeithorizont 1899-2006 (Stand: Mai 2021).

5.5.2 Beschreibung

Dieser Datensatz inR beinhaltet eine Auflistung der Hurrikans (Wirbelst¨urme) im Nordatlantik.

5.5.3 Daten

Das Dataframe umfasst 2010 Wirbelst¨urme, welche anhand folgender Kategorien spezifiziert werden:

ˆ Year: Jahr des Sturms.

ˆ Region: Ort des Sturms (Basin, East, Florida, Gulf, US).

ˆ Windmax: Maximale Windst¨arke in Knoten (1kt = 0.51secm = 1.85kmh ).

ˆ NAO: North Atlantic Oscillation (NAO) Index als Indikator des Sturmes.

ˆ SOI: Southern Oscillation Index (SOI) als Indikator der El Nino-Southern Oszillation.

ˆ SST: Atlantic sea-surface temperature (SST) als Indikator der Sturmenergie.

ˆ SSTmda, sun.

Das Dataframe inR schaut wie folgt aus:

5.5.4 Aufrufen der Daten

Installieren der Packagessp,xts, zoo, danninstall.packages(’CASdatasets’, repos =

’http://dutangc.free.fr/pub/RRepos/’, type=’source’). Schließlich Aufrufen der Befehle library(CASdatasets) und data(hurricanehist).

(25)

5.5.5 Literatur

Der Datensatz kommt inModeling tropical cyclone intensity with quantile regression, [JE09], vor.

25

(26)

5.6 Haftplichtversicherung Schadendreiecke Schweiz

5.6.1 Steckbrief

Art Kumulative Schadendreiecke Haftpflicht Schweiz.

Quelle SoftwareR, PackageCASdatasets (Datensatz:swtriangles).

Datenformat Dataframe inR.

Sprache Englisch.

Verf¨ugbarkeit Installieren und Laden des Package inR.

Dateiumfang 2 Dreiecke, 10×10.

Zeithorizont Zeitunabh¨angig, 10 Schadenjahre, 10 Abwicklungsjahre (Stand: Mai 2021).

5.6.2 Beschreibung

Dieser Datensatz inR beinhaltet 2 Dreiecke mit kumulativen Daten zu Reserven und Schadenzahlungen.

5.6.3 Daten

Jede Zeile entspricht einem Schadenjahr, ¨uber die Spalten sind die Abwicklungsjahre aufgetragen. Maßeinheit ist keine gegeben.

Das Dataframe inR schaut wie folgt aus:

5.6.4 Aufrufen der Daten

Installieren der Packagessp,xts, zoo, danninstall.packages(’CASdatasets’, repos =

’http://dutangc.free.fr/pub/RRepos/’, type=’source’). Schließlich Aufrufen der Befehle library(CASdatasets) und data(swtri1auto).

(27)

5.6.5 Bemerkungen

Weitere Daten zu Schadendreiecken sind in diesem Package mittels folgender Befehle aufzurufen:

ˆ data(sgautoprop9701), data(sgautoBI9301): Singapur, 2 Dreiecke, Kfz-Haftpflicht, inkrementelle Zahlungen.

ˆ data(nortritpl8800): Norwegen, 5 Dreiecke, Personensch¨aden, kumulative Zahlungen und Schadenanzahl.

ˆ data(fretri1auto9605), data(fretri2auto9605), data(fretri3auto9605), data(fretri4auto9403): fretriXautoYYZZ beinhaltet das Dreieck zur Xth line of business von YY bis ZZ. F¨ur jeden der 4 Datens¨atze gibt es 3 ×2 Dreiecke, Reserve und Schadenzahlung f¨ur Sachschaden, Personenschaden und Totalschaden.

5.6.6 Literatur

Der Datensatz kommt u.a. vor in Estimation of Tail Development Factors in the Paid-Incurred Chain Reserving Method, [MW13].

27

(28)

6 Reiseversicherung

6.1 Steckbrief

Art Haftpflichtversicherung Reiseversicherung.

Quelle Kaggle,Daten.

Datenformat CSV.

Sprache Englisch.

Verf¨ugbarkeit Registrierung via E-Mail.

Dateiumfang 63.326 Zeilen, 11 Spalten (4,36 MB).

Zeithorizont k.A. (Stand: Mai 2021).

6.2 Beschreibung

Dieser Datensatz auf Kaggle beinhaltet Informationen zu Vertr¨agen einer Reiseversicherung aus Singapur. Dieser anonyme Datensatz umfasst unterschiedliche Vertragstypen bei verschiedenen Reiseagenturen und besitzt neben 10 Kovariablen eine Spalte mit Schaden eingetroffen oder nicht. Der Datensatz ist online einsehbar oder steht als csv-Datei zum Download bereit.

6.3 Daten

Die 63326 Vertr¨age werden durch folgende 11 Spalten klassifiziert:

ˆ Agency: Reiseagentur.

ˆ Agency type: Agenturentyp (Reise oder Airline).

ˆ Distribution channel: Vertrieb, online oder offline.

ˆ Product Name: Typ der Versicherung.

ˆ Claim: Schaden, ja/nein.

ˆ Duration: Reisedauer.

ˆ Destination: Reiseziel.

ˆ Net Sales: Keine genauere Angabe an dieser Stelle.

ˆ Commision (in value): Kommission an die Agentur.

ˆ Gender: Geschlecht der versicherten Person.

ˆ Age: Alter der versicherten Person.

(29)

Die Daten schauen (online) wie folgt aus:

6.4 Bemerkungen

Die Angaben zum Geschlecht sind sehr l¨uckenhaft (71% der Angaben fehlen bei dieser Variable).

6.5 Literatur

Der Datensatz kommt in mehreren Notebooks auf Kaggle vor. Zu finden ist die Liste dieserhierauf Kaggle.

29

(30)

7 Allgemeine Branchendaten deutscher Versicherungsmarkt

7.1 Steckbrief

Art Allgemeine Daten zur Versicherungswirtschaft in Deutschland.

Quelle GDV,Zahlen und Fakten.

Datenformat CSV/Excel.

Sprache Deutsch.

Verf¨ugbarkeit Keine Registrierung notwendig.

Dateiumfang Zahlreiche Tabellen kleinen Umfangs.

Zeithorizont Letzte Jahre/letztes Jahr, je nach Datensatz auch ¨altere Daten (Stand: Mai 2021).

7.2 Beschreibung

Die Webseite der GDV stellt j¨ahrlich aktualisierte Daten zur Versicherungsbranche zur Verf¨ugung. Diese umfassen die Gebiete Branchendaten, Lebensversicherung, Schaden- und Unfallversicherung und Kfz-Versicherung. Es han- delt sich dabei um aggregierte Daten der GDV-Mitgliedsunternehmen aus dem letzten Jahr oder der letzten Jahre.

Hierbei sei erw¨ahnt, dass der Gesamtverband der Deutschen Versicherungswirtschaft (GDV) die Dachorganisation der privaten Versicherer in Deutschland ist und rund 460 Mitglieder mit fast 446 Millionen Versicherungsvertr¨agen umfasst.

Auf der GDV-Seite steht hier das Statistische Taschenbuch der Versicherungswirtschaft Jahr XXXX zum Pdf- Download zur Verf¨ugung. Der Inhalt ist hier etwas granularer als in den csv-Tabellen. Sollte der Link nicht funk- tionieren, ist das Pdf unterZahlen und Fakten - Publikationen zu finden.

7.3 Daten

In der folgenden Auflistung seien die Daten samt Unterkategorien aufgelistet, welche auf der GDV-Seite zu fin- den sind. Die meisten Kennzahlen beziehen sich auf das Vorjahr, an manchen Stellen sind l¨angere Zeithorizonte abgedeckt.

ˆ Branchendaten:

– Uberblick: Beitragsdaten, Anzahl Vertr¨¨ age.

– Versicherer: VU nach Sparten und Standorten.

– Erwerbst¨atige: Daten zu Besch¨aftigten in VU.

– Kapitalanlagen.

– Internationale M¨arkte: St¨arkste Marktanteile nach L¨andern.

ˆ Lebensversicherung:

– Uberblick: Generelle Kennzahlen.¨

– Renten- und Kapitalversicherungen: Beitrags- und Vertragszahlen.

– Risikoversicherung.

– Riester- und Basisrenten: Beitr¨age und Vertr¨age, letzte 10 Jahre.

– Betriebliche Altersversorgung: Best¨ande und Beitr¨age verschiedener Altersversorgungsfonds.

– Kapitalanlagen: Struktur und Nettoverzinsung.

(31)

ˆ Schaden- und Unfallversicherung:

– Uberblick: Kennzahlen zu unterschiedlichen Versicherungssparten.¨

– Wohngeb¨aude, Hausrat, Elementarschaden, Haftpflicht, Rechtsschutz, Kreditversicherung, Unfall, Nicht- Private Sach, Transport und Luftfahrt, Directors-and-Officers.

ˆ Kfz-Versicherung:

– Uberblick: Beitr¨¨ age, Leistungen und Schaden-Kosten-Quoten verschiedener Kfz-Versicherungstypen.

– Autodiebstahl: Nach Marke, Modell, Bundesland und Fahrzeugart.

– Schadenarten.

Als Beispiel, wie die Daten (online) ausschauen, sei hier an einer von drei Tabellen des Unterbereichs Hausratver- sicherung gezeigt:

7.4 Bemerkungen

Bei den Daten, die auch als csv-Dateien runtergeladen werden k¨onnen, sind auf der GDV-Seite jeweils Fußnoten und Quellen zu den einzelnen Tabellen zu finden.

Das statistische Taschenbuch der Versicherungswirtschaft steht ebenso in englischer Sprache zur Verf¨ugung. Hier kann es bei den verschiedenen Sprachen zu Unterschieden im Datum der Herausgabe kommen.

31

(32)

8 Datenpannen (Cyberrisiken)

8.1 Steckbrief

Art Daten zu Datenpannen in den USA.

Quelle Privacy Rights Clearinghouse,Datenpannen.

Datenformat CSV.

Sprache Englisch.

Verf¨ugbarkeit Keine Registrierung notwendig.

Dateiumfang 18889 Zeilen.

Zeithorizont 2005-2019 (Stand: Mai 2021).

8.2 Beschreibung

Diese Webseite stellt eine Auflistung von Datenpannen in den USA zur Verf¨ugung. U.A. beinhaltet der Datensatz Informationen zur Art der Datenpanne und eine genauere Beschreibung des Vorfalls. Daher ist die csv-Datei sehr textlastig und teilweise etwas unvorteilhaft formatiert (Zeilenspr¨unge, mehrere Zeilen f¨ur einen Datenpunkt etc.).

Dessen sollte man sich bei der Nutzung bewusst sein.

8.3 Daten

Hier folgend seien die Spalten des Datensatzes genauer erkl¨art.

ˆ Date made public: Datum der Ver¨offentlichung der Panne.

ˆ Company: Betroffenes Unternehmen (manche in Anf¨uhrungszeichen gelistet, manche nicht).

ˆ City, State: Ort des Unternehmens.

ˆ Type of breach:

– CARD: Nicht gehackter Kartenbetrug (z.B. am Automaten).

– HACK: Von außen gehackt oder von Malware/Schadsoftware infiziert.

– INSD: Datenpanne von Insider kommend (Mitarbeiter, Kunde etc.).

– PHYS: Verlorene oder gestohlene physische Materialien (z.B. Papierdokumente).

– PORT: Tragbares Ger¨at, verloren, gestohlen o. ¨A. (z.B. Laptop).

– STAT: Station¨are Computerpanne (nicht mobiler Computer, z.B. kein Laptop).

– DISC: Ungewollte Ver¨offentlichung (z.B. ausversehen ver¨offentlicht, verschickt etc.).

– UNKN: Unbekannte Datenpanne.

ˆ Type of organization:

– BSF: Finanz- oder Versicherungsunternehmen.

– BSO: Andere Business-Unternehmen.

– BSR: Handelsunternehmen.

– EDU: Bildungseinrichtungen.

– GOV: Staat, Milit¨ar.

(33)

– MED: Gesundheitswesen/-¨amter/-unternehmen.

– NGO: Non-profit Unternehmen.

– UNKN: Unbekannt.

ˆ Total Records: Datens¨atze/Aufzeichnungen (Zahl, mit oder ohne Anf¨uhrungszeichen).

ˆ Description of incident: Detailliertere Beschreibung der Panne, teilweise l¨angeres Textfeld.

ˆ Information Source, Source URL: Quelle.

ˆ Year of Breach, Latitude, Longitude: Weitere Angaben zur Panne und deren Unternehmen.

Damit eine Vorstellung des Datensatzes gewonnen werden kann, hier ein kleiner Ausschnitt:

8.4 Bemerkungen

Die Seite wurde (Stand Mai 2021) ¨uberarbeitet, daher kann es sein, dass der Link im Steckbrief veraltet ist.

8.5 Literatur

Der Datensatz wird u.A. in folgendem Paper benutzt:Cyber Risk Management: an actuarial point of view, [Car+19].

33

(34)

9 Risikokapitalberechnung unter Solvency II

9.1 Steckbrief

Art Daten aus einem DAV Use Case zur SCR-Berechnung.

Quelle Aktuar.de,Use Case,Github mit Daten.

Datenformat CSV.

Sprache Deutsch/Englisch.

Verf¨ugbarkeit Keine Registrierung notwendig.

Dateiumfang 8 csv-Dateien pro 3 Portfolios, insgesamt ca. 30 MB.

Zeithorizont Fiktiv, f¨ur diesen Use Case erzeugt. (Stand: Mai 2021).

9.2 Beschreibung

In der Fallstudie wird bei der SCR-Berechnung unter Solvency II der klassische Least Squares Monte Carlo-Ansatz mit neuronalen Netzen verglichen. Hierf¨ur wurden realistische Projektionsdaten von drei im Rahmen dieses Use Case aufbereiteten Lebensversicherungs- und Krankenversicherungsportfolios erzeugt. Die genaue Beschreibung der Fallstudie ist unter dem im Steckbrief aufgef¨uhrten Link zu finden.

Die f¨ur die Fallstudie generierten Datens¨atze sind 8 pro Portfolio, wovon es wiederum 3 gibt. Man sollte im Hinterkopf behalten, dass es sich um Datens¨atze handelt, welche f¨ur eine Anwendung eines neuronalen Netzwerkes hergenommen werden.

9.3 Daten

Im Folgenden werden die Datens¨atze pro Portfolio genauer erkl¨art.

ˆ train input.csv, train result.csv: Fitting-Datenset f¨ur das Training. Ungenaue Auswertungen der Bilanzposi- tionen von einer Vielzahl von Risiko-Szenarien. Own Funds (Output) als Teil der gestressten Marktwertbilanz in den entsprechenden Szenarien.

ˆ validation input.csv, validation result.csv: Zur ¨Uberpr¨ufung der G¨ute der Trainingsresultate gibt es dieses sogenannte Out Of Sample Validation Set bestehend aus 256 Szenarien.

ˆ stderror validation.csv: F¨ur jedes Szenario der Standardfehler als Maß f¨ur die Ungenauigkeit des zugrundelie- genden Sch¨atzers.

ˆ nested input.csv, nested result.csv: Alternativer Validationsdatensatz.

ˆ stderror nested.csv: Standardfehler dieser letzteren Validierung.

(35)

Als Beispielsdatensatz ist hier ein Ausschnitt des validation input.csv-Datensatzes aufgef¨uhrt:

9.4 Literatur

Der Datensatz wird wie weiter oben erw¨ahnt in der DAV-Fallstudie verwendet, diehierzu finden ist.

35

(36)

10 Kreditdaten Deutschland

10.1 Steckbrief

Art Deutscher Kredit-Datensatz.

Quelle data.world.

Datenformat CSV oder Dataframe inR.

Sprache Englisch.

Verf¨ugbarkeit Registrierung notwendig.

Dateiumfang 1000 Zeilen, 21 Spalten, 14 KB.

Zeithorizont Keine Angabe (Stand Mai 2021).

10.2 Beschreibung

Dieser Datensatz klassifiziert mittels einer Reihe an Attributen Kunden als gute oder schlechte Kreditrisiken. Es werden datensatzinterne Schl¨ussel zur Beschreibung der Kategorien verwendet, weshalb es notwendig ist, unter dem verwiesenen Link die Bezeichnung dieser Kategorien nachzulesen (siehe z.B. die ’A-Werte’ im Screenshot).

10.3 Daten

Das Dataframe umfasst 1000 Datenpunkte und 21 Variablen, von denen einige im Folgenden genauer erl¨autert werden (f¨ur die weiteren Variablen sei auf die angegebene Quelle verwiesen):

ˆ checking status: Status des Girokontos.

ˆ duration: Dauer des Kredits in Monaten.

ˆ credit history: Angabe ¨uber R¨uckzahlungen in der Vergangenheit.

ˆ purpose: Verwendung des Kredits (z.B. Autokauf, Urlaub, etc.).

ˆ credit amount: Kredith¨ohe in DM.

ˆ installment rate: Anzahl Zahlungsraten.

ˆ personal status: Angabe ¨uber Geschlecht und Zivilstand des Kreditnehmers.

ˆ housing: Wohnzustand.

ˆ job: Arbeitsverh¨altnis.

ˆ class: kreditw¨urdig ja/nein (0/1).

(37)

Die csv-Datei schaut wie folgt aus:

10.4 Bemerkungen

Beim Download des Datensatzes wird eine weitere csv-Datei runtergeladen, welche sich dann f¨ur Algorithmen eig- net, die numerischer Variablen bed¨urfen.

Dieser Datensatz ist auch Teil desR-PackagesCASdatasets, worunter zahlreiche versicherungstechnische Datens¨atze enthalten sind. Einige davon sind in diesem Dokument gelistet, die vollst¨andige Auflistung isthierzu finden.

Aufrufen der Daten:Installieren der Packagessp,xts,zoo, danninstall.packages(’CASdatasets’, repos =

’http://dutangc.free.fr/pub/RRepos/’, type=’source’). Schließlich Aufrufen der Befehle library(CASdatasets) und data(credit).

10.5 Literatur

Der Datensatz wird u.A. in folgendem Buch benutzt:Data Mining and Statistics for Decision Making, [Tuf11].

37

(38)

11 Schadenf¨ alle Autoversicherung (Insurance Claims)

11.1 Steckbrief

Art Schadenf¨alle in der Autoversicherung mit F¨ulle an Kovariablen.

Quelle Kaggle,Daten.

Datenformat CSV.

Sprache Englisch.

Verf¨ugbarkeit Keine Registrierung notwendig.

Dateiumfang 1000 Zeilen, 39 Spalten, 260,7 KB.

Zeithorizont Januar-Februar 2015 (Stand Mai 2021).

11.2 Beschreibung

Zum Datensatz geh¨oren Schadenf¨alle aus der Autoversicherung einzelner US-Bundesstaaten, n¨amlich Indiana, Ohio und Illinois. Enthalten ist eine große Menge an Variablen inklusive Schadensumme. W¨ahrung ist keine angegeben, vermutlich handelt es sich um US Dollar.

11.3 Daten

Der Datensatz umfasst 1000 Datenpunkte und 39 Variablen, von denen einige im Folgenden aufgelistet bzw. genauer erl¨autert werden (f¨ur die weiteren Variablen sei auf die angegebene Quelle verwiesen):

ˆ months as customer: Anzahl Monate als Kunde.

ˆ age: Alter zwischen 19 und 64, ann¨ahernd normalverteilt.

ˆ policy number, policy state.

ˆ policy deductible: Selbstbehalt, zwischen 500 und 2000.

ˆ policy annual premium (ann¨ahernd normalverteilt), insured sex.

ˆ umbrella limit: Manche Vertr¨age beinhalten eine Schadensobergrenze.

ˆ insured educational level: (Ausbildungs-)Abschluss des Versicherten, 7 verschiedene Kategorien.

ˆ insured occupation: Beruf des Versicherten, 14 Kategorien.

ˆ insured hobbies, insured relationship, incident date.

ˆ incident type, collision type: Diebstahl, Einzelunfall, Unfall mit mehreren Fahrzeugen, geparktes Auto und f¨ur Unfall Art des Aufpralls.

ˆ incident severity (4 Kategorien), authorities contacted, number of vehicles involved, property damage (Ja/Nein/kA), bodily injuries, witnesses

ˆ incident state, incident city, incident location: Ort des Schadenfalles.

ˆ total claim amount, injury claim, property claim, vehicle claim, auto make, auto model, auto year.

(39)

Die umgeformte csv-Datei schaut wie folgt aus:

11.4 Bemerkungen

Die Spalten collision type, property damage und police report available weisen vereinzelt L¨ucken auf.

11.5 Literatur

Der Datensatz kommt in mehreren Notebooks auf Kaggle vor. Zu finden ist diese Liste dieserhier auf Kaggle.

39

(40)

12 Wahrscheinlichkeitstafeln PKV

12.1 Steckbrief

Art Wahrscheinlichkeitstafeln in der privaten Krankenversicherung.

Quelle BaFin,Daten.

Datenformat Excel/CSV.

Sprache Deutsch.

Verf¨ugbarkeit Keine Registrierung notwendig.

Dateiumfang 4 Exceltabellen, 1 PDF-Datei, insgesamt 597,7 KB f¨ur 2018.

Zeithorizont 2002-2018 (Stand Mai 2021).

12.2 Beschreibung

Die Statistiken der BaFin enthalten u.A. genauere Daten zu Wahrscheinlichkeitstafeln und Schadenh¨ohen in der privaten Krankenversicherung. Dabei werden zu Ambulant-, Station¨ar-, Zahn- und Krankentagegeldtarifen Grund- kopfsch¨aden und Profile j¨ahrlich ver¨offentlicht. Getrennt wird hierbei nach Geschlecht, Schwangerschaft und Mut- terschaft ja/nein und Beamte ja/nein. Zudem werden Stornotafeln zur PKV und GKV ver¨offentlicht.

Die Daten sind f¨ur das Jahr 2018 beispielsweise in 3 Excel-Tabellen zu finden, dazu gibt es eine Datei, welche die Variablen- und Spaltenerkl¨arungen sowie weitere Erl¨auterungen liefert. Des Weiteren ist eine PDF-Datei zu finden, welche Grafiken der Datenreihen aus der DateiKRAWATTE 2018 Tafeln komplett.csv enth¨alt.

12.3 Daten

Im Folgenden werden kurz die Dateien aus dem verf¨ugbaren Zip-Ordner beschrieben:

ˆ Erl¨auterungen.xlsx: Enth¨alt Informationen zu den anderen Dokumenten und Erl¨auterungen der Spalten/Variablen.

ˆ KRAWATTE 2018 fSB ambulant.csv: Fiktive Selbstbehalte der Tafeln f¨ur den Ambulantbereich.

ˆ KRAWATTE 2018 GKS komplett.csv: Einj¨ahrige Grundkopfsch¨aden aller Tafeln.

ˆ KRAWATTE 2018 Tafeln komplett.csv: Normierte Profile, normierte rohe Kopfsch¨aden, Kopfschadenreihen und Best¨ande f¨ur alle Tafeln.

ˆ KRAWATTE Kopfschadenreihen mit GKS 2018: Grafische Visualisierung der Tafeln aus der DateiTafeln komplett.

(41)

Als Beispiel sei hier ein Ausschnitt der DateiTafeln komplett gezeigt:

In der obersten Zeile (=Spaltenbeschriftung) sind hierbei verschiedene Kennzahlen zu den unterschiedlichen Lei- stungsarten gegeben.

12.4 Literatur

Der Datensatz kommt u.A. im Artikel Beitragsentwicklung und Verteilungseffekte der RfB in PKV-Best¨anden, [Neu16], vor.

12.5 Bemerkungen

Zur privaten Krankenversicherung gibt es weitere Quellen, die j¨ahrlich Fakten und Zahlen herausgeben. Mit dazu z¨ahlt auch der Verband der Privaten Krankenversicherung selbst (PKV), der j¨ahrlich einen Zahlenbericht zu ¨uber 100 Seiten im PDF-Format herausgibt. Darin zu finden sind ein ¨Uberblick der Branche, Versicherungsbest¨ande, Ertr¨age, Aufwendungen, Statistiken zur Tarifkalkulation und diverse Zeitreihen verschiedener Kennzahlen. Der Bericht isthierzu finden. Dabei ist eine Anmeldung notwendig, die Nutzung der Daten ist weiterhin kostenlos.

41

(42)

13 Statistik Erstversicherungsunternehmen Deutschland

13.1 Steckbrief

Art Statistik der BaFin - Erstversicherungsunternehmen.

Quelle BaFin,Daten.

Datenformat xlsx-Dateien/PDF.

Sprache Deutsch.

Verf¨ugbarkeit Keine Registrierung notwendig.

Dateiumfang 6 Exceltabellen, mehrere Tabellenbl¨atter, 1 PDF-Datei (75 Seiten in 2019), ges. ca. 3-4 MB/Jahr.

Zeithorizont 2001-2019 (Stand Mai 2021).

13.2 Beschreibung

Unter den Statistiken der BaFin finden sich auch eine Reihe an Datens¨atzen zu deutschen Erstversicherungsunter- nehmen und Pensionsfonds. Einer allgemeinen Erstversicherungsstatistik stehen spezifischere Tabellen pro Sparte gegen¨uber. Die Daten werden jedes Jahr herausgegeben, in Excel- und im PDF-Format.

13.3 Daten

Im Folgenden werden kurz die Dateien beschrieben, die jedes Jahr erscheinen:

ˆ BaFin-Erstversicherungsstatistik: Enth¨alt eine Liste zu den Versicherungsunternehmen und Pensionsfonds unter Bundesaufsicht mit Angabe ¨uber Ort des VU und Bruttobeitr¨age. U.A. ist eine Zusammensetzung der Kapitalanlagen pro Sparte gegeben (siehe Beispiel).

ˆ Lebensversicherung, Pensionskassen, Krankenversicherung, Schaden- und Unfallversicherung, Pensionsfonds:

Zu all diesen Sparten sind in separaten Exceltabellen auf mehreren Tabellenbl¨attern aggregierte Kennzahlen gegeben.

ˆ Gesamtausgabe PDF: Daten zur Gesamtentwicklung, zu den einzelnen Sparten u.A. Beitrags- und Bestand- sentwicklung, R¨uckstellungen, Ertragslage, Eigenkapitalausstattung, Solvibilit¨at.

13.4 Beispiele

Als Beispiel sei hier die Zusammensetzung der Kapitalanlagen aus der DateiErstversicherungsstatistik gezeigt:

(43)

Als weiteres Beispiel seien ausgew¨ahlte Kennzahlen der Lebensversicherungsunternehmen aus der DateiLebensver- sicherungsunternehmen aufgef¨uhrt:

13.5 Literatur

Der Datensatz kommt u.A. im ArtikelDas System der betrieblichen Altersversorgung in Deutschland, [CF15], vor.

43

(44)

14 Social Policy and Law Shared Database (SPLASH)

14.1 Steckbrief

Art Sammlung ¨okonomischer und demographischer Daten, international.

Quelle SPLASH,Daten.

Datenformat Sehr heterogen.

Sprache Englisch.

Verf¨ugbarkeit Keine Registrierung notwendig.

Dateiumfang Ansammlung vieler Datenquellen und -verlinkungen.

Zeithorizont Nach Datensatz unterschiedlich (Stand Mai 2021).

14.2 Beschreibung

Diese Website ist eine Ansammlung verschiedener ¨okonomischer und demographischer Datens¨atze. Dabei werden Datens¨atze klassifiziert, kurz beschrieben und verlinkt. Die Kategorien sind

ˆ Demographic Indicators,

ˆ Education,

ˆ Family and Children,

ˆ Health,

ˆ Living Conditions,

ˆ Macroeconomic Indicators,

ˆ Migration,

ˆ Work and Retirement.

14.3 Beispiele

Um einen Eindruck der Gestaltung der Website zu bekommen, seien hier 3 Ausschnitte aufgef¨uhrt, zun¨achst die Ausgabe einer allgemeinen Suchabfrage, dann ein genauer beschriebener Datensatz in 2 Grafiken:

(45)

45

(46)

15 Globale Entwicklungsdaten

15.1 Steckbrief

Art Globale Daten zu Entwicklung und Armut.

Quelle The World Bank,Data Bank.

Datenformat Excel, CSV oder Tabbed TXT.

Sprache Englisch.

Verf¨ugbarkeit Keine Registrierung notwendig.

Dateiumfang 79 Datens¨atze/Indikatoren.

Zeithorizont 1960-2020, L¨ucken vorhanden, Aktualisierungsdatum unterschiedlich (Stand: Mai 2021).

15.2 Beschreibung

Die Weltbank (World Bank), eine multinationale Entwicklungsbank, stellt auf der oben verlinkten Website globale Entwicklungsdaten jeglicher Art zur Verf¨ugung. Die Datenbanken werden teilweise nicht j¨ahrlich aktualisiert und enthalten unter Umst¨anden L¨ucken.

In den verschiedenen Datens¨atzen gibt es unterschiedliche Variablen, die auch ausf¨uhrlich beschrieben werden.

15.3 Daten

Zu den Datenbanken z¨ahlen unter anderem

ˆ World Development Indicators (Weltweite Entwicklungsindikatoren),

ˆ Education Statistics (Ausbildungsstatistiken),

ˆ Health Nutrition and Population Statistics (Ern¨ahrungs- und Bev¨olkerungsstatistiken),

ˆ Jobs (Arbeitsstatistiken Arbeitnehmer, Unternehmen, etc.),

ˆ Worldwide Governance Indicators (politische Stabilit¨at, Korruption, Regulatorien, etc.),

ˆ Africa Infrastructure, und viele weitere.

15.4 Beispiele

Als Beispiel wird hier der DatensatzWorld Development Indicatorsaufgef¨uhrt. Dieser enth¨alt ¨uber 1400 Zeitreihen pro Land/L¨andergruppe zu mehreren Perioden. Die im Beispiel ausgew¨ahlten Kategorien sind den beiden Bildaus- schnitten bzgl. Mali und Europ¨aischer Union zu entnehmen.

(47)

47

(48)

16 Insurance Fact Book

16.1 Steckbrief

Art Globale und US-spezifische Versicherungsdaten.

Quelle Insurance Information Institute,Daten 2019.

Datenformat PDF.

Sprache Englisch.

Verf¨ugbarkeit Keine Registrierung notwendig (f¨ur 2020-Version Registrierung notwendig).

Dateiumfang 2019-Version: 236 Seiten, 15,3 MB.

Zeithorizont 2017-2018 (Version 2019).

16.2 Beschreibung

Dieses

”Faktenbuch“ wird j¨ahrlich vomInsurance Information Institute herausgegeben. Es enth¨alt zahlreiche ag- gregierte Versicherungsdaten, prim¨ar zum US-amerikanischen Versicherungsmarkt, teilweise unterteilt nach Bun- desstaat.

16.3 Daten

Die zahlreichenden Tabellen enthalten u.A. Informationen zu

ˆ Globalen und US-spezifischen Katastrophen,

ˆ Ergebnisse und Investments zur P&C und Lebens-/Krankenversicherung,

ˆ Schadenstypen,

ˆ R¨uckversicherungsdaten,

ˆ Pensionsversicherungen.

16.4 Beispiele

Als Beispiel seien hier zwei Ausschnitte gezeigt, einer zu den gr¨oßten US-amerikanischen Lebensversicherungen gemessen an den direkten Pr¨amien, und der andere zu den Sch¨aden in der Kfz-Privatversicherung.

(49)

16.5 Bemerkungen

Insurance Factbooks gibt es auch weitere, hier sind noch welche aufgelistet:

ˆ Kanadischer Versicherungsmarkt,

ˆ US-amerikanische Lebensversicherungsdaten, ACLI (American Council of Life Insurers).

49

(50)

Literaturverzeichnis

[Car+19] Maria Francesca Carfora et al. “Cyber risk management: an actuarial point of view”. In: Journal of Operational Risk 4.14 (2019). webpage, pp. 77–103.

[CF15] Johannes Clemens and Till F¨orstemann. “Das System der betrieblichen Altersversorgung in Deutsch- land”. In:Wirtschaftsdienst 95 (2015).webpage, pp. 627–635.

[HDJ08] Gillian Heller and Piet De Jong.Generalized Linear Models for Insurance Data.Link zum Buch. Cam- bridge University Press, 2008.isbn: 13 978-0-511-38677-0.

[JE09] Thomas H. Jagger and James B. Elsner. “Modeling tropical cyclone intensity with quantile regression”.

In:International Journal of Climatology 29.10 (2009).webpage, pp. 1351–1361.

[KM05] Cooray Kahadawala and M.A. Ananda Malwane. “Modeling actuarial data with a composite lognormal- Pareto model”. In:Scandinavian Actuarial Journal 5 (2005).webpage, pp. 321–334.

[MG16] Tatjana Miljkovic and Bettina Gr¨un. “Modeling loss data using mixtures of distributions”. In:Insurance:

Mathematics and Economics 70 (2016).webpage, pp. 387–396.

[MW13] Michael Merz and Mario V. W¨uthrich. “Estimation of Tail Development Factors in the Paid-Incurred Chain Reserving Method”. In:Variance1.7 (2013).pdf, pp. 61–73.

[Neu16] Thomas Neusius. “Beitragsentwicklung und Verteilungseffekte der RfB in PKV-Best¨anden”. In: Zeit- schrift f¨ur die gesamte Versicherungswissenschaft 105 (2016).Artikel, pp. 171–190.

[Ram15] Andres M. Villegas Ramirez. “Mortality: Modelling, Socio-Economic Differences and Basis Risk”.pdf.

PhD thesis. City University London, 2015.

[RR19] Stefan Roth and Gunther Reinhart. “Risikomanagement in der energieorientierten Produktionsplanung und -steuerung”. In:Zeitschrift f¨ur wirtschaftlichen Fabrikbetrieb 114 (2019).webpage, pp. 823–.

[Tuf11] St´ephane Tuff´ery.Data Mining and Statistics for Decision Making. Link zum Buch. Wiley, 2011.isbn: 978-0-470-97916-7.

[Zaj96] Daniel Zajdenweber. “Extreme Values in Business Interruption Insurance”. In:The Journal of Risk and Insurance 63.1 (1996).webpage, pp. 95–110.

Referenzen

ÄHNLICHE DOKUMENTE

Die Unterkante der Sohlplatte dieses Gebäudes liegt hinter der Stützmauer (Bereich Hauptstraße) bei 145,37 m NN, vor der Stützmauer (Bereich Rosenstraße) bei 150,98 m NN. Die durch

die

-- Definition eines Subtyps Buch von Katalogeintrag CREATE OR REPLACE TYPE buch UNDER katalogeintrtag (. isbn VARCHAR2(13), titel VARCHAR2(300), autor

– Nested Table oder Varray of a User-Defined Type mit Attribut..

-- Definition eines Subtyps Buch von Katalogeintrag CREATE OR REPLACE TYPE buch UNDER katalogeintrtag (. isbn VARCHAR2(13), titel VARCHAR2(300), autor

Beim Abruf weniger Spalten vieler Zeilen für analytische Zwecke, beispielsweise die Durchschnittsberechnung eines Attributs über alle Datensätze, können durch eine

Duden 1929 = Der große Duden: Rechtschreibung der deutschen Sprache und der Fremdwörter nach den für Deutschland, Österreich und die Schweiz gültigen amtlichen Regeln..

1 Leicht verständliche Beschreibung, die ausreichend genau ist, um die Identifizierung der Waren