• Keine Ergebnisse gefunden

3.1 Entwicklung von Modellen zur telematischen Prognose

3.1.2 Datenaufbereitung

Die Abbildung 12 zeigt die Vorgehensweise zur Aufbereitung und Filterung der genutzten Datenbanken. Dabei werden nur die gemäß Tabelle 8 ausgewählten Variablen berücksichtigt.

Abb. 12.Vorgehensweise zur Filterung und Aufbereitung der Daten

Eine wichtige Voraussetzung für die Anwendung der meisten statistischen Verfahren und damit auch für die Anwendung der Prognoseverfahren der multivariaten Statistik ist die Vollständigkeit der zugrundeliegenden Datenmenge. D.h. für alle Fälle der Stich-probe müssen die Werte aller genutzten Variablen bekannt sein. Die Verfahren aus dem Bereich des maschinellen Lernens bieten für den Umgang mit fehlenden Werten mehr Möglichkeiten als Verfahren der multivariaten Statistik. Um allerdings eine Vergleich-barkeit zwischen den Verfahren zu erreichen, wird für ausgewählte Variablen die Anfor-derung der Vollständigkeit gestellt.

Die Ursachen der fehlenden Werte sowohl in der NASS/CDS-Datenbank als auch in der GIDAS-Datenbank sind nicht vollständig bekannt. Es wird davon ausgegangen,

NASS/CDS GIDAS (no)

Filter I

Fälle mit voll-ständigen Kernvariablen (n1)

Ausgewählte Fälle (n2) Filter II

dof=F and seatpos=FL and

(n3.F/FL) Filter III

dof=L and seatpos=FL and

(n3.L/FL)

Trainingsmenge (n4tr.F/FL)

Testmenge (n4te.F/FL)

Spezifikation der Modelle

Test der Modelle bivariate

Datenanalyse

Methodik 71

dass im Rahmen der Unfallanalyse aus technischen und organisatorischen Gründen nicht immer alle Daten erhoben werden können und dass die fehlenden Werte rein zufäl-lig verteilt sind (missing completely at random). Die fehlenden Werte müssen damit einerseits unabhängig von der Ausprägung des Merkmals selbst (missing at random) und andererseits unabhängig von der Ausprägung der anderen Merkmale des jeweiligen Falls (observed at random) sein. Für den Umgang mit fehlenden Werten stehen ver-schiedene Strategien zur Verfügung, die sich grundsätzlich in die drei Gruppen Elimi-nierungsverfahren, Parameterschätzverfahren und Imputationsverfahren einteilen lassen [Runte2005]. Bei den Eliminierungsverfahren werden alle Fälle mit fehlenden Werten aus den Daten entfernt. Dies führt zwar zu einer vollständigen Datenbasis, mit der uneingeschränkt gearbeitet werden kann, aber gleichzeitig auch zu einem hohen Infor-mationsverlust. Bei den Parameterschätzverfahren werden für alle fehlenden Werte geschätzte Parameter eingesetzt, z.B. der Mittelwert für numerische Variablen oder der Modus für nominale Variablen. Mit Imputationsverfahren werden für jeden einzelnen Fall fehlende Werte geschätzt und damit die Daten vervollständigt. Die Schätzung kann beispielsweise durch ein hochkorreliertes anderes Merkmal, durch Zufallsauswahl oder durch Expertenraitings erfolgen.

Im Rahmen dieser Untersuchung wird für die Variablen gemäß Tabelle 10, Filter I das Eliminationsverfahren angewendet. Einige dieser Variablen werden zur Filterung genutzt, während andere ausgewählt wurden, weil sie in den Voranalysen einen ent-scheidenden Einfluss auf die Verletzungsintensität gezeigt haben. Diese Variablen wer-den auch als Kernvariablen bezeichnet. Es werwer-den dementsprechend nur Fälle zugelassen, für die die Ausprägungen der Kernvariablen bekannt sind. Für alle anderen Variablen wird bei der Anwendung der multivariaten statistischen Prognoseverfahren für fehlende Werte der Mittelwert bzw. Modus eingesetzt. Die Verfahren des maschinel-len Lernens erlauben die Einbeziehung fehmaschinel-lender Werte, so dass beim Einsatz dieser Verfahren keine Parameterschätzung erforderlich ist.

Nach der Eliminierung aller Fälle aus der zur Verfügung stehenden Gesamtdaten-bank, für die in den Kernvariablen fehlende Werte vorhanden sind, werden die Fälle ausgewählt, für die die Prognosemodelle zukünftig eingesetzt werden sollen. In den genutzten Datenbanken sind Unfälle in verschiedenen Konstellationen u.a. in Bezug auf Fahrzeugtypen, Aufprallart und Insassensitzposition enthalten, die sich im Unfallablauf und in den Verletzungsrisiken erheblich unterscheiden. Da für ein Prognosemodell, das alle Konstellationen abdeckt, eine geringe Leistungsfähigkeit zu erwarten ist, werden nur die Fälle für die Spezifikation einbezogen, für die ein einheitlicher Unfallablauf mit vergleichbaren Verletzungsrisiken angenommen werden kann.

Die Prognosemodelle werden nur bei Unfällen zum Einsatz kommen, bei denen eine automatische Unfallmeldung ausgelöst wurde. Die Datenmenge zum Training und Test der Modelle sollte dementsprechend nur die Unfälle enthalten, bei denen die Trigger-schwelle für eine automatische Unfallmeldung überschritten wird.42 Bei dieser Auswer-tung wird eine niedrige Triggerschwelle (dvtotal>5) angenommen, um möglichst alle schwerverletzten Insassen einzubeziehen. Die Auswahl der relevanten Fälle erfolgt nach Filter II.

Tabelle 10. Filtervariablen und Ausprägungen

In die Datenmenge werden die Fälle einbezogen, die die angegebenen Ausprägungen erfüllen.

Aus der Literaturanalyse kann abgeleitet werden, dass einerseits die Aufprallart einen entscheidenden Einfluss auf die Verletzungsrisiken der Insassen hat und anderer-seits der Einfluss einzelner Variablen auf das Verletzungsrisiko zwischen den Aufprall-richtungen erheblich schwankt [Bahouth2004]. Voruntersuchungen haben gezeigt, dass ähnliche Effekte bei unterschiedlichen Sitzpositionen auftreten. Einige Variablen haben nur bei einer bestimmten Sitzposition eine Bedeutung für die Vorhersage der Verlet-zungsintensität.43 Aus diesem Grund ist es sinnvoll, für jede Hauptaufprallrichtung und jede Sitzposition der Insassen ein eigenes Prognosemodell zu spezifizieren. Ein Modell für alle Konstellationen müsste eine wesentlich höhere Komplexität aufweisen und wäre damit schwieriger zu handhaben. Im Rahmen dieser Arbeit werden die

Prognosemo-42Es wird davon ausgegangen, dass das Prognosesystem sich nicht im Fahrzeug, sondern bei einem zentralen Provider befindet.

Variable einbezogene Ausprägungen Filter I

mais3p, dvtotal, bodytype, modelyr, curbwgt, bagavl, fbagdep, dof, roll, seatpos, beltuse

keine fehlenden Werte

Filter II

age >=15 and <=98

bodytype (1) 2-3 doors/ limousine or (2) Cabrio or (3) van/ truck

modelyr >=1990 (NASS); >=1995 (GIDAS) curbwgt >=850 kg and <=3.000 kg

bagavl (1) yes

roll (0) no

dvtotal >=5 km/h

Filter III

dof (F) frontal

seatpos (FL) driver

43Die Deformation des Lenkradkranzes hat beispielsweise nur für den Fahrer eine wesentliche Bedeutung für die Prognose der Verletzungsintensität.

Methodik 73

delle nur für den Frontalaufprall und die Fahrersitzposition entwickelt und gegenüber-gestellt (Filter III). Die Spezifikation der Modelle für die verbleibenden Konstellationen kann anschließend nach dem gleichen Verfahren erfolgen.

Zum Abschluss der Datenaufbereitung wird die gefilterte Datenmenge in eine Trai-nings- und eine Testmenge aufgeteilt, da die Bewertung der Leistungsfähigkeit der spe-zifizierten Prognosemodelle nicht nur auf der Grundlage von Fällen erfolgen kann, an der die Modelle trainiert wurden (Resubstitutionsfehler, vgl. Kapitel 3.1.4). Die Bewer-tung muss zusätzlich auf der Grundlage einer unabhängigen Datenmenge erfolgen. Die Aufteilung der Daten wurde mit Hilfe eines Zufallsgenerators durchgeführt. Dabei wird darauf geachtet, dass das Verhältnis zwischen un- bzw. leichtverletzten und schwerver-letzten Personen in beiden Mengen identisch ist.