• Keine Ergebnisse gefunden

4.1 Ableitung der Ursachen

4.1.1 E5: Ursachen im Datensatz (Trainingsprozess)

Der Ast E5, welcher die Ursachen beinhaltet, die innerhalb des Trainingsdatensatzes mög-lich sind, ist in Abbildung 4-2 abgebildet. Da aus den Trainingsdaten alle Zusammenhänge bzw. Gesetzmäßigkeiten für die Lösung der Problemstellung bzw. Aufgabe extrahiert

wer-Fehlende Generalisierbarkeit

Ursachen im

Trainingsprozess Ursachen im

Validierungsprozess Ursachen im Testprozess TLE

E2 E3 E4

Ursachen im Datensatz

Ursachen im Algorithmus

Ursachen im

Datensatz Ursachen im

Datensatz

E6

E5 E7 E8

Ursachen, die fehlende Generalisierbarkeit zur

Folge haben

Ursachen, die keine fehlende

Generalisierbarkeit zur Folge haben, sondern durch die fehlende Generalisierbarkeit im normalen Entwicklungsprozess nicht entdeckt wird

den, besitzen diese einen maßgeblichen Einfluss auf die Generalisierbarkeit des Modells.

Dabei lassen sich die Ursachen fehlender Generalisierbarkeit in eine zu geringe Qualität oder in eine unzureichende Quantität der Trainingsdaten gruppieren.

Abbildung 4-2: Ursachen im Trainingsdatensatz E12: Quantität einer Klasse zu gering

Die Unterrepräsentanz einer Klasse im Rahmen einer Klassifikation182 stellt eine mögliche Ursache für fehlende Generalisierbarkeit dar. Diese Problematik ist unter dem Begriff „im-balanced data“ oder „skewed classes“ bekannt und bezieht sich nur auf Supervised Lernan-sätze.

Die Verbesserung des Klassifikationsergebnisses des gelernten Modells während des Trai-ningsprozesses wird normalerweise durch die Berechnung der Vorhersagegenauigkeit mit-tels einer Konfusionsmatix durchgeführt. Die Spalten der Matrix stellen die vorhergesagte Klasse, die Zeilen die tatsächliche Klasse dar. Richtig bzw. korrekt als negativ klassifizier-te Beispiele sind bei TN („true negative“) eingetragen, FP sklassifizier-tellt die Anzahl der inkorrekt als positiv eingestuften Beispiele („false positives“) dar. Mit FN wird die Anzahl der falsch als negativ eingestuften Beispiele („false negatives“) und TP die Anzahl der korrekt einge-stuften positiven Beispiele („true positives“) bezeichnet. Die Korrektklassifikationsrate (Acc)183 wird wie folgt berechnet:184

Acc = 𝑇𝑇𝑇𝑇+𝑇𝑇𝑇𝑇

𝑇𝑇𝑇𝑇+𝐹𝐹𝑇𝑇+𝐹𝐹𝑇𝑇+𝑇𝑇𝑇𝑇 (4.1)

182 Siehe Abschnitt 2.2.2.

183 Englisch: Accuracy.

184 Vgl. Chawla, N. V.: Data Mining for Imbalanced Datasets (2010), S. 876.

Ursachen im Datensatz

Ursachen durch unzureichende

Quantität

Ursachen durch unzureichende

Qualität E5

E9

Quantität einer Klasse zu gering

E10

E13 E12

Label nicht korrekt Messfehler verdeckt

relevante Zusammenhänge zu

stark Repräsentativität zu

gering

E17 E16

E15 Quantität der

relevanten Zusammenhänge zu

gering

Datenpunkte fehlerhaft

E14

Besteht die Aufgabe beispielsweise darin, vorherzusagen, ob sich in den nächsten zwei Sekunden ein Unfall mit Todesfolge abhängig von Ego-Fahrdynamikgrößen und Bewe-gungsgrößen umgebender Verkehrsteilnehmer ereignet, so liegt typischerweise aufgrund des seltenen Auftretens eines Unfalls im Vergleich zu gefahrenen Kilometern185 ein Daten-satz mit vielen unkritischen Situationen (= „negatives“ Ereignis) und einigen wenigen kri-tischen Situationen vor, bei denen noch weniger in einem tatsächlichen Unfall (= „positi-ves“ Ereignis) resultierten. Durch eine solche Klassenverteilung existiert nur eine relativ gesehen sehr kleine Menge an Daten, die überhaupt ein TP hervorrufen könnten.186 Das führt dazu, dass die Vorhersagegenauigkeit sehr hoch ausfällt, auch wenn das gelernte Mo-dell immer das Vorliegen einer unkritischen Situation vorhersagt, unabhängig der tatsäch-lich vorliegenden Situation.

E13: Quantität der relevanten Zusammenhänge zu gering

Im Bereich der Quantität ist es möglich, dass die in den Trainingsdaten vorhandene Ge-samtmenge der für die Problemlösung benötigten relevanten Zusammenhänge für die Komplexität der Problemstellung nicht ausreicht. Neben der Komplexität der Problem-stellung spielt auch die Komplexität des verwendeten Algorithmus eine wichtige Rolle.

Komplexere Algorithmen benötigen eine höhere Anzahl an relevanten Zusammenhängen als einfachere Lernverfahren.187

E14: Datenpunkte fehlerhaft

Sind Datenpunkte fehlerhaft, d.h. liegen beispielsweise Ausreißer vor oder wurden korrup-te Dakorrup-ten aufgenommen, so sind die hieraus erlernkorrup-ten Zusammenhänge nicht in der Realität vorhanden. In diese Ursache werden Label bzw. der Labelprozess nicht einbezogen, da dieser Aspekt in einer eigenen Ursache Rechnung getragen wird.

E15: Repräsentativität zu gering

Neben einer ausreichenden Menge an Trainingsdaten ist es für eine ausreichende Generali-sierbarkeit ebenfalls notwendig, dass diese Menge eine genügend hohe Repräsentativität der späteren Betriebsbedingungen besitzt.188 Besteht die Aufgabenstellung im späteren Betrieb z.B. in einem Clustering von Fahrstilen und enthält der Trainingsdatensatz nur zwei der drei Fahrstile, die in der Realität vorkommen, wird der darauf angewendete Clus-teringalgorithmus die geforderte Trennung in zwei Cluster durchführen. Tritt der dritte

185 Eine Abschätzung von Wachenfeld und Winner für das Jahr 2012 bezogen auf die Gesamtfahrleistung und die Zahl der tödlichen Unfälle in Deutschland berechnet den Abstand zwischen zwei tödlichen Unfällen zu 210 Millionen Kilometern (Wachenfeld, W.; Winner, H.: Die Freigabe des autonomen Fahrens (2015), S.455).

186 Vgl. Mukherjee, U.: How to handle Imbalanced Classification Problems (2017).

187 Vgl. Brownlee, J.: How Much Training Data is Required for Machine Learning? (2017).

188 Vgl. Burton, S. et al.: Case for Safety of Machine Learning (2017), S. 12ff.

Fahrstil, welcher nicht in den Trainingsdaten vorhanden ist, im Betrieb auf, wird der Algo-rithmus eine falsche Aussage treffen.

E16: Messfehler verdeckt relevante Zusammenhänge zu stark

Sind die zur Problemlösung erforderlichen Zusammenhänge im Datensatz vorhanden, ist es möglich, dass Messfehler diese für den Lernalgorithmus so stark verdecken, dass diese nicht in ihrer eigentlichen Form identifiziert werden und das gelernte Modell im Betrieb, wenn diese Messfehler nicht mehr oder anderweitig vorhanden sind, Fehlverhalten zeigt.

Die Ursachen der Messfehler sind vielfältig und in der Literatur (beispielsweise Hering und Schönfelder189) ausführlich beschrieben.

E17: Label nicht korrekt

Eine unzureichende Qualität der Label führt zu inkorrekten gelernten Regeln des Modells im Vergleich zur Realität.190 Diese Ursache tritt prinzipbedingt lediglich im Rahmen von Supervised-Lernansätzen auf. Sie ist dabei auf Label bezogen, die basierend auf den bereits aufgenommenen Ausgangsgrößen entweder manuell oder automatisiert nachträglich gene-riert wurden. Generelle unzureichende Qualität der aufgenommenen Daten (unabhängig ob Ein- oder Ausgangsgrößen) ist unter der Ursache E16 geführt und unterscheidet sich hin-sichtlich späterer Vermeidungsmaßnahmen von der hier diskutierten Ursache. Nachträglich generierte Label finden dabei vor allem bei bildbasierten Ausgangsgrößen Anwendung, um beispielsweise Objekte wie Fußgänger anhand des zugehörigen Pixelbereichs manuell zu kennzeichnen. Dieser Datensatz wird z.B. genutzt, um ein Modell zur Fußgängerdetektion zu trainieren. Ein Beispiel für manuell generierte, nachträgliche Label außerhalb des Bild-bereichs besteht in der Selbsteinschätzung eines Fahrers hinsichtlich seines Fahrstils basie-rend auf der vergangenen Fahrt. Hier besteht das Problem darin, dass keine eindeutige Ground-Truth191 vorhanden ist, auf die im Annotationsprozess Bezug genommen wird. Im obigen Beispiel ist es fragwürdig, auf welche Referenz die Fahrer sich selbst beziehen und wie sinnvoll dieses Label überhaupt für ein Training zu nutzen ist.