4.1 Ableitung der Ursachen
4.1.1 E5: Ursachen im Datensatz (Trainingsprozess)
Der Ast E5, welcher die Ursachen beinhaltet, die innerhalb des Trainingsdatensatzes mög-lich sind, ist in Abbildung 4-2 abgebildet. Da aus den Trainingsdaten alle Zusammenhänge bzw. Gesetzmäßigkeiten für die Lösung der Problemstellung bzw. Aufgabe extrahiert
wer-Fehlende Generalisierbarkeit
Ursachen im
Trainingsprozess Ursachen im
Validierungsprozess Ursachen im Testprozess TLE
E2 E3 E4
Ursachen im Datensatz
Ursachen im Algorithmus
Ursachen im
Datensatz Ursachen im
Datensatz
E6
E5 E7 E8
Ursachen, die fehlende Generalisierbarkeit zur
Folge haben
Ursachen, die keine fehlende
Generalisierbarkeit zur Folge haben, sondern durch die fehlende Generalisierbarkeit im normalen Entwicklungsprozess nicht entdeckt wird
den, besitzen diese einen maßgeblichen Einfluss auf die Generalisierbarkeit des Modells.
Dabei lassen sich die Ursachen fehlender Generalisierbarkeit in eine zu geringe Qualität oder in eine unzureichende Quantität der Trainingsdaten gruppieren.
Abbildung 4-2: Ursachen im Trainingsdatensatz E12: Quantität einer Klasse zu gering
Die Unterrepräsentanz einer Klasse im Rahmen einer Klassifikation182 stellt eine mögliche Ursache für fehlende Generalisierbarkeit dar. Diese Problematik ist unter dem Begriff „im-balanced data“ oder „skewed classes“ bekannt und bezieht sich nur auf Supervised Lernan-sätze.
Die Verbesserung des Klassifikationsergebnisses des gelernten Modells während des Trai-ningsprozesses wird normalerweise durch die Berechnung der Vorhersagegenauigkeit mit-tels einer Konfusionsmatix durchgeführt. Die Spalten der Matrix stellen die vorhergesagte Klasse, die Zeilen die tatsächliche Klasse dar. Richtig bzw. korrekt als negativ klassifizier-te Beispiele sind bei TN („true negative“) eingetragen, FP sklassifizier-tellt die Anzahl der inkorrekt als positiv eingestuften Beispiele („false positives“) dar. Mit FN wird die Anzahl der falsch als negativ eingestuften Beispiele („false negatives“) und TP die Anzahl der korrekt einge-stuften positiven Beispiele („true positives“) bezeichnet. Die Korrektklassifikationsrate (Acc)183 wird wie folgt berechnet:184
Acc = 𝑇𝑇𝑇𝑇+𝑇𝑇𝑇𝑇
𝑇𝑇𝑇𝑇+𝐹𝐹𝑇𝑇+𝐹𝐹𝑇𝑇+𝑇𝑇𝑇𝑇 (4.1)
182 Siehe Abschnitt 2.2.2.
183 Englisch: Accuracy.
184 Vgl. Chawla, N. V.: Data Mining for Imbalanced Datasets (2010), S. 876.
Ursachen im Datensatz
Ursachen durch unzureichende
Quantität
Ursachen durch unzureichende
Qualität E5
E9
Quantität einer Klasse zu gering
E10
E13 E12
Label nicht korrekt Messfehler verdeckt
relevante Zusammenhänge zu
stark Repräsentativität zu
gering
E17 E16
E15 Quantität der
relevanten Zusammenhänge zu
gering
Datenpunkte fehlerhaft
E14
Besteht die Aufgabe beispielsweise darin, vorherzusagen, ob sich in den nächsten zwei Sekunden ein Unfall mit Todesfolge abhängig von Ego-Fahrdynamikgrößen und Bewe-gungsgrößen umgebender Verkehrsteilnehmer ereignet, so liegt typischerweise aufgrund des seltenen Auftretens eines Unfalls im Vergleich zu gefahrenen Kilometern185 ein Daten-satz mit vielen unkritischen Situationen (= „negatives“ Ereignis) und einigen wenigen kri-tischen Situationen vor, bei denen noch weniger in einem tatsächlichen Unfall (= „positi-ves“ Ereignis) resultierten. Durch eine solche Klassenverteilung existiert nur eine relativ gesehen sehr kleine Menge an Daten, die überhaupt ein TP hervorrufen könnten.186 Das führt dazu, dass die Vorhersagegenauigkeit sehr hoch ausfällt, auch wenn das gelernte Mo-dell immer das Vorliegen einer unkritischen Situation vorhersagt, unabhängig der tatsäch-lich vorliegenden Situation.
E13: Quantität der relevanten Zusammenhänge zu gering
Im Bereich der Quantität ist es möglich, dass die in den Trainingsdaten vorhandene Ge-samtmenge der für die Problemlösung benötigten relevanten Zusammenhänge für die Komplexität der Problemstellung nicht ausreicht. Neben der Komplexität der Problem-stellung spielt auch die Komplexität des verwendeten Algorithmus eine wichtige Rolle.
Komplexere Algorithmen benötigen eine höhere Anzahl an relevanten Zusammenhängen als einfachere Lernverfahren.187
E14: Datenpunkte fehlerhaft
Sind Datenpunkte fehlerhaft, d.h. liegen beispielsweise Ausreißer vor oder wurden korrup-te Dakorrup-ten aufgenommen, so sind die hieraus erlernkorrup-ten Zusammenhänge nicht in der Realität vorhanden. In diese Ursache werden Label bzw. der Labelprozess nicht einbezogen, da dieser Aspekt in einer eigenen Ursache Rechnung getragen wird.
E15: Repräsentativität zu gering
Neben einer ausreichenden Menge an Trainingsdaten ist es für eine ausreichende Generali-sierbarkeit ebenfalls notwendig, dass diese Menge eine genügend hohe Repräsentativität der späteren Betriebsbedingungen besitzt.188 Besteht die Aufgabenstellung im späteren Betrieb z.B. in einem Clustering von Fahrstilen und enthält der Trainingsdatensatz nur zwei der drei Fahrstile, die in der Realität vorkommen, wird der darauf angewendete Clus-teringalgorithmus die geforderte Trennung in zwei Cluster durchführen. Tritt der dritte
185 Eine Abschätzung von Wachenfeld und Winner für das Jahr 2012 bezogen auf die Gesamtfahrleistung und die Zahl der tödlichen Unfälle in Deutschland berechnet den Abstand zwischen zwei tödlichen Unfällen zu 210 Millionen Kilometern (Wachenfeld, W.; Winner, H.: Die Freigabe des autonomen Fahrens (2015), S.455).
186 Vgl. Mukherjee, U.: How to handle Imbalanced Classification Problems (2017).
187 Vgl. Brownlee, J.: How Much Training Data is Required for Machine Learning? (2017).
188 Vgl. Burton, S. et al.: Case for Safety of Machine Learning (2017), S. 12ff.
Fahrstil, welcher nicht in den Trainingsdaten vorhanden ist, im Betrieb auf, wird der Algo-rithmus eine falsche Aussage treffen.
E16: Messfehler verdeckt relevante Zusammenhänge zu stark
Sind die zur Problemlösung erforderlichen Zusammenhänge im Datensatz vorhanden, ist es möglich, dass Messfehler diese für den Lernalgorithmus so stark verdecken, dass diese nicht in ihrer eigentlichen Form identifiziert werden und das gelernte Modell im Betrieb, wenn diese Messfehler nicht mehr oder anderweitig vorhanden sind, Fehlverhalten zeigt.
Die Ursachen der Messfehler sind vielfältig und in der Literatur (beispielsweise Hering und Schönfelder189) ausführlich beschrieben.
E17: Label nicht korrekt
Eine unzureichende Qualität der Label führt zu inkorrekten gelernten Regeln des Modells im Vergleich zur Realität.190 Diese Ursache tritt prinzipbedingt lediglich im Rahmen von Supervised-Lernansätzen auf. Sie ist dabei auf Label bezogen, die basierend auf den bereits aufgenommenen Ausgangsgrößen entweder manuell oder automatisiert nachträglich gene-riert wurden. Generelle unzureichende Qualität der aufgenommenen Daten (unabhängig ob Ein- oder Ausgangsgrößen) ist unter der Ursache E16 geführt und unterscheidet sich hin-sichtlich späterer Vermeidungsmaßnahmen von der hier diskutierten Ursache. Nachträglich generierte Label finden dabei vor allem bei bildbasierten Ausgangsgrößen Anwendung, um beispielsweise Objekte wie Fußgänger anhand des zugehörigen Pixelbereichs manuell zu kennzeichnen. Dieser Datensatz wird z.B. genutzt, um ein Modell zur Fußgängerdetektion zu trainieren. Ein Beispiel für manuell generierte, nachträgliche Label außerhalb des Bild-bereichs besteht in der Selbsteinschätzung eines Fahrers hinsichtlich seines Fahrstils basie-rend auf der vergangenen Fahrt. Hier besteht das Problem darin, dass keine eindeutige Ground-Truth191 vorhanden ist, auf die im Annotationsprozess Bezug genommen wird. Im obigen Beispiel ist es fragwürdig, auf welche Referenz die Fahrer sich selbst beziehen und wie sinnvoll dieses Label überhaupt für ein Training zu nutzen ist.