• Keine Ergebnisse gefunden

Bewertung und Vergleich der Leistungsfähigkeit der Prognosemodelle

3.1 Entwicklung von Modellen zur telematischen Prognose

3.1.4 Bewertung und Vergleich der Leistungsfähigkeit der Prognosemodelle

Die Bewertung der Leistungsfähigkeit der entwickelten Prognosemodelle erfolgt an der Trainingsmenge sowie an der davon unabhängigen Testmenge. Bei einer Bewertung der Modelle an der Trainingsmenge wird die Leistungsfähigkeit im Regelfall über-schätzt. Die Anpassung eines Modells an die Trainingsmenge führt dazu, dass die Klas-senzugehörigkeit von Instanzen dieser Menge mit einer höheren Genauigkeit vorhergesagt werden kann als die Klassenzugehörigkeit von Instanzen einer unabhängi-gen Menge. Der Fehler, der beim Testen aus der Rückübertragung eines Modells auf seine eigene Trainingsmenge entsteht, heißt Resubstitutionsfehler [Handl2002]. Zur Vermeidung des Fehlers muss ein Teil der Daten für den Test der Modelle zurückbehal-ten werden (Holdout). Aus diesem Grund wurden die zur Verfügung stehenden Dazurückbehal-ten in eine Trainings- und eine Testmenge unterteilt. Bei der Unterteilung wurde darauf geach-tet, dass die unterschiedlichen Klassen aus der vollständigen Datenmenge auch in den Trainings- und Testmengen im gleichen Verhältnis vorkommen (Stratifikation). Nur dann kann mit der Trainingsmenge ein Modell entwickelt werden, das auch die Test-menge optimal klassifiziert [Witten2001].

Zur Bewertung der Leistungsfähigkeit der Prognosemodelle werden mehrere Bewer-tungsmaßstäbe genutzt. Die einfachste Darstellung der Ergebnisse einer Klassifikation kann bei einem 2-Klassen-Problem in einer 2x2 Klassifikationsmatrix (Confusion Matrix) gemäß Abbildung 15 erfolgen.

Abb. 15.Klassifikationsmatrix (Confusion Matrix)

positive negative positive

negative

True Positive (TP)

False Positive (FP) False Negative

(FN)

True Negative (TN) P = TP + FN N = FP + TN

True Class

Hypothesized Class

Methodik 83

Bei der vorliegenden Problemstellung werden un- bzw. leichtverletzte Insassen als negatives Ereignis (negative Klasse) und schwerverletzte Insassen (MAIS 3 plus) als positives Ereignis (positive Klasse) definiert.

Das am häufigsten gebrauchte Bewertungsmaß ist die Erfolgsrate (Accuracy), die den Anteil der gesamten richtigen Vorhersagen beschreibt (Gl. 18).

(18)

Die Accuracy berücksichtigt allerdings nicht die unterschiedlichen Fehlerarten und ver-liert an Aussagekraft, wenn der Anteil der positiven und negativen Klassen in der Grundgesamtheit nicht identisch ist. Unabhängig von der Klassenverteilung sind die Genauigkeitsmaße Sensitivität und Spezifität (Gl. 19 und 20). Die Sensitivität beschreibt den Anteil der positiven Ereignisse, die korrekt klassifiziert wurden, und ent-spricht der True Positive rate ( ). Die Spezifität beschreibt den Anteil der richtig klassifizierten negativen Ereignisse und entspricht der True Negative rate ( ) bzw.

der 1-False Positive rate ( ).

(19) (20)

Für die Beurteilung der Leistungsfähigkeit eines Prognosemodells müssen Sensitivi-tät und SpezifiSensitivi-tät immer als Paar betrachtet werden. Ein Prognosemodell, das alle Instanzen positiv klassifiziert, erreicht eine Sensitivität von 100%, wobei keine der negativen Instanzen identifiziert wird. Der hohen Sensitivität steht dementsprechend eine Spezifität von Null gegenüber. Vice versa, erreichen Modelle, die alle Instanzen negativ klassifizieren, eine Spezifität von 100% und eine Sensitivität von 0%. Die Leis-tungsfähigkeit von Prognosemodellen ist um so besser, je höher gleichzeitig Sensitivität und Spezifität sind. Ideale Modelle, die zwischen den Instanzen perfekt trennen, errei-chen eine Sensitivität und Spezifität von jeweils 100%.

Der Zusammenhang zwischen Sensitivität und Spezifität kann im ROC-Diagramm (Abb. 16) veranschaulicht werden, in dem 1-Spezifität (False Positive rate, gemäß Gl.

20) auf der Abszisse und die Sensitivität (True Positive rate, ) auf der Ordinate aufgetragen werden.46

46Das ROC (Relative Operating Characteristic) Diagramm stammt aus dem Bereich der Signa-lerkennung und diente ursprünglich im 2. Weltkrieg zur Analyse von Radarbildern.

AC TP TN+

In Abbildung 16 sind beispielhaft die Ergebnisse der Klassifikation einer Testmenge durch unterschiedliche Prognosemodelle dargestellt (Punkte A bis F). Die Ergebnisse sind unabhängig vom Verhältnis zwischen positiven und negativen Klassen in der Test-menge. Klassifikationsergebnisse, die auf der Winkelhalbierenden liegen (Punkt A), entsprechen den Ergebnissen einer Klassifikation nach einem Zufallsverfahren, da für alle Punkte auf der Winkelhalbierenden die True Positive rate der False Positive rate entspricht. Die Lage eines Punktes auf der Winkelhalbierenden wird durch den Anteil, den ein Zufallsklassifikator positiv klassifiziert, beeinflusst. Alle Prognosemodelle, die zu Sensitivitäts-Spezifitäts-Paaren links oberhalb der Winkelhalbierenden führen, nut-zen Informationen der Instannut-zen, um eine verbesserte Klassifikation durchzuführen.

Modelle, die Punkte unterhalb der Winkelhalbierenden (Punkt B’) erzeugen, können negiert werden (Negation der Klassifikationsergebnisse), so dass sie zu einem gespie-gelten Punkt B oberhalb der Winkelhalbierenden führen [Fawcett2003].

Abb. 16.ROC-Diagramm mit diskreten Klassifikationsergebnissen

Ein direkter Vergleich der Leistungsfähigkeit von zwei unterschiedlichen Modellen ist nur dann möglich, wenn die Klassifikationsergebnisse sowohl in der Sensitivität als auch in der Spezifität besser bzw. schlechter sind. Ein Modell, das das ergebnis D erzeugt, ist in der Leistungsfähigkeit dem Modell mit einem Klassifikations-ergebnis C gleichwertig oder überlegen, wenn:

und gilt. (21)

A C

D E

F Steigung: a

b 1

1 TP

P = SE

FP N = 1 - SP B

B‘

SEDSEC SPDSPC

Methodik 85

Ist eine der Größen Sensitivität oder Spezifität kleiner (vgl. Punkt C und E), kann zunächst keine Aussage über einen Unterschied der Leistungsfähigkeit der Modelle getroffen werden. Eine Einheit Sensitivität ist nicht unbedingt mit einer Einheit Spezifi-tät vergleichbar. Um dennoch eine Vergleichbarkeit zwischen Modellen mit unter-schiedlichen Sensitivitäts-Spezifitäts-Ergebnissen zu erreichen, müssen Annahmen über die Verteilung der Klassen in der Grundgesamtheit (Prävalenz) sowie über den spezifi-schen Schaden bzw. die spezifispezifi-schen Kosten von Fehlklassifikationen getroffen werden.

Sind die spezifischen Kosten für eine falsche positive Klassifikation und die spezifischen Kosten für eine falsche negative Klassifikation, gilt für die gesamten Fehl-klassifikationskosten :

Nur ein ideales Prognosemodell mit einer perfekten Trennung der Klassen erreicht Fehlklassifikationskosten von Null ( ). In diesem Fall beschreibt Gleichung 26 im ROC-Diagramm (Abb. 16) eine Gerade (Iso-Kosten-Gerade) durch den Punkt (0;1) mit der Steigung . Im betrachteten Raum mit:

und (27)

liegt nur ein Punkt auf dieser Geraden, nämlich das Ergebnis eines idealen Prognosemo-dells mit einer Sensitivität und Spezifität von jeweils 100%. Die Gerade durch den Punkt C in Abbildung 16 verbindet die Ergebnisse von allen Prognosemodellen, die zu gleichen Kosten wie das Modell C führen. Alle Prognosemodelle, die Sensitivitäts-Spe-zifitäts-Ergebnisse links oberhalb der Geraden durch den Punkt C erzeugen, zeigen für die zugrundeliegende Problemstellung eine bessere Leistungsfähigkeit als das Modell C. Alle Modelle, die Punkte unterhalb der Geraden liefern, haben eine schlech-tere Leistungsfähigkeit. Punkt E ist damit besser als Punkt C und Punkt F ist schlechter als Punkt C.

Entscheidungsbäume führen immer zu einer diskreten Klassifikation einer Test-menge, d.h. jeder Entscheidungsbaum führt zu genau einer Klassifikationsmatrix und

kFP kFN

dementsprechend nur zu einem Punkt im ROC-Diagramm. Soll ein anderes Sensitivi-täts-Spezifitäts-Ergebnis erzielt werden, muss ein neuer Entscheidungsbaum unter Berücksichtigung anderer Kostenverhältnisse für Fehlklassifikationen entwickelt wer-den. Die logistische Regression liefert im Gegensatz zu Entscheidungsbäumen zunächst kein diskretes Klassifikationsergebnis, sondern eine Wahrscheinlichkeit für die Klassen-zugehörigkeit. Um von der Wahrscheinlichkeit zu einer diskreten Klassifikation zu gelangen, wurde gemäß Gleichung 1 ein Trennwert festgelegt, der die Klassifikations-grenze darstellt. Je nach der Höhe des Trennwertes werden unterschiedliche Klassifika-tionsergebnisse und damit auch unterschiedliche Sensitivitäts- und Spezifitäts-Werte erzeugt.

Wird der Trennwert im Intervall [0;1] variiert und werden die Sensitivitäts-Spezifi-täts-Paare in das ROC-Diagramm eingezeichnet und miteinander verbunden, entsteht eine kontinuierliche ROC-Kurve (Abb. 17).

Abb. 17.ROC-Diagramm mit kontinuierlichen Klassifikationsergebnissen

Das optimale Sensitivitäts-Spezifitäts-Paar und damit der optimale Trennwert für eine spezifische Problemstellung liegen im Schnittpunkt der ROC-Kurve mit der Tan-gente, deren Steigung gemäß Gleichung 26 bestimmt wird (Abb. 17, Kurve I). Sollen zwei Prognosemodelle miteinander in ihrer Leistungsfähigkeit bezüglich einer zugrun-deliegenden Testmenge verglichen werden, kann ein Modell eindeutig dem anderen vor-gezogen werden, wenn sich die Kurven nicht schneiden und wenn die ROC-Kurve des einen Modells links oberhalb der Kurve des anderen liegt. Im Beispiel ist das Modell

G

Steigung: a

b 1

1 TP

P = SE

FP N = 1 - SP I II

III

Methodik 87

mit der ROC-Kurve I dem Modell mit der ROC-Kurve II überlegen. Schneiden sich die ROC-Kurven (Kurve I und III), kann eine Aussage über die höhere Leistungsfähigkeit eines Modells nicht generell, sondern nur innerhalb bestimmter Intervalle getroffen werden. Eine Vergleichbarkeit zwischen mehreren Modellen, unabhängig vom Arbeits-punkt, ist über die Fläche unter der ROC-Kurve (Area under ROC-Curve, AUC) als Kennzahl für die durchschnittliche Leistungsfähigkeit möglich. Der AUC-Wert variiert zwischen 0,5 und 1 und ist um so größer, je höher die durchschnittliche Leistungsfähig-keit eines Prognosemodells ist [Fawcett2003].

Um einen Vergleich zwischen Modellen mit kontinuierlichen und diskreten Klassifi-kationsergebnissen über den AUC-Wert durchführen zu können, müssen zunächst ROC-Kurven für die diskreten Klassifizierer erzeugt werden. Dazu werden Prognosemodelle mit unterschiedlichen Ansätzen für Fehlklassifikationskosten generiert. Werden die Sensitivitäts-Spezifitäts-Ergebnisse der Modelle an der Trainings- bzw. Testmenge in ein ROC-Diagramm eingezeichnet und miteinander verbunden, entsteht eine „eckige“

Kurve. Die Fläche unter der Kurve wird über die Trapezintegration gemäß Gleichung 28 bestimmt:

(28)

mit , und (29)

bzw. (30)

Der Vergleich der Fläche unter dieser Kurve mit nur einzelnen Eckpunkten mit der Fläche unter einer kontinuierlichen ROC-Kurve kann nur bedingt durchgeführt werden, da die Abschätzung der Fläche durch einzelne Eckpunkte zu einer systematischen Unterschätzung der Fläche führt [Bradley1997].

Die Sensitivitäts- und Spezifitäts-Ergebnisse sowie die AUC-Werte sind Schätzun-gen auf Basis der zugrundelieSchätzun-genden Trainings- bzw. Testmenge, so dass für diese Grö-ßen für eine sinnvolle Interpretation der Standardfehler und das Konfidenzintervall bestimmt werden müssen. Der Standardfehler und das Konfi-denzintervall für Sensitivität und Spezifität hängen gemäß Gleichung 31 und 32 von der Größe der Trainings- bzw. Testmenge und von der Prävalenz ab [Kraemer1992, Westin2002].

(32)

bzw. (33)

Der Standardfehler der Fläche unter der ROC-Kurve wird berechnet nach [Bradley1997]:

(34)

mit und . (35)

Die Berechnung des Konfidenzintervalls des AUC-Wertes erfolgt analog Gleichung 33.