• Keine Ergebnisse gefunden

3.1 Entwicklung von Modellen zur telematischen Prognose

3.1.3 Prognoseverfahren und Modellerstellung

3.1.3.1 Logistische Regression

Das Konzept der logistischen Regression besteht darin, ein Modell zu finden, mit dem die Wahrscheinlichkeit des Eintretens des Ereignisses und damit der Zugehörigkeit zur Gruppe 1 bei einer gegebenen Merkmalsausprägung geschätzt werden kann. Um mit der geschätzten Wahrscheinlichkeit eine Klassifikation des betrachteten Falls durchzuführen, muss ein Trennwert (cut value) gewählt wer-den, der die Klassifikationsgrenze bildet:

Verfahren der klassischen

multivariaten Statistik Verfahren des maschinellen Lernens

• lineare Diskriminanzanalyse

logistische Regression

(logistische Diskriminanzanalyse)

• Assoziationsregeln, Regellisten

• Entscheidungsbauminduktion

• Neuronale Netze

• Genetische Algorithmen

• Support-Vektor-Maschinen

P Y( = 1 X) Y = 1

x

c

Methodik 75

. (1)

Die kleinste Fehlerrate (ohne Berücksichtigung unterschiedlicher Klassifikationsfehler) in einer gegebenen Trainingsmenge wird erreicht, wenn ein Fall mit der Merkmalsaus-prägung nach der Bayes-Entscheidungsregel [Handl2002] der Gruppe 1 zugeordnet wird und wenn:

(2) (3)

gilt. (4)

und damit, wenn ist.

Die Berechnung der Wahrscheinlichkeit erfolgt über die logistische Funk-tion

, (5)

wobei die aggregierte Einflussgröße durch eine Linearkombination der Merk-malsausprägungen gebildet wird:

. (6)

Die logistische Regressionsfunktion unterstellt damit einen nicht-linearen Zusammen-hang zwischen der Eintrittswahrscheinlichkeit der binären Zielgröße und den Merk-malsausprägungen. Demgegenüber wird aber das Zustandekommen der aggregierten Einflussgröße im Exponenten der logistischen Funktion als linear unterstellt.

Die Schätzung des Parameters und der Regressionskoeffizienten erfolgt mit Hilfe der Maximum Likelihood-Methode.44 Ziel des Schätzverfahren ist es, den Parame-ter und die Koeffizienten des Regressionsmodells so zu bestimmen, dass die Wahr-scheinlichkeit, die beobachteten Klassenzugehörigkeiten der Trainingsmenge zu erhalten, maximiert wird [Backhaus2003]. Abbildung 13 zeigt beispielhaft den Zusam-menhang zwischen der Geschwindigkeitsänderung dvtotal und der Verletzungsintensi-tät als Streudiagramm und als logistische Funktion.

44Zur Schätzung der Koeffizienten wird die Software SPSS eingesetzt, in der die Maximierung der Likelihood-Funktion über den Newton-Raphson-Algorithmus erfolgt.

f( )x 0,P Y( = 1 x)≤c

Abb. 13.Streudiagramm und logistische Funktion für die Verletzungswahrscheinlichkeit (MAIS 3 plus) in Abhängigkeit von der Geschwindigkeitsänderung dvtotal

Der Einfluss einzelner Merkmale auf die Wahrscheinlichkeit der Gruppenzugehörig-keit lässt sich nicht über einen Vergleich der Regressionskoeffizienten bestimmen, wie es bei der linearen Regression möglich wäre, da die Merkmale als Exponent einer nicht-linearen Funktion eingehen. Es kann lediglich aus dem Vorzeichen der Regressionskoef-fizienten auf die Richtung des Einflusses geschlossen werden. Ein negativer Koeffizient führt bei steigendem Wert der Merkmalsvariable zu einer kleineren Wahrschein-lichkeit für das Ereignis bzw. für die Gruppenzugehörigkeit , da der Wert der aggregierten Einflussgröße bei steigendem sinkt und man sich damit auf der logis-tischen Funktion nach links bewegt. Positive Koeffizienten führen dementsprechend zu einer höheren Wahrscheinlichkeit für . Eine Interpretation der Wirkungsstärke der Regressionskoeffizienten ist möglich, wenn nicht die Änderung der Eintrittswahr-scheinlichkeit selbst, sondern das Verhältnis zur Gegenwahrscheinlichkeit

betrachtet wird. Es gilt:

(7)

Frequency of MAIS3+, belt=yes LR-Function, belt=yes

Frequency of MAIS3+, belt=no LR-Function, belt=no

Methodik 77

bzw. (12)

. (13)

Das Verhältnis der komplementären Wahrscheinlichkeiten (Gl. 11 und Gl. 12) wird als Chance oder odd und das logarithmierte Verhältnis (Gl. 13) wird als Logit bezeich-net. Der odd gibt die Chance an, mit der ein betrachteter Fall der Gruppe 1 angehört.

Die Chance kann je nach Interpretation und Kodierung der Zielgröße auch als Risiko verstanden werden. Die Gleichung 12 bietet eine Interpretationsmöglichkeit für die Wirkung einzelner Regressionskoeffizienten. Der Faktor wird als Effekt-Koeffizi-ent (odds ratio) bezeichnet und gibt den Faktor an, um den sich das Wahrscheinlich-keitsverhältnis (odds) ändert, wenn die Merkmalsvariable um eine Einheit erhöht wird und alle anderen konstant gehalten werden. Die Effekt-Koeffizienten werden für die Interpretation der Ergebnisse der logistischen Regression genutzt.

Zur Beurteilung der Modellgüte eines logistischen Regressionsansatzes werden der Likelihood Ratio-Test, die Nagelkerke-R2-Statistik und das Klassifikationsergebnis an der Trainings- und der Testmenge verwendet. Damit kann beurteilt werden, wie gut die Merkmalsvariablen in ihrer Gesamtheit eine Klassifizierung der Fälle ermöglichen (vgl.

[Backhaus2003]).

Der Likelihood Ratio-Test dient dem Vergleich von zwei Modellen, die in einer defi-nierten Spezialisierungs- bzw. Generalisierungsbeziehung zueinander stehen. Ein voll-ständiges Modell wird einem Modell mit gestrichenen Merkmalsvariablen (eingeschränktes Modell) gegenübergestellt und es wird die folgende Nullhypothese auf Signifikanz getestet wird: Das eingeschränkte Modell ist gültig, d.h. der Effekt der gestrichenen Merkmalsvariablen ist Null. Eine geringe Irrtumswahrscheinlichkeit für die Ablehnung der Nullhypothese impliziert einen signifikanten Beitrag der betrachte-ten Merkmalsvariablen zur Klassifikation der Fälle. Der Likelihood Ratio-Test wird für die Beurteilung der Gültigkeit des Gesamtmodells sowie für die Prüfung der Relevanz von weiteren Merkmalsvariablen eingesetzt, die in ein Modell aufgenommen werden.

Die Nagelkerke-R2-Statistik ist eine sog. Pseudo-R2-Statistik, mit der versucht wird, den Anteil der erklärten Variation des gesamten logistischen Regressionsmodells zu quantifizieren (vergleichbar mit dem Ansatz der R2-Statistik der linearen Regression).

Der Wert von Nagelkerke-R2 erreicht einen Maximalwert von eins, wenn die Varianz der abhängigen Variable vollständig durch die unabhängigen Variablen erklärt wird. Bei einem Wert ab 0,2 kann von einer akzeptablen, ab 0,4 von einer guten und ab 0,5 von einer sehr guten Anpassung des Gesamtmodells ausgegangen werden [Backhaus2003].

P Y( = 1 x)

Die Prüfung der Signifikanz einzelner Koeffizienten innerhalb des logistischen Regressionsansatzes erfolgt mit der Wald-Statistik, die die Nullhypothese testet, dass der Regressionskoeffizient des betrachteten Merkmals Null ist, d.h. dass das Merkmal keinen Einfluss auf die Trennung der Gruppen hat.