Trainingsprozess in der Betrugserkennungskomponente

7 Erkennung von Identitätsdiebstahl beim Online-Banking

7.1 Trainingsprozess in der Betrugserkennungskomponente

Nach der Korrelation der events kann die Betrugsanalyse gestartet werden. Zur optimalen Ausführung der Analyse sind bestimmte Vorarbeiten bzw. Trainingsprozesse in der Be-trugserkennungskomponente durchzuführen, die in Abbildung 37 als Modell dargestellt sind.

Betrugsverdächtig Nicht-Betrugs-verdächtig Input: Diskriminanzwerte

Auswahl der betrugsrelevanten events und Attribute Erzeugung der Diskriminanzfunktion

Klassifizierung der events in die entspr. Gruppe Festlegung des Outputschwellwertes

Aktion bei „Nicht-Betrug“

Aktion bei „Betrug“

Feedforward-Netzwerk

Backpropagation Learning

... ...

...

Aufbau des Entscheidungsbaums

...

Abbildung 37: Ablaufmodell der Trainingsprozesse in der Betrugserkennungskomponente Bei den Trainingsprozessen wird in den nachfolgenden Schritten vorgegangen:

Schritt 1 – Auswahl der betrugsrelevanten events und Attribute:

Bevor ein Problem gelöst werden kann, muss es identifiziert werden. Zur Erreichung die-ses Ziels muss zunächst festgestellt werden, welche events Aussagen über (mögliche) Betrugsfälle zulassen. Sind die events selektiert ist der nächste Schritt, die betrugsrele-vanten Attribute dieser events für die Analyse durch das Modell festzulegen. Dieser Fea-ture Selection-Prozess kann sowohl auf Basis der fachlichen Erfahrung einer Person oder eines Teams als auch maschinell mittels Algorithmen ausgeführt werden. Für die automa-tische Feature Selection wird einerseits ein Verfahren benötigt um aus einer Gesamtmen-ge n eine UntermenGesamtmen-ge von r passenden Features zu selektieren und andererseits ein Kri-terium um die Qualität der selektierten Features in Hinblick auf das zu lösende Problem zu beurteilen [Raud01, S. 224]. Ein dafür geeigneter Algorithmus ist die logistische Reg-ression, die auf Basis von Eintrittswahrscheinlichkeiten für Ereignisse die Ausprägung der Attribute untersucht und somit den Einfluss der Attribute bestimmt [Back06, S. 426 - 432].

Ein Beispiel: Zwölf Personen werden zum Butterkauf befragt, sieben davon kauften Butter und deren Monatseinkommen liegt über 2.000 Euro, wobei bei den Nichtbutterkäufern das Einkommen unter 2.000 Euro liegt. In diesem einfachen Beispiel konnte (für diese speziel-le Kundengruppe) ein Rückschluss getroffen werden, dass das Einkommen einen Einfluss auf die Kaufentscheidung für oder gegen Butter hat [Back06, S. 426 - 432].

Weitere Algorithmen für Feature Selection sind neben der logistischen Regression

bei-bäume [Sqls08]. Für weiterführende Literatur zu Feature Selection sei auf [Liu98] und [Jain00] verwiesen.

Im Rahmen dieser Arbeit wurde für die Feature Selection kein Algorithmus ausgeführt, sondern die Festlegung relevanter Attribute erfolgte auf Basis der Interviews mit den Be-trugsexperten, da diese zum einen jahrelange Erfahrung in Betrugserkennung aufweisen und zum anderen keine echten Basisdaten für die Feature Selection zur Verfügung stan-den. Die selektierten Attribute sind in den Abschnitten 2.2 und 6.1 genannt.

Auf Basis der Erkenntnisse dieses Schritts ist aus dem relevanten Daten- bzw. Event-bestand der Organisation eine Trainingsmenge herzustellen, mit deren Hilfe die Kompo-nenten der nachfolgenden Schritte entsprechend konzipiert werden können. Die Trai-ningsmenge wird – wie im Abschnitt 6.2 erwähnt – in zwei Gruppen (bekannte Betrugsfäl-le und bekannte Nicht-BetrugsfälBetrugsfäl-le) aufgeteilt. Zur Vermeidung der Notwendigkeit zur Gewichtung der arithmetischen Mittel mit den jeweiligen Gruppengrößen bei der Diskrimi-nanzanalyse (siehe Abschnitt 3.2), weisen die beiden Gruppen die gleiche Anzahl an Gruppenelementen auf. Der Umfang dieser Trainingsmenge wird im Abschnitt 9.2 erläu-tert.

Schritt 2 – Aufbau des Entscheidungsbaums:

Falls im Schritt 1 nichtmetrische Attribute als betrugsrelevant deklariert wurden, was bei der Festlegung der relevanten Attribute dieser Arbeit der Fall ist (siehe Abschnitt 6.1), wird für diese Attribute ein Entscheidungsbaum (siehe Abschnitt 3.1) angelegt. Der Grund da-für ist, dass die Diskriminanzanalyse als multivariates Verfahren zur Analyse von Grup-penunterschieden nur metrisch skalierte Attribute analysieren kann, siehe [Back06, S.

156]). Der Entscheidungsbaum wird so konzipiert, dass an den Ausgängen eine entspre-chende Vorklassifizierung der untersuchten Transaktionen in Betrugsverdächtig und Nicht-Betrugsverdächtig erfolgt, d.h. die events werden im Vorfeld ausgesiebt oder durch das neuronale Netzwerk weiter analysiert. Die Tiefe und der Umfang des Entscheidungs-baums sind von der Anzahl der nichtmetrischen Attribute und der KO-Kriterien abhängig.

Diese Anzahl sowie die festgelegten Attributausprägungen an den Ästen des Entschei-dungsbaums werden wiederum von den fachlichen Rahmenbedingungen und den Daten-beständen der Organisation beeinflusst und im Abschnitt 9.2 für diesen Anwendungsfall diskutiert.

Schritt 3 – Berechnen der Diskriminanzfunktion und des kritischen Diskriminanzwerts:

Bei der Berechnung dieser beiden Komponenten werden auf Basis der betrugsrelevanten metrischen Attribute der Trainingsmenge die Koeffizienten der Diskriminanzfunktion be-rechnet. Im Rahmen dieser Arbeit wird zu diesem Zweck das Verfahren zur

Diskriminan-zanalyse aus [Bahr03, S. 316 - 329] und [Ecke02, S. 292 - 307] für den zwei Gruppen- (Betrugsverdächtig oder Nicht-Betrugsverdächtig) und n Variablen-Fall (n>2) verwendet (siehe Abschnitt 3.2). Durch Einsetzen der betrugsrelevanten Attribute in die ermittelte Diskriminanzfunktion werden im Anschluss die Diskriminanzwerte (= Funktionswert der Diskriminanzfunktion) für alle Datensätze bzw. events der Trainingsmenge berechnet.

Danach wird auf Basis der berechneten Diskriminanzwerte der kritische Diskriminanzwert ermittelt. Wie im Abschnitt 3.2 erwähnt, bildet der kritische Diskriminanzwert das arithme-tische Mittel der beiden Gruppenmittelwerte. Durch einen Vergleich der berechneten Dis-kriminanzwerte der Trainingsevents mit dem kritischen Diskriminanzwert werden die events in die Gruppen Betrugsverdächtig und Nicht-Betrugsverdächtig eingeteilt. Ist bei diesem Vergleich der ermittelte Diskriminanzwert des Elements kleiner als der kritische Diskriminanzwert, erfolgt eine Zuteilung in die Gruppe der betrugsverdächtigen events. Im gegenteiligen Fall wird das event der Gruppe der nicht-betrugsverdächtigen events zuge-ordnet.

Schritt 4 – Trainieren des neuronalen Netzwerks:

Die mittels der Diskriminanzfunktion berechneten Diskriminanzwerte werden in diesem Schritt einem neuronalen Netzwerk als Eingabewerte für die Inputknoten übergeben. Als Typ des neuronalen Netzwerks wird ein Feedforward-Netzwerk bzw. ein Multi Layer Per-ceptron ohne Rückkopplungen verwendet (siehe Unterabschnitt 3.3.1), da die übergebe-nen Muster zur Laufzeit keine Zeitabhängigkeit beinhalten. Die zu analysierenden Trai-ningsmuster an Diskriminanzwerten sind so konzipiert, dass einem bestimmten Inputkno-ten der Diskriminanzwert des aktuell untersuchInputkno-ten Transaktionsevents übergeben wird und den anderen Knoten die historische Diskriminanzwerte dieses Kunden. Das bedeutet, es herrscht keine Zeitabhängigkeit, da für jeden Inputknoten des neuronalen Netzwerks fest definiert ist, welcher Diskriminanzwert innerhalb der zeitlichen Reihenfolge der Trans-aktionen als Inputwert entgegengenommen wird. Als Beispiel: Knoten Nr. 1 bekommt den Diskriminanzwert des aktuellen events, Inputknoten Nr. 2 den Diskriminanzwert der jüngs-ten historischen Transaktion bzw. des jüngsjüngs-ten events des Kunden vor dem aktuellen event. Inputknoten Nr. 3 übernimmt dann wiederum den Diskriminanzwert des events, das zeitlich vor dem event des Inputknotens Nr. 2 auftrat usw. Somit wird auf Basis von aktu-ellen und historischen Diskriminanzwerten ein komplettes zeitliches Verhaltensmuster des Kunden dem neuronalen Netzwerk zum Training übergeben. Auf der Grundlage dieser Inputwerte wird durch den Outputwert des Ausgabeknotens des neuronalen Netzwerks bestimmt, ob es sich um einen Betrugsfall handelt oder nicht. Da es sich bei dieser

Auf-tigt [Krah98, S. 68]. Die optimale Anzahl an Inputknoten, sowie der Hiddenschichten und wiederum deren Knotenzahlen werden durch Experimente, die im Abschnitt 9.3 beschrie-ben sind, ermittelt. Die Trainingsmuster sind so konzipiert, dass sie bekannte Verhaltens-muster von Kunden widerspiegeln, d.h. bekannte Muster aus Diskriminanzwerten, die aus dem zeitlichen Ablauf heraus im Nachhinein als Betrugsfälle bzw. als Nicht-Betrugsfälle identifiziert wurden. Als unbekanntes Muster wird im Rahmen dieser Arbeit ein Muster definiert, das sich nicht unter den Trainingsmustern befindet, wie im Abschnitt 6.2 er-wähnt.

Da für diese Arbeit die Bekanntheit, ob eine Transaktion ein Betrugsfall oder ein Nicht-Betrugsfall ist, für die Trainingsmuster vorausgesetzt wird, wird für das Training des neu-ronalen Netzwerks mit dem Backpropagationsverfahren (siehe Unterabschnitt 3.3.2) eine Methode des überwachten Lernens gewählt. Die Backpropagationsmethode ist lt. [Dorf91, S. 39] prädestiniert für die Anwendung auf Assoziationsnetzwerke zu denen auch ein Mul-ti Layer Perceptron gehört, da die bekannten Outputwerte als Teaching Input des Backpropagationsverfahrens verwendet werden. Diese bekannten Outputwerte werden für das Training in den Ausprägungen 0,0 (Nicht-Betrugsfall) und 1,0 (Betrugsfall) ange-geben. Als Aktivierungsfunktion in den Knoten wird die nichtlineare, durchgängig differen-zierbare Sigmoidfunktion (siehe Unterabschnitt 3.3.1) verwendet, da Backpropagation bzw. das Gradientenabstiegsverfahren eine durchgängig differenzierbare Funktion vor-aussetzt [Rey08, S. 26]. Ein weiterer Grund für die Entscheidung für ein Multi Layer Per-ceptron mit mindestens einer Hiddenschicht und nichtlinearer Output- bzw. Aktivierungs-funktion ist, dass lt. [Rume86, S. 1 - 2] mit dieser Kombination beliebige Musterformen abgebildet werden können. Da der Ausgabewert der Sigmoidfunktion immer in dem offe-nen Intervall zwischen 0,0 und 1,0 liegt (siehe Abbildung 13 im Unterabschnitt 3.3.1) und die übergebenen Inputmuster mit den Zielwerten 0,0 und 1,0 trainiert werden, gibt der Wert des Ausgabeknotens die Betrugswahrscheinlichkeit der aktuellen Transaktion wie-der. Die detaillierte Beschreibung der untersuchten Topologien des verwendeten neurona-len Netzwerks als Teil der Betrugserkennungskomponente erfolgt im Abschnitt 9.3 im Rahmen der Vorstellung der experimentellen Ergebnisse.

Schritt 5 – Festlegen des Schwellwerts für den Ausgabewert des Outputknotens und den daraus folgenden Aktionen:

Dieser Schwellwert bestimmt, wann eine bestimmte Aktion ausgelöst wird. In diesem Schritt wird festgelegt, wo dieser Schwellwert im offenen Intervall zwischen 0,0 und 1,0 liegt. Falls die Ausprägung der Trainingsmuster gleich verteilt ist, bietet sich ein Wert von 0,5 an. Wenn das Ziel der Anwendung die Vermeidung einer zu hohen Rate an fälschli-cherweise als Betrugsfall klassifizierten Transaktionen ist, sollte der Schwellwert höher

angesetzt werden, z.B. bei 0,9. Darüber hinaus ist im Rahmen dieses Schritts zu definie-ren, mit welchen Aktionen bei Eintreten eines Betrugsfalls bzw. eines Nicht-Betrugsfalls reagiert werden soll. Bei einem Nicht-Betrugsfall wird die Transaktionsverarbeitung weiter fortgesetzt. Dagegen sind lt. [Bose06, S. 4] sowie nach der Definition des edBPM-Referenzmodells aus Abbildung 1 die möglichen Reaktionen im Fall einer als Betrug iden-tifizierten Transaktion das Auslösen eines Alarms bei einem zuständigen Operator und/oder der Abbruch der Transaktion. Die Schwellwerte, die im Rahmen dieser Arbeit einen Betrugs- oder einen Nicht-Betrugsfall exakt identifizieren, werden in den Abschnit-ten 9.2 und 9.3 diskutiert. Nach dem Abschluss dieser beschriebenen VorarbeiAbschnit-ten kann das Modell für die Analyse unbekannter Transaktionsevents eingesetzt werden.

Im Dokument Complex Event Processing und maschinelle Lernverfahren (Seite 128-133)