Struktur des neuronalen Netzwerks - Beschreibung des Ablaufs der Experimente

9 Vorstellung der Experimente und deren Ergebnisse

9.2 Beschreibung des Ablaufs der Experimente

9.2.3 Struktur des neuronalen Netzwerks

Die Wahl der Topologie eines neuronalen Netzwerks ist entscheidend für die Qualität der Mustererkennung dieses Algorithmus. Der Aufbau der Struktur des neuronalen Netzwerks muss aufgabenspezifisch erfolgen. Bei zu kleinen Netzen werden oftmals nicht genügend Informationen gespeichert (engl.: Underfitting). Dagegen besteht bei zu großen Netzwer-ken wiederum die Gefahr, dass die Trainingsmenge zu exakt gelernt oder auswendig ge-lernt wird (engl.: Overfitting) und somit die Generalisierungsfähigkeit verloren geht bzw.

der Generalisierungsfehler zu hoch wird. Diese Tatsache ist entscheidend für die Festle-gung der Anzahl der Hiddenschichten und deren Knoten, dagegen ergibt sich die Anzahl der Knoten der Input- und Outputschicht aufgrund der praktischen Problemstellung. [Pe-te05, S. 228; Back06, S. 767; Lämm08, 247 - 248]

Allgemein gilt: Je geringer die Knotenzahl der Netzwerktopologie desto schneller ist der Trainingsvorgang [Pete05, S. 230]. Der Generalisierungsfehler eines neuronalen Netz-werks wird von folgenden Faktoren beeinflusst, siehe [Lämm08, S. 247]:

• Die Netzgröße, d.h. durch die Anzahl der Hiddenschichten und wiederum der An-zahl der Knoten der Hiddenschichten.

• Die Verbindungen zwischen den Knoten mit deren Gewichten.

• Das Lernverfahren und die dafür verwendeten Trainingsparameter.

Für das neuronale Netzwerk dieser Arbeit werden folgende Parametereinstellungen fest-gelegt, die teilweise in den Kapiteln 6 und 7 erwähnt wurden:

Es wird ein Feedforward-Netzwerk ohne zeitliche Rückkopplung verwendet, da jeder übergebene Diskriminanzwert bereits einen Zeitpunkt bzw. einen Wert der Transaktions-reihenfolge repräsentiert und alle zu einem Zeitpunkt übergebenen Diskriminanzwerte ein in sich geschlossenes zeitliches Muster bilden. Alle Knoten sind mit allen Knoten der Nachfolgeschicht verbunden, da die vollvernetzte Variante der Feedforward-Netzwerke in der Regel in der Praxis eingesetzt wird [Back06, S. 767 - 768; Pete05, S. 236].

Die Eingabemuster, die vor oder nach einem bestimmten Eingabemuster übergeben wer-den, sind von dem aktuellen Muster unabhängig, da jedes Muster einen anderen Kunden repräsentiert. Das Netzwerk besitzt fünf Inputknoten, da in der simulierten Trainings- und Testmenge aus jeweils fünf Transaktionen pro Kunde besteht. Jedem Inputknoten wird ein Diskriminanzwert einer Transaktion zeitlich sortiert übergeben. Das bedeutet, jeder Inputknoten erhält immer einen bestimmten Diskriminanzwert einer Überweisung der zeit-lichen Transaktionsreihenfolge z.B. Inputknoten 1 nimmt immer den Diskriminanzwert der aktuellsten Transaktion entgegen, Inputknoten 5 dagegen analysiert immer den Diskrimi-nanzwert der ältesten Überweisung usw.

Die Anzahl von fünf Eingabeknoten ergibt sich aufgrund der Aussagen der interviewten Experten, dass mindestens vier historische Transaktionen nötig sind um ein Transakti-onsprofil zu erstellen, das zur Klassifizierung der aktuellen Transaktion in diesem Modell benötigt wird. Darüber hinaus besitzt das neuronale Netzwerk einen Outputknoten, der anhand seines Ausgabewerts zwischen 0,0 und 1,0 die Wahrscheinlichkeit angibt, nach der es sich bei der aktuellen Transaktion um einen Betrugsfall handelt. Je näher dieser Wert an 1,0 liegt umso größer ist die Gefahr eines Betrugsfalls. Zusätzlich wird für das neuronale Netzwerk mindestens eine Hiddenschicht verwendet, da nach [Rume86, S. 1 - 2; Dorf91, S. 102; Back06, S. 767] mit mindestens einer Hiddenschicht und maximal zwei Hiddenschichten jede beliebige Musterabbildung gelernt werden kann.

In diesem Zusammenhang ist für die Experimente zu beachten, dass die Gesamttopologie nicht „zu groß“ wird, da sonst die Generalisierungsfähigkeit des neuronalen Netzwerks verloren geht [Pete05, S. 228; Back06, S. 767; Lämm08, S. 247]. Nach [Dorf91, S. 102;

Rume86, S. 1 - 2; Back06, S. 767] ist eine Hiddenschicht für den Zweck der

Mustererken-Problems ist – aufgrund dieser nicht exakt feststehenden Strukturparameter – ein Pro-zess, welcher auf der Erfahrung des Netzkonstrukteurs basiert. Die optimale Topologie muss oftmals schrittweise durch praktische Versuche herausgefunden werden [Back06, S. 767; Pete05, S. 228; Dorf91, S. 84]. Die gleiche Aussage trifft [Haun98, S. 141] in sei-ner Diskussion der Problematik, dass allgemein keine Standardnetzwerkeinstellungen für bereits definierte Problemstellungen bekannt sind. Bei entsprechenden Recherchen im Rahmen dieser Arbeit wurden ebenfalls keine Standardstrukturen bzw. Parametereinstel-lungen für die Thematik der Transaktionsanalyse zur Identifikation von Betrugsfällen beim Online-Banking gefunden. Aus diesem Grund wird im Zuge der Durchführung der Experi-mente schrittweise nach der optimalen Topologie geforscht und das verwendete neurona-le Netzwerk punktuell um Knoten und Schichten erweitert, bis die optimaneurona-le bzw. beste Topologie bezüglich der Erkennungsgenauigkeit identifiziert ist. Die realen Anforderungen und die zur Verfügung stehende Eventmenge sind von Kreditinstitut zu Kreditinstitut un-terschiedlich. Daher soll im Rahmen dieser Arbeit exemplarisch für die vorhandenen, si-mulierten Trainings- und Testdaten nachgewiesen werden, dass die Kombination aus Entscheidungsbaum, Diskriminanzanalyse und neuronalem Netzwerk grundsätzlich die auftretenden Betrugstransaktionen in Echtzeit bzw. nahe an der Echtzeit identifizieren kann. Die Struktur des neuronalen Netzwerks und die Gewichte können sich bei variie-render Daten- bzw. Eventbasis ändern. Die verwendeten Algorithmen und Attribute blei-ben gleich.

Die Werte der Initialgewichte sind zufällig festgelegt. Die Vorzeichen wurden später ange-passt. Die Gründe für diese vorgenommene Anpassung sind im nachfolgenden Abschnitt erläutert. Als Lernverfahren wird der Backpropagationsalgorithmus ohne zeitliche Rück-kopplungen verwendet, da es sich im Rahmen dieser Arbeit um ein überwachtes Verfah-ren handelt und mindestens eine Hiddenschicht verwendet wird. Hierfür ist die Backpro-pagationsmethode lt. [Dorf91, S. 39] prädestiniert.

Als Aktivierungsfunktion dient die nichtlineare Sigmoidfunktion (siehe Unterabschnitt 3.3.1). Nach [Dorf91, S. 102; Rume86, S. 1 - 2] kann durch die Anwendung dieser nichtli-nearen Aktivierungsfunktion in Verbindung mit dem Einbau von Hiddenschichten jedes beliebige numerische Muster abgebildet werden. Durch die Anwendung der Sigmoidfunk-tion „feuert“ ein Knoten immer einen Wert im geschlossenen Intervall von 0 bis 1. Dadurch kann am Outputknoten sehr gut eine Wahrscheinlichkeit abgebildet bzw. ausgegeben werden, da die Betrugsfälle mit 1,0 und die Nicht-Betrugsfälle mit 0,0 als bekannten Aus-gabewert trainiert werden. Als Lernkonstanten werden die Werte von 0,1 bis 0,9 in einem Schrittabstand von 0,2 verwendet, da durch diese Aufteilung die Veränderung des Lerner-folgs mit steigendem Lernfaktor beobachtet werden kann bzw. ob die Werte bei steigen-dem Lernfaktor zu oszillieren beginnen (siehe Unterabschnitt 3.3.2).

Die Anzahl der Lerndurchläufe des Backpropagationsverfahrens beginnt bei 100 Lernzyk-len und wird sukzessive auf 1.000, 5.000, 10.000, 20.000, 30.000, 50.000 und 100.000 erhöht. Diese Werte sind daher so spezifiziert um stichprobenartig eine Steigerung dar-stellen zu können. Hierbei wird die Variante des Online-Trainings verwendet, da diese lt.

[Schi93, S. 15 - 24] effektiver ist als das Offline-Training (siehe Unterabschnitt 3.3.2).

Für die Repräsentation der Klassifikationsergebnisse der verschiedenen überprüften Netzwerktopologien dient jeweils eine Matrix, bei der die Spalten den Lernfaktor und die Zeilen die Anzahl der Backpropagationsdurchläufe darstellen. In der jeweiligen Zelle steht ein Prozentsatz, der den Anteil der exakt klassifizierten events unter den 4.000 aktuellen Testevents unter Berücksichtigung der Parameter Zyklenzahl und Lernfaktor der aktuell analysierten Netzwerktopologie für die gesamte Betrugserkennungskomponente angibt.

Als genau erkannt gilt nach Aussage der verantwortlichen interviewten Betrugsexperten für Betrugsfälle ein Ausgabewert des neuronalen Netzwerks im abgeschlossenen Intervall zwischen 0,9 und 1,0. Bei den Nicht-Betrugsfällen zählt hierbei sowohl ein Ausgabewert des neuronalen Netzwerks im abgeschlossenen Intervall von 0,0 bis 0,1 als auch eine Aussonderung des Testevents durch Diskriminanzanalyse oder Entscheidungsbaum als exakt klassifiziert. Die restlichen Transaktionsevents mit Netzwerkausgabewerten im offe-nen Intervall zwischen 0,1 und 0,9 müssten von der jeweiligen Revisionsabteilung der Kreditinstitute manuell untersucht werden und gelten für die Untersuchungen dieser Arbeit als nicht genau zuordenbar. Somit verringern solche Werte die Erkennungsgenauigkeit.

Bezüglich der Analysegeschwindigkeit der Anwendung soll lt. den befragten Betrugsex-perten ein Wert nahe an der Echtzeit für ein event vorliegen, wobei im Rahmen des Pro-zesses am Wichtigsten ist, dass ein möglicher Betrugsfall identifiziert wird, bevor die Überweisung an das Zielkonto erfolgt. Zur Erreichung des Ziels, bei einem realen Einsatz des Modells in der Bankenbrache das neuronale Netzwerk aktuell zu halten, ist ein tägli-ches Nachtrainieren des neuronalen Netzwerks empfehlenswert. Das Training könnte hierbei parallel zu den auszuführenden Analysen erfolgen und somit müssten zur Laufzeit nur die Gewichtswerte ausgetauscht werden.

Im Dokument Complex Event Processing und maschinelle Lernverfahren (Seite 156-159)