Bilanzrating mit Künstlichen Neuronalen Netzen

(1)

B e r i c h t e

Bilanzrating mit Künstlichen Neuronalen Netzen

^∗∗∗∗

von Dipl.-Kfm. Thomas Mählmann

Gliederung

1. Einleitung

2. Grundlagen Künstlicher Neuronaler Netze

2.1 Informationsverarbeitung mit Neuronalen Netzen 2.2 Feed-Forward-Netze

2.3 Lernverfahren für Feed-Forward-Netze

2.4 Verfahren zur Entwicklung geeigneter Netzwerkstrukturen 2.4.1 Problemstellung

2.4.2 Generalisierungsfähigkeit Neuronaler Netze

2.4.3 Ausdünnungsverfahren als problemadäquates Instrument 3. Empirische Ermittlung eines Klassifikators von Jahresabschlüssen

3.1 Überblick

3.2 Verwendetes Datenmaterial

3.3 Mehrstufige parallele Entwicklung optimaler MLP-Netzwerke 3.3.1 Zielkalkül und Benchmarkobjekt

3.3.2 Untersuchungsaufbau

3.3.3 Darstellung der Untersuchungsergebnisse 3.4 Bilanzrating mit dem BPMD-17

4. Fazit Anhang Literatur

∗ Der vorliegende Beitrag basiert auf der Diplomarbeit des Verfassers.

(2)

1. Einleitung

Mit der neuen Basler Eigenkapitalvereinbarung¹, die es Banken unter bestimmten Voraussetzungen erlaubt, ihre internen Bonitätseinstufungen (Ratings) für eine risikoadäquate Eigenkapitalunterlegung von Unternehmenskrediten zu nutzen, setzt der Basler Ausschuss für Bankenaufsicht den Kreditinstituten An- reize, ihre Methoden zur Risikomessung weiterzuentwickeln. Zudem ist durch die Entwicklung von Kreditrisikomodellen und die zu deren Implementierung notwendigen Ratingdaten das Interesse an bankinternen Ratings für Firmen- kunden stark angewachsen. Die in der Praxis eingesetzten internen Ratingver- fahren lassen sich dabei üblicherweise durch eine quantitative und eine qualita- tive Komponente charakterisieren, wobei im Mittelpunkt des quantitativen Teil- ratings die Analyse von Jahresabschlüssen steht.² Unter den hierbei zum Ein- satz kommenden statistisch-mathematischen Verfahren nimmt die multivariate Diskriminanzanalyse (MDA) eine dominierende Stellung ein.³ Das Ziel dieser Technik ist die Entwicklung eines Klassifikators, der anhand bestimmter Kenn- zahlenkombinationen in der Lage ist, Unternehmen in die Gruppen künftig sol- vent oder insolvenzgefährdet einzustufen.

Im vorliegenden Beitrag soll mit der Künstlichen Neuronalen Netzanalyse (KNNA) ein Ansatz vorgestellt und empirisch überprüft werden, der bestimmte Vorteile (Berücksichtigung von Nichtlinearitäten im Datensatz, keine Bindung an strenge Anwendungsvoraussetzungen) gegenüber der MDA besitzt und daher allein aus theoretischer Sicht zur Erkennung ausfallbedrohter Unternehmen besser geeignet erscheint.

Um zu zeigen, dass es sich, entgegen einer weitverbreiteten Meinung⁴, bei einem Künstlichen Neuronalen Netz (KNN) nicht um eine „gläserne Kugel“ bzw.

„Black Box“ handelt, wird im Folgenden zunächst seine theoretische Basis her- ausgearbeitet. Ausgehend von der Darstellung der neuronalen Informationsver- arbeitung, dem Aufbau verbreiteter Netzwerkstrukturen und grundlegender Lernverfahren erfolgt eine Analyse bestimmter Problembereiche („Trial and Er- ror“-Vorgehen bei der Netzwerkkonstruktion, mangelnde Generalisierungsfähig- keit), für die jeweils eigene Lösungsvorschläge gemacht werden.

Der empirische Teil dieser Arbeit beschreibt die Umsetzung der vorgestellten Techniken am Beispiel belgischer Jahresabschlüsse. Es wird ein optimierter

1 Vgl. Basel Committee on Banking Supervision (2001).

2 Vgl. insbesondere die jüngsten Studien interner Ratingverfahren sechs großer deutscher Kreditinstitute von Brunner et al. (2000) und Weber et al. (1999).

3 Vgl. Günther/Grüning (2000), S. 44.

4 Vgl. Leker (1994), S. 605.

(3)

Klassifikator entwickelt und seine Einsatzmöglichkeit im Rahmen eines quantitativen Teilratings¹ skizziert.

2. Grundlagen Künstlicher Neuronaler Netze

Künstliche Intelligenz ist das Gegenteil von „natürlicher Dummheit“.² LINDECKER, J. D.

2.1 Informationsverarbeitung mit Neuronalen Netzen

Den Ausgangspunkt der Überlegungen zu Künstlichen Neuronalen Netzen bildet ein Vergleich der Informationsverarbeitung von Mensch und Computer.

Während der Computer dem Menschen in Anwendungen aus dem Bereich der Kombinatorik, der Suche von Zeichenketten in einem Text oder der Auswertung großer Datenbestände in Geschwindigkeit und Präzision klar überlegen ist, rei- chen seine Fähigkeiten bei komplexen Aufgaben wie z.B. Erkennen eines Bil- des, Analysieren von Sprache oder Geräuschen sowie Steuern von Bewegun- gen nicht an die eines Menschen oder Tieres heran.³ Es ist also naheliegend, die Struktur des menschlichen Gehirns einmal genauer zu entschlüsseln, um daraus Anregungen für eine Verbesserung der maschinellen Datenverarbeitung zu erhalten. Dazu wird nachfolgend kurz auf die in diesem Zusammenhang wichtigen Erkenntnisse der Neurobiologie eingegangen.⁴

Das menschliche Gehirn ist aus Nervenzellen (Neuronen) aufgebaut, die die Eigenschaft besitzen, Informationen durch ein veränderbares elektrisches Po- tential speichern und mit Hilfe von Nervenimpulsen über Verdickungen am En- de ihrer Ausläufer (Synapsen) an andere Nervenzellen weitergeben zu können.

Neuronen mit erhöhtem Potential werden dabei als angeregt oder aktiviert bezeichnet. Man schätzt, dass der Mensch ca. 100 Milliarden Nervenzellen besitzt, wobei jede Zelle mit ca. 1.000 bis 10.000 „Nachbarn“ verbunden ist.⁵ Die Neuroinformatik verwendet nur sehr vereinfachte Modelle eines Nervenzellen- geflechts. Aus der Biologie übernommen werden die Neuronen mit ihren Schwellenwerten und ihre Verbindungen mit den Verbindungsstärken oder Ge- wichten. Dieses Modell lässt sich sehr gut durch eine Skizze darstellen, in der

1 Es ist hier hervorzuheben, dass die Analyse von Jahresabschlüssen bzw. allgemeiner von quantitativen Daten immer nur eine Teilkomponente eines umfassenden Ratingverfahrens darstellen darf. Gerade in der Berücksichtigung von privaten, qualitativen Informationen, die eine Bank im Laufe der meist langjährigen Beziehung zum Kreditnehmer generiert hat, kön- nen Wettbewerbsvorteile zwischen Kreditinstituten begründet liegen.

2 Zitiert nach Füser (1995), S. 1.

3 Vgl. Rosenhagen (1996), S. 88-90.

4 Vgl. die Darstellungen bei Kandel et al. (1991), S. 21-33 oder Schöneburg et al. (1990), S. 36- 44.

5 Vgl. Stevens (1988), S. 3.

(4)

die Neuronen durch Knoten und die Verbindungen durch gerichtete, gewichtete Kanten repräsentiert sind.

Abb. 2.1: Informationsverarbeitung in künstlichen Neuronen¹

Üblicherweise werden künstliche Neuronen charakterisiert durch:²

• den Aktivierungszustand aj(t), der den Grad der Anregung (das Potential) einer Zelle j zur Zeit t angibt;

• die Eingangsfunktion, die die ausgewählten Informationen zu einer einzigen Gesamtgröße, die im neuronalen Kontext Nettoinput (net) genannt wird, überlagert.³ Die Eingangsfunktion besteht aus der Summe der Ausgaben der Vorgängerzellen oi(t) (mit i = 1, ..., I), multipliziert mit dem jeweiligen Gewicht wij(t) der Verbindung von Neuron i zu Neuron j, abzüglich einer Schwelle θj(t):⁴

å

₌ ^⋅

= ^I

1 i

ij i

j(t) o(t) w (t)

net – θj(t). (2.1)

Die Summe der Eingangssignale (Nettoinput) wird mit einem Schwellenwert θj(t) verglichen, der bestimmt, wie stark die eingehenden Signale sein müs- sen, um zu einer Erregung [positives Aktivitätspotential aj(t)] des Neurons j zu führen.⁵ Ein Schwellenwert lässt sich in einem Neuron auf verschiedene Art simulieren. Entweder wird er direkt in dem Neuron abgelegt oder aber durch ein Gewicht zu einem Bias-Neuron symbolisiert.⁶ Das Bias ist ein spezielles Neuron der Eingabeschicht, welches stets den Wert eins (d.h. o0

= 1 für alle t) an alle nachgelagerten Neuronen liefert. Bezeichnet w0j(t) das Verbindungsgewicht zwischen dem Bias und dem j-ten Neuron, so folgt für den Schwellenwert θj(t) zum Zeitpunkt t:

1 In Anlehnung an Zell (1994), S. 72.

2 Vgl. zu den weiteren Ausführungen Rumelhart et al. (1986a), S. 45-54.

3 Vgl. Zimmermann (1994), S. 4.

4 Vgl. zu diesem Absatz Dorffner (1991), S. 16 f. Manche Autoren verwenden ersatzweise einen Schwellenwert mit inversem Vorzeichen [vgl. z.B. Kratzer (1993), S. 36].

5 Schnurr (1997), S. 74. Ein positiver (negativer) Schwellenwert θj(t) spiegelt dabei die Neigung eines Neurons zur Deaktivierung (Aktivierung) wider.

6 Vgl. Zell (1994), S. 81 f. Bei der empirischen Analyse in Kapitel 3 symbolisiert ein Bias-Neuron den Schwellenwert. Diese Modellierung hat den Vorteil, dass die Verbindungen des Bias- Neurons (respektive die Schwellenwerte) zusammen mit den „normalen“ Verbindungen des KNN trainiert werden, was ein manuelles Konfigurieren oder ein spezielles Trainingsverfahren überflüssig macht.

Übermittlungsrichtung

ai a_j

wij

oi netj oj

neti

Neuron i Neuron j

(5)

– θj(t) = w_0j(t)⋅o ₀ Þ – θj(t) = w_0j(t)⋅1 . (2.2) Mit dieser Notation lässt sich die Schwelle eliminieren und durch das negative Gewicht w0j(t) = – θj(t) ersetzen. Man kann für (2.1) schreiben:¹

å

₌ ^⋅

= ^I

0 i

ij i

j(t) o(t) w (t)

net . (2.3)

• die Aktivierungsfunktion fact, die angibt, wie sich der Aktivierungszustand eines Neurons j aus der Netzeingabe netj und der alten Aktivierung aj(t–1) berechnet:

1)]

(t a (t), [net f (t)

a_j = _act _j _j − . (2.4)

Im Regelfall wird angenommen, dass die Neuronen kein Gedächtnis besitzen, d.h. die neue Aktivierung aj(t) ist nicht abhängig von der alten Aktivie- rung aj(t–1).² Prinzipiell lässt sich jede stetig differenzierbare Funktion als Aktivierungsfunktion einsetzen. In der vorliegenden Untersuchung wurden die drei in Tab. 2.1 abgebildeten Funktionen in das verwendete Netzmodell implementiert.

Aktivierungsfunktion mit v = netj(t) Ableitung

Linear f_act(v) = v 1

Logit act _v

e 1 (v) 1

f ₋

= + f_act′ (v)= f_act(v) ⋅ [1 – f_act(v)]

TanH _v _v

v v

act e e

e (v) e

f ₋

−

+

= − fact′ (v)=1−

[

fact(v)

]

²

Tab. 2.1: Aktivierungsfunktionen

In den meisten Anwendungen Neuronaler Netze kommen stetige, s-förmige Schwellenwertfunktionen zum Einsatz. Die beiden populärsten Funktionen dieser Art sind die logistische Funktion bzw. die Tangens Hyperbolicus- Funktion (TanH), die den Vorteil besitzen, die Eingabewerte in die Intervalle ]0,1[ bzw. ]-1,1[ zu transformieren. Als Folge dieser Abbildung des Wertein- tervalls kann das Netz leichter Extremwerte verarbeiten und somit schneller konvergieren.³

• die Ausgabefunktion⁴ fout, die aus der Aktivierung der Zelle j die Ausgabe

1 Vgl. Braun (1997), S. 18-19 oder ähnlich Brause (1995), S. 40-41.

2 Vgl. Zell (1994), S. 83.

3 Vgl. Rumelhart et al. (1986b), S. 329.

4 In der Literatur besteht eine Vermischung der Bezeichnung von Aktivierungs- und Ausgangs- funktion, so dass häufig die Aktivierungsfunktion auch in der Form der Identitätsfunktion reali- siert und die Aktivierung des Neurons im Rahmen der Ausgangsfunktion implementiert wird [vgl. Köhle (1990), S. 64 f., Pytlik (1995), S. 181 oder Rehkugler/Kerling (1995), S. 310].

(6)

oj(t) berechnet, wobei oj(t) für alle Ausgangsverbindungen wjk(t) identisch ist:¹

(t)]

[a f (t)

o_j = _out _j . (2.5)

Einzelne Verbindungen lassen sich durch ihre Gewichte charakterisieren. Der Verbindung von Neuron i zu Neuron j ist das Gewicht wij(t) zugewiesen. Es bestimmt die Intensität, mit der das Signal des Neurons i das Neuron j beeinflussen kann.² Die Verbindungsstärke wirkt, analog dem biologischen Vorbild, hemmend oder erregend. Ein positiver Wert [wij(t) > 0] steht dabei für eine erre- gende Verbindung, hemmende Verbindungen hingegen verkörpern negative Gewichte [wij(t) < 0]. Existiert keine Verbindung zwischen den Neuronen i und j, erhält das Gewicht den Wert wij(t) = 0.³ Ein Neuron liefert an andere Neuronen grundsätzlich denselben Ausgabewert, der allerdings mit unterschiedlichen Verbindungsstärken gewichtet werden kann.⁴ Die Gewichte der zwischen den einzelnen Neuronen bestehenden Verbindungen repräsentieren das Wissen eines Neuronalen Netzes.⁵

2.2 Feed-Forward-Netze

Im Rahmen dieser Arbeit wurden ausschließlich Feed-Forward-Netze eingesetzt. Es handelt sich hierbei um azyklische (d.h. vorwärtsgerichtete) Neuronale Netze, in denen die Informationsverarbeitung in einer vorbestimmten Richtung stattfindet.⁶ Die Neuronen lassen sich dabei hinsichtlich ihrer Topologie unter- schieden (vgl. Abb. 2.2). An die Schicht (Layer) von sog. Eingabeneuronen (In- put-Units) wird ein Eingabemuster angelegt⁷, das über die verdeckten Neuro- nen (Hidden-Units) zur Schicht der Ausgabeneuronen (Output-Units) geleitet wird. Die verdeckten Neuronen können ebenfalls in Schichten unterteilt werden.

Das Netz berechnet hier eine mehrstellige Funktion F, die den Eingabevektor In^[p] auf einen Ausgabevektor O^[p] abbildet, nämlich den Zustand der Ausgabe-

1 Vgl. Schnurr (1997), S. 79.

2 Vgl. Lawrence (1992), S. 68.

3 Vgl. zu diesem Absatz Rosenhagen (1996), S. 93. Die einzelnen Gewichte innerhalb eines KNN können dabei beliebige Werte annehmen, es gilt: wij(t) ∈ IR.

4 Vgl. Krause (1993), S. 40.

5 Vgl. Adam et al. (1995), S. 509. Im weiteren Verlauf werden die Begriffe Gewicht und Verbin- dung synonym verwendet.

6 Vgl. Braun (1997), S. 16. Das Gegenstück zu den Feed-Forward-Netzen stellen die Feed- Backward-Netze dar, bei denen auch Rückkoppelungen vorgesehen sind, d.h. das Ausgangs- signal eines Neurons ist zugleich Eingangssignal desselben Neurons oder eines vorgelager- ten Neurons. Beispiele für Feed-Backward-Netze sind das Hopfield-Netz oder die Boltzmann- Maschine [vgl. zu einer ausführlichen Darstellung Brause (1995), S. 170-225].

7 In dieser Arbeit wird in den Neuronen der Eingabeschicht eine lineare Aktivierungsfunktion (die Identitätsfunktion) verwendet und die Eingangssignale werden nicht gewichtet. Da jedes Neuron in der Eingabeschicht lediglich ein Eingangssignal erhält, erfolgt auch keine Summati- on. Die Jahresabschlusskennzahlen werden unverändert von der Eingabeschicht an die verdeckte Schicht weitergegeben. Die Eingabeschicht übt somit nur eine Pufferfunktion aus.

(7)

neuronen, nachdem das Eingabemuster p angelegt und zur Ausgabeschicht propagiert wurde.

Die bekanntesten und am häufigsten eingesetzten Feed-Forward-Netze sind die „Perceptrons“, wobei hier zwischen dem Single-Layer Perceptron (SLP) und dem Multi-Layer Perceptron (MLP) zu unterscheiden ist. Das SLP besitzt eine Eingabeschicht (Input Layer) und eine Ausgabeschicht (Output Layer). Das Modell hat keine verdeckten Neuronen, wohingegen ein MLP über mindestens eine verborgene Schicht verfügt.¹

Abb. 2.2: Topologie eines Feed-Forward-Netzwerks

Das abgebildete Multi-Layer Perceptron² weist zwei verborgene Schichten auf, wobei theoretisch bereits eine Schicht zur Behandlung vieler Fragestellungen ausreichend ist.³

1 Aufgrund seines Aufbaus (keine verdeckte Schicht!) ist ein SLP nur in der Lage, lineare Tren- nungen im Merkmalsraum vorzunehmen. Es ähnelt somit der linearen multivariaten Diskrimi- nanzanalyse und stellt eine Vorstufe zum komplizierteren MLP dar [vgl. zu den Eigenschaften des SLP Poddig (1992), S. 238-240].

2 Das hier beispielhaft dargestellte Netz verfügt über ein Neuron in der Ausgabeschicht und liefert somit auch nur einen Ausgabewert op1 je Eingabemuster p. Diese Netzarchitektur eignet sich insbesondere für Klassifikationsaufgaben. Das Bias hat nur Verbindungen mit den Neu- ronen der zwei verdeckten Schichten und der Ausgabeschicht. Somit besitzen auch nur diese Neuronen einen Schwellenwert. Die Anzahl der Neuronen in den einzelnen Schichten kann je nach Aufgabenstellung beliebig variiert werden (zu Problemen mit überdimensionierten Net- zen vgl. Abschnitt 2.4).

3 Vgl. Hecht-Nielsen (1990), S. 133 f. Es kann aber sein, dass komplexe Probleme effizienter mit Netzen bewältigt werden können, die mehrere verborgene Schichten besitzen. Zu Tests mit zwei verborgenen Schichten vgl. Abschnitt 3.3.3.

K_1 K_2 K_3 ... K_ni

Ausgabedaten o1

Neuronales Netz

Eingabedaten [hier: Kennzahlen (K) eines Unternehmens]

Bias = 1 ...

Übermittlungsrichtung

Eingabeschicht verdeckte Schicht 1 verdeckte Schicht 2 Ausgabeschicht

(8)

2.3 Lernverfahren für Feed-Forward-Netze

Zu einem funktionierenden Neuronalen Netz gehört eine Lernfunktion, d.h. ein Algorithmus, der die Veränderung der Netzwerkparameter bestimmt. Beim ü- berwachten Lernen verwendet man eine Menge von Trainingsmustern p, die jeweils aus einem Eingabevektor In^[p] und dem dazugehörigen gewünschten Ausgabevektor¹ T^[p] bestehen, als Beispiele für die vom Netz zu realisierende Funktion. Die Eingabemuster werden nacheinander angelegt und durch das Netz propagiert, woraufhin die Aktivierung der Ausgabeneuronen mit dem Aus- gabemuster verglichen wird. Eine Veränderung der Netzparameter erfolgt dabei im Sinne einer Angleichung beider Vektoren.

Der folgende Abschnitt ist der Darstellung des Backpropagation (BP) – Algorith- mus², dem zentralen Lernverfahren für Feed-Forward-Netze, gewidmet. Hierbei handelt es sich um ein Verfahren mit Gradientenabstieg³, d.h. man versucht in einem „Fehlergebirge“ schrittweise durch kontrolliertes Modifizieren der Gewich- te in ein Fehlerminimum („Tal“) zu gelangen. Die Fehlerfunktion Ep(Wp) ist dabei als quadratische Summe der Differenzen zwischen tatsächlicher (opj) und ge- wünschter Ausgabe⁴ (tpj) der Ausgabeneuronen beim Eingabemuster p definiert:⁵

å

₌ ⁻

= ⁿ⁰

1 j

2 pj pj p

p (t o )

2 ) 1 (W

E . (2.6)

Der Gewichtsvektor Wp muss nun so modifiziert werden, dass sich der Fehler in Richtung des negativen Gradienten -∇Ep(Wp) ändert:

) (W E η W

∆ _p =− ⋅∇ _p _p . (2.7)

Hier wird η als Lernfaktor⁶ eingeführt, der die Größe der Schritte auf das globale Minimum hin sinnvoll beschränken soll. Für ein einzelnes Gewicht gilt somit:

(p) w

∆ _ij =

(p) w

) (W η E

ij p p

∂

− ∂ . (2.8)

1 In dieser Untersuchung wird die Kodierung t = 0 (der Jahresabschluss stammt von einem solventen Unternehmen) bzw. t = 1 (der Jahresabschluss stammt von einem später insolventen Unternehmen) gewählt.

2 Vgl. Rumelhart et al. (1986b), S. 322-330.

3 Als „Gradienten“ bezeichnet man den Vektor der partiellen ersten Ableitungen einer Funktion.

Zu Verfahren des Gradientenabstiegs vgl. z.B. Horst (1979), S. 89-101.

4 Der Zeitindex kann im Folgenden durch den Index der Eingabemuster p ersetzt werden (spä- ter allgemeiner durch den Lernschrittindex z).

5 Vgl. Rumelhart et al. (1986b), S. 323; no bezeichnet dabei die Anzahl der Ausgabeneuronen.

6 Vgl. Rumelhart et al. (1986a), S. 53. Der Index p soll hier andeuten, dass sich die Verände- rung der Verbindungsgewichte auf unterschiedliche Eingabemuster bezieht.

(9)

Abb. 2.3: Fehlergebirge und Richtung des Gradientenabstiegsverfahrens

Bei Verwendung der Kettenregel ergibt sich

(p) w

net net

) (W E (p)

w ) (W E

ij pj pj

p p ij

p p

∂

⋅ ∂

∂

−∂

∂ =

−∂ = _pj _pi

ij i pi ij

pj δ o

(p) w

δ o =− ⋅

∂

⋅

⋅∂

−

å

_{, (2.9)}

mit der rekursiv definierten Hilfsvariable¹ δ_pj, die für verdeckte Neuronen und Ausgabeneuronen auf unterschiedliche Weise berechnet werden muss. Zu- sammenfassend kann die folgende Formel aufgestellt werden:

pi pj

ij(p) η ( δ ) o

w

∆ = ⋅ − ⋅ , (2.10)

mit:

( )

^falls^j^ein^verdecktes^Neuron^ist.

ist, ron Ausgabeneu ein

j falls (p)

w δ )

(net f

) o (t ) (net f δ

k pk jk

pj act

pj pj pj act

pj ï

î ïí ì

⋅

−

′ ⋅

−

′ ⋅

=

−

å

(2.11)

Die obige Formel (2.10) zur Gewichtsänderung lässt sich nun auf zwei Arten anwenden.² Zum einen können die Terme ∆wij(p) sofort nach ihrer Berechnung für jedes Muster p zu den alten Gewichten addiert werden. Man spricht in diesem Fall auch vom Musterlernen.³ Zum anderen kann man sie zunächst auf- summieren und erst nach einer ganzen Epoche⁴ e verrechnen (Epochenler- nen):

[ ( ) ]

å

⁼ ⁼ ^⋅ ⁼ ^⋅

= ⁿ_p^p₁ _ij ⁿ_p^p₁ _pj _pi

ij(e) ∆w (p) η -δ o

∆w (2.12)

Streng genommen entspricht nur das Epochenlernen der Motivation des Back-

1 Der Faktor δ_pj wird als Fehlersignal des Neurons j bezeichnet [vgl. Pytlik (1995), S. 183].

2 Vgl. Pao (1989), S. 127.

3 Vgl. Braun (1997), S. 26 f.

4 Unter einer Epoche e versteht man die einmalige Präsentation aller np Muster, die zum Trai- ning des Netzes zur Verfügung stehen [vgl. Zell (1994), S. 414].

Fehler

Gewicht 1 Gewicht 2

(10)

Backpropagation-Algorithmus als Gradientenabstiegsverfahren zur Bestimmung des Minimums der Fehlerfunktion Ee (und nicht Ep). Aus

p p

p p p

e e

e η E (W ) η E (W ) ∆W

∆W ⁼⁻ ^⋅^∇ ⁼⁻ ^⋅

å

^∇ ⁼

å

^(2.13)

folgt zwingend, dass zur Minimierung von Ee die Gewichtsänderungen zu kumu- lieren sind und erst nach dem Durchgang aller np Muster eine Anpassung erfolgen darf.¹ Bezeichnet nun der Index z die Präsentation eines Musters p oder einer Epoche e, so erhält man abschließend für die Gewichtsänderung:

( )

[ ( ) ]

ïî ïí ì

=

⋅

−

⋅

−

⋅

=

å

^falls ^z ^e ^(Epochenle^rnen).

nen), (Musterler p

z falls o

δ η

o δ η (z)

∆w

p pj pi

zi zj

ij (2.14)

Abb. 2.3: Fehlerkurve beim Gradientenabstiegsverfahren²

Wie bereits beschrieben, handelt es sich bei Backpropagation im Prinzip um ein einfaches Gradientenabstiegsverfahren, welches die Lage des Minimums der Fehlerfunktion Ez(Wz) = f[w1(z), ..., w_nw(z)] sucht.³ Ez(Wz) ist daher auf einem nw-dimensionalen Raum der Verbindungsstärken definiert und formt ein Hyper- gebirge. Die Lernprozedur beginnt aufgrund der Initialisierung der Verbindungs- stärken an einem zufällig ausgewählten Punkt des Gebirges. In jedem Schritt passt nun das Lernverfahren die Gewichte so an, dass der Fehler Ez(Wz) redu- ziert wird. Es garantiert so stets die Bewegung von einem beliebigen Punkt des Gebirges zu einem anderen, der „niedriger“ liegt (d.h. dessen Fehler Ez(Wz) geringer ist).

1 Vgl. Rumelhart et al. (1986b), S. 324, wo auch argumentiert wird, dass die Abweichungen beim Musterlernen vernachlässigbar sind.

2 Die Abbildung ist angelehnt an Pao (1989), S. 128, siehe auch Pytlik (1995), S. 184.

3 Aus Gründen der Vereinfachung sind hier alle Verbindungsstärken durchnumeriert, nw bezeichnet dabei die Anzahl der Verbindungsstärken eines Netzes.

Fehler

Ez Fehler-

plateau lokales

Minimum globales Minimum )

(W E_z _z1

) (W E_z _z3

) (W E_z _z2

) (W E_z _z4

Wz1 W_z2 W_z3 W_z4 GewichtsvektorW_z

(11)

Abbildung 2.3 lässt das Kernproblem dieser Prozedur erkennen, die in ihrer „lo- kalen“ Umgebung nach Punkten sucht, die einen Abstieg im Fehlergebirge be- wirken. Ist das Startgewicht (genauer: der Gewichtsvektor Wz) mit dem Wert Wz3 initialisiert, so findet das Gradientenabstiegsverfahren das globale Fehler- minimum Ez(Wz4), indem es dem negativen Gradienten der Fehlerfunktion folgt.

Beginnt der Suchprozess bei Wz1, gerät er in ein lokales Minimum [Ez(Wz2)], das keine weiteren Bewegungen auf der Fehleroberfläche mehr gestattet, da durch weitere Lernschritte der Fehler zunächst wieder größer würde. Für den Fall, dass sich der Prozess auf einer Fehlerebene (Plateau) befindet, kann das Sys- tem zwischen unterschiedlichen Punkten der Ebene oszillieren. Bei einem voll- ständig ebenen Plateau (Gradient ist der Nullvektor) führt das Lernverfahren überhaupt keine Gewichtsänderung mehr durch.¹ In allen Fällen würde die Su- che mit einer suboptimalen Lösung abgebrochen und das globale Minimum bei der Gewichtseinstellung Wz4 verfehlt. Diese Problematik kann durch die Einfüh- rung des sogenannten Momentum-Terms partiell gelöst werden.² Die Gleichung (2.14) erhält dabei die folgende Modifikation:

[ ( ) ]

ïî ïí ì

=

−

⋅ +

⋅

−

⋅

−

⋅ +

⋅

−

⋅

=

å

^falls^z ^e^(Epochenle^rnen),

nen) (Musterler p

z falls 1)

(z

∆w α o δ η

1) (z

∆w α o δ η (z)

∆w

p pj pi ij

ij zi

zj

ij (2.15)

wobei die Konstante α ∈ [0, 1] als Momentum bezeichnet wird. Die so verän- derte Lernregel berücksichtigt im aktuellen Lernschritt z die Gewichtsänderung aus dem letzten Lernschritt z–1. Formel (2.15) vergrößert die Gewichtsanpas- sung, wenn mehrere Gewichtsänderungen dasselbe Vorzeichen haben (z.B. in flachen Plateaus) und verhindert starke Schwankungen der Gewichte bei ge- genläufigen Gewichtsanpassungen in steilen Schluchten.³ Dadurch wird die Verwendung einer höheren Lernrate η (Folge: höhere Lerngeschwindigkeit) ermöglicht, die Konvergenz des Netzes bleibt weiterhin gewährleistet.⁴ Gleich- zeitig nimmt durch den Momentum-Term aber die Wahrscheinlichkeit zu, dass ein globales Minimum nicht gefunden oder wieder verlassen wird.

1 Vgl. Pao (1989), S. 129. Ein weiteres Problem sind Oszillationen in steilen Schluchten, in denen der Gradient so groß ist, dass die resultierende Gewichtsänderung einen Sprung auf die gegenüberliegende Seite der Schlucht bewirkt. Da hier aber der Gradient in die entgegenge- setzte Richtung zeigt, erfolgt ein Sprung zurück auf die erste Seite [vgl. Zell (1994), S. 112].

2 Vgl. Rumelhart et al. (1986b), S. 330.

3 Vgl. Braun (1997), S. 28.

4 Inwieweit die Verwendung des Momentum-Terms zu einer Minimierung des Netzfehlers führt, hängt von der Gestalt der Fehleroberfläche ab, die aber a priori nicht bekannt ist. Die einzige Prüfungsmöglichkeit besteht hier darin, während des Lernvorgangs verschiedene (η,α)- Einstellungen auszuprobieren [vgl. Poddig (1992), S. 254].

(12)

Bekannte Varianten des BP-Algorithmus sind die Verfahren Quickprop¹ und Resilient Propagation². Ausgehend vom Prinzip des Gradientenabstiegs versuchen beide durch das Treffen bestimmter Annahmen über die Form der Fehler- oberflächedieKonvergenz-bzw.Lerngeschwindigkeit eines Netzes zu erhöhen.

2.4 Verfahren zur Entwicklung geeigneter Netzwerkstrukturen

2.4.1 Problemstellung

Ein Problem der Anwendung Neuronaler Netze besteht in der Festlegung einer adäquaten Netzarchitektur. Bei vollständig verbundenen Feed-Forward-Netzen, d.h. jedes Neuron einer Schicht ist mit jedem Neuron der folgenden Schicht verknüpft, ergeben sich sehr viele Verbindungen. Wählt man eine nicht ange- passte Netzgröße, kann sich das in verschiedener Hinsicht negativ auswirken:

• Ist das Netz zu klein, so kann es die Datenmenge nicht repräsentieren, d.h.

die gegebenen Beispiele nicht erlernen.³

• Ist das Netz zu groß, dann lernt es zwar vermutlich die ihm vorgegebenen Beispiele, hat aber unter Umständen eine mangelhafte Generalisierungs- leistung.

Zum Auffinden einer geeigneten Architektur existieren zwei Ansätze:⁴

Der konstruktive Ansatz: Man fügt in ein anfangs nur aus Ein- und Ausgabe- neuronen bestehendes Netz sukzessive verdeckte Neuronen ein, bis eine sub- jektiv zufriedenstellende Leistungsfähigkeit erzielt wird. Das bekannteste Ver- fahren dieser Art ist die Cascade Correlation von Fahlmann/Lebiere.⁵

Die Ausdünnungsverfahren: Man wählt eine zu große Architektur und löscht aus dieser solange einzelne Verbindungen oder Neuronen, bis das Netz ein vorgegebenes Gütekriterium erreicht.

1 Vgl. Fahlman (1988), S. 524-532.

2 Vgl. Riedmiller/Braun (1992), S. 279-286 und Riedmiller/Braun (1993), S. 586-591.

3 Braun (1997), S. 17 spricht in diesem Zusammenhang auch von der „Berechnungsmächtig- keit“ und spielt damit auf die Funktionsweise eines Netzes an, dass in den Trainingsdaten enthaltene Wissen durch die Berechnung einer nichtlinearen Funktion O^[p] = F(Wp, In^[p]) zu ap- proximieren.

4 Vgl. Schnurr (1997), S. 117. Refenes (1995), S. 33 unterscheidet dagegen zwischen analyti- schen Methoden, konstruktiven Techniken und Ausdünnungsverfahren (dort als Pruningver- fahren bezeichnet).

5 Vgl. Fahlman/Lebiere (1990), S. 524-532 und Fahlman (1991), S. 190-198.

(13)

2.4.2 Generalisierungsfähigkeit Neuronaler Netze

Unter der Generalisierungsleistung versteht man die Fähigkeit eines Neurona- len Netzes, zu Daten aus einer Testmenge die richtigen Ausgaben zu erzeu- gen, wenn diese dem Netz nach dem Training zum ersten Mal präsentiert werden. Das Training des Netzes ist folglich immer wieder durch Testphasen zu unterbrechen, um festzustellen, ob die geforderte Genauigkeit der Approximati- on erreicht wurde.¹ Die Testdaten sind dabei vollkommen neue Muster, die aber natürlich der bisherigen Problemstellung entsprechen müssen

Abb. 2.4: Typischer Verlauf der Fehlerkurven²

Nun besteht beim Training eines für die Anzahl der Trainingsmuster zu großen Netzes die Gefahr, dass sich das Netz ganze Muster merkt, anstatt einige spe- zielle Merkmale zu extrahieren, die das Muster charakterisieren³. Lange Trai- ningszeiten verschärfen diese Problematik noch, was anhand von Abb. 2.4 gezeigt wird. Man erkennt, dass bei fortschreitendem Training der Netzfehler der Trainingsbeispiele zwar stetig sinkt, der Fehler für eine Testmenge ihm jedoch nur ein Stück weit folgt, um dann nach einer bestimmten Anzahl von Lernschrit- ten wieder zuzunehmen.

Ein als Stopped Training bezeichneter Ansatz zur Vermeidung von Overfitting basiert auf den oben dargestellten Zusammenhängen. Das Training des Netzes erfolgt dabei anhand der Trainingsmenge, mit der Testmenge wird nach jedem Trainingszyklus (d.h. nach einer bestimmten Anzahl von Eingabemustern bzw.

Epochen) die Generalisierungsleistung gemessen und dadurch der Zeitpunkt (z*) bestimmt, ab dem das Netz die Trainingsdaten „auswendig lernt.“ Tritt dieser Effekt ein, wird das Training beendet.⁴

1 Der Vorschlag, den Datenbestand in eine Trainings- und eine Teststichprobe aufzuteilen und eine „Cross-Validation“ durchzuführen, stammt im Original von Weigend et al. (1990), S. 194 f.

2 In Anlehnung an Hecht-Nielsen (1990), S. 117. In dieser Untersuchung wurde jeweils nach zehn Epochen bzw. 6.900 Eingabemustern getestet.

3 Dieses als Overlearning bzw. Overfitting bezeichnete Phänomen wurde zuerst von Hecht- Nielsen (1990), S. 115 beschrieben.

4 Vgl. Zimmermann (1994), S. 61.

Test

*

Ez

Fehler

z* Lernschrittindex z

Testdaten

Trainingsdaten

(14)

Die zentrale Problematik der Stopped Training Technik besteht darin, dass das Training schon nach einer verhältnismäßig geringen Anzahl von Lernschritten abgebrochen werden kann. Da man die Gewichte wij aber mit kleinen Werten initialisiert, für die z.B. die nichtlinearen, s-förmigen Aktivierungsfunktionen einen annähernd linearen Verlauf aufweisen, kann ein kurzer Lernprozess dann zu einer Überschätzung des Anteils der linearen Strukturen in den Daten füh- ren. Um den Abbruchzeitpunkt des Lernens weiter hinauszuschieben und damit auch eventuelle Nichtlinearitäten in den Daten abbilden zu können, empfiehlt sich der Einsatz der bereits erwähnten Ausdünnungsverfahren, die an der Ur- sache des Overfitting ansetzen, der Netzwerkkomplexität.

2.4.3 Ausdünnungsverfahren als problemadäquates Instrument Ausdünnungsverfahren¹ lassen sich in zwei Klassen einteilen:

• Weight-Decay-Verfahren (Verfahren mit Kosten- oder Penaltyterm)

Weight-Decay-Verfahren geben den freien Parametern im Netz eine Ten- denz, sich zu verkleinern. Dies geschieht durch Einführung eines zusätzli- chen Kostenterms in die Fehlerfunktion, der monoton mit der Größe der Pa- rameter steigt. Konkret bedeutet dies, dass Gewichte, die durch das Training nicht verstärkt werden und somit für das zu bearbeitende Problem unwichtig sind, während des Trainings stetig gegen null streben. Parameter, die unter einen Minimalwert fallen, können ganz entfernt (d.h. dauerhaft auf null gesetzt) werden.

• Sensitivitätsverfahren (direktes Ausdünnen von Neuronen/Verbindungen) Sensitivitätsverfahren dagegen sind iterative Verfahren, die solange Elemen- te aus dem Netz löschen, bis ein Abbruchkriterium eintritt (z.B. der Anstieg des Testfehlers). Es wird dabei zunächst für jedes Element eine Testgröße bestimmt, die dessen Relevanz für das Netzverhalten ausdrückt. Im zweiten Schritt entfernt das Verfahren dann die Gewichte oder Neuronen mit der kleinsten Relevanz. Bei einigen Methoden muss das Netzwerk nach jedem Löschen neu trainiert werden. Sensitivitäts- bzw. Pruningverfahren unterscheiden sich zudem dadurch, was sie zu eliminieren versuchen: Neuronen oder Verbindungen. Man spricht hier von

• Weight Pruning (Löschen von Verbindungen) und

• Neuron Pruning² (Löschen von Neuronen), unterteilt in

1 Ausdünnungsverfahren bezeichnet man auch als Optimierungsverfahren [vgl. Miller (1994), S.

129]. Weitere Systematisierungsvorschläge finden sich bei Schnurr (1997), S. 122 und Miller (1994), S. 129.

2 In der Regel führen Neuron-Pruningverfahren sowohl Input- als auch Hidden Unit Pruning durch.

(15)

- Input Pruning (Löschen von Eingabeneuronen) und

- Hidden Unit Pruning (Löschen von verdeckten Neuronen).

Die folgende Abbildung enthält eine Systematisierung wichtiger, in der Literatur¹ genannter Ausdünnungsverfahren.

Abb. 2.5: Systematik der Ausdünnungsverfahren²

Im Rahmen der empirischen Analyse kamen das Standard-Weight-Decay-Ver- fahren³ und als Sensitivitätsverfahren der Ansatz von Jansen⁴ (JAV) zum Ein- satz.

3. Empirische Ermittlung eines Klassifikators von Jahresabschlüssen 3.1 Überblick

Die Entwicklung und Anwendung von Künstlichen Neuronalen Netzen zur Bi- lanzanalyse unterteilt sich in dieser Untersuchung in drei Phasen:

1) Zusammenstellung der Datenbasis anhand von Beispielen (Unternehmen), deren vergangene Entwicklung bekannt ist (Abschnitt 3.2).

1 Vgl. Baun (1994), S. 161-168, Füser (1995), S. 73-79, Miller (1994), S. 133-146, Reed (1993), S. 740-747, Schnurr (1997), S. 121-137, Zell (1994), S. 319-334 und Zimmermann (1994), S.

62-77.

2 Weitere interessante Ausdünnungsverfahren beschreibt Refenes (1995), S. 48-54.

3 Vgl. Hertz et al. (1991), S. 156-163 und Hansen/Pratt (1989), S. 177-185.

4 Vgl. Jansen (1995), S. 71 f. Die Jansen-Technik hat gegenüber allen anderen in Abb. 2.5 auf- geführten Sensitivitätsverfahren den Vorteil, ohne großen zusätzlichen Rechenaufwand paral- lel zum Training eingesetzt werden zu können. Dagegen muss bei den anderen Methoden das Training vor jedem Pruningschritt unterbrochen und nach erfolgtem Ausdünnen von Verbin- dungen bzw. Neuronen wieder neu gestartet werden.

Ausdünnungsverfahren

Sensitivitätsverfahren Weight-Decay-Verfahren

Weight Pruning Neuron Pruning

statistische Kennzahlen

kleinste Gewichte Second Order Methoden

Skeletoni-

zation (SKE) Noncontributing Units

Magnitude Based Pruning (MBP)

Verfahren nach

Jansen (JAV) Jackknife

Ansatz Finnoff/Zimmermann-

(FZ-) Test

Optimal Brain

Damage (OBD) Optimal Brain Surgeon (OBS) Verfahren nach

Weigend

Standard- Weight-Decay

(16)

2) Wiederholtes Festlegen, Trainieren, Testen und Ergebnismessung von entwickelten Netzwerken (Abschnitt 3.3).

3) Anwendung des optimierten Netzwerks im Rahmen der quantitativen Kom- ponente eines internen Ratingverfahrens (Abschnitt 3.4).

Bei den im Folgenden zu diskutierenden ersten beiden Phasen ist eine Reihe wichtiger Punkte zu beachten. Diese beziehen sich zum einen auf das Daten- material, das bestimmten Anforderungen genügen sollte und einer Vorverarbei- tung unterzogen werden muss. Zum anderen erfordern die praktische Anwen- dung von KNN und der Untersuchungsablauf einige methodische Vorüberle- gungen.¹

Ziel dieses Abschnitts ist es, die im Teil 2 für das verwendete Netzwerkmodell (MLP) vorgestellten Lernalgorithmen und die Verfahren zur Erstellung optimaler Netzwerke (Ausdünnungsverfahren) an einem Fallbeispiel zu validieren und somit insbesondere den Vorwurf eines „Trial and Error“-Vorgehens zu entkräf- ten. Daneben soll auch gezeigt werden, wie die Ausgabewerte des Netzes zur Aufstellung eines Bilanzratings eingesetzt werden können.

3.2 Verwendetes Datenmaterial

Die dem Verfasser von der Banque Nationale de Belgique (BNB) zur Verfügung gestellte Datenbasis beruht auf nach belgischem Steuerrecht aufgestellten Jah- resabschlüssen.² Diese sind von den Unternehmen unabhängig von ihrer Grö- ße einzureichen und werden in Datenbanken öffentlich zugänglich gemacht. Die vorliegende CD-Rom umfasst die Abschlüsse von ca. 90.000 belgischen Unter- nehmen aus den Jahren 1992 bis 1997. Aus dieser Grundgesamtheit wurde eine Stichprobe von 1.458 solventen und 198 später insolventen Unternehmen gezogen.³ Ein Unternehmen gilt als „später insolvent“ im Sinne dieser Untersu- chung, wenn eine Leistungsstörung festgestellt wird. Die Datenbank benutzt zur Kennzeichnung einer Leistungsstörung die Kategorien:

• „Faillite“, was den Konkurs und damit die Auflösung des Unternehmens be- inhaltet.

1 Hierzu gehört die Festlegung eines Basisnetzwerks oder die Auswahl der Pruning- bzw. Lern- verfahren.

2 Diese Jahresabschlüsse umfassen jeweils eine Bilanz (Bilan) und eine GuV (Compte de Résultat). Vor einer Veröffentlichung wird jeder Jahresabschluss einer Plausibilitätsprüfung durch die BNB (Abteilung „Centrale des Bilans“) unterzogen, um eventuelle Unstimmigkeiten zu beseitigen.

3 Die Größe der Stichprobe wird durch die aufgestellten Anforderungsvoraussetzungen (keine Unternehmen der öffentlichen Hand bzw. keine Finanzdienstleistungsunternehmen, durch- schnittlicher Jahresumsatz ≥ 100 Mill. Belgische Francs, mindestens drei aufeinanderfolgende Abschlüsse, wobei der letzte verfügbare Jahresabschluss zwischen sieben und 18 Monate vor Eintritt der Insolvenz liegen muss) an die Unternehmen bestimmt.

(17)

• „Autres Incidents de Solvabilité“, was „andere“ Tatbestände der Zahlungs- unfähigkeit umfasst, wie z.B. ein Scheck- oder Wechselprotest.

Falls eines der genannten Kriterien erfüllt ist, kann eindeutig von einem insolventen Unternehmen ausgegangen werden.

Abb. 3.1: Aufteilung des Datenmaterials auf die drei Stichproben

Um das Overlearning einzuschränken, sollte das Datenmaterial, wie in Ab- schnitt 1.4.2 beschrieben, in drei disjunkte Mengen¹ geteilt werden: die Trai- nings- und Testmenge für den Lernprozess und die Validierungsmenge zum späteren Vergleich mit anderen Netzen oder alternativen Verfahren. Für die Untersuchung standen 5.228 Jahresabschlüsse von 1.656 Unternehmen zur Verfügung.² Hierbei stammen 619 Abschlüsse von 198 später insolventen und 4.609 Abschlüsse von 1.458 solventen Unternehmen. Da es viele verschiedene Möglichkeiten gibt, wie ein Unternehmen insolvent werden kann und diese Viel- falt in der Trainingsstichprobe enthalten sein sollte, werden 115 (= 58%) der 198 später insolventen Unternehmen mit je drei aufeinanderfolgenden Ab- schlüssen ausgewählt und zum Training des Netzes verwendet. Um zu erreichen, dass der Klassifikator später insolvente und solvente Unternehmen gleich gut erkennen kann, wird dieselbe Zahl an Abschlüssen (3 × 115 = 345) solventer Unternehmen in die Trainingsstichprobe aufgenommen. Die restlichen Jah- resabschlüsse verteilen sich gleichmäßig auf die beiden anderen Stichproben.

1 Da die Teststichprobe für die Entwicklung des Klassifikators verwendet wird, lässt sich auf ihrer Grundlage keine Aussage über die spätere Leistungsfähigkeit des Klassifikators bei neuen, unbekannten Fällen treffen. Hierfür wird eine dritte Stichprobe, die Validierungsstichprobe, benötigt, die ausschließlich Daten enthält, die dem Klassifikator vorher nie präsentiert wurden.

2 Es ist zu beachten, dass von einigen Unternehmen auch mehr als drei von maximal sechs möglichen Abschlüssen aus dem Zeitraum 1992-1997 vorlagen.

345 Abschlüsse später insolventer

Unternehmen

345 Abschlüsse solventer Unter-

nehmen

Trainingsstichprobe

Unternehmen

2.132 Abschlüsse solventer Unter-

nehmen

Validierungs- stichprobe

4.609 Abschlüsse solventer Unternehmen 619 Abschlüsse

später insolventer Unternehmen

Gesamtheit aller zur Verfügung stehenden Jahresabschlüsse

Unternehmen

2.132 Abschlüsse solventer Unter-

nehmen

Teststichprobe

(18)

Der mit der KNNA zu ermittelnde Indikator zur Trennung von solventen und insolventen Unternehmen beruht auf einem Vergleich der Jahresabschlusskenn- zahlen dieser beiden Unternehmensgruppen. Die Qualität der Untersuchungs- ergebnisse hängt daher entscheidend davon ab, welche Merkmale man zur Ermittlung der Trennfunktion heranzieht. Die zentrale Quelle für die Aufstellung des Kennzahlenkataloges bildeten in dieser Arbeit frühere empirische Studien¹, d.h. es wurden diejenigen Verhältniszahlen ausgewählt, die sich bisher als be- sonders trennfähig erwiesen haben. Daneben sind einige Restriktionen erfor- derlich, um die Vielzahl der möglichen Kennzahlen auf ein für das Training des Netzes vernünftiges Maß zu reduzieren.²

Im Anhang sind die nach den oben geschilderten Überlegungen gebildeten 48 Kennzahlen³ ausgewiesen.

3.3 Mehrstufige parallele Entwicklung optimaler MLP-Netzwerke

3.3.1 Zielkalkül und Benchmarkobjekt

Die Entwicklung eines Klassifikators ist ein mehrstufiger und komplexer Pro- zess. Jede Prozessstufe besteht aus einem Bündel von unterschiedlichen Ent- wicklungsprozeduren.⁴ Nach jeder Entwicklungsprozedur ist der Klassifikator an einem für die spätere Anwendung repräsentativen Datenportefeuille (Test- oder Validierungsdaten) zu bewerten. Für den Entscheidungsträger entsteht das Wahlproblem, ob mit dem Durchlaufen einer Prozedur oder einer Prozessstufe im Vergleich zur Ausgangssituation ein vorteilhafterer Klassifikator entwickelt wurde. Dieses Problem kann der Entscheidungsträger durch die Verwendung einer Gütefunktion, mit der die Leistung jedes Klassifikators beurteilt wird, lö- sen. Die Form der Gütefunktion hängt ab von der konkreten Gestalt des Ent- scheidungsprozesses, in den der Klassifikator einzubinden ist. Im vorliegenden

1 Vgl. Altman (1968), S. 594, Altman et al. (1977), S. 32, Feidicker (1992), S. 59 f., Hüls (1995), S. 76-81, Pytlik (1995), S. 237-253, Uthoff (1997), S. 139-144 und Jerschensky (1998), S.

126-134.

2 Vgl. Feidicker (1992), S. 55-58, Hüls (1995), S. 69-74 oder Uthoff (1997), S. 135 f. Insbeson- dere sind solche Verhältniszahlen zu vermeiden, bei denen Zähler und Nenner gleichzeitig negativ werden können bzw. deren Nenner allein negative Werte annehmen kann. Damit das Netz die verschieden große Wertigkeit der Kennzahlen leichter verarbeitet, wurden die Aus- gangsdaten standardisiert und anschließend auf das Intervall [0,1] normiert.

3 Über Bilanzierungswahlrechte und Sachverhaltsgestaltungen können Unternehmen die Dar- stellung ihrer wirtschaftlichen Lage beeinflussen. Daher ist es sinnvoll, sogenannte „intelligen- te“ Kennzahlen, d.h. Kennzahlen, die bestimmte bilanzpolitische Maßnahmen neutralisieren, in den Katalog aufzunehmen (vgl. Baetge/Manolopoulos (1999), S. 362 und Baetge et al.

(1996b), S. 277). Ein Beispiel hierfür sind die zwei modifizierten Eigenkapitalquoten K_23 und K_28 (vgl. die Tabelle im Anhang).

4 Vgl. zu unterschiedlichen Vorgehensweisen bei der Entwicklung eines Klassifikators mit der KNNA Krause (1993), S. 139-191 und Rehkugler/Poddig (1992), S. 25-30.

(19)

Fall sind grundsätzlich zwei Arten von Fehlurteilen möglich:

1. Ein tatsächlich nicht kreditwürdiger Kreditnachfrager wird als kreditwürdig eingestuft und sein Antrag wird angenommen (Fehler 1. Art bzw. α-Fehler).

2. Ein tatsächlich kreditwürdiger Nachfrager wird als nicht kreditwürdig eingestuft und sein Antrag abgelehnt (Fehler 2. Art bzw. β-Fehler).

Abb. 3.2: Beispiel einer typischen Fehlerkurve

Ein geeignetes Kriterium, anhand dessen Klassifikatoren über den gesamten Wertebereich des α- bzw. β-Fehlers optimiert und die Fehlerwerte zu einem Zielwert zusammengefasst werden können, stellt die Minimierung der Fehlerflä- che¹ dar. Hierbei werden für eine Vielzahl von Trennwerten² die dazugehörigen

α/β-Fehlerkombinationen bestimmt. Die Menge dieser Kombinationen ergibt eine α/β-Fehlerkurve (vgl. Abb. 3.2), die einen Eindruck von der Gesamtleis- tung eines Klassifikators vermittelt: Die Leistung eines Klassifikators ist um so höher, je geringer die Fläche unter der Fehlerkurve ist. Die Vielzahl möglicher α/β-Fehlerkombinationen wird in Gestalt der Fehlerfläche auf einen Wert ver- dichtet.

Um einen Vergleich der hier entwickelten Klassifikatoren mit dem bekannten

1 Genau genommen handelt es sich bei dem Fehlerflächenkriterium um eine Variante der Cu- mulative Accuracy Profiles (CAP) bzw. Receiver Operating Characteristics (ROC). Eine Ein- führung in diese Bewertungsmetriken geben Sobehart et al. (2000) und Adams/Hand (1999, 2000).

2 Da in dieser Arbeit die logistische Funktion als Aktivierungsfunktion im einzigen Ausgabeneu- ron Verwendung findet, liefert jedes Netz Ausgabewerte aus dem Intervall ]0,1[. Als Trennwer- te kommen dabei jeweils die Zahlen 0,05, 0,1, 0,15, ..., 0,9, 0,95 zum Einsatz. Die Fehlurteile des Netzes (α- bzw. β-Fehler) werden nun für jeden Trennwert berechnet, wobei unterstellt wird, dass beispielsweise bei einem Trennwert von 0,5 das Netz alle Unternehmen mit einem Ausgabewert > 0,5 als insolvenzgefährdet einstuft.

0 0,2275 0,455 0,6825 0,91

0 0,75 1,5 2,25 3

0% 25% 50% 75% 100%

Referenzpunkt

Fehlerfläche: 39,83%

α-Fehler 25%

100%

75%

50%

β-Fehler

(20)

Neuronalen Netz BP-14¹ zu ermöglichen, wird das Fehlerflächenkriterium um einen Referenzpunkt mit den Koordinaten 8,75% (α-Fehler des BP-14) und 32,96% (β-Fehler des BP-14) erweitert.

3.3.2 Untersuchungsaufbau

Die Vielzahl der in Abschnitt 2 erläuterten Netzparameter, die jeweils mehrere, zum Teil auch kontinuierliche Werte annehmen können, macht bereits deutlich, dass eine Analyse aller denkbaren Parameterkombinationen nicht durchführbar ist. Da geeignete Verfahren zur problemspezifischen Bestimmung der Netzpa- rameter bisher noch nicht bekannt sind, müssen die Parameter heuristisch de- terminiert werden.² Der in dieser Arbeit gewählte Ansatz eines mehrstufigen Entwicklungsprozesses versucht durch das parallele Optimieren mehrerer Netzwerke innerhalb der gleichen Entwicklungsstufe eine optimale Netzwerk- struktur abzuleiten. Ausgehend von einer Gruppe verschiedener Basisarchitek- turen findet in der ersten Stufe ein Test unterschiedlicher Lernverfahren statt.

Anschließend wird in einer zweiten Stufe das Weight-Pruningverfahren von Jansen mit unterschiedlichen Relevanzschwellen³ getestet. Ausschlaggebend für die Auswahl optimaler Netzwerke in den ersten beiden Stufen ist der Netz- fehler Ez(Wz) bzgl. der Teststichprobe. In Anschluss daran wird in der dritten Stufe die Leistung der ausgewählten Netze anhand ihrer Fehlerfläche an der Validierungsstichprobe ermittelt.

Um die Wahrscheinlichkeit des Auffindens einer geeigneten Netzstruktur zu erhöhen, kommen drei unterschiedlich komplexe Basisarchitekturen zum Ein- satz.⁴

Tab. 3.1: Die Basisarchitekturen

Von jeder Architektur existieren dabei zwei Varianten, bei der ersten wird die logistische Funktion als Aktivierungsfunktion in den verdeckten Neuronen ein-

1 Das BP-14 (Backpropagation-Netz mit 14 Kennzahlen) wurde am IRW entwickelt [vgl. Baetge et al. (1996a, 1996b)] und bildet die Grundlage für das von der Rating-Agentur Baetge & Part- ner GmbH angebotene BBR Baetge-Bilanz-Rating^ [vgl. z.B. Baetge/Manolopoulos (1999)].

2 Vgl. z.B. Kratzer (1993), S. 144, der auch die Ansicht vertritt, dass die Bestimmung der Netz- parameter einzig von der Intuition des Netzdesigners geleitet wird.

3 Die Relevanz- bzw. Pruningschwelle bezeichnet den minimalen Testwert, den ein Gewicht erreichen muss, um im Netz zu verbleiben.

4 Obwohl Rehkugler/Poddig (1992), S. 15 und Krause (1993), S. 174 eine verborgene Schicht für ausreichend halten, sollen hier dennoch Versuche mit einem vierlagigen Netz erfolgen.

Bezeich-

nung Beschreibung

48-2-1 • 48 Eingabeneuronen, eine verdeckte Schicht mit 2 Neuronen, ein Ausgabeneuron;

• verdeckte Schicht und Ausgabeschicht sind identisch mit denen des BP-14;

48-12-1 • 48 Eingabeneuronen, eine verdeckte Schicht mit 12 Neuronen, ein Ausgabeneuron;

48-4-4-1 • 48 Eingabeneuronen, zwei verdeckte Schichten mit jeweils 4 Neuronen, ein Ausgabe- neuron;

(21)

gesetzt, bei der zweiten die TanH-Funktion. Daneben verwenden alle Tests die folgenden drei Standardeinstellungen:

• Anfangsinitialisierung der Gewichte mit Werten aus dem Intervall [-0,1; +0,1],

• zufällige Präsentationsreihenfolge der Trainingsmuster,

• Weight-Pruning mit JAV, Zeitkonstante τ = 10 Epochen, Pruningschwelle T^*

= 0,001.

3.3.3 Darstellung der Untersuchungsergebnisse

Entwicklungsstufe 1: Test verschiedener Lernverfahren

Lernverfahren einzustellende Parameter und die ausgewählten Werte Backpropagation (BP) • Lernrate η _∈ {0,01; 0,05; 0,1; 0,5};

Backpropagation mit Momentum (BPM) • Lernrate η s. o., Momentum α _∈ {0,6; 0,7; 0,8; 0,9};

Backpropagation mit Momentum und

Standard-Weight-Decay (BPMD) • Lernrate η und Momentum α s. o., Decay-Faktor d ∈ {0,97; 0,985; 0,995};

Quickprop (QP) • Lernrate η s.o., Decay-Faktor d = 0,9999, Wachstums- faktor µ = 1,8;

Resilient Propagation (Rprop) • Konstanten η^–= 0,5 und η⁺ = 1,2, zufällige Anfangs- initialisierung der Gewichtsänderungen ∆0 ∈ [0,01; 4,0].

Tab. 3.2: Die eingesetzten Lernverfahren

Alle im Tab. 3.2 dargestellten Lernverfahren laufen im Epochenmodus. Da zudem von den drei Backpropagation-Varianten auch Versionen für das Muster- lernen existieren, besteht die Wahlmöglichkeit aus acht Lernalgorithmen für MLP`s. Den einzelnen Testreihen liegt eine kontinuierlich abklingende Lernrate (Lernraten-Decay)¹ zugrunde. Bei jedem Lernschritt z wird die Lernrate η mit einem Wert d_η leicht kleiner eins multipliziert.² Eine wiederholte Multiplikation mit dieser Konstanten führt dazu, dass η vom Startwert bis hin zum Wert null stetig abnimmt. Jansen³ schlägt für d_η den Wert (1 – 10^–6) = 0,999999 vor, der auch hier Verwendung findet. Als Startwerte für η kommen bei den entspre- chenden Verfahren der Tab. 3.2 die Werte 0,01, 0,05, 0,1 und 0,5 zum Einsatz.

Die Lernraten sind bei den Varianten Backpropagation mit Momentum (BPM) und Backpropagation mit Momentum und Standard-Weight-Decay (BPMD) jeweils mit den angegebenen Werten für das Momentum α und den Decay- Faktor⁴ d zu kombinieren. Alle sechs Basisnetzarchitekturen wurden mit allen acht Lernverfahren für alle Parametereinstellungen der Tab. 3.2 bei eingeschal-

1 Vgl. Jansen (1995), S. 72 f.

2 Für d_η findet man auch die Bezeichnung „Einfrierrate“ [vgl. Jansen (1995), S. 93].

3 Vgl. Jansen (1995), S. 93.

4 Ein d-Wert leicht kleiner als eins bewirkt, dass sich der Gewichtswert bei jedem Lernschritt ein wenig verringert und wie eine abklingende Exponentialfunktion gegen null gehen würde, wenn das „normale“ Lernen dem nicht entgegenwirkt.

(22)

tetem Pruning bis in das Minimum des Testfehlers (Stopped Training Punkt) trainiert. Die sechs Kombinationen aus Lernverfahren, Netzarchitektur und Pa- rametereinstellung mit den geringsten Testfehlern sind in Abb. 3.3 dargestellt.

Abb. 3.3: Ergebnis der ersten Entwicklungsstufe¹

Hinsichtlich des Lernverfahrens ist der Abb. 3.3 eine klare Tendenz zu entneh- men. Drei der vier bestadaptierten „Netze“² wurden mit dem Verfahren Back- propagation mit Momentum und Standard-Weight-Decay trainiert, einmal in Form des Musterlernens und zweimal über das Epochenlernen.³ Das Netzwerk mit der höchsten Testleistung unterscheidet sich vom viertplazierten Netz nur durch den Zeitpunkt (Muster oder Epoche) der Gewichtsanpassung. Bei der Netzwerkarchitektur dominiert der Ansatz mit zwei Neuronen in einer verdeckten Schicht und der logistischen Funktion als Aktivierungsfunktion [48-2-1 (L)].

Sehr schlechte Generalisierungsleistungen⁴ bzgl. der Testdaten wurden mit der komplexen Architektur 48-4-4-1 erzielt. Dies bestätigt die Ergebnisse früherer Untersuchungen⁵ und legt den Schluss nahe, dass zwei verborgene Schichten trotz Einsatz des Pruningverfahrens den Merkmalsraum der Trainingsdaten zu genau abbilden und das Netz seine Fähigkeit verliert, unbekannte Datensätze korrekt zu klassifizieren. Geeignete Werte für die Lernrate liegen bei 0,05 und

1 In der Legende sind zuerst jeweils das Lernverfahren (mit M = Musterlernen, E = Epochenler- nen), dann die Netzarchitektur (mit L = logistische Funktion als Aktivierungsfunktion in den Neuronen der verdeckten Schicht) und schließlich die einzelnen Parametereinstellungen an- gegeben.

2 Der Ausdruck „Netz“ bzw. „Netzwerk“ beschreibt hier eine Kombination aus Lernverfahren, Netzarchitektur und Einstellung der Trainingsparameter.

3 Die guten Ergebnisse, die mit dem Verfahren Backpropagation mit Momentum und Standard- Weight-Decay erzielt wurden, resultieren unter Umständen aus der in diesem Fall erfolgten Kombination der beiden Ausdünnungsverfahren JAV und Standard-Weight-Decay (SWD).

Diejenigen Gewichte, die durch SWD künstlich gegen den Wert null gedrückt werden, be- kommen auch eine geringere Relevanz. Hierdurch geraten sie zum Teil unter die Pru- ningschwelle und werden bei eingeschaltetem Pruning aus dem Netz entfernt. SWD unter- stützt somit das Ausdünnen von Künstlichen Neuronalen Netzen.

4 Es konnte, basierend auf der 48-4-4-1-Struktur, kein Netz mit einem minimalen Testfehler unterhalb von 0,56 entwickelt werden.

5 Vgl. z.B. Krause (1993), S. 174 und Schnurr (1997), S. 204.

0 0,05 0,1 0,15 0,2

0,0816 0,0978

0,1374 0,1543

0,1881 0,1897

0 0,05 0,1 0,15 0,2

BPMD(M)/48-2-1 (L)/η = 0,1, α = 0,9, d = 0,995

BPMD(E)/48-2-1 (L)/η = 0,05, α = 0,8, d = 0,995

Rprop(E)/48-12-1 (L) BPMD(E)/48-2-1 (L)/η = 0,1,

α = 0,9, d = 0,995

BPM(M)/48-12-1 (L)/η = 0,05, α = 0,8

BP(M)/48-2-1 (L)/η = 0,1 1. Platz 2. Platz 3. Platz 4. Platz 5. Platz 6. Platz

Minimum des Testfehlers