• Keine Ergebnisse gefunden

Bayesianische Sichtweisen finden in der Statistik und ¨Okonometrie immer mehr Beachtung und dienen insbesondere oft als Rahmenwerk, das verschiedene theore-tische Ans¨atze zu vereinen vermag. So lassen sich f¨ur viele der im Zusammenhang mit der Modellierung mit neuronalen Netzen auftauchenden Probleme mit Hilfe bayesianischer Ans¨atze L¨osungen finden. Bishop (1995), dem der Bayesianismus ein besonderes Anliegen ist, f¨uhrt eine Reihe von Anwendungen f¨ur Bayesianische Tech-niken an, z.B. den Vergleich von alternativen Modellen ohne die Zuhilfenahme von Out-of-Sample-Daten.

Im folgenden soll bei der Besprechung des Bayesianischen Ansatzes vor allem auf zwei Aspekte fokussiert werden, die im Zusammenhang mit der Bestimmung der Parameter eines ARNN-Modells relevant sind: erstens die Interpretation der Regu-larisierung mit

”Weight Decay“ (WD) im Lichte des Bayesianismus und zweitens die Wahl des Regularisierungsparametersνim Rahmen eines integrierten Bayesia-nischen Verfahrens, dem sogenannten

”Evidence Framework“ (MacKay, 1992a,b), der im folgenden auf deutsch als Bayesianischer Evidenzansatz bezeichnet und mit BEA abgek¨urzt wird. W¨ahrend die Darstellung des erstgenannten Aspekts die Gele-genheit gibt, die spezifischen Begriffe und die Notation des Bayesianischen Ansatzes einzuf¨uhren, ist die Darstellung des BEA auf die Implementation im Rahmen der vorliegenden empirischen Untersuchung hin orientiert. Die Darstellung folgt eng Bishop (1995), wobei f¨ur alternative ¨Uberblicksdarstellungen auch das neuere Lehr-buch von Bishop (2006), sowie die Fachartikel von MacKay (1995), Penny und Roberts (1999) und Titterington (2004) hilfreich sind.

Regularisierung aus Bayesianischer Sicht

Bei der Bestimmung der Gewichte ist die Bayesianische Sichtweise prinzipiell an der gesamten bedingten Verteilung der Gewichtep(w|D) interessiert, wobeiDf¨ur die Daten steht. Der Startpunkt der bayesianischen ¨Uberlegungen ist immer das Bayestheorem, das bezogen auf das Problem der Bestimmung der Verteilung der

Gewichte folgende Form annimmt:

p(w|D) =p(D|w)p(w)

p(D) . (4.72)

Gem¨aß dem Bayestheorem wird zun¨achst eine prior-Verteilung p(w) definiert, in die m¨oglicherweise das Vorwissen und die Erwartungen des Analytikers ¨uber die Gewichte einfließen. Aus dieser wird sodann nach Beobachtung der Daten D die posterior-Verteilungp(w|D) hergeleitet, wobei eine Verkn¨upfung mit der bedingten Wahrscheinlichkeit der Daten (Likelihood-Funktion)p(D|w) erfolgt.

Aus der Wahl einer geeigneten Spezifikation f¨urp(D|w) undp(w) ergibt sich nun eine Spezifikation vonp(w|D). F¨urp(w) ist die Annahme einer Gaußverteilung der Gewichte um den Mittelwert Null naheliegend, wobei die Gewichte gleiche Varianz aufweisen:

p(w) = 1

ZW(α)exp(−αEW), (4.73)

wobei

EW =1 2

W i=1

w2i und ZW(α) = 2π

α W/2

(4.74) undW die Anzahl der Gewichte ist.

In ¨ahnlicher Weise nimmt man auch f¨ur die Verteilung der Zielvariable29 um ihren Erwartungswert eine Gaußverteilung an, sodass sich schreiben l¨asst:

p(D|w) = 1

ZD(β)exp(−βED), (4.75) wobei

ED=1 2

N n=1

yˆn(w,xn)−yn2

und ZD(β) = 2π

β N/2

(4.76) undN die Anzahl der Datenpunkte ist.

Aus der Zusammenf¨uhrung der Gleichungen (4.72–4.76) erh¨alt man p(w|D) = 1

ZSexp(−βED−αEW) = 1

ZSexp(−SW), (4.77) wobei

SW =β 2

N n=1

yn(w,xn)−yn)2+α 2

W i=1

w2i (4.78)

und

ZS=

exp(−βED−αEW)dw. (4.79)

29Es sei erw¨ahnt, dass in diesem Ansatz die Verteilung der unabh¨angigen Datenxnicht model-liert wird, sondern diese als fixiert angenommen werden. Somit umfasstDnur die zu erkl¨arende Variabley.

In dieser Spezifikation kommt den Parameternαundβdie Rolle zu, die Varianz der Gewichte bzw. der Zielvariable zu repr¨asentieren. Da sie die Verteilung von anderen Parametern bestimmen, werden sie Hyperparameter genannt. Zun¨achst wird angenommen, dass sie bekannt sind.

Es zeigt sich, dass sich aus dieser Spezifikation unmittelbar die Methode der Re-gularisierung mit WD ableiten l¨asst, wenn man f¨urp(w|D) den wahrscheinlichsten WertwMPermittelt. Dies l¨auft auf die Minimierung der FehlerfunktionSW hinaus, da ZS als bloßer Normierungsfaktor vom Gewichtsvektor unabh¨angig ist. Abgese-hen von einem multiplikativen Faktor entspricht dies genau der Regularisierung mit WD gem¨aß Gleichung (4.62) und (4.63), wobei der Regularisierungsparameter als ν=α/β bestimmt wird.

Bereits im Abschnitt 4.8 wurde auf die mangelnde Skaleninvarianz von Regula-risierung mit WD bei Verwendung von bloß einem RegulaRegula-risierungsparameter hin-gewiesen. Als Probleml¨osung bot sich eine Verallgemeinerung des Regularisierungs-terms mit unterschiedlichen Regularisierungsparametern f¨ur verschiedene Gruppen von Gewichten an, vgl. Gleichung (4.67). Auch f¨ur den bayesianischen Ansatz der Regularisierung ist die entsprechende Verallgemeinerung naheliegend und spiegelt wider, dass f¨ur verschiedene Gruppen von Gewichten wm, m = 1, . . . , M unter-schiedliche prior-Verteilungen angenommen werden. StattαEW wird in den obigen Formeln dann die Verallgemeinerung

m

αmEWm=

m

αm 2

i∈Wm

w2i (4.80)

eingesetzt. Es sei jedoch erw¨ahnt, dass wenn nicht alle Gewichte bzw. Koeffizien-ten eines Modells durch prior-Verteilungen ber¨ucksichtigt werden, es sich um eine unechte (engl. improper) prior-Verteilung handelt, d.h. sie kann nicht normiert wer-den. F¨ur die im folgenden dargestellte Anwendung des bayesianischen Ansatzes auf die Bestimmung der Regulierungsparameter ist dies nicht problematisch. Hinge-gen ergeben sich f¨ur andere Anwendungen (z.B. Modellvergleich) Einschr¨ankungen daraus.

Der Bayesianische Evidenzansatz

Bisher wurde angenommen, dass die Hyperparameterαundβbekannt sind. Es ist jedoch ein zentrales Problem bei regularisiertem Lernen, dass die Hyperparameter nicht bekannt sind. Der Bayesianische Zugang bietet mehrere M¨oglichkeiten an, mit dieser Situation zurecht zu kommen. Zun¨achst ist der geradlinige Weg ¨uber die Hyperparameter auszuintegrieren:

p(w|D) =

p(w, α, β|D)dα dβ=

p(w|α, β,D)p(α, β|D)dα dβ. (4.81) Dieser Ansatz mag zwar als der analytisch exakte Weg betrachtet werden, ist aber nur zum Preis von Vereinfachungen m¨oglich, die seine Brauchbarkeit in

prakti-schen Situationen einschr¨anken. MacKay (1996) favorisiert daher den im folgenden beschriebenen Ansatz des BEA , als dessen zentrale Bausteine die Berechnung der Anzahl der wohl-determinierten Parameter γ und eine iterative Optimierung der Hyperparameterαundβgelten k¨onnen.

Der BEA wurde von MacKay (1992a,b) in die NN-Forschung eingef¨uhrt und beruht auf Arbeiten von Gull (1988, 1989) und Skilling (1991) und ist rechnerisch

¨aquivalent zur sogenannten Typ II Maximum Likelihood Methode (Berger, 1985).

Im BEA werden die Hyperparameterαundβso gew¨ahlt, dass die Evidenz (engl.

evidence) f¨urαundβ,p(D|α, β), maximiert wird. Zu dieser Vorschrift gelangt man durch die beiden folgenden Annahmen bzw. Schritte. Erstens wird angenommen, dass die posterior-Verteilung p(α, β|D) eine Spitze bei ihrem wahrscheinlichsten Wert (αMP, βMP) hat, die den Großteil des Volumens der Verteilung enth¨alt. Mit dieser Annahme l¨asst sich die folgende Ann¨aherung rechtfertigen:

p(w|D)p(w|αMP, βMP,D)

p(α, β|D)dα dβ=p(w|αMP, βMP,D). (4.82) Dies besagt, dass man die wahrscheinlichsten Werte f¨urαundβfinden sollte und den Rest der Analyse mit diesen Hyperparameterwerten durchf¨uhrt.

Zweitens nimmt man f¨ur α und β eine sogenannte nicht-informative prior-Verteilung an, d.h. eine solche, die allen Werten vonαundβweitgehend die gleiche Wahrscheinlichkeit einr¨aumt. Mit dieser Annahme ergibt sich, dass das Maximum der posterior-Verteilung

p(α, β|D) =p(D|α, β)p(α, β)

p(D) (4.83)

haupts¨achlich vom Termp(D|α, β), also der Evidenz f¨urαundβbestimmt wird.

Die Bayesianische Analyse geht nun hierarchisch vor. Auf der ersten Ebene wird die Verteilung der Gewichte unter Zugrundelegung von (4.82) bestimmt, auf der zweiten Ebene die Verteilung der Hyperparameter, wobei die Evidenz f¨ur diese maximiert wird. Unter Explizitmachung der Abh¨angigkeit der Evidenz f¨urαundβ von der auf der ersten Ebene des Verfahrens gefundenen Verteilung der Gewichte kann die Evidenz als

p(D|α, β) =

p(D|w, β)p(w|α)dw (4.84) angeschrieben und durch Einsetzen der Ergebnisse aus den Gleichungen (4.73, 4.75, 4.79) zu

p(D|α, β) = ZS(α, β)

ZD(β)ZW(α) (4.85)

umgeformt werden.

Schließlich kommt noch eine weitere wichtige Hilfsannahme des BEA zum Ein-satz, n¨amlich die Annahme, dass die posterior-Verteilung der Gewichte w durch

eine Gaußverteilung mit MittelwertwMPangen¨ahert werden kann. ¨Uber diese An-nahme und ihre Relevanz f¨ur das Funktionieren des Ansatzes in der Praxis muss sp¨ater noch einiges gesagt werden. Aufgrund dieser Annahme kannp(w|D) mit Hil-fe der Hesse-MatrixA, der Matrix der zweiten Ableitungen vonSW, neu formuliert werden als

p(w|D) = 1 ZSexp

−S(wMP)1

2ΔwAΔw

, (4.86)

wobeiZS der f¨ur die Gauß-Approximierung neu formulierte Normalisierungsfaktor ist:

ZS(α, β) = exp

−S(wMP)

(2π)W2 |A|12. (4.87) Unter Verwendung dieser Gleichung, der Gleichungen (4.74) und (4.76) sowie durch Logarithmierung ergibt sich

lnp(D|α, β) =−S(wMP)1

2ln|A|+W

2 lnα+N

2 lnβ−N

2 ln(2π). (4.88) Um das Maximum zu ermitteln wird die Ableitung von lnp(D|α, β) nachαund βgebildet und Null gesetzt. Hierbei taucht der Term

γ= W

i=1

λi

λi+α (4.89)

auf, wobei λi+α die Eigenwerte der Matrix A = H+αI sind, H = β∇∇ED die Hesse-Matrix der unregularisierten Fehlerfunktion ist und λi die Eigenwerte vonHsind.γ ist die Anzahl der wohl-determinierten Gewichte, d.h. der Gewichte, deren Wert von den Daten und nicht vom Regularisierer bestimmt wird. Diese Interpretation wird klar, wenn man die einzelnen Summanden in Gleichung (4.89) betrachtet. Im Falle dass der Eigenwertλi im Vergleich zuαgroß ist, ergibt sich ein Summand von Eins und es handelt sich um ein wohl-determiniertes Gewicht.

Anderenfalls ist der Wert des Summanden nahe Null und es ist anzunehmen, dass auch der Wert des entsprechenden Gewichts vom Regulierer in die N¨ahe von Null gedr¨angt wird.

Aus diesen ¨Uberlegungen erh¨alt man, dass im Maximum

2αEW =γ und 2βED=N−γ (4.90)

gilt. In der praktischen Applikation des BEA muss sowohl αundβ als auch der optimale GewichtsvektorwMPgefunden werden. Zu diesem Zweck geht man so vor, dass man ein lokales Optimierungsverfahren f¨ur die Suche nachwMPeinsetzt und periodisch die Werte vonαundβgem¨aß den Iterationsformeln

αneu=γ/2EW undβneu= (N−γ)/2ED (4.91) aktualisiert und sodann das Suchverfahren an der gleichen Stelle der Fehlerland-schaft fortsetzt.

Abschließend muss f¨ur die richtige Interpretation der so gefundenenαundβwie auch des Verfahrens des BEA insgesamt betont werden, dassαundβnur in Bezug auf das lokale Minimum optimal sind, da auch die Gaußapproximierung gem¨aß Glei-chung (4.86) nur in Bezug auf die Umgebung des lokalen Minimums g¨ultig ist. In einfachen linearen Modellen mit nur einem einzigen Minimum der Fehlerfunktion ist dies keine Einschr¨ankung. F¨ur ARNN-Modelle, die aus Gr¨unden der Modellsymme-trie wie auch der allgemeinen Modellkomplexit¨at zahlreiche Minima haben k¨onnen, resultieren jedoch Einschr¨ankungen sowohl f¨ur die theoretische Interpretation als auch die praktische Anwendung.

Anwendung

Im Rahmen der vorliegenden Arbeit wurde der bayesianische Ansatz f¨ur ARNN-Modelle als Funktionalit¨at des R-SoftwarepaketsNNUTSimplementiert, wobei, wie bereits oben erw¨ahnt, auf den BEA zur Bestimmung der Regularisierungsparameter eingeschr¨ankt wurde. Somit wird ein Spezialfall von Regularisierung verwirklicht.

Die Umsetzung ber¨ucksichtigt getrennte Regularisierung der ersten und der zweiten Schicht der Gewichte des NN-Teils,aundcsowie der direkten Verbindungen, d.h.

der Koeffizienten des linearen Teils,f.

Gegen¨uber der von MacKay beschriebenen Vorgangsweise waren einige kleine-re Modifikationen des Algorithmus notwendig um das stabile Funktioniekleine-ren des Ansatzes auch im komplexen Anwendungsgebieten von ARNN-Modellen auf ma-kro¨okonomischen Zeitreihen zu gew¨ahrleisten. F¨ur die m¨oglichen auftretenden Pro-bleme und die entsprechenden Modifikationen liefert teilweise die Forschungslite-ratur Hinweise, teilweise scheinen diese bisher allerdings noch nicht thematisiert worden zu sein.

Zum einen kann bei komplexen Modellen aus numerischen Gr¨unden der Fall auftreten, dass die Hesse-Matrix nicht in einem Minimum der Fehlerlandschaft aus-gewertet wird. Die Eigenwerteλik¨onnen daher negativ sein, sodass der Nenner des Termsλi/(λi+α) in Gleichung (4.89) im ung¨unstigen Falle sehr nahe bei Null liegen kann. Daraus resultiert eine numerische Instabilit¨at der Berechnung vonγ. Bishop (1995) erw¨ahnt das Problem nebenbei. Um dem Problem auszuweichen, wurden in der vorliegenden Softwareimplementation einem Vorschlag von Penny und Roberts (1999) folgend negative Eigenwerte der Hesse-MatrixHauf Null gesetzt.

Weiters kann es in nicht-linearen und stark ¨uberparametrisierten Modellen zu einem Ausbleiben der Konvergenz des Algorithmus kommen. Hier spielt der Um-stand, dass die Annahme der Gaußverteilung der Modellparameter bei diesen Mo-dellen nicht zutrifft, eine entscheidende Rolle. Bereits MacKay (1992b) stellt fest, dass diese Annahme zusammenbrechen kann, wenn die Anzahl der Gewichte im Vergleich zur Anzahl der Datenpunkte zu groß wird. Da es in der Praxis zudem schwer ist, langsame Konvergenz des Algorithmus von Divergenz zu unterscheiden, muss dem Algorithmus eine maximale Anzahl von Iterationen vorgegeben werden.

Uber das Konvergenzverhalten des BEA finden sich in der Forschungsliteratur we-¨ nig Hinweise, was angesichts der relativ einfachen Anwendungsprobleme, die zur Illustration des Ansatzes herangezogen werden, nicht verwundert.

Schließlich kann in einem besonders ung¨unstigen Falle von ¨Uberparametrisierung die Anzahl der wohl-determinierten Parameter γ gegen Null gehen, dies obwohl gleichzeitigEW >0 und Overfitting stattfindet. Diese Gefahr ist naturgem¨aß dann besonders groß, wenn in den Daten keine oder nur wenig lineare bzw. nicht-lineare Struktur vorhanden ist. Es resultiert eine numerische Instabilit¨at des Algorithmus, da aufgrund des verschwindendenγauchνverschwindet und ohne Regularisierung dem Overfitting keine Grenzen gesetzt werden. Im Rahmen der implementierten Softwarel¨osung wird daher f¨ur γ eine untere Schwelle von 1/20 der Anzahl der Parameter vorgegeben.

Im Zusammenhang mit dem BEA wurde von MacKay auch eine vereinfachte Version des Algorithmus vorgeschlagen, in der auf die Berechnung der Anzahl der wohl-determinierten Parameter mit Hilfe der Auswertung der Hesse-Matrix verzich-tet wird und statt dessen angenommen wird, dass s¨amtliche Parameter des Modells wohl-determiniert sind. Die in diesem Fall verwendeten Iterationsformeln lauten

αneu=W/(2EW), βneu=N/(2ED) (4.92) Auch f¨ur diesen vereinfachten Zugang liegt eine Softwareimplementation im Rahmen des R-PaketsNNUTSvor. Jedoch ist, wie sich in verschiedenen Versuchsanordnungen gezeigt hat, von diesem Ansatz in Hinblick auf die hier untersuchten Anwendungs-gebiete wenig zu erwarten. Einerseits ist bei einfach gehaltenen Modellen, bei denen die Annahme, dass s¨amtliche Parameter wohl-determiniert sind, nicht weit fehl geht, auch die Berechnung der Hesse-Matrix weder in numerischer Hinsicht noch aufgrund der Rechenzeit ein großes Problem, sodass kein Vorteil zu erwarten ist. Bei komple-xeren und potentiell ¨uberparametrisierten Modellen andererseits bewirkt ein großer Unterschied zwischenW undγ, dass die Modelle bei Anwendung der Iterationsfor-meln (4.92) deutlich zu stark regularisiert werden. In dieser Arbeit werden daher nur Ergebnisse mit dem nicht-vereinfachten BEA pr¨asentiert.

Um die Funktionsweise des BEA zu untersuchen, ist insbesondere interessant, wie der Algorithmus mit ¨uberfl¨ussigen Parametern eines Modells zurechtkommt, wenn die Spezifikation des datengenerierenden Prozesses bekannt ist. Dies ist nicht mit realweltlichen sondern nur mit simulierten Zeitreihen m¨oglich.

Im folgenden werden daher zwei Simulationsstudien durchgef¨uhrt, welche die Effektivit¨at des BEA einerseits bei ¨uberfl¨ussig parametrisierter Lag-Struktur in einem AR-Modell und andererseits bei wachsender Anzahl von verdeckten Neu-ronen in einem ARNN-Modell erkunden. Es wurdeN = 100 AR(1)-Zeitreihen mit φ = 0.6 bzw. SIM-Zeitreihen nach Gleichung (4.11) jeweils der L¨ange T = 2000 generiert. Die ersten Tin = 300 Datenpunkte dieser Zeitreihen wurden jeweils zur

5 10 15 20 25

1.021.041.061.081.101.121.14EMSFE

Modellordnung, p

AR(p)−Modell AR(p)−Modell, bayesianisch ARNN(p,1)−Modell, ARNN(p,1)−Modell, bayesianisch

(a) AR(1)

2 4 6 8 10

1.11.21.31.4EMSFE

Anzahl verdeckte Neuronen, m

ARNN(1,m)−Modell ARNN(1,m)−Modell, bayesianisch ARNN(2,m)−Modell, bayesianisch ARNN(1,m)−Modell (m.Shortcuts) ARNN(1,m)−Modell (m.Shortcuts), bayes.

ARNN(2,m)−Modell (m.Shortcuts), bayes.

(b) SIM

Abb. 14: EMSFE-Ergebnisse mit dem BEA bei ¨uberparametrisierten Modellen im Vergleich mit nicht-bayesianischen Methoden: (a) auf einem AR(1)-Prozess und (b) auf einer simulierten nicht-linearen Zeitreihe (SIM)

Modellsch¨atzung verwendet, die restlichenTout= 1700 zur Berechnung des MSFE MSFE= 1

Tout

T t=Tin+1

yt−yt)2. (4.93) Die Mittelung ¨uber die 100 Durchl¨aufe stellt einen Sch¨atzer f¨ur den erwarteten MSFE dar,EMSFE= 1

N

nM SF En. In Abb. 14 werden die Ergebnisse der beiden Simulationstudien zusammengefasst.

Im Diagramm a) von Abb. 14 wurde auf der X-Achse die Modellordnungp ab-getragen. Der EMSFE des Basismodells, des mit der Kleinstquadrat-Methode (KQ) gesch¨atzten AR(p)-Modells, ist als kontinuierliche Linie eingetragen. Im Falle von p = 1 entspricht dieses Modell abgesehen von einem zus¨atzlich aufgenommenen Interzept-Term dem datengenerierenden Prozess, und der EMSFE liegt mit 1.0098 sehr nahe bei der Varianz des datengenerierenden Prozesses von 1. Wie zu erwarten, steigt der EMSFE mit wachsendempaufgrund von Overfitting an (bis auf 1.1028).

Im Vergleich dazu liefert das mit dem BEA gesch¨atzte AR(p)-Modell bis zu einer Modellordnung vonp= 4 marginal schlechtere EMSFE-Werte und abp= 5 zuneh-mend bessere EMSFE-Werte. Bei der h¨ochsten gerechneten Modellordnung liegt der EMSFE bei der bayesianischen Sch¨atzung bei 1.0878. Außerdem wurden im Diagramm die EMSFE-Werte f¨ur ein gesch¨atztes ARNN(p,1)-Modell eingetragen, d.h. f¨ur ein Modell mit Input-Knoten f¨ur die Lags 1 bis p und mit einem ver-deckten Neuron. Hier erweist sich das Overfitting-Problem bei der Sch¨atzung mit KQ als so gravierend, dass bereits bei p= 9 der EMSFE ¨uber 1.15 liegt und f¨ur h¨oherep-Werte nicht im Diagramm eingetragen werden konnte. Der bayesianische Zugang liefert hingegen meist die gleichen EMSFE-Werte wie bei einem linearen

Modell.30 Die Simulation zeigt, dass die Gefahr von Overfitting bei rein linearen Modellen von vorneherein relativ gering ist, jedoch durch den bayesianischen An-satz bei ¨Uberparametrisierung teilweise verhindert werden kann.

Das Diagramm b) von Abb. 14 pr¨asentiert eine Analyse, wobei der datengene-rierende Prozess nicht-linear ist und entlang der X-Achse die Anzahl der verdeckten Neuronenmvariiert wird. Die Nicht-Linearit¨at ist offenbar von einer Art, die mit einem verdeckten Neuron allein nicht befriedigend approximiert werden kann, da die EMSFE-Kurvenverl¨aufe ihr Minimum bei 2 bzw. 3 haben. Es wurden sowohl Modelle ohne als auch mit direkten Verbindungen gesch¨atzt, deren EMSFE-Kurven

¨ahnlich verlaufen. Wie zu erwarten ist die optimale Anzahl der verdeckten Neuronen bei letzteren niedriger. Im Vergleich der mit KQ gesch¨atzten Modelle mit jenen des bayesianischen Ansatzes erweisen sich letztere stark ¨uberlegen, dies nicht nur bei stark ¨uberparametrisierten Modellen, sondern auch bereits beim optimalenm= 3.

Hier betr¨agt der EMSFE 1.0313 (im Gegensatz zu 1.0683 beim mit KQ gesch¨atzten Modell). Auch wenn zus¨atzlich zu ¨uberfl¨ussigen verdeckten Neuronen auch die Lag-Struktur der gesch¨atzten Modelle ¨uberparametrisiert wird (2 statt ansonsten bloß ein Lag), ist der bayesianisch Zugang in der Lage, das Overfitting-Problem in den Griff zu bekommen, wie sich an einer EMSFE-Kurve zeigt, die bei wachsendemm nicht ¨uber ca. 1.08 steigt. Der bayesianische Ansatz scheint also bei nicht-linearen Modellsch¨atzungen besonders hilfreich zu sein.

4.10 Schlussfolgerungen

In diesem Kapitel wurden die Grundlagen des Einsatzes von NN zur Modellie-rung und Prognose von makro¨okonomischen Zeitreihen pr¨asentiert, die ARNN-und ARNNDS-Modelle eingef¨uhrt und die Techniken und Ans¨atze zu ihrer An-wendung erarbeitet. ARNN- und ARNNDS-Modelle sind durch die M¨oglichkeit der Ber¨ucksichtigung einer deterministischen Saison- und Trendkomponente, Flexibi-lit¨at und Nicht-linearit¨at des NN-Modellteils, Aufnahme eines linearen Modellteils sowie der sparsamen Spezifikation der Lag-Struktur besonders geeignet f¨ur die An-wendung auf makro¨okonomische Zeitreihen.

Es werden vier verschiedene Modellierungsans¨atze unterschieden, die unterschied-lichen Sichtweisen und Interpretationsformen von ARNN-Modellen entsprechen und die Entwicklung von Modellierungsstrategien zur Gew¨ahrleistung der Generalisie-rungsf¨ahigkeit von ARNN-Modellen erm¨oglichen. Sowohl bei den verschiedenen Techniken der Initialisierung, lokalen und globalen Otpimierung als auch im Be-reich der Modellierungsans¨atze wurden nicht nur die in der Literatur bekannten Methoden analysiert, sondern auch neue Algorithmen und Heuristiken eingef¨uhrt.

Z.B. sind die Anpassung des TLG-Tests im Rahmen des Growing, die Entwicklung

30 Wie eine Nachpr¨ufung zeigte, sind Abweichungen durch einzelne F¨alle von suboptimalen Minima verursacht worden, die in einem realweltlichen Anwendungsfall ohne weiteres als solche erkannt werden, jedoch in einer Simulation schwer eliminiert werden k¨onnen.

einer Pruning-Strategie, Stoppregeln f¨ur das gestoppte Training und Heuristiken zur Bestimmung der Regularisierungsparameter zu nennen. Die Funktionsweisen dieser Methoden wurden auf einer simulierten nicht-linearen Zeitereihe SIM sowie auf den beiden makro¨okonomischen Zeitreihen ALR und IPI illustriert und belegt.

Dieses Kapitel dient auch dazu, die Voraussetzungen f¨ur das Kap. 5 zu schaffen, in welchem ein systematischer Prognosevergleich von linearen Modellen und NN-Modellen anhand konkreter Modellierungsstrategien auf der Basis der entwickelten Methoden durchgef¨uhrt werden soll. Erst auf der Basis eines umfassenden Vergleichs anhand von Out-of-Sample-Daten l¨asst sich sagen, ob das lineare oder nicht-lineare Instrumentarium auf den beiden ausgew¨ahlten Beispielzeitreihen ¨uberlegen ist.

Eine Reihe von Schlussfolgerungen zum Einsatz von ARNN-Modellen in diesem Anwendungsgebiet sind jedoch weitgehend unabh¨angig von einem strengen Out-of-Sample-Vergleich und haben sich bereits in den Anwendungen dieses Kapitels klar genug gezeigt. Es betrifft dies die folgenden Aspekte: i) tats¨achliches Vorhandensein

Eine Reihe von Schlussfolgerungen zum Einsatz von ARNN-Modellen in diesem Anwendungsgebiet sind jedoch weitgehend unabh¨angig von einem strengen Out-of-Sample-Vergleich und haben sich bereits in den Anwendungen dieses Kapitels klar genug gezeigt. Es betrifft dies die folgenden Aspekte: i) tats¨achliches Vorhandensein