Globale Optimierung - Wolfgang Koller - 978-3-653-03344-1 Downloaded from PubFactory at 01/11/2

Es wurde bereits betont, dass die Sch¨atzung eines neuronalen Netzes mit meh-reren Parametern ein hochdimensionales, nicht-lineares Optimierungsproblem dar-stellt. Eine besondere Schwierigkeit besteht darin, dass das Auftreten von meh-reren lokalen Minima in der Fehlerfunktion hierbei die Regel ist. Neben der An-zahl der zu bestimmenden Parameter h¨angt das Auftreten von mehreren loka-len Minima insbesondere vom Verh¨altnis des Signals zum Fehlerprozess in der Zeitreihe (Signal-to-Noise-Ratio) und vom Umfang des Datensets ab. In beider Hin-sicht sind makro¨okonomische Anwendungen ung¨unstig gelagert (niedriges Signal-to-Noise-Ration, geringer Umfang des Datensets).

Im allgemeinen will man nicht-globale lokale Minima vermeiden, insoferne man

uberhaupt nach einem Optimum sucht. Insbesondere im Rahmen des statistisch-parametrischen Ansatzes ist es wichtig, nicht nur ein lokales sondern ein globales Minimum zu ﬁnden. Denn in diesem Fall h¨angt die Berechnung der Konﬁdenzinter-valle von der Annahme eines globalen Optimums ab.

Die Literatur ¨uber globale Optimierung ist sehr umfangreich und breitgef¨achert, da globale Optimierungsprobleme in zahlreichen Anwendungsgebieten auftreten.

Die entwickelten Algorithmen sind im allgemeinen um ein vielfaches recheninten-siver als die Methoden der lokalen Optimierung. Der Praktiker muss daher einen Kompromiss zwischen Verl¨asslichkeit und (Zeit-)Eﬃzienz ﬁnden. Mit Simulated An-nealing und verschiedenen Varianten des Multistart-Verfahrens werden im folgenden einige der gebr¨auchlichsten Algorithmen kurz vorgestellt und auf ihre praktische Verwendbarkeit zur Sch¨atzung von ARNN-Modellen gepr¨uft.

Simulated Annealing

Simulated Annealing (dt. simulierte Abk¨uhlung, im Folgenden kurz SA) ist ein sto-chastisches globales Optimierungsverfahren. Das Verfahren beruht auf einer Nach-bildung des physikalischen Abk¨uhlungsprozesses, bei dem durch langsame Abk¨ uh-lung erreicht wird, dass ein Werkstoﬀ einen energiearmen, d.h. optimalen Zustand annimmt. Die physikalischen Energie entspricht der Zielfunktion. Die Temperatur bestimmt die Akzeptanzschwelle mit der beim ¨Ubergang zum n¨achsten Kandidaten

auch ein Kandidat mit einem h¨oheren Energieniveau akzeptiert wird. Simulated Annealing basiert auf dem Metropolis-Algorithmus (Metropolis et al., 1953). Man beﬁnde sich in Iteration τ am Punkt w^(τ) im Suchraum und habe als n¨achsten Kandidaten ˙w^(τ+1) zuf¨allig ausgew¨ahlt. Der neuer Kandidat wird nach folgender Akzeptanzregel angenommen:

Setzew^(τ⁺¹⁾=

w˙^(τ⁺¹⁾ wenn ΔE <0 oder z <exp(−ΔE/Temp),

w^(τ⁾ sonst (4.41)

wobei ΔE=E( ˙w^(τ+1))−E(w^(τ⁾) ist,z,0≤z≤1 eine soeben ermittelte Zufallszahl undTempdie Temperatur ist. Bei einem Metropolis-Algorithmus mit im Zeitverlauf abnehmender Temperatur handelt es sich um Simulated Annealing.

Bei globalen Optimierungsproblemen in kontinuierlichen Parameterr¨aumen (z.B.

Sch¨atzung eines ARNN-Modells) kommen spezielle Varianten des SA zum Einsatz.

Der Algorithmus muss eine Methode vorsehen, wie der n¨achste Kandidat im Para-meterraum bestimmt wird, der einer ¨Uberpr¨ufung auf Akzeptanz unterzogen werden soll. Der Kandidat wird aus einer Zufallsverteilung gezogen, deren Skalierung (eben-falls) von der Temparatur abh¨angig gemacht wird. B´elisle (1992) pr¨asentiert theore-tische Ergebnisse zur Konvergenz eines Algorithmus mit einem Schema logarithmi-scher Abk¨uhlung. Der in R in der Funktionoptimimplementierte SA-Algorithmus beruht auf B´elisle (1992).

Da der SA-Algorithmus nur auf einer Auswertung der Zielfunktion in jeder Ite-ration beruht, ist er robust aber relativ langsam. Da sich das Verfahren gut eignet, um einen großen Kandidatenraum abzudecken, aber bei der Konvergenz zu einem lokalen Minimum vergleichsweise versagt, empﬁehlt es sich, SA nicht bis zur Kon-vergenz durchzuf¨uhren sondern nur so lange, bis man erwartet, in die N¨ahe eines globalen Minimums gelangt zu sein. Danach f¨uhrt man eine lokale Optimierung durch, z.B. mit einem Quasi-Newton-Verfahren. Was allerdings die genauen Krite-rien sind, die die Kombination der beiden Schritte bestimmen, kann nicht gesagt werden und muss der Erfahrung des Forschers ¨uberlassen bleiben.

Multistart-Verfahren

Ein weiteres, sehr naheliegendes Verfahren der globalen Optimierung besteht darin, die lokale Suche (etwa mit dem QN-Verfahren) mehrmals hintereinander von zuf¨allig gew¨ahlten Punkten des Parameterraums aus zu starten, und ist unter dem Namen

”Multistart“ bekannt. Unter den vereinfachenden Einschr¨ankungen dass

(i) angenommen werden darf, dass die Funktion stetig ist und ein globales Opti-mum im beschr¨ankten SuchraumS ={w:w^u≤w ≤w^o}f¨ur vorgegebene untere bzw. obere Schrankenw^ubzw.w^ohat,

(ii) die Startwerte aus einer Gleichverteilung ¨uberS gezogen werden und

(iii) die Aufgabe nicht darin besteht, das Optimum selbst, sondern bloß einen Punkt in einer-Umgebung des globalen Optimums mit klein gew¨ahltenzu ﬁnden,

hat das Multistart-Verfahren sehr g¨unstige theoretische Eigenschaften. So konver-giert der Funktionswert des gefundenen besten lokalen Minimums mit wachsender Stichprobengr¨oßeNvon Startwerten gegen denjenigen des globalen Optimums. Wei-ters kann man Bayesianische Sch¨atzungen f¨ur die ingesamt vorhandene Anzahl an lokalen Minima angeben und daraus eine Bayesianische Stoppregel ableiten (siehe f¨ur einen ¨Uberblick Rinnooy Kan und Timmer, 1987a).

Die Nachteile des Multistart-Verfahrens liegen auf der Hand: es besteht die Ge-fahr, dass die gleichen lokalen Minima immer wieder gefunden werden. Um dieser Schw¨ache abzuhelfen und dadurch die Eﬃzienz des Verfahrens zu steigern, gleich-zeitig aber auch seine Verl¨asslichkeit, d.h. die Wahrscheinlichkeit bei ausreichend langer Suche tats¨achlich das globale Optimum zu ﬁnden, zu erhalten, wurden ver-schiedene Verfeinerungen des Verfahrens entwickelt. Diese beruhen meist im Kern auf einem Clustering-Prinzip, das die Startwerte einem oder mehreren Clustern zuordnet, so dass jedes Cluster m¨oglichst einem regionalen Attraktionsbecken ent-spricht. Von jedem Cluster wird nur eine lokale Suche gestartet, und optimaler Weise muss jedes lokale Minimum nur einmal gefunden werden. Unter den verschiedenen Verfahren hat sich in empirischen Vergleichen (z.B. Csendes, 1988) die Multilevel-Single-Linkage-Methode als besonders leistungsstark bew¨ahrt. Die Bem¨uhungen, diese Verfahren weiter zu verbessern sind auch in den letzten Jahren fortgef¨uhrt worden (vgl. Marti et al., 2010).

Die in der vorliegenden Arbeit verwendete Version des Multistart-Verfahrens ist von den bei Rinnooy Kan und Timmer (1987a,b) vorgestellten Verfahren inspiriert, weicht aber unter anderem in zwei Aspekten von diesen ab. Erstens beruht die Aus-wahl der Startwerte f¨ur die lokalen Suchen nicht auf einer zuf¨alligen Ziehung aus einer Gleichverteilung ¨uber dem SuchraumS, sondern verwendet die speziell f¨ur die Initialisierung von ARNNDS-Modellen entwickelten Ans¨atze. Dies erscheint unter anderem opportun, da im Kontext der ARNN-Modellierung a-priori-Erwartungen f¨ur die Parameterwerte existieren, gleichzeitig aber auch sehr große Parameterwerte nicht prinzipiell ausgeschlossen werden k¨onnen. Zweitens erfolgt die Zuordnung der Startwerte nicht wie bei den von Rinnooy Kan und Timmer (1987a,b) beschriebenen Verfahren iterativ und unter Ber¨ucksichtigung der bereits gefundenen lokalen Mi-nima sowie, gegebenenfalls, der Funktionswerte, sondern stellt eine separate Phase dar und beruht auf einem nicht-hierarchischen Clusterverfahren.

Das erweiterte Multistart-Verfahren durchl¨auft mehrere Phasen:

Voroptimierung: Gegeben sei eine Menge vonNinitialen Parametervektorenw₀, im folgenden einfach als Punkte bezeichnet. Von jedem dieser Punkte aus wird eine wenige Schritte umfassende lokale Suche mit dem BFGS-Verfahren durchgef¨uhrt. Die solcherart gefundenen voroptimierten Punkte seien mitw₁

bezeichnet. Durch die Voroptimierung wird erreicht, dass ein Großteil des Suchraums, in dem gar keine oder keine ann¨ahernd optimalen Minima zu ﬁnden sind, von der weiteren Betrachtung ausgeschlossen werden kann und dass sich die w₁ nun mehr oder weniger nahe um die vorhandenen lokalen Minima herum h¨aufen.

Reduktion Die Menge der Punkte w₁ wird nun anhand der ihnen zugeordne-ten Werte der ZielfunktionE(w₁) sortiert und auf die bestenξ₁% reduziert, z.B. auf 70 %. Die verbleibenden Punkte seien mitw₂bezeichnet.

Clusteranalyse Auf die Menge derw₂wird nun eine nicht-hierarchische Cluster-analyse mit dem k-means-Verfahren angewendet, wobei f¨ur die Anzahl der Cluster ein Wert vorgegeben wird.

Konzentration Die Cluster werden anhand ihrer jeweiligen Medianwerte bez¨ ug-lich E(w₂) sortiert und auch die Anzahl der Cluster reduziert, indem nur die bestenξ₂% von Clustern weiter betrachtet werden. Von jedem der aus-gew¨ahlten Cluster wird der gemessen an der Zielfunktion beste Punkt ermit-telt. Die solcherart ausgew¨ahlten Clusterfavoriten seien mitw₃bezeichnet.

Optimierung Von jedem der Punktew₃aus wird eine lokale Suche mit dem BFGS-Verfahren m¨oglichst bis zur Konvergenz durchgef¨uhrt. Das beste der gefunde-nen Minima ist der Kandidat f¨ur das globale Minimum.

Das Verfahren ist als Funktion multistart im Rahmen des R-Pakets NNUTS implementiert. Es ist als Heuristik anzusehen, stellt jedoch gegen¨uber der ¨ublichen Methode, ein ARNN-Modell wiederholt zu sch¨atzen und bei einem

”gut aussehen-den“ Sch¨atzergebnis zu verbleiben, ein systematisches Vorgehen dar und erlaubt auch deutliche Eﬃzienzgewinne.

Exploration lokaler Minima in der ARNN-Modellierung auf den Beispiel-zeitreihen

Um die praktische Relevanz der Problematik des Auftretens mehrerer lokaler Mi-nima zu illustrieren, soll im folgenden eine explorative Analyse der beiden Bei-spielzeitreihen ALR und IPI durchgef¨uhrt werden. Hierbei wird von der saisonal diﬀerenzierten Zeitreihe ausgegangen und anhand von drei unterschiedlichen, ein-fach gehaltenen ARNN-Modellen durch eine Multistart-Simulation die Variet¨at der lokalen Minima exploriert.

F¨ur die Modellﬁndung im Rahmen dieser Simulation wurde f¨ur beide Zeitreihen jeweils vom AR-Modell (vgl. Tab. 3 und 4 in Abschnitt 2.4) ausgegangen. Die Lags in diesem Modell wurden dann als Lags in einem ARNN-Modell mit einer Hidden Unit und ohne Shortcuts verwendet. Danach wurden schrittweise insigniﬁkante Ge-wichte eliminiert und derart die Modellstruktur vereinfacht (vgl. Abschnitt 4.2).

1.16 1.18 1.20 1.22 1.24

ARNN−Modell mit 2 Hidden Units ohne Shortcuts

Trefferanzahl

SSE−Werte der lokalen Minima

Lineares Benchmark−

Modell

(a) ALR

0 50 100 150 200 250 300

050100150200Anzahl gefundener lokaler Minima

Anzahl lokaler Suchen

45°−Linie ARNN−Modell mit 1 HU

und Shortcuts ARNN−Modell mit 2 HU ohne Shortcuts ARNN−Modell mit 1 HU ohne Shortcuts

(b) ALR

0.205 0.210 0.215 0.220 0.225 0.230 0.235

1234567 ●● ●● ●●

ARNN−Modell mit 2 Hidden Units ohne Shortcuts

Trefferanzahl

SSE−Werte der lokalen Minima

Lineares Benchmark−

Modell

0 50 100 150 200 250 300

050100150200250Anzahl gefundener lokaler Minima

Anzahl lokaler Suchen

45°−Linie ARNN−Modell mit 1 HU

und Shortcuts ARNN−Modell mit 2 HU ohne Shortcuts ARNN−Modell mit 1 HU ohne Shortcuts

(d) IPI

Abb. 10: Exploration der lokalen Minima: (a) und (b) Arbeitslosenrate (ALR) sowie (c) und (d) Industrieproduktionsindex (IPI)

Auf diese Weise umfasst das auf ALR gesch¨atzte Modell die Lags 1, 10, 12, 13, 16, 24 und 25 sowie ein Interzept, jenes auf IPI die Lags 1, 2, 3, 12, 14, 15, 24, 26, 48, 49 (ohne Interzept). Neben diesen sehr einfach gehaltenen Modellen wurden jeweils auch Modelle mit zwei verdeckten Neuronen bzw. mit Direktverbingungen (Shortcuts) betrachtet. Es wurden jeweils 300 ARNN-Modelle unter Verwendung des BFGS-Verfahrens gesch¨atzt. Die bis zu einer vorgegebenen Anzahl von Iteratio-nen nicht konvergierten Netze wurden von der weiteren Betrachtung ausgeschieden.

F¨ur die verbleibenden gesch¨atzten Modelle wurde untersucht, ob das gefundene lo-kale Minimum bereits bekannt oder neu ist. Hierzu wurde einerseits die Fehlerfunk-tion und andererseits der Gewichtsvektor mit jenen der zuvor gesch¨atzten Modelle verglichen. Abbildung 10 fasst die Ergebnisse zusammen.

F¨ur das einfachste der betrachteten Modelle (eine Hidden Unit, keine Shortcut) tritt das Problem mehrerer lokaler Minima kaum auf. Im Falle der ALR gibt es nur drei lokale Minima, wobei eines von diesen bei weitem h¨auﬁger getroﬀen wird

als die anderen. Die drei L¨osungen sind im Gewichtsraum sehr nah bei einander.

Im Falle des IPI sind zwar 24 verschiedene lokale Minima anzutreﬀen, dennoch ist die Situation ¨ahnlich, da diese sowohl hinsichtlich der Fehlerfunktion als auch hinsichtlich des Gewichtsraums nahe bei einander liegen.

Anders pr¨asentiert sich die Situation im Falle eines neuronalen Netzes mit zwei verdeckten Neuronen. Im Falle der ALR (IPI) fanden die 239 (203) konvergier-ten neuronalen Netze 155 (174) lokale Minima, die sich sowohl hinsichtlich des Wertes der Fehlerfunktion als auch hinsichtlich des Gewichtsraums von einander unterschieden, wenn auch eine H¨aufung von mehreren nah bei einander liegenden lokalen Minima festgestellt werden kann. F¨ur das Modell mit einem vereckten Neu-ron und mit Direktverbindungen ist die Vielfalt lokaler Minima noch gr¨oßer und un¨uberschaubarer.

Auf der rechten Seite in Abb. 10 beﬁnden sich Graphiken zur Entwicklung der Anzahl der gefundenen lokalen Minima im Verlauf der Multistart-Simulation. Wenn die Anzahl der lokalen Minima beschr¨ankt ist, so sollten die Kurvenverl¨aufe von einer zunehmenden Abwendung von der 45^◦-Kurve gekennzeichnet sein und schließ-lich zum wahren Wert der Anzahl der lokalen Minima,M, konvergieren, der nach einer von Boender (1984) angegebenen Formel (siehe auch Rinnooy Kan und Tim-mer, 1987a) absch¨atzbar ist:

E(M) = m(N−1)

N−m−2. (4.42)

In dieser Formel ist N die Anzahl der durchgef¨uhrten lokalen Suchen, also der in Abb. 10 (rechte Seite) auf der X-Achse abgetragene Wert, undmist die Anzahl der nachNlokalen Suchen gefundenen verschiedenen lokalen Minima, also der auf der Y-Achse abgetragene Wert. Eine Konvergenz der Kurvenverl¨aufe ist jedoch nicht erkennbar und die Anwendung der Formel ergibt denn auch sehr hohe Werte f¨ur die erwartete Anzahl der lokalen Minima (f¨ur das Modell mit einem verdecktem Neuron und Direktverbindungen sind es mehr als 1300 bzw. mehr als 380).

Die Analyse zeigt auf, dass die Fehlerlandschaft sogar f¨ur einfache ARNN-Modelle vom Vorhandensein zahlreicher lokaler Minima gepr¨agt ist, von denen der bei weitem gr¨oßte Anteil nur relativ kleine Attraktionsregionen aufweist. Nach die-sem Befund m¨ussen die Erwartungen, f¨ur neuronale Netze, außer in den einfach-sten Modellspeziﬁkationen, das globale Minimum zu ﬁnden, relativiert werden. Der Verwendung von ausgefeilten Multistart-Verfahren und anderen globalen Optimie-rungsverfahren ist bei mehr als 100 lokalen Minima und einem hochdimensionalen Suchraum wenig Erfolg beschieden.

Im Dokument Wolfgang Koller - 978-3-653-03344-1 Downloaded from PubFactory at 01/11/2019 11:01:33AM via free access (Seite 114-119)