Homogene Wolken - tt.ziw/imjm sz!

In diesem Abschnitt wird mit den homogenen Helligkeitstemperaturen ein LWP-Algo-rithmus für homogene Wolken einwickelt („homogener" AlgoLWP-Algo-rithmus). Dieser AlgoLWP-Algo-rithmus dient zur Referenz, wie gut es prinzipiell (ohne BF-Effekte) möglich ist, den L W P in dem vorliegenden Datensatz abzuleiten. E r stellt somit die bestmögliche Abbildung für das Invertierungsproblem zwischen den Flüssigwasserpfaden und den Helligkeitstemperaturen dar.

E i n für inhomogene Wolken entwickelter LWP-Algorithmus („inhomogener Algorithmus") muß zusätzlich zur Invertierung des Strahlungstransportes auch Effekte durch beam filling abbilden. Folglich kann davon ausgegangen werden, daß jeder (inhomogene) Algorithmus, der auch BF-Effekte abbildet, nicht so gute Retrievalergebnisse liefert, wie der hier ent-wickelte homogene Algorithmus. Es sei denn, dem inhomogenen Algorithmus wird so gute und genaue Zusatzinformation (Inhomogenitätsinformation) gegeben, daß alle BF-Effekte korrigiert werden können.

Ergebnisse des homogenen LWP-Algorithmus

A b b . 4.1 zeigt die Reduzierung des Retrievalfehlers (im Generalisierungsdatensatz) in Abhängigkeit von der Anzahl der verborgenen Neuronen bzw. der Anzahl der Netzge-wichte (Freiheitsgrade). Die größte Verbesserung tritt beim Übergang von einem zu zwei verborgenen Neuronen auf. Jung et al. [1998] kommen in ihrer Arbeit zu dem gleichen Ergebnis.

Die sich nur wenig verbessernde Qualität des Algorithmus mit zunehmender Komple-xität des N N zeigt, daß das N N seine Stärke der nicht-linearen Abbildung mit zunehm-ender Netzkomplexität nicht entfaltet bzw. nicht entfalten kann. D a die schwache Nicht-Linearität i n dem Invertierungsproblem ausgeschlossen ist - der Strahlungstransport ist sehr nicht-linear —, bedeutet dies, daß der Zusammenhang zwischen den

Helhgkeitstem-Anzahl der Netzgewichte (Freiheitsgrade)

A b b i l d u n g 4.1: Retrievalfehler des homogenen LWP-Algorithmus (im Generalisierungs-datensatz) in Abhängigkeit der Neuronenanzahl in der verborgenen Schicht. Eingetragen ist die jeweils beste (—) Realisierung von 100 Starts mit zufällig variierten

Anfangswer-ten der Netzgewichte, Median (•••), 10 % Perzentil (- -) und 90 % Perzentil (- • -).

Die Neuronenzahl mit der besten Lösung ist mit einer durchgezogenen vertikalen Linie gekennzeichnet.

peraturen und dem L W P sehr stark verrauscht ist und somit nicht weiter approximiert werden kann.

Aufgrund des linear steigenden zeitlichen Rechenaufwandes mit der A n z a h l der ver-borgenen Neuronen (Abb. 4.2) und aufgrund einer grundsätzlich immer anzustrebenden Einfachheit eines Retrievalalgorithmus sollte abgeschätzt werden, welche Netzarchitektur das objektiv günstigste Verhältnis der Algorithmenverbesserung bezüglich der Netzkom-plexität besitzt. Eine derartige Analyse ist hier durchaus angebracht, d a der Unterschied zwischen der besten Lösung bei 8 Neuronen und der Lösung bei 2 Neuronen gerade einmal 1.3 g / m2 beträgt.

Das für diese Analyse angewendete Akaike Information criterion (AIC) [von Storch u n d Zwiers, 1999] berücksichtigt nicht nur die Anzahl der Freiheitsgrade und den Algorithmen-fehler, sondern auch den Stichprobenunüang. Dies ist durchaus verständlich, d a auf diese Weise der Zufälligkeit eines begrenzten Stichprobenumfanges Rechnung getragen wird.

Andererseits bedeutet dies aber auch, daß physikalisch irrelevante Algorithmenverbesse-rungen1 bei hoher Stichprobenanzahl eine „lohnende" Verbesserung darstellen u n d somit eine komplexe Netzarchitektur rechtfertigen. Genau dieser Fall tritt hier ein, und die beste Lösung (8 Neuronen) stellt gleichzeitig objektiv betrachtet die beste Lösung dar.

Möglicherweise ist die effektive (unabhängige) Stichprobenanzahl wesentlich geringer als die tatsächliche A n z a h l der Realisierungen i m Generalisierungsdatensatz (N=4000).

Wer-' m der Größenordnung von Zehntel g/mWer-'

0 1 2 3 4 5 6 7 8 9 10 Anzahl verborgener Neuronen

A b b i l d u n g 4.2: Rechenzeit des Neuronalen Netzes pro Realisierung in Abhängigkeit der Anzahl verborgener Neuronen.

den in einem Wolkenzeitschritt nur 16 (statt 100) Stichproben (Radiometerblickfelder) aus dem GESIMA-Modellgebiet genommen, ergeben sich nur 640 Datenpaare im Generalisie-rungsdatensatz. In diesem Fall ist der wahre Abstand von 25 km zwischen zwei A-Scan Abtastpunkten eingehalten. Es zeigt sich jedoch, daß selbst diese Anzahl an F O V s noch so groß ist, daß A I C die Netzarchitektur mit 8 verborgenen Neuronen als objektiv beste Lösung auszeichnet. Erst ab einer effektiven Stichprobenanzahl von weniger als 545 wird die Netzarchitektur mit 5 Neuronen praferiert.

D a diese große Stabilität des A I C gegenüber der Stichprobenanzahl auch bei den Algorith-menentwicklungen i n den folgenden Abschnitten auftritt, wird für die weiteren Untersu-chungen und Analysen immer die Netzarchitektur (verborgene Neuronenzahl) verwendet, die die beste Lösung liefert.

Die Tatsache, daß die drei Kurven des Medians, des 10 % Perzentil und die der besten Lösung der 100 Realisierungen mit zufällig variierten Anfangsgewichten so nahe beieinan-der hegen, ist ein Zeichen für die Stabilität beieinan-der Lösung. D.h. die beste Lösung ist nicht nur zufallig so gut, sondern ein globales Minimum existiert und wurde gefunden. Die Kurve des 90 % Perzentils zeigt aber, daß durchaus die Notwendigkeit besteht, das N N mit meh-reren Anfangswerten der Netzgewichte zu starten, da durchaus lokale Minima mit einer schlechteren Lösung vorhanden sind. U n d zwar steigt sogar deren Wahrscheinlichkeit mit zunehmender Neuronenzahl i n der verborgenen Schicht. Die Verteilung der 100 Lösun-gen gemäß des Retrievalfehlers (RMS) im Generalisierungsdatensatz ist in Abb. 4.10 in Abschnitt 4.3.1.2 z u sehen und dient dort zur Beurteilung des Unterschieds zwischen homogenen und inhomogenen Algorithmen.

Der Verlauf der Kostenfunktion während des Trainings, in dessen Folge die beste Lösung2 erreicht wird, ist i n Abb. 4.3 gezeigt. Die Zahl der durchgeführten Iterationen

" f ü g l i c h Neuronenzahl und den 100 Realisierungen mit verschiedenen Netzgewichten

(2000) ist ausreichend gewesen, da das Minimum der Kostenfunktion des Generalisie-rungsdatensatzes bei knapp über 1000 Iterationen liegt. Dieses M i n i m u m markiert die beste Lösung, und die eingestellten Netzgewichte stellen den besten homogenen Algorith-mus dar.

A b b i l d u n g 4.3: Verlauf der Kostenfunktion für den Trainingsdatensatz (dünne Linie) und den Generalisierungsdatensatz (dicke Linie) während des Trainings des NN für die beste Lösung des homogenen LWP-Algorithmus (8 verborgene Neuronen).

Bei weiterem Training können zwar die Trainingsdaten immer besser abgebildet werden, aber der Retrievalfehler im Generalisierungsdatensatz wird größer, da hier die „auswendig"

gelernten Zusammenhänge des Trainingsdatensatzes nicht mehr so gut anzuwenden sind.

Die Anwendung der besten Lösung/des besten homogenen Algorithmus auf den Trai-nings-, Generalisierungs- und Testdatensatz ist in Abb. 4.4 gezeigt. In keinem der drei Datensätze gibt es einen nennenswerten systematischen Fehler i m Retrievalergebnis, und die Übereinstimmung zwischen abgeleitetem L W P und dem wahren Wert ist bis 0.6 k g / m² in allen Fällen sehr gut. Erst bei größeren LWP-Werten kommt es zu deutlichen Abwei-chungen zwischen Netzausgabe und dem wahren Wert. In der kumulativen Fehlerverteilung wird deutlich, daß der Algorithmus den Generalisierungs- und Testdatensatz geringfügig schlechter abbilden kann als den Trainingsdatensatz.

Die nur geringfügige Differenz des R M S beim Generalisierungs- bzw. Testdatensatz beweist die Stabilität des Algorithmus gegenüber Daten, die dem N N während des Trainings und der Generalisierung nicht präsentiert wurden.

Abbildung 4.4: Ableitung des Flüssigwasserpfades im Trainings- (a), Generalisierungs-fb) und Testdatensatz (c) mit dem besten homogenen LWP-Algorithmus (8 verbor-gene Neuronen). In (d) kumulative Häufigkeit des Retrievalfehlers im Trainings- (—),

Generalisierungs- (• • •) und Testdatensatz (- -) (Intervallbreite 0.01 kg/m²).

Im Dokument tt.ziw/imjm sz! (Seite 99-104)