• Keine Ergebnisse gefunden

Den bisherigen Berechnungen lag stets die Volltensorgradiometrie zugrunde, das heißt die Annahme, dass alle ggaus der Sensorregistration abgeleitet werden k¨onnen. Im Weiteren erfolgt der ¨Ubergang auf die Gradiome-trie vom Typgoce, f¨ur welche die ElementeV12undV23des Gravitationstensors als unbekannt angenommen sind. Gem¨aß Kapitel 5.5, im speziellen Abb. 5.1, wird deren synthetische Bereitstellung untersucht. Dazu werden die genanntenggf¨ur die erste Iteration alternativ

• zu null gesetzt (gv= 0) bzw.

• aus dem a priori Feldosu86f(gv=osu86f)

evaluiert. F¨ur den letzt genannten Fall erfolgt die synthetische Berechnung bis zum maximalen Entwick-lungsgradLsyn=L. Des weiteren gilt f¨ur alle in diesem Kapitel durchgef¨uhrten BerechnungenLref=L. Auf die Darstellung der Invariante I3 wird hier verzichtet. Die getroffenen Aussagen gelten f¨ur deren Analyse analog.

Wenngleich der Einfluss der Elemente V12 undV23 auf die Invariantenberechnung bzw. die Berechnung der Eintr¨age der Designmatrix klein ausf¨allt, vgl. Tabelle 8.4, zerst¨ort gem¨aß Abb. 8.22 und 8.23 deren unge-naue bzw. nicht vorhandene Bereitstellung eine m¨oglichst hochwertige Parametersch¨atzung. In genannten Abbildungen ist wiederum die Ergebniskurve derV33 Sch¨atzung enthalten. Die weiteren Plots der de-rmsl

Werte zeigen relativ dazu die L¨osungen aus der Invariantenanalyse.

Die Vernachl¨assigung der Elemente (gv=0) f¨uhrt auf das Ergebnis der ersten Iteration in Abb. 8.22. Die weiteren L¨osungen stellen sich dann ein, wenn die jeweilige Sch¨atzung der (i−1)-ten Iteration als Grund-lage f¨ur die synthetische Berechnung der Elemente bis zum Entwicklungsgrad Lsyn in der i-ten Iteration

Gradiometrische Vorinformation 71

0 50 100 150 200

10−14 10−12 10−10 10−8

Entwicklungsgrad

DE−RMS

Signal EGM96

I2: 1. Iteration V33 I2: 2. Iteration

I2: Volltensorgradiometrie

Abbildung 8.22:Analyse der Invariante I2; L = 200;n= 518 400Beobachtungen (fehlerfrei);gv= 0

0 50 100 150 200

10−14 10−12 10−10 10−8

Entwicklungsgrad

DE−RMS

Signal EGM96

V33 I2: 1. Iteration

I2: 2. Iteration, Volltensorgradiometrie

Abbildung 8.23:Analyse der Invariante I2; L = 200; n = 518 400Beobachtungen (fehlerfrei); gv= osu86f

heran gezogen wird. Gleiches Vorgehen ist angewandt in Bezug auf Abb. 8.23, wobei hier als initiale N¨ahe-rungsl¨osung im Sinne der gradiometrischen Vorinformation nicht die Triviall¨osung Eingang findet, sondern das Modellosu86f. In diesem Falle konvergiert der iterative Prozess bezogen auf die erste Iteration schnel-ler zur Solll¨osung, welche hier als diejenige verstanden wird, die sich im Falle der Volltensorgradiometrie einstellt. Letztlich f¨uhren beide Vorgehensweisen gleichermaßen zum Erfolg. Nach der zweiten Iteration ist f¨ur beide Methoden die Solll¨osung erreicht. Damit ist im Zuge der synthetischen Berechnung vongg kei-ne a priori Information notwendig. In der ersten Iteration kann die Triviall¨osung verwendet werden. Ab der zweiten Iteration greift die Evaluierung der unbekannten gg basierend auf dem aktuell vorliegenden Iterationsergebnis.

72 High Performance Computing

9. High Performance Computing

Ziel dieses Kapitels ist es auf rechentechnische Aspekte betreffend der vorhergegangenen numerischen Bei-spiele n¨aher einzugehen. Bereits in Austen et al. (2006) wird daslsqrVerfahren mit der strengen L¨osungs-methode dahingehend verglichen. Hier erfolgt einerseits die Erweiterung der Studien auf verschiedene Rech-nerarchitekturen sowie andererseits die detaillierte Vorstellung einer effizienten Parallelisierung der Algo-rithmen. Diese Betrachtungsweisen haben zwar auf die G¨ute der vorgestellten Verfahren zursgg Analyse keinen Einfluss, erweisen sich jedoch als fundamentale Grundlage f¨ur deren praktischen Gebrauch. Hinsicht-lich dergoceDatenauswertung resultiert aus zweierlei Gr¨unden eine rechentechnisch ¨außerst anspruchsvolle Aufgabe. Diese sind

• die enorm große Anzahl der Beobachtungennim Bereich 107 und

• die große Anzahl der unbekannten Parameteruim Bereich 104.

Beide schlagen sich in der Dimension der DesignmatrixA(n×u) bzw. der NormalgleichungsmatrixN(u×u) nieder. F¨ur die Invariantenanalyse kommt hinzu, dass die Nicht-Linearit¨at des entsprechenden funktionalen Modells mit einem iterativen L¨osungsprozess einhergeht, was den Aufwand zur Sch¨atzung des Unbekannten-vektors ˆx um die Anzahl der notwendigen Iterationen an die N¨aherungsl¨osung vervielfacht. Im Folgenden wird nicht zwischen dem klassischen und dem Invariantenansatz unterschieden. Denn f¨ur eine gleich dimen-sionierte Problemgr¨oße gestaltet sich der Aufwand zur Berechnung vonAf¨ur beide Methoden als vergleichbar groß wenn angenommen wird, dass

• die Linearisierung der Invariantenmethode ¨uber die St¨orungsrechnung erfolgt und

• f¨ur die klassische Vorgehensweise das Tangentialsystem als Analysesystem gew¨ahlt wird, das heißt eine Rotation der Basisfunktionen ausbleibt.

In diesem Falle ergibt sich der Mehraufwand des Invariantenansatzes prim¨ar in der Synthese der gg-N¨ahe-rungswerte basierend auf dem Linearisierungsfeld bis Grad und OrdnungLref sowie der Bereitstellung der synthetischengg (gradiometrische Vorinformation) mit einem maximalen Entwicklungsgrad vonLsyn. Ins-gesamt umfasst der Mehraufwand folglich die Synthese der ggbis max{Lref, Lsyn} ≤ L. Der Aufwand zur Berechnung vonN=ATAist f¨ur beide Methoden identisch. F¨ur verschiedene Analyseszenarien verdeutlicht Tabelle 9.1 den rechenzeitlichen Aufwand zur Aufstellung der Designmatrix auf einem standardm¨aßigen Ar-beitsplatzrechner (Pentium 4 Prozessor, Taktfrequenz 3,4 GHz) mit einer Performance von knapp 4 GFlops (sandra Benchmark). Den Werten liegt die Analyse der quasi-radialen Tensorkomponente zugrunde. Sie wurden empirisch ermittelt unter der Annahme, dass sich f¨ur L = const die Rechenzeit proportional zur Anzahl der Beobachtungen verh¨alt.

Tabelle 9.1:Aufwand zur Berechnung der DesignmatrixAauf einem Standard-pc(Pentium 4, Taktfrequenz 3,4 GHz, Performance 4 GFlops)

Aufl¨osungL # Beobachtungszeitpunkte (106) Aufwand BerechnungA(d)

200 1 0,9

200 10 9

200 30 27

300 1 2

300 10 20

300 30 60

Rechnerarchitekturen 73

Offensichtlich ist der wirtschaftliche Einsatz einer seriellen Programmstruktur schon f¨ur moderat dimensio-nierte Gleichungssysteme nicht mehr denkbar. Vielmehr muss der Weg zur Verwendung von Multiprozessor-Systemen eingeschlagen werden. Das Prinzip besteht in der Aufteilung der rechentechnischen Arbeit auf eine Vielzahl voncpus. Derartige Rechnerarchitekturen werden allgemeinhin als Parallelrechner bezeichnet, f¨ur den Umgang mit diesen spricht man von Hochleistungsrechnen. Sehr leistungsstarke Parallelrechner sind auch unter dem Begriff Hochleistungsrechner oder Supercomputer gel¨aufig. Durch Parallelisierung des Pro-grammcodes werden die verschiedenencpus der Rechenplattform gesteuert. Wichtig ist dabei, dass durch die Verwendung allgemein anerkannter Parallelisierungs-Standards die Portabilit¨at der Implementierung gew¨ahr-leistet wird.

Der Erhalt optimierter Leistungsf¨ahigkeit eines Algorithmus kann ¨uber verschiedene Parallelisierungskon-zepte erreicht werden. Dabei bildet die Anzahl der Fließkommaoperationen pro Sekunde (Flops, Floating point operations per second) ein Maß f¨ur die absolute Geschwindigkeit einer Plattform. Heutige Super-computer liegen mit ihrer theoretischen Spitzenleistung (tpp, Theoretical Peak Performance) im Teraflop-Bereich (f¨ur eine aktuelle Liste der weltweit schnellsten Rechner sei auf die Top 500 Liste verwiesen unter http://www.top500.org). Die tats¨achlich erbrachte Leistung eines Rechners (bzw. einer Implementierung) ist hingegen meist deutlich geringer als dietpp.

Performanceparameter. Um die G¨ute einer Parallelisierung einordnen zu k¨onnen, werden im Folgenden wenige markante Kenngr¨oßen eingef¨uhrt (Alefeld et al. 2002). Der Speed-upSp erm¨oglicht die Beurteilung der Leistungsf¨ahigkeit einer parallelen Implementierung. Gew¨ohnlich ist darunter das Verh¨altnis

Sp= T1

Tp

(9.1) zu verstehen mitT1der Rechenzeit unter Verwendung einercpudes parallelen Systems undTpder Rechenzeit bei Verwendung vonpProzessoren der selben Plattform. Basierend auf dieser Gr¨oße l¨asst sich die Effizienz Epeines parallelen Algorithmus ableiten mit

Ep=Sp

p, (9.2)

welche meist in Prozent ausgedr¨uckt wird. Da f¨ur bestimmte Problemgr¨oßen eine sequentielle Berechnung, und damit die Evaluierung vonT1, nicht m¨oglich ist, kann eine entsprechende Beurteilung mittels des inkre-mentellen Speed-ups

Spi = Laufzeit aufp2 cpus

Laufzeit aufpcpus (9.3)

erfolgen, welcher im idealen Fall den Wert 2 annimmt. Schließlich trifft das Gesetz von Amdahl eine Aussage dar¨uber wie sich der nicht parallelisierbare (oder nicht parallelisierte) Anteil eines Programms auf den Speed-up auswirkt. Sei eben dieser prozentuale Anteil mitαbezeichnet und entsprechend der restliche Anteil, das heißt (1−α), mitpProzessoren parallelisiert, so betr¨agt der Speed-up

Sp= 1

α+ (1−α)/p. (9.4)