Materialbenden, ergeben würde, nihtausspielenkann,dadas gesamteRehengebietals
einimVakuumbendliher RaumbereihangenommenwurdeundfolglihalleTeilgebiete
fürdie Berehnungen relevantsind. Bei realenAnordnungen wiez.B. der inAbshnitt4.2
gezeigten Elektronenkanone liegen häug groÿe Teile des quaderförmigen Rehengebietes
auÿerhalb des relevanten Bereihes, und die entsprehenden Teilgebiete können gelösht
werden. Für solhe Simulationsprobleme ist eine Überlegenheit der
Parallelisierungsstra-tegie Kombinatorishe Gebietszerlegung zu erwarten.
Photokathode
Kavitäten
koaxialerKoppler
Wellenleiter
Diagnosekreuz
z
Abbildung 4.10: CAD-Modell des PITZ-Injektors sowie des Diagnosekreuzes.
Magnetfeld, welhes von den zwei Solenoidspulen erzeugt wird, wird die Aufweitung des
Elektronenpaketes verhindert. Zum Design undzur Optimierungeinersolhen komplexen
Anordnung sind numerishe Simulationenunerlässlih.
Durh Elemente, wie z.B. das in Abbildung 4.10 gezeigte Diagnosekreuz, wird die
Rota-tionssymmetrie der Anordnung gebrohen, was eine 3D-PIC-Simulationzur zuverlässigen
Berehnung der Teilhendynamik innerhalb des Injektors erforderlih maht. Ershwe rt
wird diese Simulation dadurh, dass die Teilhendynamik nahe der Photokathode eine
sehr komplexe Phasenraumdynamik aufweist, in der kurzskalige kollektive Eekte
domi-nant sind. Numerishe Tests zeigen, dass eine sehr hohe Auösung dieses Bereihes mit
einerGittershrittweitevonetwa
20µ
minz
-Rihtungerforderlihist,umdieEekte hinrei-hendgenauzuerfassen[79℄.DiewihtigstenSimulationsparameterfürdiedurhgeführtenBerehnungen sind in Abbildung4.11(b) zusammengestellt.
Der Verlauf der
z
-Komponente des statishen Magnetfeldes, welhes durh die Solenoid-Magneten erzeugt wird, entlang der Mittelahse ist in Abbildung 4.11() aufgetragen.Der Verlauf der
z
-Komponente des elektrishen Feldes für die Phase Null des zur Be-shleunigung genutztenhohfrequenten Modes entlang der Mittelahse ist shlieÿlihAb-bildung 4.11(d) zu entnehmen. Der Beitrag des statishen Magnetfeldes sowie des
be-shleunigenden hohfrequenten elektromagnetishen Feldes zu dem Gesamtfeld am Ort
der Teilhenwurdeaus demVerlaufderjeweiligenFelderentlangder Mittelahsemit
Hil-fe einer paraxialenNäherung bestimmt [80℄.
Die emittierte Ladung wird als gleihmäÿigverteilt über einen kreisförmigen Bereih mit
dem Radius
r
bunh angenommen. Für den aus der Photokathode emittierten Strom wird ein Verlaufgemäÿ Abbildung4.11(a) angenommen[81℄.MitHilfederimRahmenderArbeitentstandenenSoftwarewurdedieTeilhendynamik
in-nerhalbderStrukturaufeinerLängevonzweiMeternabderEmissionsstellesimuliert.Die
DiskretisierungdesRehengebietesmithinreihenderGenauigkeitführtzu einerMengean
Parameter Wert
Frequenz des Eigenmodes 1,3GHz
Phase des Eigenmodes (
t
=t s) -58,5◦
Bunhradius (
r
bunh) 2,5mmBunhladung (
q
bunh) -1nCt
rise 2pst
fall 2pst
top 20pst I(t)
t
riset
topt
fallz
/mB z
/mT
0 50 100 150 200
0 0,2 0,4 0,6 0,8 1,0
z
/mE z
/(MV/m)
−50
−25 0 25 50
0 0,05 0,10 0,15 0,20 0,25 0,30
(a) (b)
() (d)
Abbildung 4.11: (a) zeigt den Zeitverlauf des Emissionsstromes als Funktion der Zeit.
(b) zeigt die wihtigsten Simulationsparameterfür die in Abbildung 4.12 gezeigten
Simulati-onsergebnisse. ()zeigt denVerlauf der
z
-Komponente der magnetishenFlussdihte,welhe durh die Solenoid-Magnete erzeugt wird, entlang der Mittelahse. (d)zeigt den Verlauf derz
-Komponente des elektrishen Feldes des beshleunigenden hohfrequenten Modes entlang der Mittelahse für diePhase Null.DatenundRehenoperationen,diesihnurmitHilfederRessoureneinesParallelrehners
handhabenlässt.EswurdenSimulationenmituntershiedliherAnzahlanGitterzellen
so-wieeiner entsprehendangepasstenAnzahl anMakroteilhenbiszueiner maximalen
Pro-blemgröÿe von insgesamt 650 Millionen Gitterzellen und 250.000 Teilhen durhgeführt,
welhe aufdeninAbshnitt4.1 genauerbeshriebene nParallelrehnermit90Knoten
ver-teilt wurde. Abbildung 4.12 zeigt einige aus der Simulation hervorgegangene Ergebnisse
sowiedenVerlaufderentsprehendenGröÿen,dermitdemSimulationsprogrammASTRA
erhaltenwurde[82℄,welhedie erhaltenenErgebnisseverizierensollen.DiesesProgramm
berehnet die Teilhendynamik unter einigen vereinfahenden Annahmen, die sihfür die
betrahteteStrukturjedohalsgerehtfertigtherausgestellthaben,wassihdurhfrühere
z
/mσ x
/mm
0 1 2 3 4
0 0,5 1,0 1,5 2,0
eigeneSimulation
ASTRA
z
/mσ z
/mm
0 1 2 3 4
0 0,5 1,0 1,5 2,0
eigeneSimulation
ASTRA
z
/mǫ x
/
π
mmmrad0 100 200 300 400 500 600 700
0 0,5 1,0 1,5 2,0
eigeneSimulation
ASTRA
z
/mW
/MeV0 1 2 3 4 5
0 0,05 0,10 0,15 0,20 0,25
eigeneSimulation
ASTRA
(a) (b)
() (d)
Abbildung 4.12: Simulationsergebnisse: (a) Transversaler RMS-Radius
σ x, (b)
Longitudi-naler RMS-Radius
σ z, () Transversale Emittanz ǫ x, (d) Energie W
des Elektronenpaketes.
W
des Elektronenpaketes.AlleGröÿen sind über der Positiondes Shwerpunktes des Elektronenpaketes aufgetragen.
Vergleihsrehnungen mit dem kommerziellen PIC-Simulationsprogramm MAFIA sowie
mitanderen PIC-Simulationsprogrammen, welhe am Institut fürTheorie
Elektromagne-tisher Felder der Tehnishe n Universität Darmstadt entwikelt wurden, zeigte, die für
denvorderenTeilderStrukturdurhgeführtwurden[83,84℄.AlsvereinfahendeAnnahme,
welhe den Berehnungen von ASTRA zugrunde liegt, ist insbesondere die
Vernahlässi-gung der Materialverteilung zu nennen, wodurh der Einuss der an den
Materialgrenz-ähen gestreuten elektromagnetishenFelder vernahlässigt wird.Eine Ausnahme bildet
die Emissionsähe, deren Einuss mit Hilfe von Spiegelladungen modelliert wird. Eine
weitere Annahme ist die Rotationssymmetrie aller Gröÿen, d.h. weder Felder noh T
eil-henverteilung besitzen eine azimutale Abhängigkeit.
Die Abbildungen 4.12(a) und (b) zeigen die transversale bzw. longitudinale Ausdehnun g
des Elektronenpaketes beshrieben durh den RMS-Radius
σ x bzw. σ z, welher für ein
Ensemble von
P
Teilhen deniert ist alsσ x :=
v u u t
X P p=1
~r p · ~e x − ~r · ~e x
2
mit
~r := 1 P ·
X P p=1
~r p ,
(4.6)während inAbb. 4.12() die transversale RMS-Emittanz
ǫ x, deniert als[85℄
ǫ x :=
q
r x 2 · p 2 x − r x · p x 2 ,
(4.7)aufgetragenist.Abbildung4.12(d) zeigtshlieÿlihdieEnergiedes Elektronenpaketes.
Al-leGröÿensindinAbhängigkeitvonderPositiondesShwerpun ktesdesElektronenpaketes
in
z
-Rihtungaufgetragen.Da dieBeshleunigungder Elektronenlediglihinden Kavitä-ten stattndet undsihdie Energieder Teilhendanahniht mehrwesentlih verändert,wurde der Verlauf der Energiein Abbildung4.12(d) lediglihfür diesenBereih
aufgetra-gen.
Die mit Hilfe von ASTRA erhaltenen Simulationsergebnisse wurden bis zu einer
Entfer-nung von
z
=1,5mabder Emissionsähe aufgetragen,daindiesemBereihdie Annahme derRotationssymmetrienoherfülltist.DieErgebnissezeigeneineguteÜbereinstimmungindiesem Bereih.
ObwohlindemgewähltenAnwendungsbeispiel einSimulationsprogrammwie ASTRAmit
seinen stark vereinfahenden Annahmen zu gleihwertigen Ergebnissen wie ein
3D-PIC-Programmkommenkann, seiabshlieÿendangemerkt,dass sihdas entstandene
3D-PIC-Simulationsprogrammnatürlihauf eine gröÿereKlasse an Simulationsproblemen
anwen-den lässt als ein Programm wie ASTRA, dessen Anwendungsbereih auf Probleme
be-shränkt ist,für welhe die oben beshriebenen vereinfahenden Annahmen das Ergebnis
niht wesentlihbeeinussen .
In der vorliegenden Arbeitwurden vershiedene Parallelisierungsstrategien des PIC
Algo-rithmusfür Multiomputer aus einem vereinfahten Mashinenmodellentwikelt,
theore-tish analysiert sowie das Verhalten von Implementierungen der Strategien für
repräsen-tativ ausgewählte Benhmarkprobleme untersuht. Zudem wurde anhandder Simulation
einer Elektronenkanone, welhe im Rahmen des PITZ Projektes Anwendung ndet,
ge-zeigt, dass die im Rahmen der Arbeit entstandene Software zur Lösung praxisrelevanter
Problemstellungen geeignet ist, die sih aufgrund der hohen Anzahl an Freiheitsgraden,
diefüreinehinreihendgenaueRehnungnotwendigsind,einerSimulationaufeinem
Ein-zelprozessorrehn er entziehen.
DieVerteilungderTeilhenimRehengebietunddasdarausresultierende
Speiherzugris-muster stelltesihalsentsheidend fürdieAuswahleinergeeigneten
Parallelisierungsstra-tegie heraus. Im Rahmen der durhgeführten Untersuhun gen zeigte sih, dass
Paralle-lisierungsstrategien, welhe auf einer Gebietszerlegung basieren, in Verbindung miteiner
dynamishenZuordnungderRehenlastguteErgebnisseliefernkönnen.Jedoherwiessih
die Wahldes Entsheidungsparameters
σ
max,welher die Durhführung der Lastbalanie-rungsoperationsteuert, alskritishfürdas Erreihen einesguten Performaneergebnisses.Eine zu häuge Neuzuordnung der Rehenlast führt aufgrund des dadurh eingeführten
Overheads zu unbefriedigendenErgebnissen,währendeinezu groÿeWahldazuführt,dass
die Performane durh die ungleihmäÿigverteilteRehenlast vermindert wird.
Die als kombinatorishe Gebietszerlegung bezeihnete Parallelisierungsstrategie bietet
aufgrund der exiblen Möglihkeitder Diskretisierung fürviele Simulationsproblemeeine
interessante Möglihkeit, die Berehnungen zu beshleunigen. Bedingt durh die Art, wie
die RehenlastaufdieProzessoren verteilt werdenkann, istdie Strategie jedohfür
Simu-lationen mit räumlih stark lokalisierter Teilhenverteilung tendenziell weniger geeignet,
daindiesemFalldie LastbalanierungfürdieTrajektorienberehnungniht
zufriedenstel-lend gewährleistet werden kann.
Für Simulationsprobleme mit räumlih stark lokalisierter Teilhenverteilung wurde eine
Parallelisierungsstrategie untersuht, die sih zwar als niht skalierbar erwies, jedoh für
ihren Anwendungsbereihrehtgute Ergebnisse liefernkann.
Die vorliegende Arbeit beshränkte sih auf PIC Simulationen in Verbindung mit
struk-turierten, niht adaptiven Gittern. Der Wunsh nah immer wirklihkeitsnäheren
Simu-lationen hat jedoh die Simulationsprobleme, ebenso wie die verwendeten Algorithmen,
immer komplexer werden lassen. Simulationen auf unstrukturierten und/oder adaptiven
Gittern, die aufgrund der Gröÿe der behandelten Probleme parallelisiert werden müssen,
treten immerhäuger in Ersheinung und erfordern eziente Parallelisierungsstrategien,
die die von dem verwendeten Parallelrehner zur Verfügung gestellten Ressouren
zu-friedenstellend ausnutzen. ObgleihParallelisierungsstrategienzur Behandlung derartiger
Simulationen vorgeshlagen wurden, fehlen für diese noh groÿteils Untersuhun gen mit
Hilfe aussagekräftiger Benhmarkprobleme,die eine Bewertung bezüglih der praktishen
Einsetzbarkeit der Strategien ermöglihen, so dass an dieser Stelle noh weiterer F
or-shungsbedarf besteht.
WeiterhinbietetdieEntwiklunghybriderProgrammiermodelle[86℄eineinteressante
Mög-lihkeit,demseiteinigerZeitanhaltendenTrendzuMultiomputern,welheaus
Multipro-zessorrehnern aufgebautsind, derenProzessoren häugauh noh mehrere Rehenkern e
besitzen, zu begegnen und fürdiesen immerwihtiger werdenden Parallelrehnertyp
opti-mierte Parallelisierungsstrategienzu entwikeln.
Mehanik/Elektrodynamik
Ω
RehengebietΓ
Phasenraumε
Permittivitätµ
Permeabilitätκ
Leitfähigkeitc
lokaleLihtgeshwindgkeit (c := √ 1 εµ)
~r
Ortsvektort
ZeitE ~
elektrishe FeldstärkeD ~
dielektrishe VershiebungsdihteH ~
magnetishe FeldstärkeB ~
magnetishe FlussdihteJ ~
elektrishe Stromdihte̺
elektrishe RaumladungsdihteF ~
KraftW Energie
m 0 Ruhemasse
γ
relativistisher Faktor (γ := 1/
q
1 − v c 2
)
m
relativistishe Masse (m := γm 0)
q
elektrishe Ladung~v
Geshwindigkeit~p
mehanisher Impuls (~p := m~v
)Methode der niten Integration/Pa rtile-In-Cell
⌢ e einzelne elektrishe Gitterspannung
⌢ ⌢
d
einzelner elektrisher Gitteruss⌢ h einzelne magnetishe Gitterspannung
⌢ ⌢
b
einzelner magnetisher Gitteruss⌢ ⌢
j
einzelner elektrisher Gitterstrom⌢ e Vektor aller elektrisher Gitterspannungen
⌢ ⌢
d
Vektor aller elektrisher Gitterüsse⌢ h Vektor aller magnetisher Gitterspannungen
⌢ ⌢
b
Vektor aller magnetisher Gitterüsse⌢ ⌢
j
Vektor aller elektrisher Gitterströme Dε
Materialmatrix, verbindet⌢ ⌢
d
und⌢ e über⌢ ⌢ d =Dε · ⌢ e
ε · ⌢ e
M
µ −1
Materialmatrix, verbindet⌢ h und ⌢ ⌢ b überh ⌢ =
Mµ −1 · ⌢ ⌢ b
h ⌢ =
Mµ −1 · ⌢ ⌢ b
C,
C e
diskrete Rotationsoperatoren (primäres bzw. dualesGitter) S,S e
diskrete Divergenzoperatoren (primäres bzw. duales Gitter)L
,L e
Länge einer primären bzw. dualenGitterkanteA
,A e
Fläheninhalteiner primären bzw. dualen GitteräheV
,V e
Volumeneiner primären bzw. dualen GitterzelleN
Gesamtzahlder Gitterzellen der räumlihen Diskretisierungi
Kurzshreibweise für das Indextripel
(i, j, k) I
Menge allerzulässigen Indextripeli
P
Anzahl der Makroteilhen∆t
Zeitshritt(.) (m) bezeihnet die entsprehenden Gröÿen zum Zeitshritt m
Bewertung paralleler Algorithmen
T
LaufzeitS
parallelerSpeedupS
M speiherskalierter SpeedupE
paralleleEzienzE E Isoezienzfunktion
P
SimulationsproblemI
MengeallerGitterzellenbeshrieben durhihreIndextripel(i, j, k) ∈ N 3 B
Bounding Box (ein quaderförmiger Gitterausshnitt aus einemkartesi-shen Gitter)
N π Gesamtanzahlder füreine paralleleRehnung verwendetenProzessoren
Π
Menge aller ProzessorenΠ := {1 . . . N π }
, wobei jeder Prozessor durheine eindeutige Zahl bezeihnet wird.
T S Gesamtlaufzeit der Simulation bei Einsatz von
Parallelisierungsstrate-gieS
T S (m) Gesamtlaufzeit des Zeitshrittes m
bei Einsatz von
Parallelisierungs-strategieS
F T S (m)
Laufzeit für die Zeitintegrationder Gitterspannungen inZeitshrittm
F T ˜ S (m)
Laufzeit für den im Rahmen des Feldlösers benötigten Datenaustaush zwishen den Prozessoren inZeitshrittm
P T S (m)
Laufzeit fürdie zur Trajektorienberehnung der Makroteilhen benötig-ten Rehenshritte in Zeitshrittm
P T ˜ S (m)
Laufzeit für den im Rahmen der Trajektorienberehnung benötigten Datenaustaush in Zeitshrittm
LB T ˜ (m) S
Laufzeit für die in Zeitshrittm
durhgeführte Neuzuordnung der Rehenlastp
n (m) i
,p
gibt an, ob sihTeilhenp
in Zeitshrittm
in Gitterzellei
bendet.
p
π
a (m) p,i π Entsheidungsvariablen zur Beshreibung der Zuordnung von Teilhen zu Prozessoren
π
a (m) i
,i π
Entsheidungsvariablen zur Beshreibung der Zuordnung von Gitterzel-len zu Prozessorennπ a (m) iπ ,jπ
Entsheidungsvariable. Gibt an, wie viele Teilhen in Zeitshrittm
Prozessor
i π zugeordnet sind, für die Berehnung deren Trajektorien
Felddaten vonProzessor j π benötigt werden.
gπ a (m) i g ,i π
Entsheidungsvariable. Gibt die Zuordnung von Teilgebietenzu Prozes-soren an.G
Gesamtanzahl anTeilgebietenG i π Anzahl der Teilgebiete, die Prozessor i π zugeordnet werden.
⌈x⌉
Aufrunden aufdie nähst gröÿereGanzzahl gemäÿ⌈x⌉ := min
k ∈Z,k ≥ x {k}.
⌊x⌋
Abrunden auf die nähst kleinereGanzzahl gemäÿ⌊x⌋ := max
k ∈ Z,k ≤ x {k}.
α i π
Anzahl der benötigten Zeiteinheiten zur Durhführung der
Zeitintegra-tion der Feldfreiheitsgrade pro Zeitshritt und Zelle für Prozessor
i π.
β i π Anzahl der benötigten Zeiteinheiten zur Durhführung der T
rajektori-enberehnung pro Zeitshritt und Teilhen für Prozessor i π.
γ
Proportionalitätsfaktor zur Beshreibung der benötigten Zeit für den Datenaustaush zwishen zweiProzessoren.σ
max Entsheidungsparameter zur Steuerung der Lastbalanierung.N L AnzahlderPartitionierungsebenenbeiderErstellungder Teilgebietefür die Parallelisierungsstrategie"kombinatorishe Gebietszerlegung".
G i π Anzahl der Teilgebiete, welhe Prozessor i π zugeordnetsind.
BSPC B ulk-S ynhronous P arallelComputer
CPU Central P roessing U nit
DESY D eutshes E lektronen Synhrotron
FEL Freie E lektronen Laser
FIT Finite IntegrationTheory (deutsh: Methode der niten
Integrati-on)
MIMD MultipleInstrution Stream,MultipleD ata Stream
PIC P artile-In-Cell
PITZ P hotoi njektor Teststand inZ euthen
PRAM P arallelRandom Aess Mahine
RAM RandomAessMahineoderRandomAessMemory
(kontext-abhängig)
RCB Reursive Coordinate B isetion (deutsh: Rekursive Koordinaten
Bisektionierung)
SIMD S ingle InstrutionStream,MultipleD ata Stream
SISD S ingle InstrutionStream,S ingle D ataStream
SPMD S ingle P rogramMultiple D ata
Das bei der Parallelisierung eines Algorithmus auftretende Problem der Zuordnung von
Rehenoperationen aufdie ProzessoreneinesParallelrehnershatindenvergangenenzwei
Jahrzehnten viel Beahtung gefunden. Das folgende Kapitelstellt eine Würdigung der in
der Literatur untersuhten Parallelisierungsstrategienfür PIC Simulationen dar.
C.1 Parallelis ierungs s trategien für Feldlös er
Das Problem,die Gitterzellen eines Rehengitters einerAnzahl vonProzessoren
zuzuord-nen, so dass die mit den Gitterzellen verknüpften Berehnungen in möglihst kurzer Zeit
ausgeführt werden können, istwohlbekannt.Die mathematishe Formulierung dieses
Pro-blems führt je nah Modellierung von Rehen- und Kommunikationszeit auf
untershied-lihe kombinatorishe Optimierungsprobleme,zu deren Lösung ausshlieÿlihHeuristiken
eingesetzt werden. Die Gründe, weshalb man sih mit Heuristiken zufrieden gibt, sind
zweierlei.
DerersteGrundistdieShwierigkeit,einenezientenAlgorithmuszunden,derdie
exak-teLösungdes Optimierungsproblemsliefert.VonBokhariwurdegezeigt,dassessihbei
dem Lastzuordnungsproblem in seiner populärsten Formulierung (siehe Abshnitt C.1.1)
um ein NP-vollständiges Problem handelt [87℄. Für NP-vollständige Probleme existiert
kein Algorithmus, welher das Problem exakt löst und dessen Laufzeit eine polynomiale
Komplexität aufweist [65℄. Vielmehr wähst die benötigte Laufzeit in Abhängigkeit der
Problemgröÿe shneller als jedes Polynom. Somit führt bereits die exakte Lösung eines
Problemsrelativ geringer Gröÿe zu unvertretbar langenLaufzeiten.
Der zweite Grundist,dass die zur Verfügungstehende n Mashinen- und Netzwerk
model-le,mitderen Hilfe die Optimierungsprobleme konstruiert werden,ohnehin nureine grobe
VorhersagederLaufzeiterlauben.DetailsderImplementierung,derMashinenarhitektur,
der verwendetenNetzwerkprotokolleet. undderenEinussauf dieLaufzeit können niht
berüksihtigt werden (siehe Abshnitt 2.4.5). Eine exakte Lösung der aus diesen relativ
groben Modellen hervorgegangenen Optimierungsprobleme ersheint vor diesem
Hinter-grund niht unbedingt notwendig, um eine zufriedenstellende Performane zu erreihen.
Das Augenmerk rihtet sih alsoauf die Entwiklung vonHeuristiken, die in vertretbarer
Zeit eine hinreihendgute Partitionierungnden.
Beim Studium der relevanten Literatur fällt auf, dass für untershiedlihe Gittertypen
auh sehr vershiedene Partitionierungsheuristiken entwikelt wurden. Diese lassen sih
unterteileningeometrishe und graphenbasierte Heuristiken.Obwohl prinzipiellalle
Heu-ristiken zur PartitionierungbeliebigerGitter anwendbarsind, werden die komplizierteren
aber auh exibleren graphenbasierten Heuristiken eher für unstrukturierte und die
ein-faheren geometrishen Heuristiken eher für strukturierte Gitter eingesetzt, bei denen sie
zu guten Ergebnissenführen. ImFolgenden kann nur einekurze Übersihtüberdie
popu-lärsten Heuristiken gegeben werden. Für einen ausführlihen Überblik und viele weitere
Literaturverweise zum Thema der Gitterpartitionierungseiauf [71℄verwiesen.