• Keine Ergebnisse gefunden

Materialbenden, ergeben würde, nihtausspielenkann,dadas gesamteRehengebietals

einimVakuumbendliher RaumbereihangenommenwurdeundfolglihalleTeilgebiete

fürdie Berehnungen relevantsind. Bei realenAnordnungen wiez.B. der inAbshnitt4.2

gezeigten Elektronenkanone liegen häug groÿe Teile des quaderförmigen Rehengebietes

auÿerhalb des relevanten Bereihes, und die entsprehenden Teilgebiete können gelösht

werden. Für solhe Simulationsprobleme ist eine Überlegenheit der

Parallelisierungsstra-tegie Kombinatorishe Gebietszerlegung zu erwarten.

Photokathode

Kavitäten

koaxialerKoppler

Wellenleiter

Diagnosekreuz

z

Abbildung 4.10: CAD-Modell des PITZ-Injektors sowie des Diagnosekreuzes.

Magnetfeld, welhes von den zwei Solenoidspulen erzeugt wird, wird die Aufweitung des

Elektronenpaketes verhindert. Zum Design undzur Optimierungeinersolhen komplexen

Anordnung sind numerishe Simulationenunerlässlih.

Durh Elemente, wie z.B. das in Abbildung 4.10 gezeigte Diagnosekreuz, wird die

Rota-tionssymmetrie der Anordnung gebrohen, was eine 3D-PIC-Simulationzur zuverlässigen

Berehnung der Teilhendynamik innerhalb des Injektors erforderlih maht. Ershwe rt

wird diese Simulation dadurh, dass die Teilhendynamik nahe der Photokathode eine

sehr komplexe Phasenraumdynamik aufweist, in der kurzskalige kollektive Eekte

domi-nant sind. Numerishe Tests zeigen, dass eine sehr hohe Auösung dieses Bereihes mit

einerGittershrittweitevonetwa

20µ

min

z

-Rihtungerforderlihist,umdieEekte hinrei-hendgenauzuerfassen[79℄.DiewihtigstenSimulationsparameterfürdiedurhgeführten

Berehnungen sind in Abbildung4.11(b) zusammengestellt.

Der Verlauf der

z

-Komponente des statishen Magnetfeldes, welhes durh die Solenoid-Magneten erzeugt wird, entlang der Mittelahse ist in Abbildung 4.11() aufgetragen.

Der Verlauf der

z

-Komponente des elektrishen Feldes für die Phase Null des zur Be-shleunigung genutztenhohfrequenten Modes entlang der Mittelahse ist shlieÿlih

Ab-bildung 4.11(d) zu entnehmen. Der Beitrag des statishen Magnetfeldes sowie des

be-shleunigenden hohfrequenten elektromagnetishen Feldes zu dem Gesamtfeld am Ort

der Teilhenwurdeaus demVerlaufderjeweiligenFelderentlangder Mittelahsemit

Hil-fe einer paraxialenNäherung bestimmt [80℄.

Die emittierte Ladung wird als gleihmäÿigverteilt über einen kreisförmigen Bereih mit

dem Radius

r

bunh angenommen. Für den aus der Photokathode emittierten Strom wird ein Verlaufgemäÿ Abbildung4.11(a) angenommen[81℄.

MitHilfederimRahmenderArbeitentstandenenSoftwarewurdedieTeilhendynamik

in-nerhalbderStrukturaufeinerLängevonzweiMeternabderEmissionsstellesimuliert.Die

DiskretisierungdesRehengebietesmithinreihenderGenauigkeitführtzu einerMengean

Parameter Wert

Frequenz des Eigenmodes 1,3GHz

Phase des Eigenmodes (

t

=

t s

) -58,5

Bunhradius (

r

bunh) 2,5mm

Bunhladung (

q

bunh) -1nC

t

rise 2ps

t

fall 2ps

t

top 20ps

t I(t)

t

rise

t

top

t

fall

z

/m

B z

/mT

0 50 100 150 200

0 0,2 0,4 0,6 0,8 1,0

z

/m

E z

/(MV/m)

−50

−25 0 25 50

0 0,05 0,10 0,15 0,20 0,25 0,30

(a) (b)

() (d)

Abbildung 4.11: (a) zeigt den Zeitverlauf des Emissionsstromes als Funktion der Zeit.

(b) zeigt die wihtigsten Simulationsparameterfür die in Abbildung 4.12 gezeigten

Simulati-onsergebnisse. ()zeigt denVerlauf der

z

-Komponente der magnetishenFlussdihte,welhe durh die Solenoid-Magnete erzeugt wird, entlang der Mittelahse. (d)zeigt den Verlauf der

z

-Komponente des elektrishen Feldes des beshleunigenden hohfrequenten Modes entlang der Mittelahse für diePhase Null.

DatenundRehenoperationen,diesihnurmitHilfederRessoureneinesParallelrehners

handhabenlässt.EswurdenSimulationenmituntershiedliherAnzahlanGitterzellen

so-wieeiner entsprehendangepasstenAnzahl anMakroteilhenbiszueiner maximalen

Pro-blemgröÿe von insgesamt 650 Millionen Gitterzellen und 250.000 Teilhen durhgeführt,

welhe aufdeninAbshnitt4.1 genauerbeshriebene nParallelrehnermit90Knoten

ver-teilt wurde. Abbildung 4.12 zeigt einige aus der Simulation hervorgegangene Ergebnisse

sowiedenVerlaufderentsprehendenGröÿen,dermitdemSimulationsprogrammASTRA

erhaltenwurde[82℄,welhedie erhaltenenErgebnisseverizierensollen.DiesesProgramm

berehnet die Teilhendynamik unter einigen vereinfahenden Annahmen, die sihfür die

betrahteteStrukturjedohalsgerehtfertigtherausgestellthaben,wassihdurhfrühere

z

/m

σ x

/mm

0 1 2 3 4

0 0,5 1,0 1,5 2,0

eigeneSimulation

ASTRA

z

/m

σ z

/mm

0 1 2 3 4

0 0,5 1,0 1,5 2,0

eigeneSimulation

ASTRA

z

/m

ǫ x

/

π

mmmrad

0 100 200 300 400 500 600 700

0 0,5 1,0 1,5 2,0

eigeneSimulation

ASTRA

z

/m

W

/MeV

0 1 2 3 4 5

0 0,05 0,10 0,15 0,20 0,25

eigeneSimulation

ASTRA

(a) (b)

() (d)

Abbildung 4.12: Simulationsergebnisse: (a) Transversaler RMS-Radius

σ x

, (b)

Longitudi-naler RMS-Radius

σ z

, () Transversale Emittanz

ǫ x

, (d) Energie

W

des Elektronenpaketes.

AlleGröÿen sind über der Positiondes Shwerpunktes des Elektronenpaketes aufgetragen.

Vergleihsrehnungen mit dem kommerziellen PIC-Simulationsprogramm MAFIA sowie

mitanderen PIC-Simulationsprogrammen, welhe am Institut fürTheorie

Elektromagne-tisher Felder der Tehnishe n Universität Darmstadt entwikelt wurden, zeigte, die für

denvorderenTeilderStrukturdurhgeführtwurden[83,84℄.AlsvereinfahendeAnnahme,

welhe den Berehnungen von ASTRA zugrunde liegt, ist insbesondere die

Vernahlässi-gung der Materialverteilung zu nennen, wodurh der Einuss der an den

Materialgrenz-ähen gestreuten elektromagnetishenFelder vernahlässigt wird.Eine Ausnahme bildet

die Emissionsähe, deren Einuss mit Hilfe von Spiegelladungen modelliert wird. Eine

weitere Annahme ist die Rotationssymmetrie aller Gröÿen, d.h. weder Felder noh T

eil-henverteilung besitzen eine azimutale Abhängigkeit.

Die Abbildungen 4.12(a) und (b) zeigen die transversale bzw. longitudinale Ausdehnun g

des Elektronenpaketes beshrieben durh den RMS-Radius

σ x

bzw.

σ z

, welher für ein

Ensemble von

P

Teilhen deniert ist als

σ x :=

v u u t

X P p=1

~r p · ~e x − ~r · ~e x

2

mit

~r := 1 P ·

X P p=1

~r p ,

(4.6)

während inAbb. 4.12() die transversale RMS-Emittanz

ǫ x

, deniert als[85℄

ǫ x :=

q

r x 2 · p 2 x − r x · p x 2 ,

(4.7)

aufgetragenist.Abbildung4.12(d) zeigtshlieÿlihdieEnergiedes Elektronenpaketes.

Al-leGröÿensindinAbhängigkeitvonderPositiondesShwerpun ktesdesElektronenpaketes

in

z

-Rihtungaufgetragen.Da dieBeshleunigungder Elektronenlediglihinden Kavitä-ten stattndet undsihdie Energieder Teilhendanahniht mehrwesentlih verändert,

wurde der Verlauf der Energiein Abbildung4.12(d) lediglihfür diesenBereih

aufgetra-gen.

Die mit Hilfe von ASTRA erhaltenen Simulationsergebnisse wurden bis zu einer

Entfer-nung von

z

=1,5mabder Emissionsähe aufgetragen,daindiesemBereihdie Annahme derRotationssymmetrienoherfülltist.DieErgebnissezeigeneineguteÜbereinstimmung

indiesem Bereih.

ObwohlindemgewähltenAnwendungsbeispiel einSimulationsprogrammwie ASTRAmit

seinen stark vereinfahenden Annahmen zu gleihwertigen Ergebnissen wie ein

3D-PIC-Programmkommenkann, seiabshlieÿendangemerkt,dass sihdas entstandene

3D-PIC-Simulationsprogrammnatürlihauf eine gröÿereKlasse an Simulationsproblemen

anwen-den lässt als ein Programm wie ASTRA, dessen Anwendungsbereih auf Probleme

be-shränkt ist,für welhe die oben beshriebenen vereinfahenden Annahmen das Ergebnis

niht wesentlihbeeinussen .

In der vorliegenden Arbeitwurden vershiedene Parallelisierungsstrategien des PIC

Algo-rithmusfür Multiomputer aus einem vereinfahten Mashinenmodellentwikelt,

theore-tish analysiert sowie das Verhalten von Implementierungen der Strategien für

repräsen-tativ ausgewählte Benhmarkprobleme untersuht. Zudem wurde anhandder Simulation

einer Elektronenkanone, welhe im Rahmen des PITZ Projektes Anwendung ndet,

ge-zeigt, dass die im Rahmen der Arbeit entstandene Software zur Lösung praxisrelevanter

Problemstellungen geeignet ist, die sih aufgrund der hohen Anzahl an Freiheitsgraden,

diefüreinehinreihendgenaueRehnungnotwendigsind,einerSimulationaufeinem

Ein-zelprozessorrehn er entziehen.

DieVerteilungderTeilhenimRehengebietunddasdarausresultierende

Speiherzugris-muster stelltesihalsentsheidend fürdieAuswahleinergeeigneten

Parallelisierungsstra-tegie heraus. Im Rahmen der durhgeführten Untersuhun gen zeigte sih, dass

Paralle-lisierungsstrategien, welhe auf einer Gebietszerlegung basieren, in Verbindung miteiner

dynamishenZuordnungderRehenlastguteErgebnisseliefernkönnen.Jedoherwiessih

die Wahldes Entsheidungsparameters

σ

max,welher die Durhführung der Lastbalanie-rungsoperationsteuert, alskritishfürdas Erreihen einesguten Performaneergebnisses.

Eine zu häuge Neuzuordnung der Rehenlast führt aufgrund des dadurh eingeführten

Overheads zu unbefriedigendenErgebnissen,währendeinezu groÿeWahldazuführt,dass

die Performane durh die ungleihmäÿigverteilteRehenlast vermindert wird.

Die als kombinatorishe Gebietszerlegung bezeihnete Parallelisierungsstrategie bietet

aufgrund der exiblen Möglihkeitder Diskretisierung fürviele Simulationsproblemeeine

interessante Möglihkeit, die Berehnungen zu beshleunigen. Bedingt durh die Art, wie

die RehenlastaufdieProzessoren verteilt werdenkann, istdie Strategie jedohfür

Simu-lationen mit räumlih stark lokalisierter Teilhenverteilung tendenziell weniger geeignet,

daindiesemFalldie LastbalanierungfürdieTrajektorienberehnungniht

zufriedenstel-lend gewährleistet werden kann.

Für Simulationsprobleme mit räumlih stark lokalisierter Teilhenverteilung wurde eine

Parallelisierungsstrategie untersuht, die sih zwar als niht skalierbar erwies, jedoh für

ihren Anwendungsbereihrehtgute Ergebnisse liefernkann.

Die vorliegende Arbeit beshränkte sih auf PIC Simulationen in Verbindung mit

struk-turierten, niht adaptiven Gittern. Der Wunsh nah immer wirklihkeitsnäheren

Simu-lationen hat jedoh die Simulationsprobleme, ebenso wie die verwendeten Algorithmen,

immer komplexer werden lassen. Simulationen auf unstrukturierten und/oder adaptiven

Gittern, die aufgrund der Gröÿe der behandelten Probleme parallelisiert werden müssen,

treten immerhäuger in Ersheinung und erfordern eziente Parallelisierungsstrategien,

die die von dem verwendeten Parallelrehner zur Verfügung gestellten Ressouren

zu-friedenstellend ausnutzen. ObgleihParallelisierungsstrategienzur Behandlung derartiger

Simulationen vorgeshlagen wurden, fehlen für diese noh groÿteils Untersuhun gen mit

Hilfe aussagekräftiger Benhmarkprobleme,die eine Bewertung bezüglih der praktishen

Einsetzbarkeit der Strategien ermöglihen, so dass an dieser Stelle noh weiterer F

or-shungsbedarf besteht.

WeiterhinbietetdieEntwiklunghybriderProgrammiermodelle[86℄eineinteressante

Mög-lihkeit,demseiteinigerZeitanhaltendenTrendzuMultiomputern,welheaus

Multipro-zessorrehnern aufgebautsind, derenProzessoren häugauh noh mehrere Rehenkern e

besitzen, zu begegnen und fürdiesen immerwihtiger werdenden Parallelrehnertyp

opti-mierte Parallelisierungsstrategienzu entwikeln.

Mehanik/Elektrodynamik

Rehengebiet

Γ

Phasenraum

ε

Permittivität

µ

Permeabilität

κ

Leitfähigkeit

c

lokaleLihtgeshwindgkeit (

c := √ 1 εµ

)

~r

Ortsvektor

t

Zeit

E ~

elektrishe Feldstärke

D ~

dielektrishe Vershiebungsdihte

H ~

magnetishe Feldstärke

B ~

magnetishe Flussdihte

J ~

elektrishe Stromdihte

̺

elektrishe Raumladungsdihte

F ~

Kraft

W Energie

m 0

Ruhemasse

γ

relativistisher Faktor (

γ := 1/

q

1 − v c 2

)

m

relativistishe Masse (

m := γm 0

)

q

elektrishe Ladung

~v

Geshwindigkeit

~p

mehanisher Impuls (

~p := m~v

)

Methode der niten Integration/Pa rtile-In-Cell

⌢ e

einzelne elektrishe Gitterspannung

⌢ ⌢

d

einzelner elektrisher Gitteruss

⌢ h

einzelne magnetishe Gitterspannung

⌢ ⌢

b

einzelner magnetisher Gitteruss

⌢ ⌢

j

einzelner elektrisher Gitterstrom

⌢ e

Vektor aller elektrisher Gitterspannungen

⌢ ⌢

d

Vektor aller elektrisher Gitterüsse

⌢ h

Vektor aller magnetisher Gitterspannungen

⌢ ⌢

b

Vektor aller magnetisher Gitterüsse

⌢ ⌢

j

Vektor aller elektrisher Gitterströme D

ε

Materialmatrix, verbindet

⌢ ⌢

d

und

e

über

d =

D

ε · e

M

µ −1

Materialmatrix, verbindet

⌢ h

und

b

über

h =

M

µ −1 · b

C,

C e

diskrete Rotationsoperatoren (primäres bzw. dualesGitter) S,

S e

diskrete Divergenzoperatoren (primäres bzw. duales Gitter)

L

,

L e

Länge einer primären bzw. dualenGitterkante

A

,

A e

Fläheninhalteiner primären bzw. dualen Gitterähe

V

,

V e

Volumeneiner primären bzw. dualen Gitterzelle

N

Gesamtzahlder Gitterzellen der räumlihen Diskretisierung

i

Kurzshreibweise für das Indextripel

(i, j, k) I

Menge allerzulässigen Indextripel

i

P

Anzahl der Makroteilhen

∆t

Zeitshritt

(.) (m)

bezeihnet die entsprehenden Gröÿen zum Zeitshritt

m

Bewertung paralleler Algorithmen

T

Laufzeit

S

parallelerSpeedup

S

M speiherskalierter Speedup

E

paralleleEzienz

E E

Isoezienzfunktion

P

Simulationsproblem

I

MengeallerGitterzellenbeshrieben durhihreIndextripel

(i, j, k) ∈ N 3 B

Bounding Box (ein quaderförmiger Gitterausshnitt aus einem

kartesi-shen Gitter)

N π

Gesamtanzahlder füreine paralleleRehnung verwendetenProzessoren

Π

Menge aller Prozessoren

Π := {1 . . . N π }

, wobei jeder Prozessor durh

eine eindeutige Zahl bezeihnet wird.

T S

Gesamtlaufzeit der Simulation bei Einsatz von Parallelisierungsstrate-gie

S

T S (m)

Gesamtlaufzeit des Zeitshrittes

m

bei Einsatz von Parallelisierungs-strategie

S

F T S (m)

Laufzeit für die Zeitintegrationder Gitterspannungen inZeitshritt

m

F T ˜ S (m)

Laufzeit für den im Rahmen des Feldlösers benötigten Datenaustaush zwishen den Prozessoren inZeitshritt

m

P T S (m)

Laufzeit fürdie zur Trajektorienberehnung der Makroteilhen benötig-ten Rehenshritte in Zeitshritt

m

P T ˜ S (m)

Laufzeit für den im Rahmen der Trajektorienberehnung benötigten Datenaustaush in Zeitshritt

m

LB T ˜ (m) S

Laufzeit für die in Zeitshritt

m

durhgeführte Neuzuordnung der Rehenlast

p

n (m) i

,p

gibt an, ob sihTeilhen

p

in Zeitshritt

m

in Gitterzelle

i

bendet.

p

π

a (m) p,i π

Entsheidungsvariablen zur Beshreibung der Zuordnung von Teilhen zu Prozessoren

π

a (m) i

,i π

Entsheidungsvariablen zur Beshreibung der Zuordnung von Gitterzel-len zu Prozessoren

nπ a (m) iπ ,jπ

Entsheidungsvariable. Gibt an, wie viele Teilhen in Zeitshritt

m

Prozessor

i π

zugeordnet sind, für die Berehnung deren Trajektorien Felddaten vonProzessor

j π

benötigt werden.

gπ a (m) i g ,i π

Entsheidungsvariable. Gibt die Zuordnung von Teilgebietenzu Prozes-soren an.

G

Gesamtanzahl anTeilgebieten

G i π

Anzahl der Teilgebiete, die Prozessor

i π

zugeordnet werden.

⌈x⌉

Aufrunden aufdie nähst gröÿereGanzzahl gemäÿ

⌈x⌉ := min

k ∈Z,k ≥ x {k}

.

⌊x⌋

Abrunden auf die nähst kleinereGanzzahl gemäÿ

⌊x⌋ := max

k ∈ Z,k ≤ x {k}

.

α i π

Anzahl der benötigten Zeiteinheiten zur Durhführung der

Zeitintegra-tion der Feldfreiheitsgrade pro Zeitshritt und Zelle für Prozessor

i π

.

β i π

Anzahl der benötigten Zeiteinheiten zur Durhführung der T rajektori-enberehnung pro Zeitshritt und Teilhen für Prozessor

i π

.

γ

Proportionalitätsfaktor zur Beshreibung der benötigten Zeit für den Datenaustaush zwishen zweiProzessoren.

σ

max Entsheidungsparameter zur Steuerung der Lastbalanierung.

N L

AnzahlderPartitionierungsebenenbeiderErstellungder Teilgebietefür die Parallelisierungsstrategie"kombinatorishe Gebietszerlegung".

G i π

Anzahl der Teilgebiete, welhe Prozessor

i π

zugeordnetsind.

BSPC B ulk-S ynhronous P arallelComputer

CPU Central P roessing U nit

DESY D eutshes E lektronen Synhrotron

FEL Freie E lektronen Laser

FIT Finite IntegrationTheory (deutsh: Methode der niten

Integrati-on)

MIMD MultipleInstrution Stream,MultipleD ata Stream

PIC P artile-In-Cell

PITZ P hotoi njektor Teststand inZ euthen

PRAM P arallelRandom Aess Mahine

RAM RandomAessMahineoderRandomAessMemory

(kontext-abhängig)

RCB Reursive Coordinate B isetion (deutsh: Rekursive Koordinaten

Bisektionierung)

SIMD S ingle InstrutionStream,MultipleD ata Stream

SISD S ingle InstrutionStream,S ingle D ataStream

SPMD S ingle P rogramMultiple D ata

Das bei der Parallelisierung eines Algorithmus auftretende Problem der Zuordnung von

Rehenoperationen aufdie ProzessoreneinesParallelrehnershatindenvergangenenzwei

Jahrzehnten viel Beahtung gefunden. Das folgende Kapitelstellt eine Würdigung der in

der Literatur untersuhten Parallelisierungsstrategienfür PIC Simulationen dar.

C.1 Parallelis ierungs s trategien für Feldlös er

Das Problem,die Gitterzellen eines Rehengitters einerAnzahl vonProzessoren

zuzuord-nen, so dass die mit den Gitterzellen verknüpften Berehnungen in möglihst kurzer Zeit

ausgeführt werden können, istwohlbekannt.Die mathematishe Formulierung dieses

Pro-blems führt je nah Modellierung von Rehen- und Kommunikationszeit auf

untershied-lihe kombinatorishe Optimierungsprobleme,zu deren Lösung ausshlieÿlihHeuristiken

eingesetzt werden. Die Gründe, weshalb man sih mit Heuristiken zufrieden gibt, sind

zweierlei.

DerersteGrundistdieShwierigkeit,einenezientenAlgorithmuszunden,derdie

exak-teLösungdes Optimierungsproblemsliefert.VonBokhariwurdegezeigt,dassessihbei

dem Lastzuordnungsproblem in seiner populärsten Formulierung (siehe Abshnitt C.1.1)

um ein NP-vollständiges Problem handelt [87℄. Für NP-vollständige Probleme existiert

kein Algorithmus, welher das Problem exakt löst und dessen Laufzeit eine polynomiale

Komplexität aufweist [65℄. Vielmehr wähst die benötigte Laufzeit in Abhängigkeit der

Problemgröÿe shneller als jedes Polynom. Somit führt bereits die exakte Lösung eines

Problemsrelativ geringer Gröÿe zu unvertretbar langenLaufzeiten.

Der zweite Grundist,dass die zur Verfügungstehende n Mashinen- und Netzwerk

model-le,mitderen Hilfe die Optimierungsprobleme konstruiert werden,ohnehin nureine grobe

VorhersagederLaufzeiterlauben.DetailsderImplementierung,derMashinenarhitektur,

der verwendetenNetzwerkprotokolleet. undderenEinussauf dieLaufzeit können niht

berüksihtigt werden (siehe Abshnitt 2.4.5). Eine exakte Lösung der aus diesen relativ

groben Modellen hervorgegangenen Optimierungsprobleme ersheint vor diesem

Hinter-grund niht unbedingt notwendig, um eine zufriedenstellende Performane zu erreihen.

Das Augenmerk rihtet sih alsoauf die Entwiklung vonHeuristiken, die in vertretbarer

Zeit eine hinreihendgute Partitionierungnden.

Beim Studium der relevanten Literatur fällt auf, dass für untershiedlihe Gittertypen

auh sehr vershiedene Partitionierungsheuristiken entwikelt wurden. Diese lassen sih

unterteileningeometrishe und graphenbasierte Heuristiken.Obwohl prinzipiellalle

Heu-ristiken zur PartitionierungbeliebigerGitter anwendbarsind, werden die komplizierteren

aber auh exibleren graphenbasierten Heuristiken eher für unstrukturierte und die

ein-faheren geometrishen Heuristiken eher für strukturierte Gitter eingesetzt, bei denen sie

zu guten Ergebnissenführen. ImFolgenden kann nur einekurze Übersihtüberdie

popu-lärsten Heuristiken gegeben werden. Für einen ausführlihen Überblik und viele weitere

Literaturverweise zum Thema der Gitterpartitionierungseiauf [71℄verwiesen.