3.4 Parallelisierung des PIC Algorithmus
3.4.3 Dynamishe T eilhenzuordnung
Eine Zuordnung der Teilhen und Gitterzellen ohne die Berüksihtigung der durh p
n (m) i
,p
beshriebene nAbhängigkeitenführt, trotzidealer Verteilung der Rehenlast,aufgrund
ei-nes imAllgemeinenhohen Aufwandes fürden Datenaustaush
P T ˜ S (m)
nihtzu einerprak-tikablen Parallelisierungsstrategie wie frühere Untersuhun gen zeigten[1, 2℄.
In diesem Abshnitt soll daher eine im Rahmen dieser Arbeit entwikelte
Parallelisie-rungsstrategie vorgestellt werden, mit deren Hilfe, basierend auf einer bereits gegebenen
Zuordnung der Gitterzellen zu den verfügbaren Prozessoren, die Zuordnung der Teilhen
so bestimmtwerden kann, dass die Zielfunktionminimiert wird. Die Zuordnung der
Git-terzellen kann mit dem in Abshnitt 3.3.1 oder einem der in Anhang C beshriebene n
Verfahrenzunähst unabhängig vonder Teilhenverteilung vorgenommenwerden.
Esseiangenommen,dass dieZuordnungderGitterzellensoerfolgte,dass alleProzessoren
die gleihe Zeit
F T 0
für den Feldlöserund den damit verbunden en Datenaustaush benö-tigen und dass die Zuordnung der Gitterzellen im Laufeder Simulation niht modiziertwird.
Wie in Abshnitt 3.4.2 angedeutet, soll der Term
LB T ˜ (m) S
zwar niht explizit in derZiel-funktionberüksihtigtwerden,jedohwirdderLastbalanierungsalgorithmusderart
kon-struiert, dass sih für eine nur geringfügig modizierte Teilhenverteilung auh nur eine
geringfügiggeänderte Zuordnung der Teilhen zu den Prozessoren ergibt.
Unter Berüksihtigung der beshriebenen Annahmen vereinfahtsih die Zielfunktionzu
T S (N π , P ) = M · F T 0 + X M m=1
max i π ∈ Π
n P T S (m) (i π , N π , P ) + P T ˜ S (m) (i π , N π , P ) o
.
(3.40)Die Summanden in (3.40) sind unabhängig voneinander, da jeder der Summanden nur
die Entsheidungsvariablen für einen bestimmten Zeitshritt enthält. Somit kann jeder
einzelneSummandseparatminimiertwerden,unddieBetrahtungkannaufdieoptimierte
Zuordnung der Teilhen zu den Prozessoren für einen Zeitshritt reduziert werden. Der
konstanteAnteil
M · F T 0 fürdenFeldlöserspieltfürdieOptimierungkeineRolleundwird daher ohne Beshränkung der Allgemeingültigkeit zu Null gesetzt. Für einen beliebigen
Zeitshritt
m
lautetdie ZielfunktionsomitT S (m) (N π , P ) = max
i π ∈ Π
n P T S (m) (i π , N π , P ) + P T ˜ S (m) (i π , N π , P ) o
.
(3.41)Da die Optimierung für jeden Zeitshritt getrennt erfolgen kann, wird im Folgenden der
hohgestellte Index an allen Gröÿenfortgelassen.
Für die in Gleihung (3.35) auftretenden Terme soll folgende abkürzende Shreibweise
verwendet werden:
nπ a i π ,j π := X
i ∈I
X P p=1
p
π
a p,i π ·
a π i ,j π ·
pn i ,p .
(3.42)Auÿerdem sei
s i π := X
i ∈I
X P p=1
π
a i
,i π ·pn i
,p . (3.43)
Die Gröÿe
nπ a i π ,j π
beshreibt die Anzahl der Teilhen, welhe Prozessori π zugeordnet
wer-denundsihineinerGitterzellebenden,dieProzessor
j πzugeordnetwurde.DieGröÿes i π
beshreibt die Gesamtzahl aller Teilhen, welhe sihin Gitterzellen benden, die
Prozes-sor
i π zugeordnet wurden. Zielder Optimierung ist, die
nπ a i π ,j π
basierend auf den Wertenvon
s i π so zu bestimmen, dass die Zielfunktion (3.41) minimiert wird. Die Auswahl der Teilhen, d.h. die konkrete Wahl der
p
π
a p,i π, hat dann lediglih so zu erfolgen, dass sih
die berehneten Werte für die
nπ a i π ,j π
ergeben. Diese Vereinfahung istmöglih,da es sih bei den Teilhen bezüglih der mit ihnen verbunden en Rehenlast um ununtersheidbareObjekte handelt.
Die Zielfunktionlässt sihmit Hilfeder Beziehung
X P p=1
p
π
a p,i π = nπ a i π ,i π +
N π
X
j π = 1 j π 6= i π
nπ a i π ,j π , (3.44)
welhe sihmitHilfe von Gleihung (3.17)sowie dem Zusammenhang
X
i ∈I
p
n i ,p = 1 ∀p ∈ {1 . . . P }
(3.45)aus Gleihung (3.42) ableitenlässt, vollständigin Abhängigkeitder
nπ a i π ,j π
formulieren alsT S (N π , P ) = max
i π ∈ Π
n β i π · nπ a i π ,i π + (β i π + γ) ·
N π
X
j π = 1 j π 6= i π
nπ a i π ,j π + γ ·
N π
X
j π = 1 j π 6= i π
nπ a j π ,i π
o ,
(3.46)was sih durh Einsetzen vonGleihung (3.42) und (3.44) inGleihung (3.34)und (3.35)
ergibt.DieNebenbed ingungaus Gleihung (3.33)lässtsihsofortauf dieneuenVariablen
übertragen. Auÿerdem müssen die
nπ a i π ,j π
sinnvollerweise positiv sein. Die vollständigen Nebenbedingungen für das Optimierungsproblem lauten somitN π
X
j π =1
nπ a j π ,i π = s i π ∀i π ∈ Π, (3.47)
nπ a i π ,j π ≥ 0 ∀i π , j π ∈ Π. (3.48)
Für die Optimierung soll angenommen werden, dass
nπ a i π ,j π ∈ R gilt. Aus dem diskreten Optimierungsproblem wird damitein kontinuierlihes Optimierungsproblem,welhes sih
mitdemindiesemAbshnittbeshriebenenAlgorithmusoptimallösenlässt.ImAnshluss
wird erläutert, wie die diskreten Werte der
nπ a i π ,j π
durhRunden aus den kontinuierlihen bestimmtwerden können, um eine gute Approximationfür die Lösung des diskretenOp-timierungsproblems zu erhalten. Diese Vereinfahung lässt sih damit rehtfertigen, dass
bei einer PIC Simulationdie Anzahl der Makroteilhen übliherweise als sehr viel gröÿer
angenommenwerden kann alsdie Zahl der Prozessoren des verwendetenParallelrehners.
Deswegenistzuerwarten,dass die
nπ a i π ,j π
sogroÿsein werden,dasssihderrelativeFehler,welher durhdasRundender Werte eingeführtwird,kaum bemerkbarmahen wird.
Die-ses Vorgehen ist eine zur approximativen Lösung diskreter Optimierungsprobleme häug
angewandte Strategie [64℄.
Ohne Beshränkung der Allgemeingültigkeit seiangenommen, dass
β i π · s i π ≤ β j π · s j π ∀i π ≤ j π (3.49)
gilt.Ist dies nihtder Fall, sokann durheine Permutationder Prozessoren erreiht
wer-den, dass Bedingung (3.49) erfülltist.
Ausgehend von einem Referenzzustand sollen die
nπ a i π ,j π
nun iterativ berehnet werden,sodass shlieÿlihdie Zielfunktionnahmaximal
N π − 1
IterationsshrittenihrMinimum annimmt. Dienπ a i π ,j π
, welhe sih imn
-ten Shritt des Optimierungsalgorithmus ergeben, werden mitnπ a (n) i π ,j π
bezeihnet. Für das Argument dermax{.}
Funktion imn
-tenIterati-onsshritt inGleihung(3.46)wird imFolgenden kurz
T S (n) (i π )
geshrieben. Manbeahte,dass sihder hohgestellte Index nun auf den Iterationsshritt des
Optimierungsalgorith-mus bezieht und niht auf den Zeitshrittder Simulation.
Die
nπ a (n+1) i π ,j π
ergeben sih aus den Werten dernπ a (n) i π ,j π
und einer noh zu berehnenden Kor-rektur∆ nπ a (n) i π ,j π. Es gilt
nπ a (n+1) i π ,j π = nπ a (n) i π ,j π + ∆ nπ a (n) i π ,j π . (3.50)
Die Nebenbedingungen aus Gleihung (3.47) und (3.48) gelten natürlih auh für alleim
Laufe des Optimierungsverfahrens berehneten Zwishenwerte, sodass
N π
X
j π =1
nπ a (n) j π ,i π = s i π ∀i π ∈ Π, n ∈ N , (3.51)
nπ a (n) i π ,j π ≥ 0 ∀i π , j π ∈ Π, n ∈ N (3.52)
jederzeiterfülltseinmuss.AusGleihung(3.51)ergibtsihsofort,dassfürdieKorrekturen
N π
X
j π =1
∆ nπ a (n) j π ,i π = 0 ∀i π ∈ Π, n ∈ N
(3.53)gelten muss.
Initialisierungsshritt:
Die Variablen
nπ a (0) i π ,j π
seien gegeben durhnπ a (0) i π ,j π =
( s i π falls i π = j π
0
sonst. (3.54)Die Werte der
T S (0) (i π )
ergeben sihdaher zuT S (0) (i π ) = β i π · s i π .
(3.55)Abbildung3.7 zeigt den beshriebene n Referenzzustand .
Iterationsshritt:
Seien die Gröÿen
l (n) , u (n) ∈ Π
sofestgelegt, dass gilt:T S (n) (l (n) ) = T S (n) (i π ) ∀i π ≤ l (n) ∧ . . .
T S (n) (l (n) ) < T S (n) (i π ) ∀i π > l (n) (3.56)
i π
T S (0) (i π )
1 2 3 4 N π − 3 N π − 2 N π − 1 N π
β 1 s 1
β 2 s 2
β 3 s 3
β 4 s 4
β N π − 3 s N π − 3
β N π −2 s N π −2
β N π − 1 s N π − 1
β N π s N π
Abbildung3.7:Ausgehendvondemabgebildeten Referenzzustand,indemalleTeilhendem
Prozessorzugeordnet werden,demdieGitterzellezugeordnet ist,indersiesihbenden,wird
dieOptimierung vorgenommen.
sowie
T S (n) (u (n) ) = T S (n) (i π ) ∀i π ≥ u (n) ∧ . . .
T S (n) (u (n) ) > T S (n) (i π ) ∀i π < u (n) .
(3.57)Abbildung 3.8 illustriert die beiden Gröÿen
l (n) und u (n). Da der Wert der Zielfunktion
wegen des max{.}
Ausdruks durh die T S (n) (u (n) . . . N π )
bestimmt wird,müssendiese zur
max{.}
Ausdruks durh dieT S (n) (u (n) . . . N π )
bestimmt wird,müssendiese zurReduktion des Wertes der Zielfunktion alle reduziert werden. Das wird dadurh erreiht,
dass die Gruppe der Prozessoren
u (n) . . . N π Teilhen an die Prozessoren 1 . . . l (n) abgibt.
Dies geshieht so lange, bis entweder
T S (n) (i π ) = T S (n) (j π ) ∀i π , j π ∈ Π
gilt, oder einer derProzessoren
u (n) . . . N π keineTeilhen mehrbesitzt,dieabgegebenwerdenkönnten.Damit
ergeben sih die folgendenAbbruhbedingungen.
Falls
T S (n) (i π ) = T S (n) (j π ) ∀i π , j π ∈ Π
(3.58)gilt,dann ist der bestmöglihe Zustand erreihtund das Verfahren wird beendet. Ebenso
wird das Verfahren beendet, fallses einen Prozessor
i π miti π ≥ u (n) gibt, für den
nπ a (n) i π ,i π = 0 (3.59)
oder
β i π < γ
(3.60)i π
T S (n) (i π )
1 2 3 4 N π − 3 N π − 2 N π − 1 N π
T S (n) (l (n) + 1) − T S (n) (l (n) )
T S (n) (u (n) ) − T S (n) (u (n) + 1)
u (n) l (n)
Abbildung 3.8: Alle Prozessoren mit
i π ≥ u (n) oder i π ≤ l (n) besitzen den gleihen Wert
für
T S (n) (i π).
gilt, da auh in diesem Fall der Zustand niht mehr verbessert werden kann. Ansonsten
werden die
∆ nπ a (n) i π ,j π wie folgt bestimmt.
Zunähst wird die Gesamtzahl der Teilhen berehnet, welhe insgesamtvon der Gruppe
der Prozessoren
u (n) . . . N π an die Prozessoren 1 . . . l (n) abgegeben werden sollen. Dazu
muss eine Falluntersheidung bezüglih
l (n) und u (n) vorgenommen werden.
Fall 1:
l (n) < u (n) − 1
Die Gröÿen
∆ nπ a (n) i π ,j π sollen so bestimmt werden, dass
entweder
l (n+1) ≥ l (n) + 1
oderu (n+1) ≤ u (n) − 1
(3.61)gilt.EsdürfennurmaximalsovieleTeilhen vonjedemProzessor abgegebenwerden,dass
die Nebenbed ingung (3.52)nihtverletzt wird.DieseBedingungimpliziert,dass der Wert
von
T S (n) (u (n) . . . N π )
nur um maximal∆T S (n)
max
:= min
i π ∈{ u (n) ...N π }
(β i π − γ) · nπ a (n) i π ,i π
(3.62)
reduziert werden kann. Bezeihne
∆ nπ a (n) die insgesamt von den Prozessoren der
Grup-pe u (n) . . . N π an die Prozessoren der Gruppe 1 . . . l (n) abgegebene Teilhenzahl. Damit
sih l (n+1) ≥ l (n) + 1
ergibt oder einer der Prozessoren u (n) . . . N π keine Teilhen mehr
1 . . . l (n) abgegebene Teilhenzahl. Damit
sih l (n+1) ≥ l (n) + 1
ergibt oder einer der Prozessoren u (n) . . . N π keine Teilhen mehr
be-sitzt, muss
∆ nπ a (n) 1 = min n
∆T S (n)
max
;
T S (n) (l (n) + 1) − T S (l (n) ) o
·
l (n)
X
i π =1
1
β i π + γ
(3.63)sein. Damit
u (n+1) ≤ u (n) − 1
giltmuss entsprehend∆ nπ a (n) 2 = min n
∆T S (n)
max
;
T S (n) (u (n) ) − T S (u (n) − 1) o
·
N π
X
i π =u (n)
1
β i π − γ
(3.64)gelten. Die tatsählihe Anzahl an Teilhen, welhe abgegeben wird,wird gemäÿ
∆ nπ a (n) := min
∆ nπ a (n) 1 ; ∆ nπ a (n) 2
(3.65)
gewählt.
Fall 2:
l (n) = u (n) − 1
Falls
l (n) = u (n) − 1
gilt,muss die Bestimmung von∆ nπ a (n) etwas anderserfolgen.
Wieder-um werden nur Teilhen von der Gruppe der Prozessoren
u (n) . . . N π an Prozessoren der
Gruppe 1 . . . l (n) abgegeben. Der Wert von ∆ nπ a (n) wird in diesem Fall so gewählt, dass
∆ nπ a (n) wird in diesem Fall so gewählt, dass
entweder
T S (n+1) (u (n) . . . N π ) = T S (n+1) (1 . . . l (n) )
(3.66)gilt,odereinProzessorderGruppe
u (n) . . . N πkeineTeilhenmehrbesitzt.DerAusdrukin
Gleihung(3.62)gibtwiederumdenmaximalenWertan,umden
T S (n) (u (n) . . . N π )
reduziertwerden kann. Bei einer Abgabe von insgesamt
∆ nπ a (n) Teilhen ändert sih T S (n) (1 . . . l (n) )
gemäÿ
∆T S (n) (1 . . . l (n) ) = ∆ nπ a (n)
l (n)
P
k π =1 1 β kπ +γ
(3.67)
und
T S (n) (u (n) . . . N π )
gemäÿ∆T S (n) (u (n) . . . N π ) = − ∆ nπ a (n)
N π
P
k π =u (n) 1 β kπ − γ
.
(3.68)Damitergibt sih zunähst aus der Bedingung (3.66)
T S (n) (u (n) . . . N π ) + ∆T S (n) (u (n) . . . N π ) = T S (n) (1 . . . l (n) ) + ∆T S (n) (1 . . . l (n) ).
(3.69)Einsetzen vonGleihung (3.67)und (3.68) in Gleihung (3.69)ergibt
∆ nπ a (n) = T S (n) (u (n) . . . N π ) − T S (n) (1 . . . l (n) )
1
l (n)
P
kπ =1 1 βkπ +γ
+ Nπ P 1
kπ=u (n) 1 βkπ −γ
.
(3.70)Falls von Gleihung (3.70) Bedingung (3.62) verletzt wird, so muss
∆ nπ a (n) stattdessen gewählt werden gemäÿ
∆ nπ a (n) = ∆T S (n)
max
·
N π
X
i π =u (n)
1
β i π − γ .
(3.71)DamitistdieFalluntersheidungbeendet und ausdem Wert von
∆ nπ a (n) könnendie Werte
der
∆ nπ a (n) i π ,j π bestimmtwerden.
Damitdie
T S (n+1) fürdie Prozessorender Gruppe1 . . . l (n) undu (n) . . . N π um den gleihen
u (n) . . . N π um den gleihen
Wert erhöht bzw. reduziert werden, müssen die insgesamt von der Gruppe der
Prozesso-ren
u (n) . . . N π andieGruppe1 . . . l (n)abzugebende nTeilhenentsprehendverteiltwerden.
VondeninsgesamtvonderGruppederProzessoren
u (n) . . . N π abgegebenenTeilhenmuss daher ein Anteil von
∆ nπ a (n) .,j π
∆ nπ a (n)
=
1 β jπ − γ N π
P
k π =u (n) 1 β kπ − γ
(3.72)
auf Prozessor
j π aus dieser Gruppe entfallen, wobei ∆ nπ a (n) .,j π deniert ist als
∆ nπ a (n) .,j π :=
N π
X
k π =u (n)
∆ nπ a (n) k π ,j π ,
(3.73)alsoalsGesamtanzahlderTeilhen,dieProzessor
j π andieGruppederProzessoren1 . . . l (n)
abgeben muss. Die
∆ nπ a (n) .,j π von Prozessor j π abgegebenen Teilhen sollen so auf die
Pro-zessoren 1 . . . l (n) verteilt werden, dass sie den Wert vonT S (n) für jeden dieserProzessoren
um den gleihen Wert erhöhen. Es folgtdaher für einen Prozessor i π aus dieser Gruppe
1 . . . l (n) verteilt werden, dass sie den Wert vonT S (n) für jeden dieserProzessoren
um den gleihen Wert erhöhen. Es folgtdaher für einen Prozessor i π aus dieser Gruppe
i π aus dieser Gruppe
∆ nπ a (n) i π ,j π
∆ nπ a (n) .,j π
=
1 β iπ +γ l P (n)
k π =1 1 β kπ +γ
.
(3.74)Somit ergeben sihdie gesuhten Werte der
∆ nπ a (n) i π ,j π zu
∆ nπ a (n) i π ,j π =
1 β iπ +γ N π
P
k π =u (n) 1 β kπ +γ
·
1 β jπ − γ l (n)
P
k π =1 1 β kπ − γ
·∆ nπ a (n) ∀i π ∈ {1 . . . l (n) }, j π ∈ {u (n) . . . N π }.
(3.75)Aus Gleihung (3.53)ergibt sih weiterhin,dass
∆ nπ a (n) j π ,j π = −
l (n)
X
i π =1
∆ nπ a (n) i π ,j π (3.76)
gelten muss. Die verbleibenden
∆ nπ a (n) i π ,j π werden zu Null gesetzt. Damit ist der Iterations-shritt beendet. Abbildung3.9 illustriert den Ablaufdes Optimierungsverfahrens.
DasbeshriebeneVerfahrenführtzueiner OptimallösungfürdenFall
nπ a (n) i π ,j π ∈ R.Fürden Beweis dieser Behauptung seiauf Anhang D verwiesen.
Aus der Lösung des kontinuierlihen Optimierungsproblems muss nun eine gute
Approxi-mationandie Optimallösungdes diskretenOptimierungsproblemsbestimmtwerden.Dies
kann fürpraktisheZwekedadurh erfolgen,dassdie berehnetenkontinuierlihen Werte
wie folgt modiziert werden. Werden mit
nπ a i π ,j π
nun wieder die diskreten Variablenbe-zeihnetundmit
nπ a (n) i π ,j π ∈ RdieWerte,diesihnahAbshlussdesOptimierungsverfahrens ergeben, sokann durh
nπ a i π ,j π = ⌊ nπ a (n) i π ,j π ⌋ ∀i π 6= j π
(3.77)nπ a i π ,i π = s i π −
N π
X
j π = 1 j π 6= i π
nπ a j π ,i π
(3.78)eine zulässige Lösung des diskreten Optimierungsproblems gefunden werden, welhe nah
ander berehneten Optimallösungliegt.
WirddasVerfahrenverwendet, umeine Neuverteilungder Teilhen vorzunehmen, so
exis-tiert bereits eine Zuordnung der Teilhen auf die Prozessoren, von der ausgehend der
berehnete Zustand erreiht werden muss. Daher ist nun aus den berehneten Werten
der
nπ a i π ,j π
zu bestimmen, für welhe Teilhen die Prozessorzuordnung verändert werden muss. Bezeihnenπ a i
altπ ,j π
die vorhandeneZuordnung der Teilhenundnπ a i
neuπ ,j π
diegemäÿdemStart
(3.58)oder
(3.59)oder
(3.60)erfüllt?
Ende
l (n) < u (n) − 1
wähle
∆ nπ a (n)
gemäÿ(3.65)
wähle
∆ nπ a (n)
gemäÿ(3.70)bzw.
(3.71)
berehne
nπ a (n+1) i π ,j π
gemäÿ(3.75)und
(3.76)
nπ a (n+1) i π ,j π = nπ a (n) i π ,j π + ∆ nπ a (n) i π ,j π
ja
nein
ja
nein
Abbildung 3.9: Das oben stehende Ablaufdiagramm illustriert das in Abshnitt 3.4.3
be-shriebene Optimierungsverfahren.
Optimierungsverfahren berehnete neue Zuordnung der Teilhen, so ergibt sih eine
Än-derung gemäÿ
∆ nπ a i π ,j π = nπ a ineuπ ,j π − nπ a i
altπ ,j π ,
(3.79)
wobei ein negativer Wert von
∆ nπ a i π ,j π ausdrükt, dass eine entsprehende Anzahl von
Teilhen von Prozessor i π an Prozessor j π abgegeben werden muss. Ein positiver Wert
j π abgegeben werden muss. Ein positiver Wert
zeigtan, dass die entsprehendeAnzahl anTeilhenvon
j π ani π abgegebenwerdenmuss.
N π
S
10 15 20 25 30 35 5
10 15 20 25 30 35
5 1 5 1 5
b b b
b b
b b
b b
b
b b b
b b
b b
b b
b
b b b
b b
b b
b b
b
b b b
b b
b b
b b
b
b b b
b b
b b
b b
b b b β/γ = 0, 5
b b β/γ = 2
b b β/γ = 4
b b β/γ = 8
b b β/γ = 50
N π
S
10 15 20 25 30 35 5
10 15 20 25 30 35
5 1 5 1 5
b b b b b
b b
b b
b
b b b
b b
b b
b b
b
b b b
b b
b b
b b
b
b b b
b b
b b
b b
b
b b b
b b
b b
b b b b β/γ = 0,5 b
b b β/γ = 2
b b β/γ = 4
b b β/γ = 8
b b β/γ = 50
N π
S
10 15 20 25 30 35 5
10 15 20 25 30 35
5 1 5 1 5
b b b b b b b b b b
b b b b b b b b
b b
b b
b b b b b b
b b
b b b
b b
b b
b
b b
b b b
b b
b b
b b b b β/γ = 0, 5 b
b b β/γ = 2
b b β/γ = 4
b b β/γ = 8
b b β/γ = 50
(a) (b)
()
Abbildung 3.10: Speedup Werte für die Integration der Teilhentrajektorien vor und
nah Anwendung des in Abshnitt 3.4.3 beshriebenen Algorithmus für vershiedene Werte
von
β/γ
,wobeiessihbeiβ
umdiezurAusführungderTrajektorienberehnungproZeitshritt und pro Teilhen benötigte Laufzeit handelt undγ
die Laufzeit beshreib t, welhe zumAus-taush der Felddaten pro Zeitshrittund pro nihtlokalem Teilhen benötigt wird. Der ideale
Verlauf des Speedup ist gestrihelt eingezeihnet. (a) Die Teilhen sind über das komplette
Rehengebiet gleihmäÿigverteilt.(b)DieTeilhenkonzentrierensihin10%derGitterzellen
des Rehengebietes.()DieTeilhenkonzentrierensih in1%derZellendesRehengebietes.
Da sih die Teilhenverteilung von einem Zeitshritt zum nähsten nur langsam ändert
und sih damit auh die
s i π tendenziell langsam ändern, wird das Optimierungsverfahren zu einer ähnlihen Zuordnung der Teilhen führen, wie siebereits vorliegt
nπ a i
neuπ ,j π ≈ nπ a i
altπ ,j π , (3.80)
so dass für die
∆ nπ a i π ,j π und somit auh für LB T ˜ (m) S
kleine Werte zu erwarten sind.
Die Graphen in Abbildung 3.10 zeigen den zu erwartenden Speedup für die T
rajektori-enberehnung inklusive dem benötigten Datenaustaush, nahdem die Teilhen nahdem
oben beshriebene n Algorithmus den Prozessoren zugeordnet wurden. Die Werte wurden
über die in der Zielfunktion angenommenen Abhängigkeiten von
P T S (m)
undP T ˜ S (m)
füruntershiedlih stark lokalisierte Teilhenverteilungen bestimmt (siehe Gleihung (3.46)).
Die Gebietszerlegung wurde mit Hilfe einer RCB vorgenommen. Es zeigt sih, dass sih
die Skalierbarkeit vershlehte rt, je stärker sih die Teilhen in einem kleinen Teil des
Rehengebietes konzentrieren. Dieses Verhalten resultiert daraus, dass bei einer stark
lo-kalisierten Teilhenverteilung sehr viele Teilhen Felddaten aus einem kleinen Teil des
Rehengebietesbenötigen. DieseFelddaten sindeinigenwenigenodernureinemeinzelnen
Prozessor zugeordnet. Für diese Prozessoren entsteht ein Kommunikationshotspot, d.h.
dieseProzessoren müssen groÿeDatenmengensenden und empfangen, wasdie erreihbare
Performane vershlehte rt. Der Eekt wird umso gröÿer, je kleiner das Verhältnis der
beiden Gröÿen