Dynamishe T eilhenzuordnung

3.4 Parallelisierung des PIC Algorithmus

3.4.3 Dynamishe T eilhenzuordnung

Eine Zuordnung der Teilhen und Gitterzellen ohne die Berüksihtigung der durh p

n ^(m) _i

,p

beshriebene nAbhängigkeitenführt, trotzidealer Verteilung der Rehenlast,aufgrund

ei-nes imAllgemeinenhohen Aufwandes fürden Datenaustaush

P T ˜ _S ^(m)

^niht^zu ^einer

prak-tikablen Parallelisierungsstrategie wie frühere Untersuhun gen zeigten[1, 2℄.

In diesem Abshnitt soll daher eine im Rahmen dieser Arbeit entwikelte

Parallelisie-rungsstrategie vorgestellt werden, mit deren Hilfe, basierend auf einer bereits gegebenen

Zuordnung der Gitterzellen zu den verfügbaren Prozessoren, die Zuordnung der Teilhen

so bestimmtwerden kann, dass die Zielfunktionminimiert wird. Die Zuordnung der

Git-terzellen kann mit dem in Abshnitt 3.3.1 oder einem der in Anhang C beshriebene n

Verfahrenzunähst unabhängig vonder Teilhenverteilung vorgenommenwerden.

Esseiangenommen,dass dieZuordnungderGitterzellensoerfolgte,dass alleProzessoren

die gleihe Zeit

F T ₀

^für ^den ^F^eldlöser^und ^den ^damit verbunden en Datenaustaush benö-tigen und dass die Zuordnung der Gitterzellen im Laufeder Simulation niht modiziert

wird.

Wie in Abshnitt 3.4.2 angedeutet, soll der Term

LB T ˜ ^(m) _S

^zwar ^niht ^explizit ⁱⁿ ^der

Ziel-funktionberüksihtigtwerden,jedohwirdderLastbalanierungsalgorithmusderart

kon-struiert, dass sih für eine nur geringfügig modizierte Teilhenverteilung auh nur eine

geringfügiggeänderte Zuordnung der Teilhen zu den Prozessoren ergibt.

Unter Berüksihtigung der beshriebenen Annahmen vereinfahtsih die Zielfunktionzu

T _S (N π , P ) = M · ^F T ₀ + X M m=1

max i π ∈ Π

n P T _S ^(m) (i π , N π , P ) + ^P T ˜ _S ^(m) (i π , N π , P ) o

.

^(3.40)

Die Summanden in (3.40) sind unabhängig voneinander, da jeder der Summanden nur

die Entsheidungsvariablen für einen bestimmten Zeitshritt enthält. Somit kann jeder

einzelneSummandseparatminimiertwerden,unddieBetrahtungkannaufdieoptimierte

Zuordnung der Teilhen zu den Prozessoren für einen Zeitshritt reduziert werden. Der

konstanteAnteil

M · ^F T ₀

^für^den^F^eldlöser^spielt^für^dieOptimierungkeineRolleundwird daher ohne Beshränkung der Allgemeingültigkeit zu Null gesetzt. Für einen beliebigen

Zeitshritt

m

^lautet^die Zielfunktionsomit

T _S ^(m) (N π , P ) = max

i π ∈ Π

n P T _S ^(m) (i π , N π , P ) + ^P T ˜ _S ^(m) (i π , N π , P ) o

.

^(3.41)

Da die Optimierung für jeden Zeitshritt getrennt erfolgen kann, wird im Folgenden der

hohgestellte Index an allen Gröÿenfortgelassen.

Für die in Gleihung (3.35) auftretenden Terme soll folgende abkürzende Shreibweise

verwendet werden:

nπ a _i _π _,j _π := X

i ∈I

X P p=1

π

a _p,i _π ·

a ^π i ,j π ·

n i ,p .

^(3.42)

Auÿerdem sei

s i π := X

i ∈I

X P p=1

π

a _i

,i π ·

n _i

,p .

^(3.43)

Die Gröÿe

nπ a _i _π _,j _π

^beshreibt ^die ^Anzahl ^der ^T^eilhen, ^welhe ^Prozessor

i π

^zugeordnet

wer-denundsihineinerGitterzellebenden,dieProzessor

j _π

^zugeordnet^wurde.^Die^Gröÿe

s _i _π

beshreibt die Gesamtzahl aller Teilhen, welhe sihin Gitterzellen benden, die

Prozes-sor

i π

^zugeordnet ^wurden. ^Ziel^der Optimierung ist, die

nπ a i π ,j π

^basierend ^auf ^den ^Werten

von

s i π

^so ^zu ^bestimmen, ^dass ^die Zielfunktion (3.41) minimiert wird. Die Auswahl der Teilhen, d.h. die konkrete Wahl der

π

a _p,i _π

^, ^hat ^dann ^lediglih ^so ^zu ^erfolgen, ^dass ^sih

die berehneten Werte für die

nπ a _i _π _,j _π

^ergeben. ^Diese Vereinfahung istmöglih,da es sih bei den Teilhen bezüglih der mit ihnen verbunden en Rehenlast um ununtersheidbare

Objekte handelt.

Die Zielfunktionlässt sihmit Hilfeder Beziehung

X P p=1

π

a _p,i _π = ^nπ a _i _π _,i _π +

N π

X

j π = 1 j π 6= i π

nπ a _i _π _,j _π ,

^(3.44)

welhe sihmitHilfe von Gleihung (3.17)sowie dem Zusammenhang

X

i ∈I

n i ,p = 1 ∀p ∈ {1 . . . P }

^(3.45)

aus Gleihung (3.42) ableitenlässt, vollständigin Abhängigkeitder

nπ a _i _π _,j _π

formulieren als

T _S (N π , P ) = max

i π ∈ Π

n β i π · ^nπ a i π ,i π + (β i π + γ) ·

N π

X

j π = 1 j π 6= i π

nπ a i π ,j π + γ ·

N π

X

j π = 1 j π 6= i π

nπ a j π ,i π

o ,

^(3.46)

was sih durh Einsetzen vonGleihung (3.42) und (3.44) inGleihung (3.34)und (3.35)

ergibt.DieNebenbed ingungaus Gleihung (3.33)lässtsihsofortauf dieneuenVariablen

übertragen. Auÿerdem müssen die

nπ a _i _π _,j _π

sinnvollerweise positiv sein. Die vollständigen Nebenbedingungen für das Optimierungsproblem lauten somit

N π

X

j π =1

nπ a _j _π _,i _π = s _i _π ∀i _π ∈ Π,

^(3.47)

nπ a i π ,j π ≥ 0 ∀i π , j π ∈ Π.

^(3.48)

Für die Optimierung soll angenommen werden, dass

nπ a i π ,j π ∈ R

gilt. Aus dem diskreten Optimierungsproblem wird damitein kontinuierlihes Optimierungsproblem,welhes sih

mitdemindiesemAbshnittbeshriebenenAlgorithmusoptimallösenlässt.ImAnshluss

wird erläutert, wie die diskreten Werte der

nπ a _i _π _,j _π

^durh^Runden ^aus ^den kontinuierlihen bestimmtwerden können, um eine gute Approximationfür die Lösung des diskreten

Op-timierungsproblems zu erhalten. Diese Vereinfahung lässt sih damit rehtfertigen, dass

bei einer PIC Simulationdie Anzahl der Makroteilhen übliherweise als sehr viel gröÿer

angenommenwerden kann alsdie Zahl der Prozessoren des verwendetenParallelrehners.

Deswegenistzuerwarten,dass die

nπ a _i _π _,j _π

^so^groÿ^sein ^werden,^dass^sih^der^relative^F^ehler,

welher durhdasRundender Werte eingeführtwird,kaum bemerkbarmahen wird.

Die-ses Vorgehen ist eine zur approximativen Lösung diskreter Optimierungsprobleme häug

angewandte Strategie [64℄.

Ohne Beshränkung der Allgemeingültigkeit seiangenommen, dass

β _i _π · s _i _π ≤ β _j _π · s _j _π ∀i _π ≤ j _π

^(3.49)

gilt.Ist dies nihtder Fall, sokann durheine Permutationder Prozessoren erreiht

wer-den, dass Bedingung (3.49) erfülltist.

Ausgehend von einem Referenzzustand sollen die

nπ a i π ,j π

^nun ^iterativ ^berehnet ^werden,

sodass shlieÿlihdie Zielfunktionnahmaximal

N π − 1

IterationsshrittenihrMinimum annimmt. Die

nπ a _i _π _,j _π

^, ^welhe ^sih ^im

n

^-ten ^Shritt ^des Optimierungsalgorithmus ergeben, werden mit

nπ a ⁽ⁿ⁾ _i _π _,j _π

^bezeihnet. ^Für ^das ^Argument ^der

max{.}

^F^unktion ^im

n

^-ten

Iterati-onsshritt inGleihung(3.46)wird imFolgenden kurz

T _S ⁽ⁿ⁾ (i π )

geshrieben. Manbeahte,

dass sihder hohgestellte Index nun auf den Iterationsshritt des

Optimierungsalgorith-mus bezieht und niht auf den Zeitshrittder Simulation.

Die

nπ a ⁽ⁿ⁺¹⁾ _i _π _,j _π

^ergeben ^sih ^aus ^den ^Werten ^der

^nπ a ⁽ⁿ⁾ _i _π _,j _π

^und ^einer ^noh ^zu berehnenden Kor-rektur

∆ ^nπ a ⁽ⁿ⁾ _i _π _,j _π

^. ^Es ^gilt

nπ a ⁽ⁿ⁺¹⁾ _i _π _,j _π = ^nπ a ⁽ⁿ⁾ _i _π _,j _π + ∆ ^nπ a ⁽ⁿ⁾ _i _π _,j _π .

^(3.50)

Die Nebenbedingungen aus Gleihung (3.47) und (3.48) gelten natürlih auh für alleim

Laufe des Optimierungsverfahrens berehneten Zwishenwerte, sodass

N π

X

j π =1

nπ a ⁽ⁿ⁾ _j _π _,i _π = s i π ∀i π ∈ Π, n ∈ N ,

^(3.51)

nπ a ⁽ⁿ⁾ _i _π _,j _π ≥ 0 ∀i π , j π ∈ Π, n ∈ N

(3.52)

jederzeiterfülltseinmuss.AusGleihung(3.51)ergibtsihsofort,dassfürdieKorrekturen

N π

X

j π =1

∆ ^nπ a ⁽ⁿ⁾ _j _π _,i _π = 0 ∀i π ∈ Π, n ∈ N

(3.53)

gelten muss.

Initialisierungsshritt:

Die Variablen

nπ a ⁽⁰⁾ _i _π _,j _π

^seien ^gegeben ^durh

nπ a ⁽⁰⁾ _i _π _,j _π =

( s i π

^falls

i π = j π

0

^sonst. ^(3.54)

Die Werte der

T _S ⁽⁰⁾ (i π )

^ergeben ^sih^daher ^zu

T _S ⁽⁰⁾ (i π ) = β i π · s i π .

^(3.55)

Abbildung3.7 zeigt den beshriebene n Referenzzustand .

Iterationsshritt:

Seien die Gröÿen

l ⁽ⁿ⁾ , u ⁽ⁿ⁾ ∈ Π

^sofestgelegt, dass gilt:

T _S ⁽ⁿ⁾ (l ⁽ⁿ⁾ ) = T _S ⁽ⁿ⁾ (i π ) ∀i π ≤ l ⁽ⁿ⁾ ∧ . . .

T _S ⁽ⁿ⁾ (l ⁽ⁿ⁾ ) < T _S ⁽ⁿ⁾ (i π ) ∀i π > l ⁽ⁿ⁾

^(3.56)

i π

T S ⁽⁰⁾ (i π )

1 2 3 4 N π − 3 N π − 2 N π − 1 N π

β 1 s 1

β 2 s 2

β 3 s 3

β 4 s 4

β N π − 3 s N π − 3

β N π −2 s N π −2

β N π − 1 s N π − 1

β N π s N π

Abbildung3.7:Ausgehendvondemabgebildeten Referenzzustand,indemalleTeilhendem

Prozessorzugeordnet werden,demdieGitterzellezugeordnet ist,indersiesihbenden,wird

dieOptimierung vorgenommen.

sowie

T _S ⁽ⁿ⁾ (u ⁽ⁿ⁾ ) = T _S ⁽ⁿ⁾ (i π ) ∀i π ≥ u ⁽ⁿ⁾ ∧ . . .

T _S ⁽ⁿ⁾ (u ⁽ⁿ⁾ ) > T _S ⁽ⁿ⁾ (i π ) ∀i π < u ⁽ⁿ⁾ .

^(3.57)

Abbildung 3.8 illustriert die beiden Gröÿen

l ⁽ⁿ⁾

^und

u ⁽ⁿ⁾

^. ^Da ^der ^Wert ^der Zielfunktion wegen des

max{.}

^Ausdruks ^durh ^die

T _S ⁽ⁿ⁾ (u ⁽ⁿ⁾ . . . N π )

^bestimmt ^wird,^müssen^diese ^zur

Reduktion des Wertes der Zielfunktion alle reduziert werden. Das wird dadurh erreiht,

dass die Gruppe der Prozessoren

u ⁽ⁿ⁾ . . . N π

^T^eilhen ^an ^die Prozessoren

1 . . . l ⁽ⁿ⁾

^abgibt.

Dies geshieht so lange, bis entweder

T _S ⁽ⁿ⁾ (i π ) = T _S ⁽ⁿ⁾ (j π ) ∀i π , j π ∈ Π

^gilt, ^oder ^einer ^der

Prozessoren

u ⁽ⁿ⁾ . . . N π

^keine^T^eilhen ^mehr^besitzt,^die^abgegeben^werden^könnten.^Damit

ergeben sih die folgendenAbbruhbedingungen.

Falls

T _S ⁽ⁿ⁾ (i π ) = T _S ⁽ⁿ⁾ (j π ) ∀i π , j π ∈ Π

^(3.58)

gilt,dann ist der bestmöglihe Zustand erreihtund das Verfahren wird beendet. Ebenso

wird das Verfahren beendet, fallses einen Prozessor

i π

^mit

i π ≥ u ⁽ⁿ⁾

^gibt, ^für ^den

nπ a ⁽ⁿ⁾ _i _π _,i _π = 0

^(3.59)

oder

β i π < γ

^(3.60)

i π

T S ⁽ⁿ⁾ (i π )

1 2 3 4 N π − 3 N π − 2 N π − 1 N π

T S ⁽ⁿ⁾ (l ⁽ⁿ⁾ + 1) − T S ⁽ⁿ⁾ (l ⁽ⁿ⁾ )

T S ⁽ⁿ⁾ (u ⁽ⁿ⁾ ) − T S ⁽ⁿ⁾ (u ⁽ⁿ⁾ + 1)

u ⁽ⁿ⁾ l ⁽ⁿ⁾

Abbildung 3.8: Alle Prozessoren mit

i π ≥ u ⁽ⁿ⁾

^oder

i π ≤ l ⁽ⁿ⁾

^besitzen ^den ^gleihen ^Wert

für

T _S ⁽ⁿ⁾

⁽

i _π

^).

gilt, da auh in diesem Fall der Zustand niht mehr verbessert werden kann. Ansonsten

werden die

∆ ^nπ a ⁽ⁿ⁾ _i _π _,j _π

^wie ^folgt ^bestimmt.

Zunähst wird die Gesamtzahl der Teilhen berehnet, welhe insgesamtvon der Gruppe

der Prozessoren

u ⁽ⁿ⁾ . . . N π

^an ^die Prozessoren

1 . . . l ⁽ⁿ⁾

^abgegeben ^werden ^sollen. ^Dazu

muss eine Falluntersheidung bezüglih

l ⁽ⁿ⁾

^und

u ⁽ⁿ⁾

vorgenommen werden.

Fall 1:

l ⁽ⁿ⁾ < u ⁽ⁿ⁾ − 1

Die Gröÿen

∆ ^nπ a ⁽ⁿ⁾ _i _π _,j _π

^sollen ^so ^bestimmt ^werden, ^dass

entweder

l ⁽ⁿ⁺¹⁾ ≥ l ⁽ⁿ⁾ + 1

^oder

u ⁽ⁿ⁺¹⁾ ≤ u ⁽ⁿ⁾ − 1

^(3.61)

gilt.EsdürfennurmaximalsovieleTeilhen vonjedemProzessor abgegebenwerden,dass

die Nebenbed ingung (3.52)nihtverletzt wird.DieseBedingungimpliziert,dass der Wert

von

T _S ⁽ⁿ⁾ (u ⁽ⁿ⁾ . . . N _π )

^nur ^um ^maximal

∆T _S ⁽ⁿ⁾

max

:= min

i π ∈{ u ⁽ⁿ⁾ ...N π }

(β i π − γ) · ^nπ a ⁽ⁿ⁾ _i _π _,i _π

(3.62)

reduziert werden kann. Bezeihne

∆ ^nπ a ⁽ⁿ⁾

^die ^insgesamt ^von ^den Prozessoren der Grup-pe

u ⁽ⁿ⁾ . . . N π

^an ^die Prozessoren der Gruppe

1 . . . l ⁽ⁿ⁾

^abgegebene Teilhenzahl. Damit sih

l ⁽ⁿ⁺¹⁾ ≥ l ⁽ⁿ⁾ + 1

^ergibt ^oder ^einer ^der Prozessoren

u ⁽ⁿ⁾ . . . N π

^keine ^T^eilhen ^mehr

be-sitzt, muss

∆ ^nπ a ⁽ⁿ⁾ ₁ = min n

∆T _S ⁽ⁿ⁾

max

;

T _S ⁽ⁿ⁾ (l ⁽ⁿ⁾ + 1) − T _S (l ⁽ⁿ⁾ ) o

·

l ⁽ⁿ⁾

X

i π =1

1 β i π + γ

^(3.63)

sein. Damit

u ⁽ⁿ⁺¹⁾ ≤ u ⁽ⁿ⁾ − 1

^gilt^muss entsprehend

∆ ^nπ a ⁽ⁿ⁾ ₂ = min n

∆T _S ⁽ⁿ⁾

max

;

T _S ⁽ⁿ⁾ (u ⁽ⁿ⁾ ) − T _S (u ⁽ⁿ⁾ − 1) o

·

N π

X

i π =u ⁽ⁿ⁾

1 β i π − γ

^(3.64)

gelten. Die tatsählihe Anzahl an Teilhen, welhe abgegeben wird,wird gemäÿ

∆ ^nπ a ⁽ⁿ⁾ := min

∆ ^nπ a ⁽ⁿ⁾ ₁ ; ∆ ^nπ a ⁽ⁿ⁾ ₂

(3.65)

gewählt.

Fall 2:

l ⁽ⁿ⁾ = u ⁽ⁿ⁾ − 1

Falls

l ⁽ⁿ⁾ = u ⁽ⁿ⁾ − 1

^gilt,^muss ^die ^Bestimmung ^von

∆ ^nπ a ⁽ⁿ⁾

^etwas ^anders^erfolgen.

Wieder-um werden nur Teilhen von der Gruppe der Prozessoren

u ⁽ⁿ⁾ . . . N π

^an Prozessoren der Gruppe

1 . . . l ⁽ⁿ⁾

^abgegeben. ^Der ^W^ert ^von

∆ ^nπ a ⁽ⁿ⁾

^wird ⁱⁿ ^diesem ^F^all ^so ^gewählt, ^dass

entweder

T _S ⁽ⁿ⁺¹⁾ (u ⁽ⁿ⁾ . . . N π ) = T _S ⁽ⁿ⁺¹⁾ (1 . . . l ⁽ⁿ⁾ )

^(3.66)

gilt,odereinProzessorderGruppe

u ⁽ⁿ⁾ . . . N π

^keine^T^eilhen^mehr^besitzt.^Der^Ausdrukⁱⁿ

Gleihung(3.62)gibtwiederumdenmaximalenWertan,umden

T _S ⁽ⁿ⁾ (u ⁽ⁿ⁾ . . . N _π )

^reduziert

werden kann. Bei einer Abgabe von insgesamt

∆ ^nπ a ⁽ⁿ⁾

^T^eilhen ^ändert ^sih

T _S ⁽ⁿ⁾ (1 . . . l ⁽ⁿ⁾ )

gemäÿ

∆T _S ⁽ⁿ⁾ (1 . . . l ⁽ⁿ⁾ ) = ∆ ^nπ a ⁽ⁿ⁾

l ⁽ⁿ⁾

P

k π =1 1 β _kπ +γ

(3.67)

und

T _S ⁽ⁿ⁾ (u ⁽ⁿ⁾ . . . N π )

^gemäÿ

∆T _S ⁽ⁿ⁾ (u ⁽ⁿ⁾ . . . N π ) = − ∆ ^nπ a ⁽ⁿ⁾

N π

P

k π =u ⁽ⁿ⁾ 1 β _kπ − γ

.

^(3.68)

Damitergibt sih zunähst aus der Bedingung (3.66)

T _S ⁽ⁿ⁾ (u ⁽ⁿ⁾ . . . N π ) + ∆T _S ⁽ⁿ⁾ (u ⁽ⁿ⁾ . . . N π ) = T _S ⁽ⁿ⁾ (1 . . . l ⁽ⁿ⁾ ) + ∆T _S ⁽ⁿ⁾ (1 . . . l ⁽ⁿ⁾ ).

^(3.69)

Einsetzen vonGleihung (3.67)und (3.68) in Gleihung (3.69)ergibt

∆ ^nπ a ⁽ⁿ⁾ = T _S ⁽ⁿ⁾ (u ⁽ⁿ⁾ . . . N _π ) − T _S ⁽ⁿ⁾ (1 . . . l ⁽ⁿ⁾ )

1 l (n)

P

kπ =1 1 βkπ +γ

+ _Nπ _P ¹

kπ=u (n) 1 βkπ −γ

.

^(3.70)

Falls von Gleihung (3.70) Bedingung (3.62) verletzt wird, so muss

∆ ^nπ a ⁽ⁿ⁾

stattdessen gewählt werden gemäÿ

∆ ^nπ a ⁽ⁿ⁾ = ∆T _S ⁽ⁿ⁾

max

·

N π

X

i π =u ⁽ⁿ⁾

1 β i π − γ .

^(3.71)

DamitistdieFalluntersheidungbeendet und ausdem Wert von

∆ ^nπ a ⁽ⁿ⁾

^können^die ^W^erte

der

∆ ^nπ a ⁽ⁿ⁾ _i _π _,j _π

^bestimmt^werden.

Damitdie

T _S ⁽ⁿ⁺¹⁾

^für^die Prozessorender Gruppe

1 . . . l ⁽ⁿ⁾

^und

u ⁽ⁿ⁾ . . . N π

^um ^den ^gleihen

Wert erhöht bzw. reduziert werden, müssen die insgesamt von der Gruppe der

Prozesso-ren

u ⁽ⁿ⁾ . . . N _π

^an^die^Gruppe

1 . . . l ⁽ⁿ⁾

abzugebende nTeilhenentsprehendverteiltwerden.

VondeninsgesamtvonderGruppederProzessoren

u ⁽ⁿ⁾ . . . N _π

abgegebenenTeilhenmuss daher ein Anteil von

∆ ^nπ a ⁽ⁿ⁾ _.,j _π

∆ ^nπ a ⁽ⁿ⁾

=

1 β _jπ − γ N π

P

k π =u ⁽ⁿ⁾ 1 β _kπ − γ

(3.72)

auf Prozessor

j _π

^aus ^dieser ^Gruppe ^entfallen, ^wobei

∆ ^nπ a ⁽ⁿ⁾ _.,j _π

^deniert ^ist ^als

∆ ^nπ a ⁽ⁿ⁾ _.,j _π :=

N π

X

k π =u ⁽ⁿ⁾

∆ ^nπ a ⁽ⁿ⁾ _k _π _,j _π ,

^(3.73)

alsoalsGesamtanzahlderTeilhen,dieProzessor

j π

^an^die^Gruppe^derProzessoren

1 . . . l ⁽ⁿ⁾

abgeben muss. Die

∆ ^nπ a ⁽ⁿ⁾ _.,j _π

^von ^Prozessor

j π

abgegebenen Teilhen sollen so auf die Pro-zessoren

1 . . . l ⁽ⁿ⁾

^verteilt ^werden, ^dass ^sie ^den ^Wert ^von

T _S ⁽ⁿ⁾

^für ^jeden ^dieserProzessoren um den gleihen Wert erhöhen. Es folgtdaher für einen Prozessor

i _π

^aus ^dieser ^Gruppe

∆ ^nπ a ⁽ⁿ⁾ _i _π _,j _π

∆ ^nπ a ⁽ⁿ⁾ _.,j _π

=

1 β _iπ +γ l P ⁽ⁿ⁾

k π =1 1 β _kπ +γ

.

^(3.74)

Somit ergeben sihdie gesuhten Werte der

∆ ^nπ a ⁽ⁿ⁾ _i _π _,j _π

^zu

∆ ^nπ a ⁽ⁿ⁾ _i _π _,j _π =

1 β _iπ +γ N π

P

k π =u ⁽ⁿ⁾ 1 β _kπ +γ

·

1 β _jπ − γ l ⁽ⁿ⁾

P

k π =1 1 β _kπ − γ

·∆ ^nπ a ⁽ⁿ⁾ ∀i π ∈ {1 . . . l ⁽ⁿ⁾ }, j π ∈ {u ⁽ⁿ⁾ . . . N π }.

^(3.75)

Aus Gleihung (3.53)ergibt sih weiterhin,dass

∆ ^nπ a ⁽ⁿ⁾ _j _π _,j _π = −

l ⁽ⁿ⁾

X

i π =1

∆ ^nπ a ⁽ⁿ⁾ _i _π _,j _π

^(3.76)

gelten muss. Die verbleibenden

∆ ^nπ a ⁽ⁿ⁾ _i _π _,j _π

^werden ^zu ^Null ^gesetzt. ^Damit ^ist ^der Iterations-shritt beendet. Abbildung3.9 illustriert den Ablaufdes Optimierungsverfahrens.

DasbeshriebeneVerfahrenführtzueiner OptimallösungfürdenFall

nπ a ⁽ⁿ⁾ _i _π _,j _π ∈ R

.Fürden Beweis dieser Behauptung seiauf Anhang D verwiesen.

Aus der Lösung des kontinuierlihen Optimierungsproblems muss nun eine gute

Approxi-mationandie Optimallösungdes diskretenOptimierungsproblemsbestimmtwerden.Dies

kann fürpraktisheZwekedadurh erfolgen,dassdie berehnetenkontinuierlihen Werte

wie folgt modiziert werden. Werden mit

nπ a i π ,j π

^nun ^wieder ^die ^diskreten ^Variablen

be-zeihnetundmit

nπ a ⁽ⁿ⁾ _i _π _,j _π ∈ R

dieWerte,diesihnahAbshlussdesOptimierungsverfahrens ergeben, sokann durh

nπ a _i _π _,j _π = ⌊ ^nπ a ⁽ⁿ⁾ _i _π _,j _π ⌋ ∀i π 6= j π

^(3.77)

nπ a _i _π _,i _π = s i π −

N π

X

j π = 1 j π 6= i π

nπ a _j _π _,i _π

^(3.78)

eine zulässige Lösung des diskreten Optimierungsproblems gefunden werden, welhe nah

ander berehneten Optimallösungliegt.

WirddasVerfahrenverwendet, umeine Neuverteilungder Teilhen vorzunehmen, so

exis-tiert bereits eine Zuordnung der Teilhen auf die Prozessoren, von der ausgehend der

berehnete Zustand erreiht werden muss. Daher ist nun aus den berehneten Werten

der

nπ a _i _π _,j _π

^zu ^bestimmen, ^für ^welhe ^T^eilhen ^die Prozessorzuordnung verändert werden muss. Bezeihne

nπ a _i

^alt

_π _,j _π

^die ^vorhandene^Zuordnung ^der ^T^eilhen^und

^nπ a _i

^neu

_π _,j _π

^die^gemäÿ^dem

Start

(3.58)oder

(3.59)oder

(3.60)erfüllt?

Ende

l ⁽ⁿ⁾ < u ⁽ⁿ⁾ − 1

wähle

∆ ^nπ a ⁽ⁿ⁾

gemäÿ(3.65)

wähle

∆ ^nπ a ⁽ⁿ⁾

gemäÿ(3.70)bzw.

(3.71)

berehne

nπ a ⁽ⁿ⁺¹⁾ _i _π _,j _π

gemäÿ(3.75)und

(3.76)

nπ a ⁽ⁿ⁺¹⁾ _i π ,j π = ^nπ a ⁽ⁿ⁾ _i π ,j π + ∆ ^nπ a ⁽ⁿ⁾ _i π ,j π

nein

Abbildung 3.9: Das oben stehende Ablaufdiagramm illustriert das in Abshnitt 3.4.3

be-shriebene Optimierungsverfahren.

Optimierungsverfahren berehnete neue Zuordnung der Teilhen, so ergibt sih eine

Än-derung gemäÿ

∆ ^nπ a _i _π _,j _π = ^nπ a _i

^neu

_π _,j _π − ^nπ a _i

^alt

_π _,j _π ,

^(3.79)

wobei ein negativer Wert von

∆ ^nπ a _i _π _,j _π

^ausdrükt, ^dass ^eine entsprehende Anzahl von Teilhen von Prozessor

i π

^an ^Prozessor

j π

^abgegeben ^werden ^muss. ^Ein ^positiver ^W^ert

zeigtan, dass die entsprehendeAnzahl anTeilhenvon

j π

^an

i π

^abgegeben^werden^muss.

N π

S

10 15 20 25 30 35 5

10 15 20 25 30 35

5 1 5 1 5

b b b

b b

b

b b b

b b

b

b b b

b b

b

b b b

b b

b

b b b

b b

b b b β/γ = 0, 5

b b β/γ = 2

b b β/γ = 4

b b β/γ = 8

b b β/γ = 50

N π

S

10 15 20 25 30 35 5

10 15 20 25 30 35

5 1 5 1 5

b b b b b

b b

b

b b b

b b

b

b b b

b b

b

b b b

b b

b

b b b

b b

b b b b β/γ = 0,5 b

b b β/γ = 2

b b β/γ = 4

b b β/γ = 8

b b β/γ = 50

N π

S

10 15 20 25 30 35 5

10 15 20 25 30 35

5 1 5 1 5

b b b b b b b b b b

b b b b b b b b

b b

b b b b b b

b b

b b b

b b

b

b b

b b b

b b

b b b b β/γ = 0, 5 b

b b β/γ = 2

b b β/γ = 4

b b β/γ = 8

b b β/γ = 50

(a) (b)

()

Abbildung 3.10: Speedup Werte für die Integration der Teilhentrajektorien vor und

nah Anwendung des in Abshnitt 3.4.3 beshriebenen Algorithmus für vershiedene Werte

von

β/γ

^,^wobei^es^sih^bei

β

^um^die^zur^Ausführung^der^TrajektorienberehnungproZeitshritt und pro Teilhen benötigte Laufzeit handelt und

γ

^die ^Laufzeit ^beshr^{eib t,} ^welhe ^zum

Aus-taush der Felddaten pro Zeitshrittund pro nihtlokalem Teilhen benötigt wird. Der ideale

Verlauf des Speedup ist gestrihelt eingezeihnet. (a) Die Teilhen sind über das komplette

Rehengebiet gleihmäÿigverteilt.(b)DieTeilhenkonzentrierensihin10%derGitterzellen

des Rehengebietes.()DieTeilhenkonzentrierensih in1%derZellendesRehengebietes.

Da sih die Teilhenverteilung von einem Zeitshritt zum nähsten nur langsam ändert

und sih damit auh die

s i π

tendenziell langsam ändern, wird das Optimierungsverfahren zu einer ähnlihen Zuordnung der Teilhen führen, wie siebereits vorliegt

nπ a _i

^neu

_π _,j _π ≈ ^nπ a _i

^alt

_π _,j _π ,

^(3.80)

so dass für die

∆ ^nπ a _i _π _,j _π

^und ^somit ^auh ^für

^LB T ˜ ^(m) _S

^kleine ^Werte ^zu ^erwarten ^sind.

Die Graphen in Abbildung 3.10 zeigen den zu erwartenden Speedup für die T

rajektori-enberehnung inklusive dem benötigten Datenaustaush, nahdem die Teilhen nahdem

oben beshriebene n Algorithmus den Prozessoren zugeordnet wurden. Die Werte wurden

über die in der Zielfunktion angenommenen Abhängigkeiten von

P T _S ^(m)

^und

^P T ˜ _S ^(m)

^für

untershiedlih stark lokalisierte Teilhenverteilungen bestimmt (siehe Gleihung (3.46)).

Die Gebietszerlegung wurde mit Hilfe einer RCB vorgenommen. Es zeigt sih, dass sih

die Skalierbarkeit vershlehte rt, je stärker sih die Teilhen in einem kleinen Teil des

Rehengebietes konzentrieren. Dieses Verhalten resultiert daraus, dass bei einer stark

lo-kalisierten Teilhenverteilung sehr viele Teilhen Felddaten aus einem kleinen Teil des

Rehengebietesbenötigen. DieseFelddaten sindeinigenwenigenodernureinemeinzelnen

Prozessor zugeordnet. Für diese Prozessoren entsteht ein Kommunikationshotspot, d.h.

dieseProzessoren müssen groÿeDatenmengensenden und empfangen, wasdie erreihbare

Performane vershlehte rt. Der Eekt wird umso gröÿer, je kleiner das Verhältnis der

beiden Gröÿen

β

^und

γ

^zueinander ^ist.

Im Dokument Entwicklung und Evaluierung von Parallelisierungsstrategien für Particle-In-Cell Simulationen auf Multicomputern (Seite 71-82)

3.4 Parallelisierung des PIC Algorithmus

3.4.3 Dynamishe T eilhenzuordnung

n (m) i

,p

P T ˜ S (m)

F T 0

LB T ˜ (m) S

T S (N π , P ) = M · F T 0 + X M m=1

max i π ∈ Π

n P T S (m) (i π , N π , P ) + P T ˜ S (m) (i π , N π , P ) o

.

M · F T 0

m

T S (m) (N π , P ) = max

i π ∈ Π

n P T S (m) (i π , N π , P ) + P T ˜ S (m) (i π , N π , P ) o

.

nπ a i π ,j π := X

i ∈I

X P p=1

π

a p,i π ·

a π i ,j π ·

n i ,p .

s i π := X

i ∈I

X P p=1

π

a i

,i π ·

n i

,p .

nπ a i π ,j π

i π

j π

s i π

i π

nπ a i π ,j π

s i π

π

a p,i π

nπ a i π ,j π

X P p=1

π

a p,i π = nπ a i π ,i π +

N π

X

j π = 1 j π 6= i π

nπ a i π ,j π ,

X

i ∈I

n i ,p = 1 ∀p ∈ {1 . . . P }

nπ a i π ,j π

T S (N π , P ) = max

i π ∈ Π

n β i π · nπ a i π ,i π + (β i π + γ) ·

N π

X

j π = 1 j π 6= i π

nπ a i π ,j π + γ ·

N π

X

j π = 1 j π 6= i π

nπ a j π ,i π

o ,

nπ a i π ,j π

N π

X

j π =1

nπ a j π ,i π = s i π ∀i π ∈ Π,

nπ a i π ,j π ≥ 0 ∀i π , j π ∈ Π.

nπ a i π ,j π ∈ R

nπ a i π ,j π

nπ a i π ,j π

β i π · s i π ≤ β j π · s j π ∀i π ≤ j π

nπ a i π ,j π

N π − 1

nπ a i π ,j π

n

n ^(m) _i

P T ˜ _S ^(m)

F T ₀

LB T ˜ ^(m) _S

T _S (N π , P ) = M · ^F T ₀ + X M m=1

n P T _S ^(m) (i π , N π , P ) + ^P T ˜ _S ^(m) (i π , N π , P ) o

M · ^F T ₀

T _S ^(m) (N π , P ) = max

n P T _S ^(m) (i π , N π , P ) + ^P T ˜ _S ^(m) (i π , N π , P ) o

nπ a _i _π _,j _π := X

a _p,i _π ·

a ^π i ,j π ·

a _i

n _i

nπ a _i _π _,j _π

j _π

s _i _π

a _p,i _π

nπ a _i _π _,j _π

a _p,i _π = ^nπ a _i _π _,i _π +

nπ a _i _π _,j _π ,

nπ a _i _π _,j _π

T _S (N π , P ) = max

n β i π · ^nπ a i π ,i π + (β i π + γ) ·

nπ a _i _π _,j _π

nπ a _j _π _,i _π = s _i _π ∀i _π ∈ Π,

nπ a _i _π _,j _π

nπ a _i _π _,j _π

β _i _π · s _i _π ≤ β _j _π · s _j _π ∀i _π ≤ j _π

nπ a _i _π _,j _π

nπ a ⁽ⁿ⁾ _i _π _,j _π

T _S ⁽ⁿ⁾ (i π )

nπ a ⁽ⁿ⁺¹⁾ _i _π _,j _π

^nπ a ⁽ⁿ⁾ _i _π _,j _π

∆ ^nπ a ⁽ⁿ⁾ _i _π _,j _π

nπ a ⁽ⁿ⁺¹⁾ _i _π _,j _π = ^nπ a ⁽ⁿ⁾ _i _π _,j _π + ∆ ^nπ a ⁽ⁿ⁾ _i _π _,j _π .

nπ a ⁽ⁿ⁾ _j _π _,i _π = s i π ∀i π ∈ Π, n ∈ N ,

nπ a ⁽ⁿ⁾ _i _π _,j _π ≥ 0 ∀i π , j π ∈ Π, n ∈ N

∆ ^nπ a ⁽ⁿ⁾ _j _π _,i _π = 0 ∀i π ∈ Π, n ∈ N

nπ a ⁽⁰⁾ _i _π _,j _π

nπ a ⁽⁰⁾ _i _π _,j _π =

T _S ⁽⁰⁾ (i π )

T _S ⁽⁰⁾ (i π ) = β i π · s i π .

l ⁽ⁿ⁾ , u ⁽ⁿ⁾ ∈ Π

T _S ⁽ⁿ⁾ (l ⁽ⁿ⁾ ) = T _S ⁽ⁿ⁾ (i π ) ∀i π ≤ l ⁽ⁿ⁾ ∧ . . .

T _S ⁽ⁿ⁾ (l ⁽ⁿ⁾ ) < T _S ⁽ⁿ⁾ (i π ) ∀i π > l ⁽ⁿ⁾

T S ⁽⁰⁾ (i π )

T _S ⁽ⁿ⁾ (u ⁽ⁿ⁾ ) = T _S ⁽ⁿ⁾ (i π ) ∀i π ≥ u ⁽ⁿ⁾ ∧ . . .

T _S ⁽ⁿ⁾ (u ⁽ⁿ⁾ ) > T _S ⁽ⁿ⁾ (i π ) ∀i π < u ⁽ⁿ⁾ .

l ⁽ⁿ⁾

u ⁽ⁿ⁾

T _S ⁽ⁿ⁾ (u ⁽ⁿ⁾ . . . N π )

u ⁽ⁿ⁾ . . . N π

1 . . . l ⁽ⁿ⁾

T _S ⁽ⁿ⁾ (i π ) = T _S ⁽ⁿ⁾ (j π ) ∀i π , j π ∈ Π

u ⁽ⁿ⁾ . . . N π

T _S ⁽ⁿ⁾ (i π ) = T _S ⁽ⁿ⁾ (j π ) ∀i π , j π ∈ Π

i π ≥ u ⁽ⁿ⁾

nπ a ⁽ⁿ⁾ _i _π _,i _π = 0

T S ⁽ⁿ⁾ (i π )

T S ⁽ⁿ⁾ (l ⁽ⁿ⁾ + 1) − T S ⁽ⁿ⁾ (l ⁽ⁿ⁾ )

T S ⁽ⁿ⁾ (u ⁽ⁿ⁾ ) − T S ⁽ⁿ⁾ (u ⁽ⁿ⁾ + 1)

u ⁽ⁿ⁾ l ⁽ⁿ⁾

i π ≥ u ⁽ⁿ⁾

i π ≤ l ⁽ⁿ⁾

T _S ⁽ⁿ⁾

i _π

∆ ^nπ a ⁽ⁿ⁾ _i _π _,j _π

u ⁽ⁿ⁾ . . . N π

1 . . . l ⁽ⁿ⁾

l ⁽ⁿ⁾

u ⁽ⁿ⁾

l ⁽ⁿ⁾ < u ⁽ⁿ⁾ − 1

∆ ^nπ a ⁽ⁿ⁾ _i _π _,j _π