• Keine Ergebnisse gefunden

Exponentieller Maßwechsel

3.3 Importance Sampling

3.3.5 Klassische Maßwechselstrategien

3.3.5.2 Exponentieller Maßwechsel

Eine M¨oglichkeit, varianzreduzierende Maßwechsel zu finden, basiert auf der Idee, die Klasse von Wahrscheinlichkeitsmaßen f¨ur das neue Maß einzuschr¨anken, und einen inner-halb dieser eingeschr¨ankten Klasse optimalen Maßwechsel zu finden. Die Einschr¨ankung besteht dabei darin, einen optimalen Maßwechsel innerhalb der selben parametrischen Fa-milie von Wahrscheinlichkeitsmaßen zu finden. Eine solche Methode ist der exponentielle Maßwechsel(Exponential Change of Measure, ECM; auch Exponential Twisting/Tilting),

und der optimale exponentielle Maßwechsel ist dann der, der den IS–Sch¨atzer mit klein-ster Varianz liefert. Urspr¨unglich motiviert ist der exponentielle Maßwechsel aus der Be-stimmung von Tail–Wahrscheinlichkeiten analog zu den ¨Uberlegungen, die zum Satz von Cram´er–Chernoff f¨uhren, und wir haben ihn bereits in 2.1 beim Beweis der unteren Schran-ke des Satzes von Cram´er Schran-kennengelernt. Er wurde erstmals f¨ur Importance–Sampling–

Simulationen von Siegmund [Sie76] vorgeschlagen und sp¨ater in zahlreichen Arbeiten, insbesondere auch f¨ur Warteschlangenmodelle, aufgegriffen. In den meisten Arbeiten, die eine erfolgreiche Anwendung von Importance Sampling auf Warteschlangenmodelle bein-halten, wird ein exponentieller Maßwechsel und die Theorie großer Abweichungen benutzt [CFM83, PW89, Fre89, BNS90, FLA91, Sad91, LN92, Tso92, Sad93, CHJS94, GK95, Man96, Man98, KN99a, FDL99].

Sei M die momenterzeugende Funktion einer eindimensionalen rellen Zufallsvariablen X mit Dichte f, also M(ϑ) =Ef[eϑX] mit ϑ ∈IR.Der exponentielle Maßwechsel ersetzt die Dichte f durch f mit

f(x) := 1

M(ϑ)eϑxf(x). (3.29)

Die Dichte f ist also vom Parameter ϑ abh¨angig. Wir wollen dies hier in der Notation nicht ausdr¨ucken, sondern immer von einem Twisting–Parameter ϑ ausgehen. F¨ur die momenterzeugende Funktion von X gem¨aß der Dichte f berechnet man

M(η) = Ef[eηX] =

Z

−∞

eηx 1

M(ϑ)eϑxf(x)dx= 1 M(ϑ)

Z

−∞

e(η+ϑ)xf(x)dx

= 1

M(ϑ)Ef[e(η+ϑ)X] = M(η+ϑ)

M(ϑ) . (3.30)

W¨ahlt man nun die Dichte f als IS–Dichte, so erh¨alt man den Likelihood–Quotienten L(x) = f(x)

f(x) = f(x)

1

M(ϑ)eϑxf(x) = M(ϑ)

eϑx =M(ϑ)e−ϑx. (3.31)

Beispiel 3.9 (Twisting der Exponentialverteilung) Sei X exponentiell verteilt mit Pa-rameter λ > 0, also f(x) =λe−λx. Wir kennen bereits aus Abschnitt 2.1 die momenter-zeugende Funktion, n¨amlich

M(ϑ) = ( λ

λ−ϑ, fallsϑ < λ, +∞, fallsϑ ≥λ.

Somit erhalten wir

M(η) = M(η+ϑ)

M(ϑ) =

λ λ−η−ϑ

λ λ−ϑ

= λ

λ−ϑ−η · λ−ϑ

λ = λ−ϑ

λ−ϑ−η. (3.32)

Dies ist gerade die momenterzeugende Funktion einer mit Parameter λ−ϑ exponentiell verteilten Zufallsvariablen. Der Likelihood–Quotient ist dabei

L(x) =M(ϑ)e−ϑx = λ

λ−ϑe−ϑx. (3.33)

In unserer Beschreibung der praktischen Durchf¨uhrung von Importance Sampling auf Seite 53 hatten wir heuristisch als IS–Dichte die Dichte einer mit Parameterµ < λ exponentiell verteilten Zufallsvariablen vorgeschlagen, also wie wir nun wissen, einen exponentiellen Maßwechsel mit µ=λ−ϑ, also mit Twisting–Parameter ϑ=λ−µ.

Als einige weitere Beispiele konkreter exponentieller Maßwechsel f¨ur bekannte Verteilun-gen erh¨alt man analog zu den BerechnunVerteilun-gen f¨ur die Exponentialverteilung unter anderem Γ(λ, β) Γ(λ−ϑ, β), N(µ, σ2) N(µ+ϑ, σ2), Geo(p) Geo(1−(1−p)eϑ).

Wir wollen nun die Technik des exponentiellen Maßwechsel auf Summen von Zufallsvaria-blen erweitern und zeigen, wie man f¨ur konkrete Problemstellungen daf¨ur gute IS–Sch¨atzer erhalten kann. Insbesondere erh¨alt man f¨ur einfache Warteschlangenmodelle h¨aufig genau dann einen asymptotisch optimalen IS–Sch¨atzer, wenn man einen exponentiellen Maß-wechsel mit bestimmten Nebenbedingungen durchf¨uhrt, wie wir sp¨ater sehen werden.

Seien X1, . . . , Xn unabh¨angige identisch verteilte eindimensionale reelle Zufallsvariablen und Sn :=X1+· · ·+Xn die Summe dieser Zufallsvariablen. Man erh¨alt die momenter-zeugende Funktion MSn der Summe aus der momenterzeugenden Funktion MX der Xi

mittels

MSn(ϑ) =E eϑSn

=E

eϑ(X1+···+Xn)

= E

eϑXn

= (MX(ϑ))n. (3.34) Analog zum Fall

”einfacher“ Zufallsvariablen wird die Dichte der Summe gem¨aß (3.29) ersetzt, und der exponentielle Maßwechsel f¨uhrt zu der momenterzeugenden Funktion

MSn(η) = MX(η)n=

MX(η+ϑ) MX(ϑ)

n

(3.35) f¨ur die Summe der Xi, und man erh¨alt den Likelihood–Quotienten

L(x1, . . . , xn) =MSn(ϑ)e−ϑsn =MX(ϑ)ne−ϑsn. (3.36)

Die besondere Bedeutung des exponentiellen Maßwechsels f¨ur einfache Warteschlangen-modelle erkl¨art sich daraus, daß viele der dort interessierenden Gr¨oßen als Summen von Zufallsvariablen dargestellt werden k¨onnen und der entsprechende stochastische Prozeß einen einfachen Random Walk darstellt. Wir wollen daher nun die Folge (Sn) als einen Random Walk mit Inkrementen Xi interpretieren, wobei µ = E[Xi] < 0 gilt, und die Wahrscheinlichkeit untersuchen, daß dieser Random Walk eine Schranke m > 0 ¨uber-schreitet. Sei τ(m) = infn>0[Sn > m] die Zeit des ersten ¨Uberschreitens (first passage time) der Schranke m. Dann beschreibt das Ereignis {τ(m)<∞}das ¨Uberschreiten der Schranke m, und die gesuchte Wahrscheinlichkeit ist

γ(m) =P{τ(m)<∞}.

F¨ur großem ist dies wegen µ < 0 ein seltenes Ereignis, und direkte Simulation ist nicht effektiv anwendbar. Somit ist also die Notwendigkeit der Anwendung von Importance Sampling gegeben. Daf¨ur ergibt sich der Likelihood–Quotient

L(x1, . . . , xτ(m)) = MX(ϑ)τ(m)e−ϑsτ(m)

= eτ(m) lnMX(ϑ)e−ϑsτ(m)

= e−ϑSτ(m)+τ(m) lnMX(ϑ)

= e−ϑme−ϑSτ(m)+ϑm+τ(m) lnMX(ϑ)

= e−ϑme−ϑ(sτ(m)−m)+τ(m) lnMX(ϑ).

Es stellt sich nun die Frage, mit welchem Parameter der exponentielle Maßwechsel durch-gef¨uhrt werden sollte, um einen IS–Sch¨atzer mit deutlich geringerer Varianz zu erhalten.

F¨ur unsere Situation des einfachen Random Walks ist der in diesem Fall eindeutig be-stimmte asymptotisch optimale Maßwechsel bekannt. Es gilt

Satz 3.4 Ein IS–Sch¨atzer f¨ur die Wahrscheinlichkeit γ(m) ist genau dann asymptotisch optimal, wenn er nach dem exponentiellen Maßwechsel mit Twisting–Parameter ϑ > 0 gebildet wird mit

MX) = 1, lnMX) = 0. (3.37)

Wir wollen nun vorf¨uhren, daß obige Bedingung (3.37) hinreichend f¨ur asymptotische Optimalit¨at des IS–Sch¨atzer f¨ur die Wahrscheinlichkeit γ(m) ist.

Sei ϑ so, daßMX) = 1. Dann gilt

L(x1, . . . , xτ(m)) = e−ϑme−ϑ(sτ(m)−m), L2(x1, . . . , xτ(m)) = e−2ϑme−2ϑ(sτ(m)−m).

Damit folgt f¨ur die durch den Likelihood–Quotienten bestimmte ZufallsvariableLτ(m) das zweite Moment

E L2τ(m)

= E

e−2ϑme−2ϑ(Sτ(m)−m)

= e−2ϑmE

e−2ϑ(Sτ(m)−m) .

Es ist zudem bekannt, daß limm→∞γ(m) =ce−ϑm mitc= limm→∞E

e−ϑ(Sτ(m)−m) gilt.

Somit erhalten wir

m→∞lim

lnE[I{τ(m)<∞}L2τ(m)]

lnγ(m) = lim

m→∞

ln(e−2ϑmE

e−2ϑ(Sτ(m)−m) ) lnγ(m)

= lim

m→∞

−2ϑm+ lnE

e−2ϑ(Sτ(m)−m) ) lnγ(m)

= −2ϑm+ lnc2 ln(ce−ϑm)

= −2ϑm+ 2 lnc lnc−ϑm = 2.

Dies ist gerade die Definition der asymptotischen Optimalit¨at, und es ist damit gezeigt, daß obige Bedingung hinreichend daf¨ur ist. Ebenso l¨aßt sich zeigen, daß die Bedingung auch notwendig ist. Den Beweis, daßϑ einen eindeutig bestimmten asymptotisch optima-len exponentieloptima-len Maßwechsel liefert, f¨uhrte bereits Siegmund [Sie76]. In [LN92] wurde bewiesen, daß dies der eindeutig bestimmte asymptotisch optimale Maßwechsel innerhalb der Klasse aller Verteilungen mit unabh¨angigen identisch verteilten Inkrementen ist. Dies bedeutet, daß die Bedingung (3.37) auch notwendig ist.

Wir demonstrieren nun, wie die Ergebnisse f¨ur Random Walks direkt auf elementare War-teschlangenmodelle angewandt werden k¨onnen. Diese Anwendung basiert auf der Tatsa-che, daß die station¨are Wartezeit in einem stabilen G/G/1–Modell die gleiche Verteilung hat, wie ein Random Walk mit negativem Drift, also mit unabh¨angigen Inkrementen, deren Erwartungswert negativ ist. Seien (An),(Bn) unabh¨angige Folgen unabh¨angiger identisch verteilter Zufallsvariablen, die jeweils wie eine Zufallsvariable A bzw.B verteilt sind mitE[B]< E[A]. Mit A und B werden die Zwischenankunfts– und Bedienzeiten in einemG/G/1–Modell beschrieben. Die momenterzeugende Funktion der DifferenzB−A ist gegeben durch

MB−A(ϑ) =MB(ϑ)M−A(ϑ) =MB(ϑ)MA(−ϑ).

Der exponentielle Maßwechsel f¨uhrt zu MB−A (η) = MB(η+ϑ)MA(−η−ϑ)

MB(ϑ)MA(−ϑ) =MB(η)M−A (η).

Mit Bedingung (3.37) erh¨alt man daraus Gleichungen f¨ur den asymptotisch optimalen Maßwechsel.

Beispiel 3.10 (M/M/1–Modell) Gegeben sei ein M/M/1–Warteschlangenmodell mit exp(λ)–verteilten Zwischenankunftszeiten und exp(µ)–verteilten Bedienzeiten. Beschrei-ben die Zufallsvariable A die Zwischenankunftszeiten und die Zufallsvariable B die Be-dienzeiten, so f¨uhrt (3.37) zu

MB)M−A) = µ

µ−ϑ · λ λ+ϑ

= 1.!

Daraus berechnet man den Parameter ϑ f¨ur den exponentiellen Maßwechsel:

µλ= (µ−ϑ)(λ+ϑ) =µλ+µϑ−λϑ−ϑ2 (3.38)

⇔ ϑ2 + (λ−µ)ϑ = 0 (3.39)

⇔ ϑ =µ−λ. (3.40)

Damit ergibt sich also unter dem asymptotisch optimalen Maßwechsel eine Vertauschung der Parameter von Zwischenankunfts– und Bedienzeitverteilung.

Leider ist die Anwendbarkeit obiger Ergebnisse stark eingeschr¨ankt. Die einzigen Warte-schlangenmodelle neben dem M/M/1–Modell, f¨ur die man die aus der Bedingung (3.37) resultierende Gleichung explizit l¨osen kann, sind die Modelle M/E2/1 und E2/M/1.

Hierf¨ur f¨uhrt (3.37) jeweils auf eine quadratische Gleichung. F¨ur alle anderen Modelle existiert keine explizite L¨osung. Wir wollen dies kurz anhand zweier Modelle verdeutli-chen.

Beispiel 3.11 (M/D/1–Modell) Hierbei ist B degeniert, wir nehmen der Einfachheit halber OBdA an, an der Stelle 1, und A ist exponentiell verteilt mit Parameter λ < 1.

Man sieht leicht, daß (3.37) dann ¨aquivalent ist zu MB)M−A) = eϑ · λ

λ+ϑ = 1,

einer transzendenten Gleichung ohne explizite L¨osung, die daher numerisch gel¨ost werden muß.

Beispiel 3.12 (D/M/1–Modell) Hierbei ist A degeniert, wieder OBdA an der Stelle 1, und B ist exponentiell verteilt mit Parameter µ >1.Dann ist (3.37) ¨aquivalent zu

MB)M−A) = µ

µ−ϑ ·e−ϑ = 1, einer weiteren transzendenten Gleichung.

Bei der pr¨asentierten Anwendung des exponentiellen Maßwechsels wird der Zusammen-hang zwischen der Wartezeitverteilung in elementaren Warteschlangenmodellen und des

Uberschreitens einer Schranke in Random Walks ausgenutzt. Dieser Zusammenhang be-¨ steht jedoch in allgemeineren Modellen, wie etwa in Modellen mit mehreren Bedie-nern oder beschr¨ankten Kapazit¨aten und in Warteschlangennetzen, nicht. Daher ist es w¨unschenswert, Techniken des exponentiellen Maßwechsels direkt auf Warteschlangen-prozesse anzuwenden, etwa unter Einbeziehung der Theorie großer Abweichungen.

Tats¨achlich haben Parekh und Walrand [PW89] auf diesem Wege heuristisch mit dem Satz von Cram´er argumentiert, daß obiger asymptotisch optimaler Maßwechsel f¨ur G/G/1–

Modelle auch asymptotisch optimal ist zur Bestimmung der mittleren Zeit, bis eine Warte-schlange einen vorgegebenen F¨ullstand erreicht, ebenso f¨ur die Wahrscheinlichkeit, daß ein vorgegebener F¨ullstand erreicht wird und die Wahrscheinlichkeit, daß eine Warteschlange oder ein Puffer beschr¨ankter Kapazit¨at ¨uberl¨auft. F¨ur das M/M/1–Modell wird dies be-reits in [CFM83] mit Hilfe Markovscher Random Walks bewiesen. Einen formalen Beweis f¨urG/G/1–Modelle liefert Sadowsky [Sad91]. Er beweist zudem, daß f¨urG/G/1–Modelle der exponentielle Maßwechsel mit Parameter ϑ der eindeutig bestimmte exponentiel-le Maßwechsel innerhalb alexponentiel-ler Simulationen mit unabh¨angigen und identisch verteilten Zwischenankunfts– und Bedienzeiten ist, also ein analoges Ergebnis zum Fall des Ran-dom Walks. In [Sad93] werden dar¨uberhinaus Resultate f¨ur h¨ohere Momente der Sch¨atzer bewiesen. Weiteres zur Effizienz des exponentiellen Maßwechsels f¨ur elementare Warte-schlangenmodelle, insbesondere zur Robustheit, wenn der Twisting–Parameter vonϑ ab-weicht, diskutieren Asmussen und Rubinstein [AR95] und findet sich auch in [RM98]. So wird dort empirisch gezeigt, daß Abweichungen von bis zu 20% vom optimalen Parameter meist immer noch sehr gute Ergebnisse in Form von erheblicher Varianzreduktion liefern.

In [CHJS94] wird ein asymptotisch optimaler Maßwechsel f¨ur Puffer¨ uberlaufwahrschein-lichkeiten in Warteschlangenmodellen, deren Ankunftsprozeß Markov–moduliert oder au-toregressiv ist, ¨uber die Theorie großer Abweichungen und effektive Bandbreiten hergelei-tet. Mandjes [Man96] beschreibt asymptotisch optimale Maßwechsel f¨ur elementare War-teschlangensysteme mit Gruppenank¨unften (batch arrivals). Kroese und Nicola [KN99a]

bestimmen den optimalen exponentiellen Maßwechsel f¨ur Warteschlangenmodelle mit Be-dienerausf¨allen (server breakdowns), die gem¨aß einer stetigen Markovkette auftreten, und pr¨asentieren empirische Untersuchungen zur G¨ute dieses Maßwechsels f¨ur ¨ Uberlaufwahr-scheinlichkeiten.

Wir haben gesehen, daß f¨ur sehr einfache Warteschlangensysteme der exponentielle Maß-wechsel, der sehr eng verkn¨upft ist mit der Theorie großer Abweichungen, h¨aufig gute Ergebnisse im Sinne asymptotisch optimaler IS–Sch¨atzer liefert. Eine Verallgemeinerung auf allgemeinere (gr¨oßere) Systeme ist jedoch bisher nicht gelungen. Ebensowenig existie-ren f¨ur komplexere Modelle Bedingungen, unter denen der optimale exponentielle Maß-wechsel in einem allgemeineren Sinne optimal ist, also etwa einen asymptotisch optimalen Maßwechsel darstellt. Ein weiterer Nachteil des exponentiellen Maßwechsels neben der Schwierigkeit, einen optimalen exponentiellen Maßwechsel zu finden, besteht also darin, daß selbst bei L¨osung dieses Problems keine Garantie f¨ur asymptotische Effizienz besteht,

da keine allgemeinen Bedingungen bekannt sind, wann ein optimaler exponentieller Maß-wechsel asymptotisch optimal ist. Somit l¨aßt sich sagen, daß dieser Ansatz f¨ur Modelle im Bereich von Computer– und Kommunikationssystemen nach heutigem Stand der For-schung nur schwer auf komplexe Modelle anwendbar ist. Ein Vorteil des Ansatzes ¨uber exponentielle Maßwechsel unter Einbeziehung der Theorie großer Abweichungen besteht sicherlich darin, daß dieser Ansatz im Prinzip sehr allgemein ist und eine fortgeschrittene (aber schwierige) mathematische Theorie zur Verf¨ugung steht. Daher besteht die Hoff-nung, daß weitere Fortschritte im Rahmen der Theorie großer Abweichungen direkt eine Anwendbarkeit auf komplexere Modelle bedeuten. F¨ur realistische Modelle f¨uhrt dieser Ansatz jedoch oft auf komplexe Variationsprobleme, deren Formulierung h¨aufig schon schwierig bzw. unm¨oglich ist, und die keine explizite L¨osung besitzen. Daher m¨ussen auch hier h¨aufig viele heuristische Annahmen gemacht werden.

So haben Parekh und Walrand [PW89] eine Verallgemeinerung des asymptotisch opti-malen Maßwechsels f¨urM/M/1–Modelle auf Markovsche Tandemsysteme vorgeschlagen.

Dabei werden die Parameter der Zwischenankunftszeit und des langsamsten Bedieners vertauscht, und alle anderen Bedienzeitverteilungen bleiben unver¨andert. Jedoch haben Glasserman und Kou [GK95] gezeigt, daß selbst f¨ur Markovsche Tandemsysteme aus nur zwei Bedienern dieser Maßwechsel in gewissen Parameterregionen zu IS–Sch¨atzern mit unendlicher Varianz f¨uhrt. Insgesamt l¨aßt sich sagen, daß dies f¨ur Tandemnetze nur dann effizient ist, wenn der F¨ullstand des Systems signifikant von einer Warteschlange, der sogenannten bottleneck queue dominiert wird. Ebenso ist f¨ur allgemeinere Jackson–

Netze erforderlich, daß die Leistung im wesentlichen durch eine einzelne Station bestimmt wird. Auch in [CHJS94] werden die Ergebnisse f¨ur Warteschlangenmodelle mit Markov–

modulierten und autoregressiven Ankunftsprozessen erweitert, und zwar auf Netze, deren Knoten baumartig strukturiert sind, wobei Ank¨unfte an den Bl¨attern erfolgen (intree networks). Dazu werden Beispiele gegeben, in denen wesentliche Varianzreduktionen be-obachtet wurden. In [Man98] wird die asymptotische Optimalit¨at f¨ur Tandemnetze mit zwei Knoten und Markov–modulierten Ank¨unften bewiesen. Eine Variante des Ansatzes f¨ur weitere Netztopologien schlagen [FDL99] vor.

Alle genannten Erweiterungen beziehen sich, wie auch f¨ur das M/M/1–Modell, auf Uberlauf– oder Verlustwahrscheinlichkeiten innerhalb einer Arbeitsphase (busy period)¨ des zu untersuchenden Systems. Dies ist jedoch kein spezielles Ph¨anomen beim exponen-tiellen Maßwechsel. Vielmehr konzentriert sich die Forschung zur Herleitung effizienter Maßwechsel insgesamt fast ausschließlich auf die Untersuchung solcher Leistungsmaße der Form, daß ein seltenes Ereignis w¨ahrend einer Arbeitsphase auftritt. Dies erleichtert die Simulation erheblich, da die allgemeine Funktion g dann immer die Indikatorfunktion dieses Ereignisses ist und nicht etwa die Summe von Indikatorfunktionen oder noch all-gemeiner. Das seltene Ereignis dient dann als ein terminierendes Ereignis der Simulation, und ein Simulationslauf endet, wenn das seltene Ereignis eintritt oder ein gegebener An-fangszustand wie das leere System bzw. der Zustand nach Eintritt des ersten Kunden in

das System wieder erreicht wird. Auch f¨ur Markovmodelle konzentriert sich die Forschung bis auf wenige Ausnahmen auf diese Leistungsmaße, was auch dort erhebliche Vereinfa-chungen zur Folge hat, wie wir in Kapitel 4 genauer sehen werden. Es liegt auf der Hand, daß, wenn selbst f¨ur die deutlich einfacher zu handhabenden Arbeitsphasen keine allge-meinen Maßwechselstrategien bekannt sind, dies auch f¨ur allgemeinere Leistungsmaße und insbesondere f¨ur Leistungsmaße ¨uber endlichem Horizont und f¨ur allgemeine station¨are Leistungmaße, auch station¨are Wahrscheinlichkeiten, gilt.