• Keine Ergebnisse gefunden

3.3 Importance Sampling

3.3.4 Effizienzkriterien

Indikatorfunktionen aufgrunddessen, daßγeine Wahrscheinlichkeit ist, zumindest Schran-ken f¨ur die Likelihood–Quotienten vorgibt. Wir wollen nun kl¨aren und formalisieren, was unter einem guten Maßwechsel zu verstehen ist und welche Eigenschaften f¨ur IS–Sch¨atzer erstrebenswert sind.

Die zu sch¨atzende Gr¨oße γ h¨ange nun von einem Seltenheitsparameter m ab, so, daß je gr¨oßer m, desto kleiner γ, also γ =γ(m) mit

m→∞lim γ(m) = 0. (3.20)

Mit dieser Parametrisierung gilt f¨ur den relativen Fehler des IS-Sch¨atzers f¨ur γ(m) δrel(ˆγIS(m)) =

pEf[g(X)2L(X)2]−γ(m)2 γ(m)√

N .

Formaler ausgedr¨uckt betrachtet man also eine monoton fallende Folge (γ(m)), etwa f¨ur die Wahrscheinlichkeit von Ereignissen eine Familie von Ereignissen Am mit Wahr-scheinlichkeiten γ(m) = P{Am} = E[IAm] und m1 ≤ m2 ⇒ γ(m1) ≥ γ(m2) sowie der Eigenschaft (3.20). Dazu ist eine Familie von IS-Sch¨atzern ˆγIS(m) definiert, so daß Ef[ˆγIS(m)] = γ(m) gilt, wobei die IS–Dichtef auch vonmabh¨angen kann, in der Regel aber f¨ur alle m gleich ist.

Definition 3.3 (Beschr¨ankter relativer Fehler) Existiert eine Konstante c >0, und gilt mit obigen Bezeichnungen

m→∞lim δrel(ˆγIS(m))≤c <∞, (3.21)

dann hat die Familie ˆγIS(m) von Sch¨atzern oder k¨urzer der Sch¨atzer ˆγIS beschr¨ankten relativen Fehler.

Man sieht leicht, daß f¨ur Sch¨atzer mit beschr¨anktem relativen Fehler der Aufwand zur Bestimmung eines Konfidenzintervalls f¨urγ(m) mit vorgegebener relativen halben Breite unabh¨angig von der Gr¨oße von γ(m) beschr¨ankt ist.

Es wird oft auch derart parametrisiert, daß die zu sch¨atzende Gr¨oße mit gegen Null konvergierendem Seltenheitsparameter ebenfalls gegen Null konvergiert. Wir haben obige Form gew¨ahlt, um zu den Notationen der Theorie großer Abweichungen konsistent zu sein. Es ist aber klar, daß beide Definitionsm¨oglichkeiten ¨aquivalent sind, da man einfach alternativ den Kehrwert des Seltenheitsparameters verwenden kann.

Beispiel 3.6 Gegeben seien Ereignisse A1, A2, . . .mit Am+1 ⊆Am, also mit Wahrschein-lichkeiten P{Am+1} ≤ P{Am}. Ein solches Ereignis Am k¨onnte etwa der ¨Uberlauf eines Puffers der Gr¨oße m sein. Sei γ(m) :=P{Am}. Dann ist γ(m) die Wahrscheinlichkeit f¨ur den ¨Uberlauf eines Puffers der Gr¨oßem oder die Wahrscheinlichkeit f¨ur den Verlust eines Auftrags, also etwa in ATM–Netzen die kritische Paketverlustwahrscheinlichkeit in einem Switch.

Beispiel 3.7 Betrachte ein fehlertolerantes System mit Redundanzen, wobei Kompo-nenten mit einer kleinen Fehlerrate λ ausfallen k¨onnen. Der Systemfehler tritt ein, wenn

eine gewisse Anzahl K der Komponenten ausgefallen ist. Ist die Fehlerrate fest gew¨ahlt, so ist die Anzahl der Komponenten unser Seltenheitsparameter nach obiger Definition, also m = K. Ist dagegen die Anzahl der Komponenten, die ausfallen m¨ussen, um einen Systemfehler hervorzurufen, fest gew¨ahlt, so konvergiert die Wahrscheinlichkeit f¨ur einen Systemausfall gegen Null, wenn die Fehlerrate f¨ur die einzelnen Komponenten gegen Null konvergiert. Als Seltenheitsparameter nach obiger Definition ergibt sich dann m = λ−1 oder eine Parametrisierung der Fehlerrate mit einem = m−1, so, daß λ() → 0 f¨ur → 0 bzw. m → ∞. Eine nat¨urliche Erweiterung besteht darin, verschiedene Kompo-nententypen mit verschiedenen Fehlerraten zu betrachten. Eine ¨ubliche Parametrisierung ist dabei die Darstellung der Fehlerrate einer Komponente vom Typ i durch λi() =ciri mit Konstantenci, ri.Die Wahrscheinlichkeit des Systemfehlers h¨angt dann ebenfalls von ab und paßt in den beschriebenen Rahmen.

Ein, wie wir sp¨ater sehen werden, schw¨acheres aber dennoch im Vergleich zur Standard-simulation seltener Ereignisse erstrebenswertes Kriterium ist asymptotische Optimalit¨at oder asymptotische Effizienz. Da Varianzen nichtnegativ sind, folgt aus der Varianz des IS-Sch¨atzers (3.12)

Ef[g(X)2L(X)2]≥γ(m)2, also

lnEf[g(X)2L(X)2]≥2 lnγ(m).

Da lnγ(m)<0 gilt∗∗, folgt lnEf[g(X)2L(X)2]

lnγ(m) ≤2.

Definition 3.4 (Asymptotische Optimalit¨at/Effizienz) Gilt mit obigen Bezeichnungen

m→∞lim

lnEf[g(X)2L(X)2]

lnγ(m) = 2, (3.22)

so nennt man die Familie ˆγIS(m) von Sch¨atzern oder k¨urzer ˆγIS asymptotisch optimal oder asymptotisch effizient und den Wechsel vonf nach f asymptotisch optimalen Maß-wechsel.

∗∗Dies ist f¨ur Wahrscheinlichkeiten klar. Importance Sampling kann allgemeiner auf Erwartungswerte γ = E[g(X)] angewendet werden. Die Definitionen des beschr¨ankten relativen Fehlers und der asym-ptotischen Optimalit¨at gehen dabei von Gr¨oßen aus, die mit einem Seltenheitsparameter gegen Null konvergieren. Somit ist f¨ur hinreichend großen Seltenheitsparameter garantiert, daßγ(m)<1 gilt. Aber auch ohne diese Voraussetzung sind die weiteren Ausf¨uhrungen korrekt, es dreht sich an entsprechender Stelle jeweils das Ungleichheitszeichen herum, die Grenzwertbildung und die Argumentationen werden davon nicht beeinflußt.

Beispiel 3.8 Es konvergiere γ(m) exponentiell schnell gegen Null mitγ(m) =e−d·m f¨ur ein d >1.Dann folgt lnγ(m) =−d·m und

lnEf[g(X)2L(X)2]

lnγ(m) = lnEf[g(X)2L(X)2]

−dm ≤2

⇔ 1

mlnEf[g(X)2L(X)2]≥ −2d.

Gilt

m→∞lim 1

mlnEf[g(X)2L(X)2] =−2d, so liegt asymptotische Effizienz vor.

Beschr¨ankte relative Fehler und asymptotische Optimalit¨at sind h¨aufig verwendete Ef-fizienzkriterien. Der Zusammenhang wird allerdings in der Literatur nicht oder nur un-zureichend behandelt. Dies mag daran liegen, daß im allgemeinen beschr¨ankte relative Fehler im Bereich der Zuverl¨assigkeitsmodelle und asymptotische Optimalit¨at im Bereich der Warteschlangenmodelle und einigen weiteren Anwendungsfeldern auftreten, wobei der Begriff asymptotischer Optimalit¨at seit relativ langer Zeit gebr¨auchlich ist, siehe etwa [Sie76], w¨ahrend der Begriff oder das Kriterium des beschr¨ankten relativen Fehlers erst in [Sha90] eingef¨uhrt wurde. In Arbeiten, die beide Kriterien zumindest erw¨ahnen, ist daher auch typischerweise die Rede von einem Kriterium f¨ur Zuverl¨assigkeitsmodelle und einem Kriterium f¨ur Warteschlangenmodelle. Mehrfach tritt dabei die Redewendung

” so-mewhat weaker“ f¨ur asymptotische Optimalit¨at auf. Es scheint also prinzipiell Einigkeit darin zu bestehen, daß asymptotische Optimalit¨at eine schw¨achere Eigenschaft ist, wie wir auch selbst bei der ¨Uberleitung zwischen beiden Definitionen behauptet haben. Er-staunlicherweise existieren jedoch keine klaren formalen eindeutigen Aussagen dazu, in welchem Sinne dies gilt.

Wir werden im folgenden den Zusammenhang der beiden Kriterien n¨aher untersuchen und dabei insbesondere zun¨achst den Beweis liefern, daß asymptotische Optimalit¨at in strengem Sinne schw¨acher ist als die Eigenschaft des beschr¨ankten relativen Fehlers, also daß ein beschr¨ankter relativer Fehler asymptotische Optimalit¨at impliziert und die Um-kehrung nicht gilt. Weiterhin geben wir Bedingungen f¨ur asymptotische Optimalit¨at in F¨allen, in denen der relative Fehler unbeschr¨ankt ist. Dies f¨uhrt zu einer neuen Charakte-risierung asymptotischer Optimalit¨at ¨uber das Verh¨altnis der Gr¨oßenordnungen des rela-tiven Fehlers und der gesuchten Gr¨oße, wobei die in der Informatik gel¨aufige o–Notation verwendet wird. Die folgenden Ergebnisse dieses Abschnitts sind auch in unserer Arbeit [San04] enthalten.

Satz 3.1 Jeder Importance–Sampling–Sch¨atzer mit beschr¨anktem relativen Fehler ist asymptotisch optimal.

Beweis Sei ˆγIS(m) Importance–Sampling–Sch¨atzer mit beschr¨anktem relativen Fehler.

Dann gilt f¨ur alle m≥0 : δrel(ˆγIS(m))≤c. Wir berechnen nun pEf[g(X)2L(X)2]−γ(m)2

γ(m)√

N ≤ c,

Ef[g(X)2L(X)2]−γ(m)2

γ(m)2 ≤ c2N,

Ef[g(X)2L(X)2]

γ(m)2 −1 ≤ c2N,

Ef[g(X)2L(X)2] ≤ γ(m)2 1 +c2N , lnEf[g(X)2L(X)2] ≤ 2 lnγ(m) + ln 1 +c2N

, lnEf[g(X)2L(X)2]

lnγ(m) ≥ 2 + ln (1 +c2N) lnγ(m) . Wegen limm→∞γ(m) = 0 gilt

m→∞lim

ln (1 +c2N) lnγ(m) = 0 und damit

m→∞lim

lnEf[g(X)2L(X)2]

lnγ(m) ≥2 + lim

m→∞

ln (1 +c2N) lnγ(m) = 2.

Wegen

lnEf[g(X)2L(X)2]

lnγ(m) ≤2

folgt also

m→∞lim

lnEf[g(X)2L(X)2]

γ(m) = 2

Als N¨achstes zeigen wir, daß die Umkehrung des Satzes nicht gilt, also

Satz 3.2Es existieren asymptotisch optimale Importance–Sampling–Sch¨atzer, die keinen beschr¨ankten relativen Fehler haben.

Beweis Wir betrachten die Situation des vorangegangenen Beispiels, also eine mit dem Seltenheitsparameter exponentiell schnell gegen Null konvergierende Wahrscheinlichkeit

γ(m) =e−dm, d >1. Hierf¨ur sei ein IS-Sch¨atzer mit polynomiell gegen unendlich konver-gierendem relativen Fehler gegeben, also

pEf[g(X)2L(X)2]−γ(m)2 γ(m)√

N ≤mk, k > 1.

Damit folgt

pEf[g(X)2L(X)2]−γ(m)2 γ(m)√

N =

pEf[g(X)2L(X)2]−e−2dm e−dm

N ≤ mk,

Ef[g(X)2L(X)2]−e−2dm

e−dmN ≤ m2k,

Ef[g(X)2L(X)2] ≤ e−2dmN m2k+e−2dm = e−2dm N m2k+ 1 , lnEf[g(X)2L(X)2] ≤ −2dm+ ln N m2k+ 1

, 1

mlnEf[g(X)2L(X)2] ≤ −2d+ 1

mln N m2k+ 1 und mit

1

mlnEf[g(X)2L(X)2] =−2d folgt

m→∞lim 1

mlnEf[g(X)2L(X)2] =−2d, also ist der IS–Sch¨atzer asymptotisch optimal

Wir untersuchen nun genauer, in welchen F¨allen IS–Sch¨atzer mit nicht beschr¨anktem relativen Fehler asymptotisch optimal sind. Genauer gesagt geben wir Bedingungen f¨ur den relativen Fehler und die gesuchte Gr¨oße, unter denen ein IS–Sch¨atzer asymptotisch optimal ist. Bereits aus der im obigen Beweis verwendeten Situation einer beliebigen exponentiell schnell gegen Null konvergierenden Wahrscheinlichkeit und eines beliebigen IS–Sch¨atzers mit polynomiell gegen unendlich konvergierendem relativen Fehler erhalten wir

Korollar 3.2 Konvergiert die Wahrscheinlichkeit γ(m) f¨urm→ ∞ exponentiell schnell gegen Null und hat ein Importance–Sampling–Sch¨atzer polynomiell gegen unendlich kon-vergierenden relativen Fehler, so ist dieser Sch¨atzer asymptotisch optimal.

Es liegt nun nahe, zu untersuchen, inwieweit sich die Aussage des Korollars verallgemei-nern l¨aßt. Wir sind daran interessiert, einen allgemeinen Zusammenhang zwischen den

Gr¨oßenordnungen der zu bestimmenden Gr¨oße und des relativen Fehlers des IS–Sch¨atzers mit asymptotischer Optimalit¨at herzustellen. Dazu vergleichen wir die Konvergenzge-schwindigkeiten vonγ(m) undδrel(ˆγIS(m)),um ein Kriterium und eine Charakterisierung von asymptotischer Optimalit¨at herzuleiten, so, daß diese Charakterisierung ausschließ-lich auf dem Verh¨altnis der Konvergenzgeschwindigkeiten beruht. Informell k¨onnen wir unsere Charakterisierung damit beschreiben, daß die zu bestimmende Gr¨oße schneller ge-gen Null konvergiert als der relative Fehler des korrespondierenden IS–Sch¨atzers gege-gen unendlich. Formal beschreiben wir dies im

Satz 3.3 Ein Importance–Sampling–Sch¨atzer f¨ur γ(m) ist asymptotisch optimal, wenn der relative Fehler in o

1 γ(m)

ist.

Beweis

δrel(ˆγIS(m)) =o 1

γ(m)

, also

∀c >0 ∃m0 >0 :δrel(ˆγIS(m))≤ c

γ(m) f¨ur alle m≥m0.

Informell bedeutet dies gerade, daßγ(m) schneller gegen 0 konvergiert alsδ(m) gegen∞. Es gilt insbesondere

m→∞lim

δrel(ˆγIS(m))

1 γ(m)

= lim

m→∞δrel(ˆγIS(m))γ(m) = 0.

Im folgenden sei m≥m0.Wir berechnen pEf[g(X)2L(X)2]−γ(m)2

γ(m)√

N ≤ c

γ(m), (3.23)

Ef[g(X)2L(X)2]−γ(m)2

γ(m)2 ≤ c2N

γ(m)2, (3.24)

Ef[g(X)2L(X)2]

γ(m)2 −1 ≤ c2N

γ(m)2, (3.25)

Ef[g(X)2L(X)2] ≤ γ(m)2

1 + c2N γ(m)2

, (3.26)

lnEf[g(X)2L(X)2] ≤ 2 lnγ(m) + ln

1 + c2N γ(m)2

, (3.27)

lnEf[g(X)2L(X)2]

lnγ(m) ≥ 2 +

ln

1 + γ(m)c2N2

lnγ(m) . (3.28)

Im Bruch auf der rechten Seite konvergiert f¨ur m → ∞ der Z¨ahler gegen 0, der Nenner gegen −∞,der gesamte Bruch also gegen 0. Damit gilt also

m→∞lim

lnEf[g(X)2L(X)2] lnγ(m) ≥2.

Wegen der bekannten Beziehung

m→∞lim

lnEf[g(X)2L(X)2]

lnγ(m) ≤2

gilt

m→∞lim

lnEf[g(X)2L(X)2]

lnγ(m) = 2

Nach der Untersuchung des Zusammenhangs der Gr¨oßenordnungen des relativen Fehlers und der zu bestimmenden Gr¨oße mit dem Kriterium der asymptotischen Optimalit¨at und der daraus resultierenden Charakterisierung asymptotischer Optimalit¨at wollen wir nun abschließend kurz die Bedeutung beschr¨ankter relativer Fehler und asymptotischer Optimalit¨at von IS–Sch¨atzern f¨ur die Praxis diskutieren.

Bei asymptotischer Optimalit¨at w¨achst der f¨ur vorgegebene Genauigkeit ben¨otigte Auf-wand langsamer als exponentiell inm.Dies ist aber, wie wir gesehen haben, ein schw¨ache-res Kriterium als ein beschr¨ankter relativer Fehler.

Die Varianz wird in beiden F¨allen nicht minimiert, kann aber h¨aufig um viele Gr¨oßen-ordnungen reduziert werden. Das Hauptproblem in der Praxis besteht darin, daß beide Eigenschaften f¨ur gegebene Maßwechsel analytisch bewiesen werden m¨ussen. Dies ist meist sehr schwierig und h¨aufig sogar unm¨oglich. So kann man die Eigenschaft des beschr¨ankten relativen Fehlers f¨ur einige Strategien des Maßwechsels bei der Untersuchung von Mar-kovschen Zuverl¨assigkeitsmodellen beweisen. Dabei liefern einige der im Abschnitt 4.3.2 kurz beschriebenen Heuristiken unter bestimmten Voraussetzungen IS-Sch¨atzer mit be-schr¨anktem relativen Fehler. Asymptotische Optimalit¨at von IS-Sch¨atzern kann f¨ur einige Warteschlangenmodelle, die jedoch starken Einschr¨ankungen, insbesondere in Bezug auf ihre Gr¨oße und damit der Beschreibung realistischer Systeme, unterliegen, gezeigt werden.

H¨aufig muß man sich mit der meist auf empirischen Untersuchungen basierenden Vermu-tung der G¨ute von IS-Sch¨atzern zufriedengeben, was sich oft in Aussagen wie “We believe our change of measure has the bounded relative error property“ oder “We are quite sure our change of measure is asymptotically optimal“ dokumentiert.

Beide Effizienzkriterien sind asymptotische Eigenschaften, und in der Praxis kann der Simulationsaufwand, auch wenn eines oder beide Kriterien erf¨ullt sind, sehr groß sein. Es k¨onnen f¨ur feste Seltenheitsparameter, also f¨ur einen festen unbekannten Wert der ge-suchten Gr¨oße γ, Maßwechsel existieren, die IS–Sch¨atzer mit kleinerer Varianz liefern als

eventuell bekannte Sch¨atzer mit beschr¨anktem relativen Fehler oder asymptotisch opti-male IS–Sch¨atzer. Trivialerweise erf¨ullt dies immer der optimale IS–Sch¨atzer mit Varianz Null. F¨ur konkrete Simulationen sind also selbst gem¨aß dieser Kriterien erwiesenermaßen effiziente Sch¨atzer mit einer gewissen Vorsicht zu betrachten, denn es ist f¨ur beliebige Parameter nicht garantiert, daß eine Varianzreduktion erzielt wird. Dennoch sind beide Kriterien erstrebenswert, da f¨ur Wahrscheinlichkeiten seltener Ereignisse in der Regel die Varianzreduktion enorm ist, wenn der IS–Sch¨atzer beschr¨ankten relativen Fehler hat oder asymptotisch optimal ist.

In der Praxis ist, wie bereits erw¨ahnt, h¨aufig nicht m¨oglich, wenigstens asymptotische Op-timalit¨at nachzuweisen, und daher ist es bereits ein Erfolg, wenn man empirisch feststellt, daß die Varianz und die entsprechenden Konfidenzintervalle zumindest deutlich kleiner als bei direkter Simulation sind, auch wenn man keine Effizienzeigenschaften analytisch nachweisen kann. In solchen F¨allen wird h¨aufig das Verh¨altnis der Varianzen unter Ver-wendung direkter Simulation und unter VerVer-wendung von Importance Sampling betrachtet, der sogenannte Varianzreduktionsquotient (Variance Reduction Ratio, VRR) oder Vari-anzreduktionsfaktor. Ist der Varianzreduktionsfaktor gr¨oßer als Eins, so bedeutet dies also die angestrebte Simulationsbeschleunigung (simulation speed–up), und man spricht auch vom Beschleunigungsfaktor.