• Keine Ergebnisse gefunden

Simulation station¨arer Leistungsmaße

3.2 Sch¨atzer und Konfidenzintervalle aus Simulationsdaten

3.2.2 Simulation station¨arer Leistungsmaße

Bei der Sch¨atzung station¨arer Leistungsmaße interessiert das Grenzverhalten, wobei man bei der Simulation ber¨ucksichtigen muß, daß ein System oder dessen Modell anfangs eine von den Anfangsbedingungen abh¨angige transiente Phase durchl¨auft. Eines der wesent-lichen Probleme bei der Simulation station¨arer Gr¨oßen ist die Beseitigung des Einflusses der Anfangsbedingungen, der Eingangsverzerrung (initial bias). Im allgemeinen sind die

Anfangsbedingungen untypisch f¨ur das Systemverhalten im Gleichgewichtszustand, be-einflussen aber die Simulation, sodaß verzerrte Sch¨atzer resultieren. So ist etwa in War-teschlangensystemen die Wartezeit des ersten Kunden immer gleich Null. Da station¨are Systemzust¨ande ¨uber Grenzwerte gegen unendlich definiert sind, gibt es im Prinzip keine erwartungstreuen sondern bestenfalls stark konsistente Sch¨atzer f¨ur station¨are Gr¨oßen.

Eine ¨ubliche Methode zur Beseitigung bzw. Verringerung der Eingangsverzerrung be-steht darin, f¨ur jeden Simulationslauf eine sogenannte Einschwingphase zu durchlaufen und erst danach mit dem

”Sammeln“ der Daten zu beginnen. Eines der bekanntesten und g¨angisten Verfahren zur Bestimmung der L¨ange der transienten Einschwingphase ist eine graphische Methode nach Welch [Wel83], es gibt aber auch zahlreiche weite-re Methoden. Wir wollen darauf nicht n¨aher eingehen und verweisen auf die Literatur [Ban98, BFS87, LK00, Rip87, Ros02, Rub81, RM98].

Unabh¨angige Simulationsl¨aufe von endlichem Horizont

Die einfachste und wohl am h¨aufigsten benutzte Methode zur Simulation station¨arer Leistungsmaße erzeugt analog zum transienten Fall unabh¨angige Simulationsl¨aufe von endlichem Horizont. Anders als im transienten Fall ist dieser Horizont, d.h. die Simula-tionslaufl¨ange, konstant und f¨ur alle L¨aufe gleich. Außerdem wird die Einschwingphase beachtet, indem ein Index ` mit 0 < ` < K gew¨ahlt wird, der aus den Verfahren zur Bestimmung der transienten Phase resultiert, und dann die Beobachtungen Xi1, . . . , Xi`

verworfen werden. Dann ist Yi = 1

K−`

K

X

j=`+1

Xij

die Information f¨ur den Erwartungswert aus dem i–ten Simulationslauf und die Sch¨atzer Y und S2 sowie das Konfidenzintervall C k¨onnen wie im transienten Fall konstruiert wer-den. Vergr¨oßert man die L¨ange ` der Einschwingphase bei festem K, so verringert sich der durch die Anfangsbedingungen hervorgerufene systematische Fehler, die statistischen Aussagen basieren jedoch auf einer kleineren Anzahl von Daten. Vergr¨oßert man um-gekehrt f¨ur festes ` die L¨ange K der einzelnen Simulationsl¨aufe, so verringert sich der systematische Fehler, da die Anfangsbedingungen weniger ins Gewicht fallen, und zudem w¨achst die Anzahl der gesammelten Daten. In der Praxis w¨ahlt man selbstverst¨andlich nicht zuerst die Simulationslaufl¨ange K und bestimmt danach die L¨ange der Einschwing-phase `. Vielmehr beginnt man mit der Bestimmung von ` und w¨ahlt dann K deutlich gr¨oßer als `, oft als ein Vielfaches. Die Anzahl N der unabh¨angigen Simulationsl¨aufe hat keinen Einfluß auf den systematischen Fehler, sondern vergr¨oßert lediglich die Anzahl der Ausgabedaten.

Die Methode der unabh¨angigen Simulationsl¨aufe von endlichem Horizont hat sicherlich den Vorteil, daß sie sehr einfach ist, woraus sich auch die weite Verbreitung erkl¨art. Sie kann jedoch in der Variante f¨ur station¨are Leistungsmaße einen erheblichen Aufwand

zur Bestimmung

”guter“ Werte f¨ur K und ` erfordern. Zudem ist oft selbst bei sehr langen Simulationsl¨aufen eine große Anzahl von L¨aufen notwendig, um Konfidenzinter-valle mit vorgegebener Genauigkeit zu erhalten, und in jedem dieser L¨aufe muß die unter Umst¨anden sehr lange Einschwingphase durchlaufen werden. Es wird also eine große Men-ge von Men-generierten Daten nicht Men-genutzt. Wir wollen nun zwei Ans¨atze zur UmMen-gehung dieser Problematik vorstellen, die station¨are Leistungsmaße aus nur einem einzigen Simulations-lauf sch¨atzen.

Gruppenmittelwerte

Um Punktsch¨atzer und Konfidenzintervalle f¨ur station¨are Gr¨oßen aus einem einzigen Si-mulationslauf zu bestimmen wird h¨aufig die Methode der Gruppenmittelwerte (Batch Means) angewandt. Dabei wird zun¨achst wie bei unabh¨angigen Simulationsl¨aufen von endlichem Horizont eine Einschwingphase durchlaufen, um den Einfluß der Anfangsbe-dingungen zu beseitigen oder zu verringern. Dann werden die weiteren Ausgabedaten in gleich große Gruppen aufgeteilt und behandelt wie unabh¨angige L¨aufe. Ein Simulations-lauf der L¨ange K liefert Ausgabedaten X1, X2, . . . , XK. Die L¨ange der Einschwingphase sei wieder 0 < ` < K. Die verbleibenden Xi mit i > ` werden in N Gruppen der Gr¨oße k = K−`N aufgeteilt§, und mit den Gruppenmittelwerten

Yi = 1 k

k

X

j=1

X(i−1)k+`+j, i= 1, . . . , N

bildet man dann f¨ur gen¨ugend großek und N wieder die Punktsch¨atzer Y und S2 sowie das Konfidenzintervall C.

Die Methode der Gruppenmittelwerte bietet den Vorteil, daß die Einschwingphase nur ein einziges Mal durchlaufen werden muß. Die aus dieser Methode resultierenden Sch¨atzer sind jedoch – auch bei vollst¨andiger Beseitigung der Eingangsverzerrung – im allgemei-nen nicht erwartungstreu, da die Gruppenmittelwerte abh¨angig sind. Mit wachsender Gruppengr¨oße k nimmt diese Abh¨angigkeit jedoch ab, sodaß man f¨ur gen¨ugend großek nahezu unabh¨angige Gruppenmittelwerte erh¨alt. Es gibt zahlreiche Vorschl¨age zur Wahl der Parameter `, N, k sowie diverse Varianten zur hier vorgestellten Methode. F¨ur wei-terf¨uhrende Informationen sei auf [Ban98, BFS87, LK00, Rip87, Ros02, Rub81, RM98]

und die zahlreichen dort enthaltenen Literaturhinweise sowie auf [SW99, YS00] verwiesen.

Regenerative Simulation

Ein weiterer verbreiteter Ansatz zur Sch¨atzung station¨arer Leistungsmaße aus einem ein-zigen Simulationslauf ist die regenerative Simulation, die aus mathematischer Sicht viel-leicht die eleganteste Variante ist. Sie wurde unabh¨angig von Crane und Iglehart [CI74a, CI74b, CI75] sowie Fishman [Fis73, Fis74] vorgeschlagen. Wir stellen hier die Grundlagen

§Dabei sind die ParameterK, `, N so zu w¨ahlen, daßkganzzahlig ist.

vor, ausf¨uhrliche Darstellungen findet man etwa in [CL77, IS80, She93, Gly94, GH01].

Erf¨ullt das zu simulierende System bzw. der Ausgabeprozeß der Simulation spezielle Ei-genschaften, so kann man Punktsch¨atzer und Konfidenzintervalle f¨ur station¨are Gr¨oßen mit Hilfe der Methode der regenerativen Simulation aus einem einzigen Simulationslauf ohne Einschwingphase bestimmen.

Die Idee besteht darin, den Simulationslauf so in Bl¨ocke aufzuteilen, daß die Bl¨ocke nicht nur identisch verteilt sondern auch unabh¨angig sind. Dabei wird die Eigenschaft vieler Systeme ausgenutzt, daß es Systemzust¨ande gibt, zu denen die weitere Entwicklung des Systems unabh¨angig von der vorherigen Entwicklung ist. Das System nimmt diese soge-nannten Regenerationszust¨ande zu zuf¨alligen Regenerationszeitpunkten, die endlich weit auseinander liegen, unendlich oft an. Die Regenerationszeitpunkte bilden dann die Zerle-gung des Simulationslaufes in unabh¨angige identisch verteilte Bl¨ocke. Im Gegensatz zur Methode der Gruppenmittelwerte haben diese Bl¨ocke jedoch unterschiedliche L¨angen.

Die Anwendbarkeit des Verfahrens h¨angt davon ab, ob das zu simulierende System oder Modell regenerativ ist, also regenerative Zust¨ande hat, und ob diese regenerati-ven Zust¨ande identifizierbar sind. Falls dies zutrifft, ist die regenerative Simulation ein m¨achtiges Verfahren f¨ur station¨are Leistungsmaße. Insbesondere ist in irreduziblen positiv rekurrenten Markovketten jeder Zustand regenerativ.

Informell ist ein regenerativer Prozeß ein Prozeß mit der Eigenschaft, daß zuf¨allige Zeit-punkte, RegenerationsZeit-punkte, existieren, zu denen der Prozeß probabilistisch neu startet.

Typischerweise sind dies R¨uckkehrzeiten zu einem bestimmten Zustand des Prozesses.

Wesentlich ist, daß zwischen zwei aufeinanderfolgenden Regenerationspunkten die Ent-wicklung des Prozesses eine probabilistische Replikation des Prozesses zwischen jedem anderen Paar von Regenerationspunkten ist. Wir wollen nun formal den Begriff des rege-nerativen Prozesses definieren. Dazu ben¨otigen wir zun¨achst

Definition 3.1 (Stoppzeit) Eine ganzzahlige positive Zufallsvariable N heißt Stoppzeit f¨ur einen diskreten stochastischen Prozeß (Xn)n∈IN, falls f¨ur alle n ∈ IN das Ereignis {N = n} unabh¨angig von Xn+1, Xn+2, . . . ist, d.h. aus der Geschichte des Prozesses bis zur Zeitn bestimmt werden kann. Eine reelle ZufallsvariableT mit Werten in [0,∞) heißt Stoppzeit f¨ur einen stetigen stochastischen Prozeß (Xt)t≥0, falls f¨ur alle endlichen t ≥ 0 das Ereignis {T ≤ t} unabh¨angig von (Xu)u>t ist, also aus der Geschichte des Prozesses bis zur Zeit t bestimmt werden kann.

Intuitiv wird also, wenn N =n gilt, nach Beobachtung von X1, . . . , Xn bzw. wenn T ≤t gilt, nach Beobachtung von (Xu)u≤t gestoppt.

Beispiel 3.4 Seien X1, X2, . . .unabh¨angig mit P{Xi = 0}=P{Xi = 1}= 12. Dann ist N = min{n:X1+· · ·+Xn= 10}

eine Stoppzeit.

Definition 3.2 (Regenerativer Prozeß) Ein stochastischer Prozeß (Xt)t≥0 heißt regene-rativ, falls

(i) eine Folge (Tn)n∈IN von Stoppzeiten existiert, die einen Erneuerungsprozeß bildet, d.h. die Zufallsvariablen τn := Tn −Tn−1, n ≥ 1 sind unabh¨angig und identisch verteilt, und

(ii) f¨ur jede Folge 0 ≤ t1 < t2 < · · · < tm, m ≥ 1 und n ≥ 0 sind (Xt1, . . . , Xtm) und (XTn+t1, . . . , XTn+tm) identisch verteilt, und die Prozesse (Xt)0≤t<Tn und (XTn+t)t≥0 sind unabh¨angig.

Die zuf¨alligen StoppzeitenTn heißen dann Regenerationspunkte oder Regenerationszeiten und (Xt)Tn−1<t≤Tn heißt n–ter Regenerationszyklus des regenerativen Prozesses (Xt)t≥0. Die L¨ange des n–ten Regenerationszyklus ist durch die Zufallsvariable τn gegeben. Ein Zustand des Prozesses zu einer Regenerationszeit heißt Regenerationszustand.

Bemerkung: Obige Definition ist zwar in der Variante f¨ur stetige Prozesse formuliert, deckt aber den Fall diskreter Prozesse mit ab.

Es ist leicht zu pr¨ufen, daß irreduzible positiv rekurrente Markovketten, diskret oder stetig, sowie Semi-Markovprozesse mit endlichem oder abz¨ahlbarem Zustandsraum regenerativ sind, wobei jeder Zustand Regenerationszustand ist. Ebenso sind f¨ur stabile GI/GI/1–

Warteschlangensysteme die Prozesse der Anzahl von Kunden und der Wartezeiten von Kunden regenerativ. Dabei sind die Regenerationspunkte jeweils die Zeiten, zu denen ein Bediener zu arbeiten beginnt, nachdem er eine gewisse Zeit unt¨atig war, also jeweils der Beginn einer Besch¨aftigungszeit (busy period). Regenerationszustand ist also das leere Sy-stem. F¨ur die Simulation sind einige Eigenschaften regenerativer Prozesse wesentlich, die wir ohne Beweis angeben wollen. Wir beginnen mit der Feststellung, daß f¨ur regenerati-ve Prozesse (Xn), diskret oder stetig, und reelle meßbare Funktionen f auch der Prozeß (f(Xn)) regenerativ ist, und geben nun die fundamentale Aussage f¨ur die regenerative Simulation.

Seien ¨uber demi-ten Regenerationszyklus f¨ur diskrete Prozesse die Summe und f¨ur stetige Prozesse das Integral

Yi :=

Ti

X

n=Ti−1+1

f(Xn), Yi :=

Z Ti

Ti−1

f(Xn)dn

definiert, so ist ((Yi, τi)) eine Folge unabh¨angiger identisch verteilter Zufallsvektoren, so-wohl die Yi als auch die τi sind unabh¨angig und identisch verteilt, und man kann den Erwartungswert darstellen als

µ= E[Y1]

E[τ1]. (3.6)

Simuliert man nun den Prozeß (Xi) ¨uber N Zyklen, so erh¨alt man Y1, . . . , YN und τ1, . . . , τN. Dann ist nach dem starken Gesetz der großen Zahlen

ˆ µ= Y

τ , (3.7)

wobeiY undτ die jeweiligen Stichprobenmittel bezeichnen, ein stark konsistenter Sch¨atzer f¨urµ. Die Konstruktion von Konfidenzintervallen erfolgt nun mit Hilfe der Zufallsvariablen Zi :=Yi−µτi, i= 1, . . . , N und Anwendung des Zentralen Grenzwertsatzes. Da die (Yi, τi) unabh¨angig und identisch verteilt sind, folgt leicht, daß die Zi unabh¨angige identisch verteilte Zufallsvariablen sind, und f¨ur die Varianz gilt

σ2(Zi) =σ2(Yi)−2µ cov(Yi, τi) +µ2σ2i).

Mit dem Zentralen Grenzwertsatz erh¨alt man f¨ur den Erwartungswert µ das (1−α) – Konfidenzintervall

"

ˆ

µ− z1−α/2

τ

rS2

N, µˆ+ z1−α/2

τ

rS2 N

# ,

wobei S2 der erwartungstreue Sch¨atzer f¨ur die Varianz der Zi ist, also S2 =S11−2µS122S22

mit den Stichprobenvarianzen S11= 1

N−1

N

X

i=1

(Yi−Y)2, S22= 1 N−1

N

X

i=1

i−τ)2 und der Stichprobenkovarianz

S12= 1 N−1

N

X

i=1

(Yi−Y)(τi−τ).

Die regenerative Simulation bietet den Vorteil, daß keine transiente Phase zu durchlaufen ist, und daß die Simulationslaufl¨angen nicht angegeben werden m¨ussen. Sie ist asym-ptotisch exakt und zudem verh¨altnism¨aßig leicht verst¨andlich und implementierbar. Pro-blematisch kann sein, daß ein zu untersuchendes System nicht regenerativ ist oder die Regenerationspunkte schwer zu bestimmen sind. F¨ur regenerative Prozesse mit großem Zustandsraum k¨onnen zudem die Regenerationszyklen sehr lang sein, wenn man einen ezelnen Regenerationszustand w¨ahlt. Diese Problematik wird jedoch h¨aufig umgangen, in-dem man regenerative oder ann¨ahernd regenerative Mengen von Zust¨anden w¨ahlt. Gerade zur Simulation station¨arer Gr¨oßen in Markovketten, wie etwa Zustandswahrscheinlichkei-ten, wird die regenerative Simulation h¨aufig angewandt. Insbesondere bei Anwendung des

Importance–Sampling–Verfahrens bietet sie oft große Vorteile, wie wir an sp¨aterer Stelle sehen werden.

Abschließend wollen wir noch darauf hinweisen, daß bei der regenerativen Simulation auch andere Sch¨atzer und daraus resultierende Konfidenzintervalle ¨ublich sind, wie et-wa als bekanntestes Beispiel die sogenannten Jackknife–Konfidenzintervalle. Der Grund f¨ur die Verwendung auch anderer als das beschriebene klassische Konfidenzintervall be-steht darin, daß f¨ur die bei der regenerativen Simulation notwendige Bestimmung von Sch¨atzern f¨ur Quotienten von Erwartungswerten in einigen F¨allen mit kleinen Stichpro-bengr¨oßen alternative Konfidenzintervalle besser sind, in dem Sinne, daß sie eine h¨ohere Uberdeckungswahrscheinlichkeit besitzen, d.h. daß das theoretische Konfidenzniveau und¨ die tats¨achliche Wahrscheinlichkeit f¨ur das Enthaltensein im konstruierten Konfidenzin-tervall n¨aher beieinander liegen. F¨ur wachsende Stichprobengr¨oßen vermindert sich jedoch dieser Effekt, und zudem erfordern alle gebr¨auchlichen alternativen Ans¨atze einen Ver-waltungsmehraufwand der mindestens quadratisch in der Anzahl der Simulationsl¨aufe ist.

Einen ausf¨uhrlichen Vergleich von Sch¨atzern und Konfidenzintervallen f¨ur den Quotienten von Erwartungswerten findet man in [Igl75].