21 .Juli 2014 AntonKlimovsky Markov-Ketten-Monte-Carlo-Verfahren

(1)

Anton Klimovsky 21. Juli 2014

Strichprobenerzeugung aus einer Verteilung (das Samplen). Markov- Ketten-Monte-Carlo-Verfahren. Metropolis-Hastings-Algorithmus.

Gibbs-Sampler.

Pro b l e m: “St r i c h p ro b e n e r z e u g u n g au s e i n e rVe r t e i l u n g¹” ¹Das nennt man auch das “Samplen aus einer Verteilung”

Gegeben ist eine Verteilungπ∈ M₁(S)²auf einem ZustandsraumS.

2Notation:M₁(S)ist die Menge aller WahrscheinlichkeitsmaßenaufS, d.h.

M₁(S) ={π∈_R^S: ∑

s∈S

πs=1}. (1)

DasMsteht in (1) für das Maß und die 1 steht für die Bedingung, dass

“das Gesamtmaß vonS”=“die totale Wahrscheinlichkeit”=1 ist.

Wie erzeugt man die (pseudo)Zuffalsvariablen, die die Verteilungπ haben?

Wo f ü r? Simulation eines w-theoretischen Modells, das durch die Verteilungπ beschrieben ist. Diese können sehr kompliziert sein:

sehr große hoch-dimensionale ZustandsräumeSmit einer multivaria- ten Verteilungπdarauf. Dafür braucht man effiziente Algorithmen.

Id e e(Ma r k ov-Ke t t e n-Mo n t e-Ca r l o-Ve r f a h r e n (=MCMC)).

Gegeben ist eineZielverteilungπ ∈ M₁(S), die wir simulieren möch- ten. Konstruiere eine “gute”Markov-Kette, die die Verteilungπals Gleichgewicht hat und “schnell” dagegen konvergiert.

Er s t eSk i z z e d e sAl g o r i t h m u s. Seiε> 0 der gegebeneAnnähe- rungsfehler.

1. Seiµ0 ∈ M₁(S)eineAnfangsverteilung. (Diese kann man oft frei wählen.)

2. Sei Qeine Übergangsmatrix. (Diese müssen wir noch genau spezi- fizieren.) Simulieren∈_NSchritten der Markov-Kette

πQ;πQ²;. . .;πQⁿ, (2) so dass

d_TV(πQⁿ,π)<e (3) InWo r t e nbedeutet (3), dass nachnSchritten die Abweichung (in Sinne der totalen Variation) der Verteilung derQ-Markov-Kette von der Zielverteilungπkleiner alsεist. Damit können wirµ0Qⁿ als eine Approximationfürπbenutzen

µ₀Qⁿ≈π. (4)

In t e r e s sa n t e r w e i s estellt sich heraus, dass es in vielen Fällen leichter ist so eine Markov-Kette (2) zu simulieren, als direkt die Ver- teilungπ. Das ist so, weil man die Zielverteilungπoft nicht explizit kennt.

(2)

Ve r t e i l u n g e n m o du l oNo r m i e ru n g. Viele Verteilungenµ ∈

M₁(S)sind von der folgenden Bauart³ ³Für stetige Verteilungen gilt dies auch. Z.b. die Gauß’sche Verteilung:

dµ(x)

dx = _C¹exp(−x²/2). Dann ist C=R

Rexp(−x²/2)dx. Wie kann man dieses Integral ausrechnen?

µ(x) = ^f(x)

C , x∈S (5)

wobei f: S → Rist eine “schöne” Funktion undCeine aufwen- dig auszurechnende Konstante ist. KonstanteCist oft unbekannt.

Notwendigerweise gilt

C=

∑

y∈S

f(y), (6)

sonst istµ∈ M/ ₁(S). (Warum?) Sogar für sehr schöne Funktionen f

kann die Summe (6) schwer auszurechnen sein⁴. ⁴Die Dichte der Gauß’schen Ver- teilung hat auch die Bauart (5):

p(x) = _C¹exp{−x²/2}. Wie kann man die Normierungskonstante C = R_∞

−∞exp(−x²/2)dxausrech- nen (ohne dass man aus der Definition der Gauß’schen Verteilung weißt, dass C=√

2π)?

Be i s p i e l(Fe h l e r k o r r e k t u r). Betrachten wir das Problem der Fehlerkorrektur bei der Datenübertragung: IhrE FreundIn schickt Ihnen eine Nachricht

x ∈S={“Hallo”, “Tschüss”, “Wie war Dein Tag so?”, . . .}. (7) Das, was Sie erhalten, ist leider eine etwas verzerrte/verrauschte Version davon:z∈S. Aus Erfahrung wissen Sie, dass

(a) die Nachrichten aus der Verteilungp ∈ M₁(S)kommen. (Sie wissen, welche Sätze typisch für IhreN FreundIn sind und welche weniger typisch.)

(b) Außerdem haben Sie etwas Erfahrung mit dem Datenübetra- gungskanal und demRauschen. (Sie haben früher mehrmals nach- gefragt, was Ihr Gegenüber gemeint hatte, weil Sie sie/ihn aku- stisch nicht verstanden haben). Damit haben sie eine Idee über die Verteilungp(· | x) ∈ M₁(S). In Worten ist diese diebedingte Verteilung der empfangenen Nachricht gegeben die gesendete Nachricht x.

Anhand von den Daten (a) und (b) können Sie jetzt versuchen die

ursprünglich gesendete Nachricht wiederherzustellen.⁵Und zwar ⁵Unser Gehirn macht einen recht guten Job dabei.

stochastisch: Man kann die Wahrscheinlichkeit, dass die Nachricht x gesendet wurde gegeben die empfangene Nachrichtzausrechnen!

Die Bayes-Regel liefert nämlich Folgendes p(x|z) = ^p(z|x)p(x)

∑y∈Sp(z|y)p(y)^, ^x,^z∈S. (8) Somit hat die Bedingte Verteilung (8) die Bauart (5). Die Normie- rungskonstanteC = _∑_y∈Sp(z | y)p(y)kann sehr schwierig auszurechnen sein (sowohl analytisch in geschlossener Form, als auch numerisch, wenn der ZustandsraumSgroß ist.).

(3)

Allgemeine Formulierung des MCMC-Verfahrens

Vo r s c h l ag s m at r i x. Sei ˜Q∈ _R^S×Seine irreduzieble und symmetri- sche Übergangsmatrix.

Be m e r k u n g. Die Markov-Kette mit der Übergangsmatrix ˜Qsoll

so einfach wie möglich zu Simulieren sein.⁶Die Vorschlagsmatrix ⁶Z.b. die Übergangsmatrix einer Irr- fahrt aufS, fallsSein Graph ist.

hat normalerweise nichts mit der Zielverteilungπzu tun! Insb. ist πkeine Gleichgewichtsverteilung der Markov-Kette ˜Q! Deswegen müssen wir die Übergangsmatrix ˜Qetwas korrigieren, so dassπzur Gleichgewichtsverteilung wird.

Ak z e p ta n z wa h r s c h e i n l i c h k e i t e n. Fürs_i,s_j ∈Swählen wir die Akzeptanzwahrscheinlichkeitenαi,j ∈ (0; 1]und definieren eine neue MatrixQ∈R^S×S durch

q_i,j=







˜

qi,jα_i,j, i6=j

1−_∑_i6=jq_i,j, i=j. (9) Lemma0.1. SeiQ irreduziebel und symmetrisch und es gelte˜

µ_iα_i,j =µ_jα_j,i ⁷ (10)

Dann ist Q irreduziebel und reversibel bzgl.µ. WennQ zusätzlich aperi-˜ ⁷Vergleiche Bedingung (10) mit der Reversibilitätsbedingung.

odisch, ist dann es auch Q.

Be m e r k u n g. Lemma0.1liefert eine theoretische Begründung der Approximation (3). (Warum?)

Be m e r k u n g. Die Akzeptanzwahrscheinlichkeiten hängen von der Zielverteilung ab.

Beweis von Lemma0.1.

Jetzt betrachten wir zwei konkrete Ansätze für die Akzeptanz- wahrscheinlichkeiten.

Metropolis-Hastings Algorithmus

Durch die Wahl

α_i,j=min

1,µ_j µ_i

(11) erhalten wir denMetropolis-Hastings Algorithmus.

(4)

Im s p e z i e l l e nFa l lwurde dieses Verfahren von Nicholas Metro- polis gemeinsam mit den zwei verheirateten Paaren mit den Famili-

ennamen Rosenbluth und Teller erfunden⁸. Angeblich hat Nicolas ⁸Nicholas Metropolis, Arianna W Rosenbluth, Marshall N Rosenbluth, Augusta H Teller, and Edward Teller.

Equation of State Calculations by Fast Computing Machines. Journal of Chemical Physics,21:1087–1092,1953

Metropolis diesen Algorithmus im Rahmen des Manhattan Projects entwickelt. Doe allgemeinere Version (11) ist von W.K. Hastings⁹

9W Keith Hastings. Monte Carlo sampling methods using Markov chains and their applications. Biometrika,57(1):

97–109,1970

entwickelt worden.

Be m e r k u n g. In (11) ist die Akzeptanzwahrscheinlichkeit immer=1, fallsµ_j > µ_i. Wir akzeptieren also immer die Vorschlägei;j, die in diewahrscheinlichere Zuständeführen. Trotzdem hat man eine Chance auch in dieweniger wahrscheinlicherenZustände überzugehen. Dies geschieht, fallsµ_j < µ_i mit der Wahrscheinlichkeitµ_j/µ_i. Deswegen verbringt die Markov-Kette mehr Zeit in den wahrscheinlicheren (bzgl.µ) Zuständen und weniger Zeit in den unwahrscheinlicheren Zuständen. Dies ist eine intuitive (aber nicht rigorose) Begründung, warum man die gewünschte Approximation (3) erwarten kann.

Abbildung1: Annahme der Vorschlä- gen im Markov-Ketten-Monte-Carlo- Verfahren: nach unten mitP<1, nach oben mitP=1. Symbol•repräsentiert den Zustand der Markov-Kette. Die Fläche unter der Verteilungµist in rot dargestellt.

Gibbs-Sampler (= Wärmebad-Algorithmus)

Durch die Wahl

α_i,j= ^µⁱ

µ_i+µ_j (12)

erhalten wir den sogenanntenGibbs-Sampler Algorithmus¹⁰. ¹⁰Genannt nach einem US Amerikani- schen Physiker

Abbildung2: Josiah Willard Gibbs (1839–1903)

Be m e r k u n g. In beiden Fällen (11) und (12) brauchen wir lediglich nur den Quotienten ^µ_µ^j

i ausrechnen zu können. Deswegen brauchen wir die NormierungskonstanteCin (6) nicht zu wissen, da sie sich in den Quotienten kürzt!

Be m e r k u n g. MCMC ist ein sehr verbreitetes Werkzeug¹¹^,¹²^,¹³der

11Thomas Müller-Gronbach, Erich Novak, and Klaus Ritter. Monte Carlo- Algorithmen. Springer,2012

12Gerhard Winkler. Image analysis, random fields and Markov chain Monte Carlo methods: a mathematical introduction, volume27. Springer,2003

13Pierre Brémaud. Markov chains, vo- lume31ofTexts in Applied Mathematics.

Springer-Verlag, New York,1999. ISBN 0-387-98509-3.d o i:10.1007/978-1-4757- 3124-8. URLhttp://dx.doi.org/10.

1007/978-1-4757-3124-8. Gibbs fields, Monte Carlo simulation, and queues

numerischen Simulation und findet zahlreiche Anwendungen in der Chemie, Physik, Biologie, Informatik, usw.

Literatur

Pierre Brémaud. Markov chains, volume31ofTexts in Applied Ma- thematics. Springer-Verlag, New York,1999. ISBN0-387-98509-3. d o i:10.1007/978-1-4757-3124-8. URLhttp://dx.doi.org/10.1007/

978-1-4757-3124-8. Gibbs fields, Monte Carlo simulation, and queues.

W Keith Hastings. Monte Carlo sampling methods using Markov chains and their applications. Biometrika,57(1):97–109,1970.

(5)

Nicholas Metropolis, Arianna W Rosenbluth, Marshall N Rosen- bluth, Augusta H Teller, and Edward Teller. Equation of State Calcu- lations by Fast Computing Machines. Journal of Chemical Physics,21: 1087–1092,1953.

Thomas Müller-Gronbach, Erich Novak, and Klaus Ritter. Monte Carlo-Algorithmen. Springer,2012.

Gerhard Winkler. Image analysis, random fields and Markov chain Monte Carlo methods: a mathematical introduction, volume27. Springer, 2003.