• Keine Ergebnisse gefunden

21 .Juli 2014 AntonKlimovsky Markov-Ketten-Monte-Carlo-Verfahren

N/A
N/A
Protected

Academic year: 2022

Aktie "21 .Juli 2014 AntonKlimovsky Markov-Ketten-Monte-Carlo-Verfahren"

Copied!
5
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Anton Klimovsky 21. Juli 2014

Strichprobenerzeugung aus einer Verteilung (das Samplen). Markov- Ketten-Monte-Carlo-Verfahren. Metropolis-Hastings-Algorithmus.

Gibbs-Sampler.

Pro b l e m: “St r i c h p ro b e n e r z e u g u n g au s e i n e rVe r t e i l u n g11Das nennt man auch das “Samplen aus einer Verteilung”

Gegeben ist eine Verteilungπ∈ M1(S)2auf einem ZustandsraumS.

2Notation:M1(S)ist die Menge aller WahrscheinlichkeitsmaßenaufS, d.h.

M1(S) ={πRS:

sS

πs=1}. (1)

DasMsteht in (1) für das Maß und die 1 steht für die Bedingung, dass

“das Gesamtmaß vonS”=“die totale Wahrscheinlichkeit”=1 ist.

Wie erzeugt man die (pseudo)Zuffalsvariablen, die die Verteilungπ haben?

Wo f ü r? Simulation eines w-theoretischen Modells, das durch die Verteilungπ beschrieben ist. Diese können sehr kompliziert sein:

sehr große hoch-dimensionale ZustandsräumeSmit einer multivaria- ten Verteilungπdarauf. Dafür braucht man effiziente Algorithmen.

Id e e(Ma r k ov-Ke t t e n-Mo n t e-Ca r l o-Ve r f a h r e n (=MCMC)).

Gegeben ist eineZielverteilungπ ∈ M1(S), die wir simulieren möch- ten. Konstruiere eine “gute”Markov-Kette, die die Verteilungπals Gleichgewicht hat und “schnell” dagegen konvergiert.

Er s t eSk i z z e d e sAl g o r i t h m u s. Seiε> 0 der gegebeneAnnähe- rungsfehler.

1. Seiµ0 ∈ M1(S)eineAnfangsverteilung. (Diese kann man oft frei wählen.)

2. Sei Qeine Übergangsmatrix. (Diese müssen wir noch genau spezi- fizieren.) Simulieren∈NSchritten der Markov-Kette

πQ;πQ2;. . .;πQn, (2) so dass

dTV(πQn,π)<e (3) InWo r t e nbedeutet (3), dass nachnSchritten die Abweichung (in Sinne der totalen Variation) der Verteilung derQ-Markov-Kette von der Zielverteilungπkleiner alsεist. Damit können wirµ0Qn als eine Approximationfürπbenutzen

µ0Qnπ. (4)

In t e r e s sa n t e r w e i s estellt sich heraus, dass es in vielen Fällen leichter ist so eine Markov-Kette (2) zu simulieren, als direkt die Ver- teilungπ. Das ist so, weil man die Zielverteilungπoft nicht explizit kennt.

(2)

Ve r t e i l u n g e n m o du l oNo r m i e ru n g. Viele Verteilungenµ

M1(S)sind von der folgenden Bauart3 3Für stetige Verteilungen gilt dies auch. Z.b. die Gauß’sche Verteilung:

(x)

dx = C1exp(−x2/2). Dann ist C=R

Rexp(−x2/2)dx. Wie kann man dieses Integral ausrechnen?

µ(x) = f(x)

C , x∈S (5)

wobei f: S → Rist eine “schöne” Funktion undCeine aufwen- dig auszurechnende Konstante ist. KonstanteCist oft unbekannt.

Notwendigerweise gilt

C=

y∈S

f(y), (6)

sonst istµ∈ M/ 1(S). (Warum?) Sogar für sehr schöne Funktionen f

kann die Summe (6) schwer auszurechnen sein4. 4Die Dichte der Gauß’schen Ver- teilung hat auch die Bauart (5):

p(x) = C1exp{−x2/2}. Wie kann man die Normierungskonstante C = R

exp(−x2/2)dxausrech- nen (ohne dass man aus der Definition der Gauß’schen Verteilung weißt, dass C=

2π)?

Be i s p i e l(Fe h l e r k o r r e k t u r). Betrachten wir das Problem der Fehlerkorrektur bei der Datenübertragung: IhrE FreundIn schickt Ihnen eine Nachricht

x ∈S={“Hallo”, “Tschüss”, “Wie war Dein Tag so?”, . . .}. (7) Das, was Sie erhalten, ist leider eine etwas verzerrte/verrauschte Version davon:z∈S. Aus Erfahrung wissen Sie, dass

(a) die Nachrichten aus der Verteilungp ∈ M1(S)kommen. (Sie wissen, welche Sätze typisch für IhreN FreundIn sind und welche weniger typisch.)

(b) Außerdem haben Sie etwas Erfahrung mit dem Datenübetra- gungskanal und demRauschen. (Sie haben früher mehrmals nach- gefragt, was Ihr Gegenüber gemeint hatte, weil Sie sie/ihn aku- stisch nicht verstanden haben). Damit haben sie eine Idee über die Verteilungp(· | x) ∈ M1(S). In Worten ist diese diebedingte Verteilung der empfangenen Nachricht gegeben die gesendete Nachricht x.

Anhand von den Daten (a) und (b) können Sie jetzt versuchen die

ursprünglich gesendete Nachricht wiederherzustellen.5Und zwar 5Unser Gehirn macht einen recht guten Job dabei.

stochastisch: Man kann die Wahrscheinlichkeit, dass die Nachricht x gesendet wurde gegeben die empfangene Nachrichtzausrechnen!

Die Bayes-Regel liefert nämlich Folgendes p(x|z) = p(z|x)p(x)

y∈Sp(z|y)p(y), x,z∈S. (8) Somit hat die Bedingte Verteilung (8) die Bauart (5). Die Normie- rungskonstanteC = y∈Sp(z | y)p(y)kann sehr schwierig aus- zurechnen sein (sowohl analytisch in geschlossener Form, als auch numerisch, wenn der ZustandsraumSgroß ist.).

(3)

Allgemeine Formulierung des MCMC-Verfahrens

Vo r s c h l ag s m at r i x. Sei ˜Q∈ RS×Seine irreduzieble und symmetri- sche Übergangsmatrix.

Be m e r k u n g. Die Markov-Kette mit der Übergangsmatrix ˜Qsoll

so einfach wie möglich zu Simulieren sein.6Die Vorschlagsmatrix 6Z.b. die Übergangsmatrix einer Irr- fahrt aufS, fallsSein Graph ist.

hat normalerweise nichts mit der Zielverteilungπzu tun! Insb. ist πkeine Gleichgewichtsverteilung der Markov-Kette ˜Q! Deswegen müssen wir die Übergangsmatrix ˜Qetwas korrigieren, so dassπzur Gleichgewichtsverteilung wird.

Ak z e p ta n z wa h r s c h e i n l i c h k e i t e n. Fürsi,sj ∈Swählen wir die Akzeptanzwahrscheinlichkeitenαi,j ∈ (0; 1]und definieren eine neue MatrixQ∈RS×S durch

qi,j=

˜

qi,jαi,j, i6=j

1−i6=jqi,j, i=j. (9) Lemma0.1. SeiQ irreduziebel und symmetrisch und es gelte˜

µiαi,j =µjαj,i 7 (10)

Dann ist Q irreduziebel und reversibel bzgl.µ. WennQ zusätzlich aperi-˜ 7Vergleiche Bedingung (10) mit der Reversibilitätsbedingung.

odisch, ist dann es auch Q.

Be m e r k u n g. Lemma0.1liefert eine theoretische Begründung der Approximation (3). (Warum?)

Be m e r k u n g. Die Akzeptanzwahrscheinlichkeiten hängen von der Zielverteilung ab.

Beweis von Lemma0.1.

Jetzt betrachten wir zwei konkrete Ansätze für die Akzeptanz- wahrscheinlichkeiten.

Metropolis-Hastings Algorithmus

Durch die Wahl

αi,j=min

1,µj µi

(11) erhalten wir denMetropolis-Hastings Algorithmus.

(4)

Im s p e z i e l l e nFa l lwurde dieses Verfahren von Nicholas Metro- polis gemeinsam mit den zwei verheirateten Paaren mit den Famili-

ennamen Rosenbluth und Teller erfunden8. Angeblich hat Nicolas 8Nicholas Metropolis, Arianna W Rosenbluth, Marshall N Rosenbluth, Augusta H Teller, and Edward Teller.

Equation of State Calculations by Fast Computing Machines. Journal of Chemical Physics,21:10871092,1953

Metropolis diesen Algorithmus im Rahmen des Manhattan Projects entwickelt. Doe allgemeinere Version (11) ist von W.K. Hastings9

9W Keith Hastings. Monte Carlo sampling methods using Markov chains and their applications. Biometrika,57(1):

97109,1970

entwickelt worden.

Be m e r k u n g. In (11) ist die Akzeptanzwahrscheinlichkeit immer=1, fallsµj > µi. Wir akzeptieren also immer die Vorschlägei;j, die in diewahrscheinlichere Zuständeführen. Trotzdem hat man eine Chance auch in dieweniger wahrscheinlicherenZustände überzugehen. Dies geschieht, fallsµj < µi mit der Wahrscheinlichkeitµji. Deswegen verbringt die Markov-Kette mehr Zeit in den wahrscheinlicheren (bzgl.µ) Zuständen und weniger Zeit in den unwahrscheinlicheren Zuständen. Dies ist eine intuitive (aber nicht rigorose) Begründung, warum man die gewünschte Approximation (3) erwarten kann.

Abbildung1: Annahme der Vorschlä- gen im Markov-Ketten-Monte-Carlo- Verfahren: nach unten mitP<1, nach oben mitP=1. Symbolrepräsentiert den Zustand der Markov-Kette. Die Fläche unter der Verteilungµist in rot dargestellt.

Gibbs-Sampler (= Wärmebad-Algorithmus)

Durch die Wahl

αi,j= µi

µi+µj (12)

erhalten wir den sogenanntenGibbs-Sampler Algorithmus10. 10Genannt nach einem US Amerikani- schen Physiker

Abbildung2: Josiah Willard Gibbs (18391903)

Be m e r k u n g. In beiden Fällen (11) und (12) brauchen wir lediglich nur den Quotienten µµj

i ausrechnen zu können. Deswegen brauchen wir die NormierungskonstanteCin (6) nicht zu wissen, da sie sich in den Quotienten kürzt!

Be m e r k u n g. MCMC ist ein sehr verbreitetes Werkzeug11,12,13der

11Thomas Müller-Gronbach, Erich Novak, and Klaus Ritter. Monte Carlo- Algorithmen. Springer,2012

12Gerhard Winkler. Image analysis, ran- dom fields and Markov chain Monte Carlo methods: a mathematical introduction, volume27. Springer,2003

13Pierre Brémaud. Markov chains, vo- lume31ofTexts in Applied Mathematics.

Springer-Verlag, New York,1999. ISBN 0-387-98509-3.d o i:10.1007/978-1-4757- 3124-8. URLhttp://dx.doi.org/10.

1007/978-1-4757-3124-8. Gibbs fields, Monte Carlo simulation, and queues

numerischen Simulation und findet zahlreiche Anwendungen in der Chemie, Physik, Biologie, Informatik, usw.

Literatur

Pierre Brémaud. Markov chains, volume31ofTexts in Applied Ma- thematics. Springer-Verlag, New York,1999. ISBN0-387-98509-3. d o i:10.1007/978-1-4757-3124-8. URLhttp://dx.doi.org/10.1007/

978-1-4757-3124-8. Gibbs fields, Monte Carlo simulation, and queues.

W Keith Hastings. Monte Carlo sampling methods using Markov chains and their applications. Biometrika,57(1):97–109,1970.

(5)

Nicholas Metropolis, Arianna W Rosenbluth, Marshall N Rosen- bluth, Augusta H Teller, and Edward Teller. Equation of State Calcu- lations by Fast Computing Machines. Journal of Chemical Physics,21: 1087–1092,1953.

Thomas Müller-Gronbach, Erich Novak, and Klaus Ritter. Monte Carlo-Algorithmen. Springer,2012.

Gerhard Winkler. Image analysis, random fields and Markov chain Monte Carlo methods: a mathematical introduction, volume27. Springer, 2003.

Referenzen

ÄHNLICHE DOKUMENTE