• Keine Ergebnisse gefunden

10.3 Schnell mischende Markov-Ketten

N/A
N/A
Protected

Academic year: 2021

Aktie "10.3 Schnell mischende Markov-Ketten"

Copied!
8
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Allgemeines zu schnell mischenden Markov-Ketten findet man zum Beispiel in dem Buch

„Introduction to Markov Chains“ von Behrends (2000). Außerdem haben wir von einem Teil eines Vorlesungsskriptes von Steger (2001) über schnell mischende Markov-Ketten profitiert. Außerdem ist der Überblick von Randall (2006) empfehlenswert.

10.1 Anmerkungen zu Eigenwerten

10.1 Lemma. Es seiPeine zeilenstochastische Matrix. Dann ist1ein Eigenwert vonPund für jeden EigenwertλvonPgilt:|λ|61.

10.2 Beweis. Der erste Teil der Aussage ist wegenP(1,. . .,1)>= (1,. . .,1)>klar.

Sei nun λ ∈ C Eigenwert und P(x1,. . .,xn)> = λ(x1,. . .,xn)>. Es sei i0 ein Index mit

|xi0|=maxj|xj|. Es liegen also allexjim Kreis um den Ursprung mit Radius|xi0|. Es gilt:

|λ|·|xi0|=|λ·xi0|=

X

j

Pi0jxj

6X

j

Pi0j|xj|6X

j

Pi0j|xi0|=|xi0|X

j

Pi0j=|xi0|. Also ist|λ|61.

Für reversible Markov-Ketten kann man die Aussage von Lemma10.1verschärfen.

10.3 Lemma. IstP die stochastische Matrix einer reversiblen Markov-Kette, dann hatP nur reelle Eigenwerte.

Für einen Beweis konsultiere man z. B. das Vorlesungsskript von Steger (2001) oder Kapitel 3 im Manuskript von Aldous und Fill (1999)

10.4 Im Folgenden benutzen wir die Abkürzungλmax =max{ |λ| |λist Eigenwert vonPundλ6=1}.

Auf Grund des Vorangegangenen ist klar, dassλmax61ist.

10.5 FallsλN < 0ist geht man auf bewährte Weise vonPzur MatrixP0= 12(P+I)über. Für deren Eigenwerte gilt dannλi0= 12i+1), so dass alle Eigenwerte echt größer0sind. In diesem Fall ist dann alsoλmax2.

10.2 Konvergenzverhalten ergodischer Markov-Ketten

Wir interessieren uns nun für die Frage, wie lange es dauert, bis man bei einer Markov-Kette, die man mit einer Verteilung oder in einem bestimmten Zustand begonnen hat, davon ausgehen kann, dass die Wahrscheinlichkeiten, in bestimmten Zuständen zu sein, denen der stationären Verteilung „sehr nahe“ sind.

Dazu definieren wir als erstes eine Art Abstandsbegriff für diskrete Wahrscheinlichkeitsvertei- lungen.

(2)

10.6 Definition Für zwei Verteilungenpundqist dietotale Variationsdistanz kpqktv = 1

2 X

j∈S

|pjqj|.

3 Man kann sich überlegen, dasskp−qktv =maxT⊆S|p(T) −q(T)|ist, wobeip(T)zu verstehen ist alsP

j∈Tpj(und analogq(T)). Daher ist stets06kpqktv 61.

10.7 Definition Für eine ergodische Markov-Kette mit MatrixPund stationärer Verteilungwund für alle Verteilungenpsei

δp(t) =kpPtwktv

die totale Variationsdistanz zwischenwund der Verteilung, die man nachtSchritten ausgehend vonperreicht hat.

AlsVariationsdistanz zum Zeitpunkttbezeichnen wir das Maximum∆(t) =maxpδp(t). 3 Man kann zeigen, dass das Maximum für einen Einheitsvektorei = (0,. . .,0,1,0,. . .,0)ange- nommen wird. Also gilt:

∆(t) =max

i kPtiwktv wobeiPti diei-te Zeile vonPtsei.

10.8 Satz. Für eine ergodische Markov-Kette mit MatrixPund stationärer Verteilungwexistieren Konstanten Cundα < 1so, dass gilt:

∆(t) =max

i kPtiwktv 6Cαt

Der nachfolgende Beweis stammt aus dem Buch von Levin, Peres und Wilmer (2009).

10.9 Beweis. Wegen der Ergodizität existiert eint0so, dass inPt0 nur echt positive Einträge vorkom- men. Bezeichnetwdie stationäre Verteilung (undWdie Matrix, deren Zeilen alle gleichwsind), dann gibt es einδmit0 < δ < 1so, dass für allei,j∈Sgilt:

Ptij0>δwj

Es seiϑ=1−δ, also auch0 < ϑ < 1. Durch

Pt0= (1−ϑ)WQ

wird eine MatrixQfestgelegt.Qist eine zeilenstochastische Matrix.

Die Überlegungen in Abschnitt8.2zeigen, dass für jede stochastische Matrix Mgilt, dass MW=Wist. Zum Beispiel gilt für jedesk∈N0: (i)QkW=W. Außerdem ist (ii)WPt0=W.

Durch Induktion zeigt man nun: Für jedesk∈N+ist Pt0k= (1−ϑk)WkQk

(3)

Der Induktionsanfang ist klar. Für den Induktionsschritt rechnet man Pt0(k+1) =Pt0kPt0

=

(1−ϑk)WkQk

Pt0 nach Induktionsvoraussetzung

= (1−ϑk)WPt0kQkPt0

= (1−ϑk)WkQkPt0 nach Bemerkung (ii) oben

= (1−ϑk)WkQk((1−ϑ)WQ)

= (1−ϑk)Wk(1−ϑ)QkWk+1Qk+1

= (1−ϑk)Wk(1−ϑ)Wk+1Qk+1 nach Bemerkung (i) oben

= (1−ϑk+1)W+ϑk+1Qk+1

Die Tatsache, dassPt0k= (1−ϑk)WkQkist, nutzt man wie folgt. Multiplikation mitPjund Umordnen liefert

Pt0k+jWk

QkPjW

Man betrachtet nun eine beliebige Zeileidieser Matrizengleichung, summiert die Beträge der Einträge in dieser Zeile und dividiert durch2. Auf der linken Seite ergibt sichkPti0k+jwktv. Auf der rechten Seite ergibt sichϑkk(QkPj)iwktv, was man durchϑknach oben abschätzen kann.

Für beliebigest∈N+sei nunk=tdivt0 undj=tmodt0(alsot=t0k+j). Dann ist kPtiwktv =kPti0k+jwktv

k

= 1 ϑ

ϑ1/t0t0

ϑ1/t0t0k

61 ϑ

ϑ1/t0j+t0k

daj < t0undϑ < 1

= 1 ϑ

ϑ1/t0t

10.10 Im Folgenden benutzen wir die Abkürzung

wmin=min

j wj

10.11 Satz. Für jede reversible Markov-Kette mit stationärer Verteilungwgilt:

∆(t)6 λtmax wmin .

Wenn alsoλmax < 1ist (was bei reversiblen Markov-Ketten der Fall ist), dann nähert sich die Markov-Kette in einem gewissen Sinne „schnell“ der stationären Verteilung. Wir präzisieren das noch wie folgt:

(4)

10.3 Schnell mischende Markov-Ketten

10.12 Häufig ist man an einer ganzen Familie von Markov-KettenM(I)interessiert. Dabei ergibt sich jedesM(I)auf Grund einer InstanzIdes eigentlich zu lösenden Problems. Zum Beispiel könnte jedesIein Graph sein, und die Zustände vonM(I)sind gerade die Matchings vonI.

10.13 Definition Es seiMeine ergodische Markov-Kette mit stationärer Verteilungw. Fürε > 0sei τ(ε) =min{t|∀t0>t:∆(t0)6ε}

dieε-Konvergenzzeitder Markov-KetteM. 3

10.14 Definition Eine Familie von Markov-KettenM(I)heißtschnell mischend, falls dieε-Konvergenz-

zeit polynomiell in|I|und ln1/εist. 3

10.15 Wegen Satz10.11ist eine reversible Markov-Kette jedenfalls dann schnell mischend, wenn für ein t, das polynomiell in|I|und log1/εist, gilt:

λtmax wmin 6ε. Äquivalente Umformungen ergeben

λtmax 6 εwmin

1

λmax t

> 1 εwmin

t > lnε−1+lnw−1min lnλ−1max

Wegen1−x6lnx−1für0 < x < 1ist das jedenfalls dann der Fall, wenn t> lnε−1+lnw−1min

1−λmax

Schnelles Mischen liegt also jedenfalls dann vor, wenn lnw−1min und1/(1−λmax)polynomiell in|I| sind.

Damit haben wir zumindest eine Hälfte des folgenden Satzes bewiesen, der obere und untere Schranken fürτ(ε)angibt:

10.16 Satz.

τ(ε)6 1

1−λmaxlog 1 wminε τ(ε)> 1

2(1−λmax)log 1 2ε

Es stellt sich die Frage, woher man (zumindest näherungsweise) Kenntnis vonλmaxbzw. im Falle von reversiblen Markov-Ketten vonλ2 bekommen kann. Eine Möglichkeit ist der sogenannte Leitwert einer Markov-Kette. Wir werden ihn mit Hilfe gewichteter Graphen einführen, die später

(5)

10.17 Definition Für eine reversible Markov-KetteM= (S,P)mit stationärer VerteilungwseiFMder gerichtete gewichtete Graph mit KnotenmengeSund KantenmengeEF={(i,j)|i6=j∧Pij> 0}.

Jede Kante(i,j)ist gewichtet mit der reellen Zahlc(i,j) =wiPij. 3 10.18 Definition Für eine reversible Markov-Kette mit ZustandsmengeSund stationärer Verteilung

wdefinieren wir für jede TeilmengeT ⊆S

die Kapazität C(T) = X

i∈T

wi

den Fluß F(T) = X

i∈T,j /∈T

wiPij

und Φ(T) = F(T)/C(T) DerLeitwertΦder Markov-Kette ist dann

Φ=min

T⊆Smax{Φ(T),Φ(SrT)}.

3 Eine kurze Überlegung zeigt, dassΦ(T)die bedingte Wahrscheinlichkeit ist, dass man bei der Markov-Kette mit stationärer Verteilung einen Übergang von innerhalb vonT nach außerhalb von T beobachtet. Wenn Φ(T) klein ist, dann ist T sozusagen eine Art „Falle“, aus der die Markov-Kette schlecht heraus kommt.

Man kann nun mit einigem technischen Aufwand zeigen:

10.19 Satz. Für jede reversible Markov-Kette gilt:

1−2Φ2261−Φ2 2 . Zusammen mit Punkt10.15ergibt sich:

10.20 Korollar. Für reversible Markov-Ketten (mitλ2max) ist τ(ε)6 2

Φ2(lnε−1+lnw−1min)

Man kennt mehrere Methoden, um den Leitwert jedenfalls mancher Markov-Ketten zu berechnen.

Die folgende Definition ist eine Art graphentheoretische Version des Leitwertes:

10.21 Definition Für einen ungerichteten Graphen(V,E)ist dieKantenvervielfachungµdas Minimum der Zahlen

|{(i,j)|i∈T∧j /∈T∧(i,j)∈E}|

|T|

wobei über alle TeilmengenT ⊆Vminimiert werde mit|T|6|V|/2. 3 10.22 Man kann sich überlegen, dass für die Markov-KettenMG,β aus Definition9.2gilt:Φ=βµ/d.

Damit ist man bei der Aufgabe gelandet, die Kantenvervielfachung von Graphen zu bestimmen.

Das kann man zum Beispiel mit Hilfe der Methode der sogenannten kanonischen Pfade von Sinclair machen. Die Verallgemeinerung für beliebige reversible Markov-Ketten betrachtet Mehr- güterflüsse.

(6)

10.23 Definition Für jedes Paar(i,j)von Knoten inFMsoll von einem „Gut“gijdie Mengewiwjvon inachjtransportiert werden. Dazu werden Flüssefij:EFR+gesucht, so dass die folgenden naheliegenden Forderungen erfüllt sind:

X

k

fij(i,k) = wiwj

für allel6=i,j:X

k

fij(k,l) = X

m

fij(l,m) X

k

fij(k,j) = wiwj

Der Gesamtfluss durch eine Kanteesei

f(e) =X

i6=j

fij(e)

und dierelative Kantenauslastung

ρ(f) = max

e∈EFf(e)/c(e).

3 Dann gilt die folgende Aussage, die wir hier nicht beweisen:

10.24 Lemma. Für jede Markov-Kette mit Flüssenfijgilt:

Φ> 1 2ρ(f) .

Um auf einen großen Leitwert schließen zu können, muss man daher versuchen, Flüsse mit kleiner (i. e. polynomieller) relativer Kantenauslastung zu finden.

Wir wollen dies nun auf Random Walks im Hyperwürfel anwenden.

10.25 Beispiel. Dazu sei eine Dimensionalitätnbeliebig aber fest gewählt undMdie Markov-Kette, die sich gemäß Definition9.2 fürβ = 1/2aus demn-dimensionalen HyperwürfelHn als zu Grunde liegenden Graphen ergibt. Dasnsei per definitionem die „Größe“ der Probleminstanz.

Mist reversibel gemäß Punkt9.3. Da inHn jeder Knoten Gradnhat, sind die Übergangs- wahrscheinlichkeiten alsoPii=1/2undPij =1/2nfüri6=j. Aus Symmetriegründen ist klar, dass die stationäre Verteilung die Gleichverteilung ist mitwi =1/2n; damit ist natürlich auch wmin=1/2n.

Offensichtlich ist ln1/wmin∈Θ(n)polynomiell inn. Um einzusehen, dassMschnell mischend ist, genügt es folglich wegen Lemma10.24, Flüssefij zu finden, so dassρ(f)polynomiell (inn) ist.

Dazu gehen wir wie folgt vor. Jeder Flussfij muss gerade die „Menge“1/22ntransportieren.

Sie wird wie folgt verteilt: Zwischeniundjgibt esd! kürzeste Pfade, wobeiddie Hammingdi- stanz zwischeniundjist. Auf jedem dieser Pfade transportieren wir den gleichen Anteil der Gesamtmenge.

Die Bestimmung der relativen Kantenauslastung wird dadurch erleichtert, dass aus Symme- triegründen auf jeder Kante der gleiche Gesamtfluss vorliegt.

Für jedesdgibt es2n· nd

Paare(i,j)mit Abstandd. Für einfestesPaar(i,j)haben alle für den Flussfij verwendeten Pfade Längedund es ist folglich

X

(7)

Also ist

f(e) = 1

|EF| Xn

d=1

2n

n

d

·d·wiwj

= 1 n2n

Xn

d=1

2n

n

d

·d· 1 22n

= 1 22n

Xn

d=1

n

d

·d n

= 1 22n

Xn

d=1

n−1 d−1

= 1 22n

n−1X

d=0

n−1 d

= 2n−1 22n = 1

2·2n

Andererseits ist für alle Kantenc(e) =wiPij =1/(2n·2n)und somit ρ(f) = 1/(2·2n)

1/(2n·2n) =n.

Wegen Korollar10.20sind diese Markov-Ketten also schnell mischend.

Man mache sich noch einmal klar, was das bedeutet (siehe Definition 10.14): Es sei p = e0 die Anfangs-„Verteilung“ bei der man sicher im Knoten (0,0,. . .,0)des n-dimensionalen Hyperwürfels startet. Es seiptdie nachtSchritten erreichte Wahrscheinlichkeitsverteilung. Für jedesε=2−kist dann dieε-Konvergenzzeit, also die Anzahl Schritte nach derkptwktv < ε immer gilt, polynomiell in ln1/ε=kundn. Und das, obwohl der Hyperwürfel2nKnoten hat!

Zusammenfassung

Oft hat man es mit ergodischen Markov-Ketten zu tun, die sogar reversibel sind. In diesem Fall gibt es Kriterien, um festzustellen, ob sie schnell mischend sind.

Literatur

Aldous, David und James Allen Fill (1999). „Reversible Markov Chains and Random Walks on Graphs“. In:url:http://www.stat.berkeley.edu/~aldous/RWG/book.html(siehe S.82).

Behrends, Ehrhard (2000). Introduction to Markov Chains. Advanced Lectures in Mathematics.

Vieweg (siehe S.82).

Levin, Davind A., Yuval Peres und Elizabeth L. Wilmer (2009).Markov Chains and Mixing Times.

AMS (siehe S.83).

(8)

Randall, Dana (2006). „Rapidly Mixing Markov Chains with Applications in Computer Science and Physics“. In:Computing in Science and Engineering8.2, S. 30–41 (siehe S.82).

Steger, Angelika (2001). „Schnell mischende Markov-Ketten“. In:url:http://wwwmayr.informatik.

tu-muenchen.de/lehre/2001SS/ra/slides/markov-skript.ps(siehe S.82).

Referenzen

ÄHNLICHE DOKUMENTE

[r]

für uns vor allem irreduzible Markov-Ketten interessant I

8.15 Ist eine Markov-Kette M mit Matrix P nicht aperiodisch, dann kann man daraus wie folgt eine neue, aperiodische Markov-Kette M 0 konstruieren: In M werden alle

b) Die Systematik der Produktionsfaktoren leitet sich abhängig vom gewählten Erkenntnisobjekt ab, ist also nicht natürlich gegeben. Eine zweifelsfreie Zuordnung ist nicht

• Die Vergabe der Punkte nehmen Sie bitte so vor wie in der Korrekturrichtlinie ausgewiesen. Eine summarische Angabe von Punkten für Aufgaben, die in der

Sei (X n ) n≥0 eine homogene diskrete Markov-Kette mit Übergangsmatrix p auf dem (höchstens abzählbaren) Zustands-

Since the holding times in each state are exponentially distributed with the same rate Λ, then, as we will see in Section 4, if we are interested in the long-run fraction of time

Image analysis, random fields and Markov chain Monte Carlo methods: a mathematical introduction,