Markov-Ketten ↔ Graphen

(1)

Randomisierte Algorithmen

8. Markov-Ketten

Thomas Worsch

Fakultät für Informatik Karlsruher Institut für Technologie

Wintersemester 2019/2020

1 / 40

(2)

8. Markov-Ketten Überblick

Überblick

Grundlegendes zu Markov-Ketten

Irreduzible und ergodische Markov-Ketten

(3)

8. Markov-Ketten

Überblick

3 / 40

(4)

8. Markov-Ketten

Markov-Kette

I stochastischer Prozess in diskreter Zeit

I schrittweiser Übergang von einem Zustand zum nächsten I festgelegt durch𝑀 =(𝑆 ,P):

I 𝑆: (bei uns immer) endliche Menge vonZuständen I P=(𝑃_{𝑖 𝑗}): zeilenstochastische𝑆×𝑆-Matrix von

Übergangswahrscheinlichkeiten:

für𝑖, 𝑗 ∈𝑆ist0≤𝑃_{𝑖 𝑗} ≤1undÍ

𝑗𝑃_{𝑖 𝑗} =1 I 𝑃_{𝑖 𝑗} ist Wahrscheinlichkeit (W.keit), dass

𝑀von Zustand𝑖in Zustand𝑗übergeht.

I Beachte:

I 𝑃_{𝑖 𝑗} hängt nur von𝑖und𝑗ab

I nicht etwa von noch früheren Zuständen oder Anzahl Schritte oder . . .

(5)

8. Markov-Ketten

Markov-Ketten ↔ Graphen

I jeder Markov-Kette𝑀entspricht ein gerichteter Graph𝐺_𝑀: I Kante𝑖→ 𝑗genau dann, wenn𝑃_{𝑖 𝑗} >0

u. U. gewichtet mit𝑃_{𝑖 𝑗}

I jedem Graph𝐺 entspricht Markov-Kette𝑀_𝐺 (einfacher Random Walk)

I 𝑃_{𝑖 𝑗} =0, falls keine Kante zwischen𝑖und𝑗 I 𝑃_{𝑖 𝑗} =1/|{𝑗 | (𝑖, 𝑗) ∈𝐸}|sonst

5 / 40

(6)

8. Markov-Ketten

Vereinbarung

I 𝑋_𝑡: Zufallsvariable für Zustand zum Zeitpunkt𝑡, I bei Markovketten also

P(𝑋_𝑡₊₁=𝑗 |𝑋_𝑡 =𝑖, 𝑋_𝑡₋₁=𝑖_𝑡₋₁, . . . , 𝑋₀=𝑖₀)

=P(𝑋_𝑡+₁=𝑗 |𝑋_𝑡 =𝑖)

=𝑃_{𝑖 𝑗}

I 𝑋₀. . .Anfangszustand. . . I im allgemeinen randomisiert I manchmal egal . . .

(7)

8. Markov-Ketten

Rechnung

I wenn zum Zeitpunkt𝑡 I q Zeilenvektor I q𝑖 W.keit für Zustand𝑖 I dann zum Zeitpunkt𝑡+1

I qP entsprechender Zeilenvektor:

P(𝑋_𝑡₊₁= 𝑗) =Õ

𝑖

P(𝑋_𝑡 =𝑖)P(𝑋_𝑡₊₁=𝑗 |𝑋_𝑡 =𝑖)

=Õ

𝑖

q^𝑖𝑃_{𝑖 𝑗} =(qP)^𝑗

I qP^𝑘 die Verteilung nach𝑘Schritten I W.keit𝑃^(𝑘)

𝑖 𝑗 in𝑘Schritten von𝑖nach𝑗überzugehen 𝑃^(𝑘)

𝑖 𝑗 =(P^𝑘)𝑖 𝑗

7 / 40

(8)

8. Markov-Ketten

Abgeschlossene und irreduzible Teilmengen

I nichtleere Teilmenge𝐶 ⊆𝑆von Zuständenabgeschlossen, falls

∀𝑖 ∈𝐶:∀𝑗 ∈𝑆r𝐶:𝑃_{𝑖 𝑗} =0.

I 𝑆ist immer abgeschlossen

I 𝐶heißtirreduzibel, falls𝐶abgeschlossen, aber keine echte Teilmenge von𝐶abgeschlossen I Markov-Ketteirreduzibel, falls ganz𝑆 irreduzibel

I verschiedene irreduzible Teilmengen sind disjunkt

(9)

8. Markov-Ketten

Transiente und rekurrente Zustände

Es seien𝐶₁, . . . ,𝐶_𝑟alle irreduziblen Teilmengen einer Markov-Kette𝑆 und𝑇 =𝑆 r(𝐶₁∪ · · · ∪𝐶_𝑟).

I Die Zustände in𝑇 heißentransient,

I die Zustände in den𝐶_𝑘 rekurrentoderpersistent.

9 / 40

(10)

8. Markov-Ketten

Notation

I Wahrscheinlichkeit, von𝑖nach𝑡Schrittenerstmalsnach𝑗 überzugehen:

𝑓⁽

𝑡)

𝑖 𝑗 =P(𝑋_𝑡 = 𝑗∧ ∀1≤𝑠 ≤𝑡−1 :𝑋_𝑠 ≠ 𝑗 |𝑋₀=𝑖) I Wahrscheinlichkeit von Zustand𝑖aus irgendwann Zustand𝑗zu

erreichen:

𝑓^∗

𝑖 𝑗 =Õ

𝑡>0

𝑓^(𝑡)

𝑖 𝑗

I Erwartungswert für die benötigte Anzahl Schritte, um von Zustand 𝑖irgendwann erstmals Zustand𝑗 zu erreichen:

𝑚_{𝑖 𝑗} = (Í

𝑡≥1𝑡·𝑓^(𝑡)

𝑖 𝑗 falls𝑓^∗

𝑖 𝑗 =1

∞ sonst

(11)

8. Markov-Ketten

Charakterisierung transienter Zustände

Für endliche Markov-Ketten gilt:

Ein Zustand𝑖ist genau danntransient, wenn eine der folgenden (äquivalenten) Bedingungen erfüllt ist:

I 𝑓^∗

𝑖𝑖 <1.

I Í

𝑡≥0𝑝⁽

𝑡) 𝑖𝑖 < ∞.

I Ein Random Walk, der in𝑖startet, kehrt mit Wahrscheinlichkeit0unendlich oft nach𝑖zurück.

11 / 40

(12)

8. Markov-Ketten

Charakterisierung rekurrenter Zustände

Für endliche Markov-Ketten gilt:

Ein Zustand𝑖ist genau dannrekurrent, wenn eine der folgenden (äquivalenten) Bedingungen erfüllt ist:

I 𝑓^∗

𝑖𝑖 =1.

I Í

𝑡≥0𝑝⁽

𝑡) 𝑖𝑖 =∞.

I Ein Random Walk, der in𝑖startet, kehrt mit Wahrscheinlichkeit1unendlich oft nach𝑖zurück.

(13)

8. Markov-Ketten

Überblick

13 / 40

(14)

8. Markov-Ketten

Irreduzible Markov-Ketten

für uns vor allem irreduzible Markov-Ketten interessant I ganz𝑆 die einzige irreduzible Teilmenge

I es gibt keine transienten Zustände

I zugehöriger Graph streng zusammenhängend

(15)

8. Markov-Ketten

Perioden und Aperiodizität

I Periode𝑑_𝑖eines Zustandes𝑖:

größter gemeinsamer Teiler aller Zahlen in 𝑁_𝑖 ={𝑘 ∈N+| 𝑃⁽

𝑘) 𝑖𝑖 >0}.

I Zustand mit Periode1heißt auchaperiodisch.

I Ein aperiodischer rekurrenter Zustand heißt auchergodisch.

15 / 40

(16)

8. Markov-Ketten

Aperiodische und ergodische Markov-Ketten

I Eine Markov-Kette istaperiodisch, wenn alle ihre Zustände aperiodisch sind.

I Eine irreduzible und aperiodische Markov-Kette heißt auch ergodisch.

(17)

8. Markov-Ketten

Für aperiodische Zustände giltnichtautomatisch, dass𝑃^(𝑘⁾

𝑖𝑖 >0ist füralle𝑘.

Aber immerhin . . .

17 / 40

(18)

8. Markov-Ketten

Lemma

I Es sei𝑀 ⊆ Neine Menge natürlicher Zahlen mit der Eigenschaft, dass

I 𝑀+𝑀={𝑘+ℓ |𝑘 , ℓ ∈𝑀} ⊆𝑀undgcd𝑀 =1.

I Dann gibt es ein𝑘₀∈Nmit

I {𝑘₀} +N₀={𝑘₀, 𝑘₀+1, 𝑘₀+2, . . .} ⊆𝑀, d. h.

I 𝑀enthält ab irgendeinem𝑘₀allenatürlichen Zahlen.

(Übungsaufgabe)

(19)

8. Markov-Ketten

Konstruktion aperiodischer Markov-Ketten

I Ausnichtaperiodischer Markov-Kette𝑀mit MatrixP kann man aperiodische Markov-Kette𝑀⁰konstruieren:

P⁰= 1 2(I+P) Ibezeichne die Einheitsmatrix.

I diese Vorgehensweise erhält folgende Eigenschaften I IstwP=w, dann ist auchwP⁰=wund umgekehrt. I Die beiden Matrizen haben die gleichen Eigenvektoren.

I Für die Eigenwerte gilt: Ist𝜆Eigenwert vonP, dann ist1/2+𝜆/2 Eigenwert vonP⁰.

wird später ^hier benutzt

19 / 40

(20)

8. Markov-Ketten

Konstruktion aperiodischer Markov-Ketten

I Ausnichtaperiodischer Markov-Kette𝑀mit MatrixP kann man aperiodische Markov-Kette𝑀⁰konstruieren:

P⁰= 1 2(I+P) Ibezeichne die Einheitsmatrix.

I diese Vorgehensweise erhält folgende Eigenschaften I IstwP=w, dann ist auchwP⁰=wund umgekehrt.

I Die beiden Matrizen haben die gleichen Eigenvektoren.

I Für die Eigenwerte gilt: Ist𝜆Eigenwert vonP, dann ist1/2+𝜆/2 Eigenwert vonP⁰.

wird später ^hier benutzt

(21)

8. Markov-Ketten

8.16 Satz

Potenzen ergodischer Markov-Ketten

Satz

Es seiPdie Matrix einer ergodischen Markov-Kette. Dann gilt:

I W=lim𝑡→∞P^𝑡 existiert.

I Wbesteht aus identischen Zeilenw.

I Alle Einträge vonw=(𝑤₁, . . . , 𝑤_𝑛)sind echt größer0und Í^𝑛

𝑖=1𝑤_𝑖 =1.

20 / 40

(22)

8. Markov-Ketten

Beweis (1)

I Da Markov-Kette ergodisch, gibt es eine PotenzP^𝑘, deren Einträgealleecht positiv sind.

I (Übungsaufgabe)

I O. B. d. A. habe schonPdiese Eigenschaft (sonst: arbeite mitP^𝑘).

I Sei𝑑 >0der kleinste inPvorkommende Eintrag.

I Sei zunächstyein beliebiger Spaltenvektor.

1. Zeige: Wenn

I 𝑚₀und𝑀₀der kleinste resp. der größte Wert eines Vektorsyund I 𝑚₁und𝑀₁der kleinste resp. der größte Wert vonPy,

dann

I 𝑚₀≤𝑚₁≤𝑀₁≤𝑀₀und I 𝑀₁−𝑚₁≤ (1−2𝑑) (𝑀₀−𝑚₀)

(23)

8. Markov-Ketten

Beweis (2)

1. 𝑀₁−𝑚₁ ≤ (1−2𝑑) (𝑀₀−𝑚₀):

I Die Einträge jeder Zeile von𝑃addieren sich zu1.

I Für jedes𝑖ist(Py)𝑖 =Í

𝑗𝑃_{𝑖 𝑗}𝑦_𝑗. Offensichtlich ist I 𝑚₁=min𝑖

Í

𝑗𝑃_{𝑖 𝑗}𝑦_𝑗 ≥𝑑 𝑀₀+ (1−𝑑)𝑚₀≥𝑚₀ I 𝑀₁=max^𝑖Í

𝑗𝑃_{𝑖 𝑗}𝑦_𝑗 ≤𝑑𝑚₀+ (1−𝑑)𝑀₀≤𝑀₀ I Also

I 𝑀₁−𝑚₁≤ (𝑑𝑚₀+ (1−𝑑)𝑀₀) − (𝑑 𝑀₀+ (1−𝑑)𝑚₀)

=(1−2𝑑) (𝑀₀−𝑚₀) I 𝑚₀≤𝑚₁≤𝑀₁≤𝑀₀.

22 / 40

(24)

8. Markov-Ketten

Beweis (3)

2. Induktion für kleinste und größte Einträge𝑚_𝑘 und𝑀_𝑘 vonP^𝑘y:

I 𝑀_𝑘−𝑚_𝑘 ≤ (1−2𝑑)^𝑘(𝑀₀−𝑚₀)und I 𝑚₀≤𝑚₁≤ · · ·𝑚_𝑘≤𝑀_𝑘 ≤ · · · ≤𝑀₁≤𝑀₀.

I Die Folgen𝑚_𝑘und𝑀_𝑘sind beschränkt und monoton,

I sie besitzen Grenzwerte𝑚=lim𝑘→∞𝑚_𝑘bzw.𝑀 =lim𝑘→∞𝑀_𝑘.

(25)

8. Markov-Ketten

Beweis (4)

3. O. B. d. A. habePmindestens2Zeilen und Spalten.

I Dann ist0<𝑑 ≤1/2und damit0≤1−2𝑑 <1.

I 𝑀_𝑘−𝑚_𝑘 ≤ (1−2𝑑)^𝑘(𝑀₀−𝑚₀),

I alsolim𝑘→∞𝑀_𝑘−𝑚_𝑘 =0und daher𝑀 =𝑚.

4. Es sei𝑢=𝑀 =𝑚.

I Alle Einträge inP^𝑘yliegen zwischen𝑚_𝑘und𝑀_𝑘,

I Also istlim𝑘→∞P^𝑘y=u, wobeiuder konstante Vektor ist, dessen Einträge alle gleich𝑢sind.

24 / 40

(26)

8. Markov-Ketten

Beweis (5)

5. Betrachtey=e𝑗 (𝑗-ter Einheitsvektor):

I P^𝑘e𝑗 ist die𝑗-te Spalte vonP^𝑘.

I Folge derP^𝑘e𝑗 konvergiert gegen einen konstanten Vektor

I also existiertlim𝑘→∞P^𝑘 =Wund

I besteht aus lauter konstanten Spalten, d. h.

I aus lauter gleichen Zeilenw

(27)

8. Markov-Ketten

Beweis (6)

6. Alle Einträge inwsind echt größer0:

I Phat keine Nulleinträge.

I Also gilt für jedes𝑗:Pe𝑗enthält nur echt positive Werte, I d. h.𝑚₁>0und daher auch𝑚>0.

I Dieses𝑚ist die𝑗-te Komponente vonw.

7. Í𝑛

𝑖=1𝑤_𝑖 =1:

I alle PotenzenP^𝑘sind stochastische Matrizen, I d. h. haben Zeilensumme1

26 / 40

(28)

8. Markov-Ketten

Stationäre Verteilung

Eine Verteilungwheißtstationär, fallsw=wPist.

(29)

8. Markov-Ketten

8.18 Satz

Stationäre Verteilung ergodischer Markov-Ketten

Satz

Für jede ergodische Markov-Kette mit MatrixPund wwie eben gilt:

1. wP=w stationäre Verteilung 2. FallsvP=vist, istv=(Í

𝑗𝑣_𝑗)w.

3. Es gibt genau eine Wahrscheinlichkeitsverteilungv mitvP=v, nämlichv=w.

28 / 40

(30)

8. Markov-Ketten

Beweis

1. WP=(lim𝑘→∞P^𝑘) ·P=lim𝑘→∞P^𝑘⁺¹=W

Insbesondere gilt also für jede ZeilewvonW:wP=w.

2. WennvP=vist,

dannvP^𝑘 =vfür jedes𝑘und vW=v.

3. 𝑟 =Í

𝑗𝑣_𝑗 die Summe der Komponenten vonv, dannvW=𝑟w, alsov=𝑟w.

4. Unter allen Vektoren𝑟wgibt es offensichtlich genau einen, für den die Summe aller Einträge gleich1ist.

(31)

8. Markov-Ketten

Beobachtung

Graph𝐺 =(𝑉 , 𝐸)mit|𝑉|=𝑛 ≥2und|𝐸| =𝑚sei

endlich, zusammenhängend, ungerichtet und nicht bipartit.

I 𝑀_𝐺ist irreduzibel:

I 𝐺zusammenhängend I 𝑀_𝐺ist aperiodisch:

I jeder Knoten in Zyklus der Länge2 I zu einem Nachbarn und zurück

I jeder Knoten von𝐺in einem Zyklus ungerader Länge:

I 𝐺zusammenhängend und

I ein Knoten in einem Zyklus ungerader Länge, da𝐺nicht bipartit

I Also ist𝑀_𝐺ergodisch.

30 / 40

(32)

8. Markov-Ketten

8.22 Lemma

In der stationären Verteilungwvon𝑀_𝐺gilt für alle𝑣 ∈𝑉: w𝑣 =𝑑(𝑣)/2𝑚 .

Insbesondere ist die stationäre Verteilung regulärer Graphen die Gleichverteilung.

(33)

8. Markov-Ketten

8.23 Beweis

I stationäre Verteilung gegebenenfalls eindeutig

I rechne nach, dassqmit𝑞_𝑣 =𝑑(𝑣)/2𝑚stationäre Verteilung ist:

(qP)𝑣 = Õ

𝑢∈𝑉

𝑞_𝑢𝑃_{𝑢 𝑣}= Õ

(𝑢,𝑣) ∈𝐸

𝑞_𝑢𝑃_{𝑢 𝑣}

= Õ

(𝑢,𝑣) ∈𝐸

𝑑(𝑢) 2𝑚

· 1 𝑑(𝑢)

= Õ

(𝑣,𝑢) ∈𝐸

1 2𝑚

=𝑑(𝑣) 2𝑚

=𝑞_𝑣 .

32 / 40

(34)

8. Markov-Ketten

Stationäre Verteilung irreduzibler Markov-Ketten

I Wegen früher angemerkter Erhaltungseigenschaften gilt der dritte Teil der von Satz 8.18 für irreduzible Markov-Ketten, auch bei Nichtaperiodizität:

I Jede irreduzible Markov-KettePbesitzt genau eine stationäre Verteilungw.

I Aber:lim𝑘→∞P^𝑘existiert für irreduzible Markov-Ketten im allgemeinen nicht.

I Beispiel:P= 0 1

1 0

und alle𝑘:P²^𝑘 =IundP²^𝑘⁺¹=P.

(35)

8. Markov-Ketten

Stationäre Verteilung irreduzibler Markov-Ketten

I Wegen früher angemerkter Erhaltungseigenschaften gilt der dritte Teil der von Satz 8.18 für irreduzible Markov-Ketten, auch bei Nichtaperiodizität:

I Jede irreduzible Markov-KettePbesitzt genau eine stationäre Verteilungw.

I Aber:lim𝑘→∞P^𝑘existiert für irreduzible Markov-Ketten im allgemeinen nicht.

I Beispiel:P= 0 1

1 0

und alle𝑘:P²^𝑘 =IundP²^𝑘⁺¹=P.

33 / 40

(36)

8. Markov-Ketten

Bemerkung

I Für ergodische Markov-Ketten existiertlim^𝑡→∞P^𝑡 =W.

I Also existiert auch der Cesàro-Grenzwertlim𝑡→∞A𝑡, mit A𝑡 = _𝑡+¹₁Í^𝑡

𝑘=0P^𝑘

I und es istlim𝑡→∞A𝑡 =W.

I (Übungsaufgabe) I 𝑃^(𝑘)

𝑖 𝑗 ist die Wahrscheinlichkeit, in𝑘Schritten von𝑖nach𝑗zu gelangen.

I Also ist(A^𝑡)𝑖 𝑗der erwartete Anteil von Zeitpunkten zwischen0 und𝑡, zu denen man in Zustand𝑗 ist, wenn man in Zustand𝑖 startet.

I Das ist nicht nur für ergodische Markov-Ketten so . . .

(37)

8. Markov-Ketten

8.26 Satz

Es seiPdie Übergangsmatrix einer irreduziblen Markov-Kette𝑀. Dann gilt:

I lim𝑡→∞A𝑡 =Wexistiert.

I Alle Zeilen vonWsind gleich.

I Die Zeilewist die eindeutig bestimmte stationäre Verteilung von𝑀.

(ohne Beweis)

35 / 40

(38)

8. Markov-Ketten

8.27 Satz

Für jede ergodische Markov-KettePund jede Verteilungvgilt:

lim

𝑘→∞vP^𝑘 =w.

(39)

8. Markov-Ketten

8.28 Beweis

I Es istlim𝑘→∞vP^𝑘 =vW.

I Da sich die Einträge invzu1summieren und alle Zeilen vonW gleichwsind, istvW=w.

37 / 40

(40)

8. Markov-Ketten

8.29 Satz

Für jede irreduzible Markov-Kette mit stationärer Verteilung w=(𝑤₁, . . . , 𝑤_𝑛)gilt für alle𝑖:

𝑤_𝑖=1/𝑚_𝑖𝑖

(41)

8. Markov-Ketten

8.30 Beweis

1. 𝑖≠ 𝑗:𝑚_{𝑖 𝑗} =𝑃_{𝑖 𝑗} ·1+Í

𝑘≠𝑗𝑃_𝑖𝑘(𝑚_{𝑘 𝑗}+1) =1+Í

𝑘≠𝑗𝑃_𝑖𝑘𝑚_{𝑘 𝑗} 2. 𝑖=𝑗:𝑚_𝑖𝑖 =𝑃_𝑖𝑖·1+Í

𝑘≠𝑖𝑃_𝑖𝑘(𝑚_𝑘𝑖+1) =1+Í

𝑘≠𝑖𝑃_𝑖𝑘𝑚_𝑘𝑖 3. BezeichneEdie Matrix, deren Einträge alle1seien,

Mdie Matrix mit

M^{𝑖 𝑗} = (

𝑚_{𝑖 𝑗} falls𝑖≠ 𝑗 0 falls𝑖= 𝑗 undDdie Matrix mit

D𝑖 𝑗 =

(0 falls𝑖 ≠ 𝑗 𝑚_𝑖𝑖 falls𝑖 =𝑗

39 / 40

(42)

8. Markov-Ketten

8.30 Beweis (2)

I Dann lassen sich die eben genannten Gleichungen ausdrücken als Matrixgleichung

M+D=E+PM. I Multiplizieren mitwvon links ergibt

wM+wD=wE+wPM. I Es istwP=w, also

wM+wD=wE+wM I und folglichwD=wE.

I Das bedeutet aber ausgeschrieben nichts anderes als (𝑤₁𝑚₁₁, 𝑤₂𝑚₂₂, . . . , 𝑤_𝑛𝑚_𝑛𝑛) =(1,1, . . . ,1)