2017年9月8日金曜日

Markov Chains and Monte Carlo Methods 08日目

Ioana A. Cosma and Ludger Evers, Markov Chains and Monte Carlo Methods
http://users.aims.ac.za/~ioana/notes.pdf
CC-by-nc-sa 2.5
http://creativecommons.org/licenses/by-nc-sa/2.5/za/legalcode

もしかして: chap.3 いらない?

Chapter 4. The Gibbs Sampler

4.1 introduction

importance samplingではfから直接サンプリングせずにEf[h(X)]を求めたが,性質の良いinstrumental ditributionをみつけるのは特に高次元に置いて困難になる. この章で議論するサンプリング法は,fがstationary distributionであるようなMarkov chainを設計することが最終目標である. こうした技術を総称してMarkov Chain Monte Carlo (MCMC)とよぶ. x=(x1,...,xp),f(x)をサンプルを生成したいdistributionとして,{X(i)}ni=1が,fをstationary distributionにもつMarkov chainであるようにする. このとき{X(t)}は従属で,X(t)tの極限でf(x)の正確なサンプルとなる. 
f(x)からサンプリングをすることが困難でも,full conditional distributions
fXj|Xj(|x1,...,xj1,xj+1,...,xp) where Xj=(x1,..,xj1,xj+1,...,xp)


が全てのjについて効率的にサンプリングできるとき,Gibbs sampler が使える.
記述がまちまちだが,Gibbs samplerによって生成される列はあるMarkov chainの一つのrealizationつまりsample pathである

4.2 Algorithm

Algorithm 4.1 ((Systematic sweep) Gibbs sampler)

(X(0)1,...,X(0)p)から初めて, t=1,2,...
1, X(t)1fX1|X1(|X(t1)2,...,X(t1)p) を取る

j, X(t)jfXj|Xj(|X(t)1,...,X(t)j1,X(t1)j+1,...,X(t1)p) をとる

p. X(t)pfXp|Xp(|X(t)1,...,X(t)p1) をとる
を繰り返す.

Gibbs samplerはreversible でない. Liu et al.(1995)はreversibleなchainを返すアルゴリズムを開発した.

Example 4.2 (Random sweep Gibbs sampler)

(X(0)1,...,X(0)p)から初めて, t=1,2,...
1. {1,...,p}から,(例えばuniformで) jを選んで,
2. X(t)jfXj|Xj(|X(t1)1,...,Xt1j1,Xt1j+1,...,X(t1)p)をとって,すべてのijX(t)i=X(t1)iとする.

4.3 The Hammersley-Clifford Theorem

Gibbs samplerの基礎であるfull conditionalはjoint distributionを一意に決定するという著しい特徴が有る(Hammersley and Cliford).

Definition 4.1 (Positivity condition)

density f(x1,...,xp)とmarginal density fXi(xi)をもつ分布とがpisitivityをもつ
\Leftrightarrow [\forall x_1,…,x_p.\ (f_{X_i}(x_i)>0 \Rightarrow      f(x_1,…,x_p)>0)]

positivityは,joint distribution fの台がfXiの台たちのデカルト積であるということである.

#### Theorem 4.2 (Hammersley-Clifford)

(X1,...,Xp)がpositivityをみたし,joint densityはf(x1,..,xp)とする. このとき任意の(ξ1,...,ξp)supp(f)に,
f(x1,...,xp)pj=1fXj|Xj(xj|x1,..,xj1,ξj+1,...,ξp)fXj|Xj(ξj|x1,...,xj1,ξj+1,...,ξp)

proof.

f(x1,...,xp)=fXp|Xp(xp|x1,...,xp1)f(x1,..,xp1)


であって,xpξpに置き換えても成立する.
f(x1,...,xp1,ξp)=fXp|Xp(ξp|x1,...,xp1)f(X1,...,xp1)

したがって
f(x1,...,xp)=f(x1,...,xp1)fXp|Xp(xp|x1,...,xp1)=f(x1,...,xp1)_=f(x1,...,xp1,ξp)/fxp|xp(ξp|x1,..,xp1)   fXp|Xp(xp|x1,...,xp1)=f(x1,...,xp1,ξp)fX1|X1(x1|ξ2,...,ξp)fX1|X1(ξ1|ξ2,..,ξ2)fXp|Xp(xp|x1,...,xp1)fXp|Xp(ξp|x1,...,xp1)

よって成立. positivity conditionが分母が0でないことを保証する.

Hammersley-Cliffford theoremはjoint probability distributionの存在を,任意のconditionの選び方にも保証するわけではない. このような問題はBayesian modelingで,prior distributionの設定に問題が有る時によく起きる.例えば
X1|X2expo(λX2),X2|X1expo(λX1)とする. Hammersley-Cliffordから
f(x1,x2)fX1|X2(x1|ξ2)fX2|X1(x2|x1)fX1|X2(ξ1|ξ2)fX2|X1(ξ2|x1)exp(λx1x2)


しかしexp(λx1x2)dx1dx2は無限であって,f(x1,x2)がPDFとなるような分布は存在しない.

4.4 Convergence of the Gibbs sampler

f(x1,...,xp)が実際にGibbs sampler(この節ではalg. 4.1とする)で生成されるMarkov chainのstationary distributionであることを確かめる. まず,Gibbs samplerによって生成されるtransition kernelを議論する.

Lemma 4.3

Gibbs samplerのtransition kernelは
K(x(t1),x(t))=fX1|X1(x(t)1|X(t1)2,..,x(t1)p)fX2|X2(x(t)2|X(t)1,x(t1)3,...,x(t1)p)fXp|Xp(x(t)p|x(t)1,...,x(t)p1)

proof.

P(X(t)X|X(t1)=x(t1))=Xf(X(t)|X(t1))(x(t)|x(t1))dx(t)=fXp|Xp(x(t)1|x(t1)2,...,x(t1)p)fX2|X2(x(t)2|x(t)1,x(t1)3,...,x(t1)p)fXp|Xp(x(t)p|x(t)1,...,x(t)p1)dx(t)

Proposition 4.4 証明略

f(x1,...,xp)はたしかに生成されるMarkov chain(X0,X(1),...)のstationary distributionである.

以上, Gibbs samplerが生成するMarkov chainはfをstationary distributionにもつことが言えた. Theorem 1.19では,Markov chain がstationary distributionに収束する十分条件がirreducibleかつaperiodicであることを見たが,Gibbs samplerが生成するMarkov chainがこれを満たすかは議論の余地が有るし,実際満たさない.

Example 4.3 (Reducible Gibbs sampler)

C1:={(x1,x2)|(x1,x2)(1,1)1},C2:={(x1,x2)|(x1,x2)(1,1)1}
とし,fC1C2上一様分布のPDFとする.このとき,X(0)1<0なる初期値から開始したGibbs samplerはfig. 4.2のように,C2の点のみを取り出してしまう.

これは生成されたMarkov chainがirreducibleでないために起きる. 次の命題はGibbs samplerの生成するMarkov chain のirreducibilityの十分条件を与える. より弱い条件の十分な命題もある(Robert and Casella, 2004, Lemma 10.11)

Proposition 4.5

f(x1,...,xp)がpositivity conditionを満たすとき,Gibbs samplerはirreducibleかつrecurrentなMarkov chainを生成する.

proof.

Xsupp(f)Xf(x(t)1,...,x(t)p)d(x(t)1,..,x(t)p)>0を満たすとする.
XK(x(t1),x(t))dx(t)=XfX1|X1(x(t)1|x(t1)2,...,x(t1)p)_>0fXp|Xp(x(t)p,x(t)1,...,x(t)p1)_>0dx(t)>0


が,positivityよりconditional densityが正の値であることから言える.よって{X(t)}tstrongly f-irreducibleで, prop. 1.28から,Markov chainはまたrecurrentである.

さらに,エルゴード性の帰結としてTh. 4.6が得られる.

Theorem 4.6

Gibbs sampler によって生成されるMarkov chainがirreducibleかつrecurrentであるとき,可積なh:ERについて
1nlimnnt=1h(X(t))Ef[h(X)]


がほとんどすべての初期値X(0)で成立する.

これがEf[h(X)]を,生成した一つのMarkov chainの平均によって推測することを正当化する.

Example 4.6

(X1,X2)N2((μ1μ2),(σ21σ12σ12σ22))
について,P(X10,X20)をGibbs samplerによって計算する.
marginal distributionはX1N(μ1,σ21),X2N(μ2,σ22)である
conditional distibution X1|X2=x2X2|X1=x1は正規分布の多項式表現から
X1|X2=x2N(μ1+σ12/σ22(x2μ2),σ21(σ12)2/σ22)


X2|X1=x1N(μ2+σ21/σ21(x1μ1),σ22(σ21)2/σ21)

よってGibbs samplerが,t=1,2...
1. X(t)1N(μ1+σ12/σ22(X(t1)2μ2),σ21(σ12)2/σ22)を取る.
2. X(t)2N(μ2+σ21/σ21(X(t)1μ1),σ22(σ21)2/σ21)を取る.

を繰り返してMarkov chain {X(t)=(X(t)1,X(t)2)}tを生成する.
μ1=μ2=0,σ21=σ22=1,σ12=0.3とするとき,fig.4.4はひとつのsample pathの例である. さらにTh. 4.6により,P(X11,X20)(X(t)10,X(t)20)1からtまでの平均によって推測できる. tを横軸として平均をプロットしたのがfig. 4.3である.
enter image description here
enter image description here

Markov性から(X(0),...)は従属であり,普通は正の相関を持つ. {X(t)}の相関が大きいほどMarkov chainはゆっくりと動く(slowly mixingという). Gibbs samplerにおいても, Xjが正であれ負であれ強く相関しているときにはそのような現象が見られる. ex.4.5はその例である.

Example 4.5 (Sampling from a highly correlated bivariate Gaussian)

4.4 の例で,ただσ12=0.99にした場合に,ρ(X1,X2)=0.99である. このときGibbs samplerはslower mixingで,fig. 4.5,からわかるとおり,収束が非常に遅い.

enter image description here

0 件のコメント:

コメントを投稿