Processing math: 87%

2017年8月17日木曜日

MIT OCW, Fundamentals of Probability 23日目 Markov Chain II

David Gamarnik, and John Tsitsiklis. 6.436J Fundamentals of Probability. Fall 2008. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Lecture 24. Markov Chains II. Mean Reccurence Time

24.1 Markov Chains with a Single Recurrence Class

前章でrecurrenceの関係は同値関係であり,Tをtransientの集合とすると,XTによって同値類別できることを見た.また同値類はR1,...,Rrとする.でできた同値類のそれぞれをclassとよぶことにする

Lemma 24.1

任意の同値類Rkにおいて,iRkかつjRkならばpi,j=0
すなわち,一旦ある同値類Rkに入ったら,その後どう遷移しようとRkからは抜け出せない.

proof.

pi,j>0ij. iはrecurrentだからjiであり,jRk. これは矛盾.

Ti=min{n1:Xn=i|X0=i}
というrandom variableを,を許して導入する.これをthe first passage timeという.

Lemma 24.2

任意のiTに, P(Xn=i,i.o.)=0である. すなわち,有限時間ステップの経過後にchainがiに戻ってくることは殆ど全く無く,またE[Ti]=である.

proof.

定義よりij,jiなるjTがある. ゆえにP(Ti=)>0であって,Ti0だからE[Ti]=が成立する.
Ii,mを, chainが少なくともmiに戻ってくるというeventとする. P(Ii,1)=P(Ti<)である.またLemma24.1からP(Ii,1)<1.
state im1回目に到達したときから見て,次にiに到達する確率というのは,iからiに1回推移する確率に等しいというのがMarkov性から言えるので,(Ii,m|Ii,m1)=P(Ti<)が成り立ち,また明らかにIi,mIi,m1であって, P(Ii,m)=P(Ii,m|Ii,m1)P(Ii,m1)=P(Ti<)P(Ii,m1)==P(Ti<)m. P(Ti<)<1だから,probabilityの連続性を使って,P(mIi,m)=limP(Ii,m)=limmP(Ti<)m=0.Xn=i, i.o.mIi,mと一致するから,補題が示せた.

Exercise 1.

TXを示せ.

答案.

X=Tを仮定する. P(Xn=i, i.o.)=0が任意のiX={1,...,N}に成立するから,P(XnX, i.o.)=0つまり有限時間ステップの後,殆ど必ずこのMarkov chainはどのstateにも到達していない. これは不合理.

Exercise 2.

iTπは任意のstationary distributionとする. πi=0を示せ.

答案.

πi>0を仮定する.πi=1kNpk,iπkである.iTなら,少なくともひとつのπk>0,pk,i>0なるkがある.kRならばikkTに反するからkTである.πk>0なので,同じ論法でklTなるlがあって,li,k.繰り返して,ikllnなる{ln}Tがある. |T|<|X|<から,この列はいつか終わり,その終点lMでは0πlM=1jNpj,lMπj=0πj=0 これは矛盾.

Exercise 3.

M.c. {Xn}がrecurrent class Rをもち,iRならばP(Xn=i, i.o.)=1を示せ.また,P(Ti>t)Cqtが任意のt0になりたつような0<q<1,C>0が存在することを示し,最後にE[Ti]<を示せ.

答案.

あるjiがあってijiだから,P(Ti<)=1. Lemma 24.2の証明と同じ論法でP(Xn=i i.o.)=P(mIi,m)=limmP(Ti<))m=1.
ビーンもうダメ

recurrent class がただ一つであるMarkov chainの例をいくつか挙げる. 特にT=ϕであるとき,このMarkov chainはirreducibleという.μi=E[Ti]を許して定義するとき,これをiにおけるmean recurrence timeという.

24.2 Uniqueness of the Stationary Distibution

Theorem 24-3 (証明略)

recurrence class がただ一つしか無い有限Markov chainは固有のstationary distribution πをもち,πi=1/μiである.特にiがrecurrentであるとき,またそのときにのみπi>0となる.

24.3 Ergodic Theorem

Ni(t)を,0,1,...,tの間にiXにchain が到達した回数とする. Ni(t)/tπiである.このように,tに依存する確率変数をtで割った確率変数の極限のもつ性質をergodic properties(エルゴード性)という. これは,chaihの時間的な平均Ni(t)/tが,空間的な平均πiに近づくという著しい主張である.

Theorem 24-9 (証明略)

任意のkXを初期状態X0=kとして, また任意のiXに,limtNi(t)/t=πi  a.s.であり, limtE[Ni(t)]/t=πiである.

正直わからないのでなにかいい本を探してじっくり読みたい(願望)

2017年8月15日火曜日

MIT OCW, Fundamentals of Probability 22日目 Markov Chain I

David Gamarnik, and John Tsitsiklis. 6.436J Fundamentals of Probability. Fall 2008. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Lecture 23. Markov Chains

23.1 Introduction

Definition 23-1

{Xn}n1がMarkov chain
X(Ω)=Xはたかだか可算集合で,
P(Xn=xn|Xn1=xn1,Xn2=xn2,...,X1=x1)=P(Xn=xn|Xn1=xn1)
Xをstatesといい,Xn=sXなら,{Xn}nにおいてstate sをとる という. 特に無限であると言わない場合,|X|<の場合を考える.このときX={1,...,N}として一般性を失わない.

Proposition 23-1

Markov chain {Xn}n1について,
(a) 任意のs,x1,...,xnXmNについて,
P(Xn+m=s|Xn1=xn1,Xn2=xn2,...,X1=x1)=P(Xn+m=s|Xn1=xn1)

(b) 任意のx1,...,xnXk{1,...,n}について,
P(Xn=xn|Xn1=xn1,...,X1=x1|Xk=xk)=P(Xn=xn,Xn1xn1,...,Xk+1=xk+1|Xk=xk)P(Xk1=xk1,...,X1=x1|Xk=xk)

23.2 Examples

random walkはMarkov chainの一つである.
サイコロを繰り返しふって,Xnn回の試行で過去出た出目6の回数とする. このときP(Xn=x+1|Xn1=x)=1/6,P(Xn=x|Xn1=x)=5/6であり,またyx,x+1なら P(Xn=y|Xn1=x)=0である.これは右へ進む確率1/6,その場にとどまる確率1/6のrandom walkとみなせる.

23.3 Homogeneous Finite State Markov Chain

Definition 23-2

Markov chain {Xn}がhomogeneousである
n P(Xn+1=y|Xn=x)=P(X2=y|X1=x)

p(x,y)=P(Xn+1=y|Xn=x)と書くようにすると,N×N行列P=(pi,j)という行列ができる.これを{Xn}のtransition matrixという. jpi,j=1である. 任意の行について,その行の要素の和が1であり,全ての要素が非負な行列を stochastic matrixという.
さて,
P(Xn+2=j|Xn=i)=1kNP(Xn+2=j|Xn+1=k,Xn=i)P(Xn+1=k|Xn=i)=1kNP(Xn+2=j|Xn+1=k)P(Xn+1=k|Xn=i)=1kNpk,jpi,k
だから,P2(i,j)成分(p(2)i,jと書く)は,{Xn}を1つ飛ばしにしたMarkov chainのtransition matrixと考えることが出来る. 同じ論法でrNに,Prr1飛ばしのMarkov chainのtransition matrixである. Prrでの振る舞いを理解するのは大切である. Markov chainの多くを占めるクラスで,jのみによってlimrpri,jが存在することを後で見る.この性質をmixingという.
ejRNj番目の標準基底ベクトルを表すことにする.またeを全ての要素が1であるN次元ベクトルとする. X0=iとすると, Xnのprobability vectorはeTiPnであり,X0がprobability vector μによって決まるなら, Xのprobability vectorはμTPnになる.

23.4 Stationary Distribution

X={1,2},p1,1,=p1,2=1/2,p2,1=1,p2,2=0という単純なMarkov chainを考える. μ1=P(X0=1)=2/3,μ2=P(X0=2)=1/3なるμ=(μ1,μ2)Tからn=0でのstateが生成されるとき,P(X1=1)=(1/2)P(X0=1)+P(X0=2)=2/3,P(X1=2)=1P(X1=1)=1/3.
よってP(X0=i)=P(X1=i)   i=1,2で,X0,X1は同じ分布を持つと言える.これは任意のnも言える.

Definition 23-2

probability vector π=(πi),1iNstationary distribution
P(X0)=πiと初期状態を決めると1iN,1n,  P(Xn=i)=πi

さらにこのとき(Markov chain{Xn}にsteady stateがあって,初期状態がそれによって決められたとき){Xn}steady stateにあるという.

定義から,πがsteady stateである必要十分条件は,πi0,πi=1かつ
i  πi=1kNpk,iπk
が成り立つことである. これはベクトル形式で書くと
πT=πTP
である.

Theorem 23-4

X<なMarkov chainは少なくとも1つのstationary distributionをもつ.

proof. 略 linear programming(線形計画法)の知識が必要らしい・・・ あとで確率論的な証明を与える.

23.5 Classification of States, Rucurrennt and Transient States

state 有限, homogeneousなMarkov chainがtransition matrix Pを持っているとき, 有向グラフが作れる.
ノード集合V=X, pi,j>0なるi,jVはedge集合の元;(i,j)Eとする. iからjへ至るpathがあるときijとコミュニケートする(i communicates with j)といい,ijと書く. これはnp(n)i,j>0ということである. ijだがjiでないというのは,chainがiから始まってjに至ると,再びiに戻ることはほとんど必ずないということである.

Definition 23-5

iXtransient
ijだがjiなるjXが存在する

iがtransientでないとき,recurrentであるという.
ij,jiなるときijと書く.この関係は同値関係である.recurrent statesは同値類R1,...,Rrに分割でき,Tをtransient stateの集合とすると,
X=TR1...Rrと,互いに素な集合の和集合として書ける.

2017年8月14日月曜日

MIT OCW, Fundamentals of Probability Assignmets 1

David Gamarnik, and John Tsitsiklis. 6.436J Fundamentals of Probability. Fall 2008. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Exercise 1.

(a) 可算個の可算集合の和は可算集合であることを示せ
(b) Qが可算集合であることを示せ

答案.

(a) Ai={ai1,ai2,...}が,i=1,2,...と可算個あるとき,iAiの任意の元はaijと書ける. NN2なる全単射な写像が在ることを言えばよく,例えば
nについて,m(m+1)/2n<(m+1)(m+2)/2なるmがただ一つあって,n(m(m+1)/2(mn),nm+1)は条件を満たす.
(b) 任意の有理数は2つの正数の組で表せるから,(a)の単純な拡張で示せる.

Exercise 2.

{xn},{yn}は実数列で,それぞれx,yRに収束するとする. xnynxyに収束することを示せ.

答案.

定義よりϵ>0N s.t. nN|xnx|<ϵ|yny|<ϵ.よってnNならば
|xnynxy|=|(xnx)(yny)+xny+xyn2xy||xnx||yny|+|xny+xyn2xy||xnx||yny|+|y||xnx|+|x||yny)|ϵ2+(|x|+|y|)ϵ
|x|,|y|nによらないから,確かに|xnynxy|0xnynxy

Exercise 3.

f:A×BR,A,Bϕとする.
(b) supxAinfyBf(x,y)infyBsupxAf(x,y)
を示せ.

答案.

infyBf(x,y)(f(x,y))supxAf(x,y)である. 左辺でsup,右辺でinfを取ると,成立.

Exercise 4.

{An}は集合列で,limnAn=AωlimIAn(ω)=IA(ω)を示せ.

答案.

limAn=AA=kNnkAn=kNnkAn
が集合列の極限の定義である.
ωkNnkAn[N s.t. nNωAn]だから,問の右の矢印が成立.
ビーンもうだめ

Exercise 5. (The union bound)

(Ω,F)はmeasurable spaceとする. {Ai}Fは必ずしも互いに素でない集合列とする.
P(i=1Ai)i=1P(Ai))
を示せ.

答案.

B1=A1,Bi=Ain1j=1AiとするとAi=Biで,{Bi}は互いに素,完全加法性から
P(Bi)=iP(Bi)
だが,任意のiP(Ai)P(Bi).以上よりP(Ai)P(Ai)=P(Bi)=P(Bi)

Exercise 6.

Ω=Nとする. F0を,ΩAAの少なくとも一方が有限集合であるAの集合とする. また,任意のAF0に,Aが有限ならP(A)=0,ACが有限ならP(A)=1とする.このとき,
(a) F0はfieldだがσ-fieldでないことを示せ.
(b) PF0で有限加法性をもつことを示せ.
(c) PF0で可算加法性を持たないことを示せ.
(d) AiF0,i=1Ai=ϕ, limP(Ai)0なる減少列Aiを構成せよ.

答案.

(a) Ai={2,4,...,2i}とする. A=i1Ai=2N={2i|iN}とすると, A,ACはともに無限集合で,AF0よってσ-fieldでない.
また,|ϕ|=0からϕF0であり,明らかにF0は補集合に閉じている.さらにA1,A2F0について,|A1|<,|A2|=ならば|AC2|<であって, A2A1A2だから|(A1A2)C|<だからA1A2F0. A1,A2の要素数の関係性が今示したものでないときはA1A2F0なのは明らか.
(b),(c) 略
(d) Ai={i,i+1,i+2,...}とすると,i{Ai}=ϕ,P(Ai)=11

2017年8月13日日曜日

MIT OCW, Machine Learning 05日目 線形回帰

Rohit Singh, Tommi Jaakkola, and Ali Mohammad. 6.867 Machine Learning. Fall 2006. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Lecture 5. Linear Regression, Active Learning

regression (回帰)とは,exampleに対して,labelではなく連続なresponse(観測値)を推測することであって,ここでは実数とする. またここではlinear regression modelのみを扱うが,これは簡単にlinearでないmodelに拡張できる(次章).

xE[y|x]=θTx+θ0という写像がlinear regression modelであって,つまりdecision boundaryの直線が推測値になる. また,推測値の周りの観測値の分布が問題となるが,ここではresponseを期待値として,xに依存しない分散σ2の正規分布を使う. PDFは
N(y;μ,σ2)=12πσ2exp(12σ2(yμ)2)
ここで,μ=θTx+θ0だから,
P(y|x,θ,θ0)=N(y;θTx+θ0,σ2)
となる.
training data {(x1,y1),...,(xn,yn)}について,conditional likelihoodを最大化することで最適なパラメータθ,θ0,σ2を見つける.
L(θ,θ0,σ2)=nt=112πσ2exp(12σ2(ytθTxtθ0)2)
がLikelihoodであって, またlogをとって,
l(θ,θ0,σ2)=nt=1log[12σ2(ytθTxtθ0)2]=[12log(2π)12logσ212σ2(ytθTxtθ20)]=const. n2logσ212σ2nt=1(ytθTxtθ20)_MSE
まずはに関係なく. mean squared error(MSE)

を最大化するをみつける.
これは行列
( はtraining data の番目のexampleの第次元とする)
を使うと,

となる.これを最小化する解をとすると,

である. これがの関数と考えると線形であり,この性質は後で使う.
は, をによってMSEの最小値を与えられた後で,

で決定できる.

Bias and Variance of the Parameter Estimates

が,未知のパラメータの線形モデルに従っていて,(14)で計算したがどれほど適切なのかを議論する. このときの推測と考えることが出来る.仮定より

が成り立つ.

と行列表示する.で,または独立である. (14)に代入して,

である. だから, 両辺の期待値を取れば,

である. このように,推測値の期待値が真の値に一致するとき, 推測はunbiased(不偏)であるという.
さらに,

であって,つまりのノイズを受け継ぎ,そのノイズがどのような形をしているかはの関数として書ける.
さて,

が任意のを固定するたびに成り立つ. さらにvarianceは

以上から, biasがであることを考えれば

さらに,

だから,

すなわち,が十分大きいとき,推定したパラメータの分散はである.