2017年8月17日木曜日

MIT OCW, Fundamentals of Probability 23日目 Markov Chain II

David Gamarnik, and John Tsitsiklis. 6.436J Fundamentals of Probability. Fall 2008. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Lecture 24. Markov Chains II. Mean Reccurence Time

24.1 Markov Chains with a Single Recurrence Class

前章でrecurrenceの関係は同値関係であり,をtransientの集合とすると,によって同値類別できることを見た.また同値類はとする.でできた同値類のそれぞれをclassとよぶことにする

Lemma 24.1

任意の同値類において,かつならば
すなわち,一旦ある同値類に入ったら,その後どう遷移しようとからは抜け出せない.

proof.

. はrecurrentだからであり,. これは矛盾.


というrandom variableを,を許して導入する.これをthe first passage timeという.

Lemma 24.2

任意のに, である. すなわち,有限時間ステップの経過後にchainがに戻ってくることは殆ど全く無く,またである.

proof.

定義よりなるがある. ゆえにであって,だからが成立する.
を, chainが少なくともに戻ってくるというeventとする. である.またLemma24.1から
state 回目に到達したときから見て,次にに到達する確率というのは,からに1回推移する確率に等しいというのがMarkov性から言えるので,が成り立ち,また明らかにであって, . だから,probabilityの連続性を使って,.と一致するから,補題が示せた.

Exercise 1.

を示せ.

答案.

を仮定する. が任意のに成立するから,つまり有限時間ステップの後,殆ど必ずこのMarkov chainはどのstateにも到達していない. これは不合理.

Exercise 2.

は任意のstationary distributionとする. を示せ.

答案.

を仮定する.である.なら,少なくともひとつのなるがある.ならばに反するからである.なので,同じ論法でなるがあって,.繰り返して,なるがある. から,この列はいつか終わり,その終点では これは矛盾.

Exercise 3.

M.c. がrecurrent class をもち,ならばを示せ.また,が任意のになりたつようなが存在することを示し,最後にを示せ.

答案.

あるがあってだから,. Lemma 24.2の証明と同じ論法で.
ビーンもうダメ

recurrent class がただ一つであるMarkov chainの例をいくつか挙げる. 特にであるとき,このMarkov chainはirreducibleという.を許して定義するとき,これをにおけるmean recurrence timeという.

24.2 Uniqueness of the Stationary Distibution

Theorem 24-3 (証明略)

recurrence class がただ一つしか無い有限Markov chainは固有のstationary distribution をもち,である.特にがrecurrentであるとき,またそのときにのみとなる.

24.3 Ergodic Theorem

を,の間ににchain が到達した回数とする. である.このように,に依存する確率変数をで割った確率変数の極限のもつ性質をergodic properties(エルゴード性)という. これは,chaihの時間的な平均が,空間的な平均に近づくという著しい主張である.

Theorem 24-9 (証明略)

任意のを初期状態として, また任意のに,であり, である.

正直わからないのでなにかいい本を探してじっくり読みたい(願望)

2017年8月15日火曜日

MIT OCW, Fundamentals of Probability 22日目 Markov Chain I

David Gamarnik, and John Tsitsiklis. 6.436J Fundamentals of Probability. Fall 2008. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Lecture 23. Markov Chains

23.1 Introduction

Definition 23-1

がMarkov chain
はたかだか可算集合で,

をstatesといい,なら,においてstate をとる という. 特に無限であると言わない場合,の場合を考える.このときとして一般性を失わない.

Proposition 23-1

Markov chain について,
(a) 任意のについて,

(b) 任意のについて,

23.2 Examples

random walkはMarkov chainの一つである.
サイコロを繰り返しふって,回の試行で過去出た出目6の回数とする. このときであり,またなら である.これは右へ進む確率,その場にとどまる確率のrandom walkとみなせる.

23.3 Homogeneous Finite State Markov Chain

Definition 23-2

Markov chain がhomogeneousである

と書くようにすると,行列という行列ができる.これをのtransition matrixという. である. 任意の行について,その行の要素の和が1であり,全ての要素が非負な行列を stochastic matrixという.
さて,

だから,成分(と書く)は,を1つ飛ばしにしたMarkov chainのtransition matrixと考えることが出来る. 同じ論法でに,飛ばしのMarkov chainのtransition matrixである. での振る舞いを理解するのは大切である. Markov chainの多くを占めるクラスで,のみによってが存在することを後で見る.この性質をmixingという.
番目の標準基底ベクトルを表すことにする.またを全ての要素が1である次元ベクトルとする. とすると, のprobability vectorはであり,がprobability vector によって決まるなら, のprobability vectorはになる.

23.4 Stationary Distribution

という単純なMarkov chainを考える. なるからでのstateが生成されるとき,.
よってで,は同じ分布を持つと言える.これは任意のも言える.

Definition 23-2

probability vector stationary distribution
と初期状態を決めると

さらにこのとき(Markov chainにsteady stateがあって,初期状態がそれによって決められたとき)steady stateにあるという.

定義から,がsteady stateである必要十分条件は,かつ

が成り立つことである. これはベクトル形式で書くと

である.

Theorem 23-4

なMarkov chainは少なくとも1つのstationary distributionをもつ.

proof. 略 linear programming(線形計画法)の知識が必要らしい・・・ あとで確率論的な証明を与える.

23.5 Classification of States, Rucurrennt and Transient States

state 有限, homogeneousなMarkov chainがtransition matrix を持っているとき, 有向グラフが作れる.
ノード集合, なるはedge集合の元;とする. からへ至るpathがあるときとコミュニケートする(i communicates with j)といい,と書く. これはということである. だがでないというのは,chainがから始まってに至ると,再びに戻ることはほとんど必ずないということである.

Definition 23-5

transient
だがなるが存在する

がtransientでないとき,recurrentであるという.
なるときと書く.この関係は同値関係である.recurrent statesは同値類に分割でき,をtransient stateの集合とすると,
と,互いに素な集合の和集合として書ける.

2017年8月14日月曜日

MIT OCW, Fundamentals of Probability Assignmets 1

David Gamarnik, and John Tsitsiklis. 6.436J Fundamentals of Probability. Fall 2008. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Exercise 1.

(a) 可算個の可算集合の和は可算集合であることを示せ
(b) が可算集合であることを示せ

答案.

(a) が,と可算個あるとき,の任意の元はと書ける. なる全単射な写像が在ることを言えばよく,例えば
について,なるがただ一つあって,は条件を満たす.
(b) 任意の有理数は2つの正数の組で表せるから,(a)の単純な拡張で示せる.

Exercise 2.

は実数列で,それぞれに収束するとする. に収束することを示せ.

答案.

定義より.よってならば

によらないから,確かに

Exercise 3.

とする.
(b)
を示せ.

答案.

である. 左辺で,右辺でを取ると,成立.

Exercise 4.

は集合列で,を示せ.

答案.


が集合列の極限の定義である.
だから,問の右の矢印が成立.
ビーンもうだめ

Exercise 5. (The union bound)

はmeasurable spaceとする. は必ずしも互いに素でない集合列とする.

を示せ.

答案.

とするとで,は互いに素,完全加法性から

だが,任意の.以上より

Exercise 6.

とする. を,の少なくとも一方が有限集合であるの集合とする. また,任意のに,が有限なら,が有限ならとする.このとき,
(a) はfieldだが-fieldでないことを示せ.
(b) で有限加法性をもつことを示せ.
(c) で可算加法性を持たないことを示せ.
(d) , なる減少列を構成せよ.

答案.

(a) とする. とすると, はともに無限集合で,よって-fieldでない.
また,からであり,明らかには補集合に閉じている.さらにについて,ならばであって, だからだから. の要素数の関係性が今示したものでないときはなのは明らか.
(b),(c) 略
(d) とすると,

2017年8月13日日曜日

MIT OCW, Machine Learning 05日目 線形回帰

Rohit Singh, Tommi Jaakkola, and Ali Mohammad. 6.867 Machine Learning. Fall 2006. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Lecture 5. Linear Regression, Active Learning

regression (回帰)とは,exampleに対して,labelではなく連続なresponse(観測値)を推測することであって,ここでは実数とする. またここではlinear regression modelのみを扱うが,これは簡単にlinearでないmodelに拡張できる(次章).

という写像がlinear regression modelであって,つまりdecision boundaryの直線が推測値になる. また,推測値の周りの観測値の分布が問題となるが,ここではresponseを期待値として,に依存しない分散の正規分布を使う. PDFは

ここで,だから,

となる.
training data について,conditional likelihoodを最大化することで最適なパラメータを見つける.

がLikelihoodであって, またlogをとって,

まずはに関係なく. mean squared error(MSE)

を最大化するをみつける.
これは行列
( はtraining data の番目のexampleの第次元とする)
を使うと,

となる.これを最小化する解をとすると,

である. これがの関数と考えると線形であり,この性質は後で使う.
は, をによってMSEの最小値を与えられた後で,

で決定できる.

Bias and Variance of the Parameter Estimates

が,未知のパラメータの線形モデルに従っていて,(14)で計算したがどれほど適切なのかを議論する. このときの推測と考えることが出来る.仮定より

が成り立つ.

と行列表示する.で,または独立である. (14)に代入して,

である. だから, 両辺の期待値を取れば,

である. このように,推測値の期待値が真の値に一致するとき, 推測はunbiased(不偏)であるという.
さらに,

であって,つまりのノイズを受け継ぎ,そのノイズがどのような形をしているかはの関数として書ける.
さて,

が任意のを固定するたびに成り立つ. さらにvarianceは

以上から, biasがであることを考えれば

さらに,

だから,

すなわち,が十分大きいとき,推定したパラメータの分散はである.