2017年9月2日土曜日

Markov Chains and Monte Carlo Methods 02日目

Ioana A. Cosma and Ludger Evers, Markov Chains and Monte Carlo Methods
http://users.aims.ac.za/~ioana/notes.pdf
CC-by-nc-sa 2.5

1.3 General state space Markov chains

の場合の議論を始める. より一般的な場合にも定義できるのだが,ここではとする.

Definition 1.23 (Markov chain)

はdiscrete time stochastic processで, state spaec とする. がMarkov property を満たす

ただしの可測集合族とする.
以後,Markov chainはhomogeneousとする.すなわち によらない. このときtransition kernel によって

として得られる. というのはが与えられたときののconditional probability densityである. def. 1.8におけるというのはdiscrete spaceにおけるconting measureであって,(1.3)の式に合致する.
さらに

だから,-step transiton kernelは

であり,

と簡潔に書ける.

Example 1.15 (Gaussian random walk on )

上のrandom walkを

とすると,

と同値. と独立とし, とすれば,

よってはMarkov chainであり,しかも

である.ただしである.したがって.
-step transition kernelは(1.3)によって計算できるが,非常に複雑になる. それよりも

を利用すれば,が成立して,

したがって

-step kernelとして得られる.

Definition 1.24 (Irreducibility)

上の分布が与えられて, Markov chain -irreducibleである


が任意のなると任意のに成立するようなが存在するとき-irreducibleといい,特に任意ので成立するときstrongly -irreducibleという.

Example 1.16 (Gaussian random walk (continued))

ex. 1.15でを見た. が任意のnullでないに成立するから,これは任意のcontinuous distributionにstrongly irreducibleである.

periodicity, recurrence, そしてtransienceのような概念をが連続的なMakov chainに導入するため, atomssmall setsのような概念を導入する必要があって,これらはこのノートの範囲を超えるので,recurrenceのみを一般化する.
section 1.2.3で定義したの場合のrecurrenceとは,全てのstateがそれを初期のstateとしたとき,平均して無限回訪れられることであった. が連続である場合には,あるstate一点ではなく,stateの集合たちを考えることになる. として,が訪れられる回数をあらわす. expected valueを考えると

である. recurrenceをMarkov chain全体に定義する前に,集合のrecurrenceを定義する.

Definition 1.25 (Recurrence)

(a) がMarkov chain においてrecurrentである
任意の

(b) Markov chain がrecurrent

(i) はある分布に対して-irreducibleであって,かつ
(ii) 任意のはrecurrent

定義より,recurrent setとは平均して無限回訪れられる集合であって,より強い命題に,その集合が無限回訪れられる確率が1であるというのがある. この強い性質によって定義できるrecurrenceをHarris Recurrenceという.

Definition 1.26 (Harris Recurrence)

(a) にHarris-recurrentである

(b) Markov chain がHarris-recurrent

(i) はある-irreducible
(ii) 任意のはHarris-recurrent

Harris recurrenceはrecurrenceを導くことは明らかで,discreteの場合2つは一致する.
どちらの概念も成立を証明することは非常に困難だが,あるMarkov chainがirreducibleで唯一のstationary distributionをもつならばrecurrentであるという命題を主張する. その前に,stationaryを定義する.

Definition 1.27 (Stationary distribution)

分布PDFをもつ分布がtransition kernel をもつのstationary distibutionである

Proposition 1.28 (証明略)

-irreducible Markov chainで,を唯一のstationary distibutionにもつなら,はrecurrentである.

また,def. 1.27によってstationarityを確かめるのは困難なので,discreteの場合と同様により簡単な十分条件を定義する.

Definition 1.29 (Detailed balance)

transition kernel がdistribution にdetailed balanceである

theorem 1.22と同様に,によってdetailed balanceなMarkov chain はtime-reversibleでのstational distibutionである.

2017年8月31日木曜日

Markov Chains and Monte Carlo Methods 01日目

Ioana A. Cosma and Ludger Evers, Markov Chains and Monte Carlo Methods
http://users.aims.ac.za/~ioana/notes.pdf
CC-by-nc-sa 2.5
http://creativecommons.org/licenses/by-nc-sa/2.5/za/legalcode

Chapter 1. Markov Chains

1.1 Stochastic processes

Markov chain は無記憶性という特別な性質を持つ確率過程の一種である. Markov chainをよく学ぶため,まずはStochastic processの概念を形式的に定義する.

Definition 1.1 (Stochastic process)

がstochastic processである
という,を添字集合とした確率変数の集合であって,domainとrangeは共通である. は”time”(時刻)で,は”state space”(状態空間)と呼ばれる.

には様々な集合が考えられるが,我々が当面扱うのはが離散的な集合である場合(stochastic processes in discrete time)で,例えばの場合である. ほかにはのような連続時間における過程やのような空間的な過程を考えることもある.
また,がどのような集合かも問題で,が離散的な集合であれば(がr.v.として離散的であれば),このような過程を離散過程(discrete process)という.

Definition 1.2 (Sample path)

について,におけるsample path という.

ならばsample pathは点列で,ならばsample pathはなる関数である.
fig.1.1はsample pathの例である.
figure 1.1
stochastic processはのそれぞれの分布のみではなく,それらの依存関係によっても特徴づけられる. この依存関係の構造はprocessのfinite-dimentional distributionsによって表現できる.すなわち

という具合である. であればjoint distibution function(同時分布)は

と記述できる.



を満たすとき,のfinite dimentional distribution functionはconsistentであるという.
stochastic process について,がfinite dimentional distributionsによって完全に記述できるか否かについての部分的な答えが以下の定理である.

Theorem 1.3 (Kolmogorov)

はconsistent なfinite-dimensional distribution functionの族とする. このとき,以下を満たすprobability spaceとstochastic process が存在する.

この定理から,あるprocessのfinite-dimensional distributionsを与えれば,そのprocessを特徴づけられる(本当か?). ただし,あるfinite-dimensional distributionsによって特徴づけられるは一意ではない. しかし,そのdistributionsはたかだか可算個のr.v.によるeventの全てに確率を一意に割り当てることができて,この講義の範囲ではそれで十分である.

1.2 Discrete Markov chains

1.2.1 Introduction

この節ではMarkov chainのうち,とくにであるときを考える. これをdiscrete Markov processと呼ぶことはすでに述べた(の時も含むが,深くは考えない). discrete Markvo processではとして一般性を失わない.

Definition 1.4 (Discrete Markov chain)

はdiscrete stochastic processで,しかも時間についてもdiscreteとする.
がMarkov chain (with discrete state space)

またこの性質をMarkov propertyという.

この定義は,ある時刻における状態がその直前の時刻における状態のみによって決まる(確率的)ということの定式化である.

Proposition 1.5

Markov propertyが成立する
任意のについて

Example 1.1 (Phone line)

電話線が使われている状態(1とする)と使われていない状態(0とする)があって,毎分この電話線を監監視する過程のstochastic processを考える. がMarkov chainと仮定する. すなわち,これまでどれほど長く電話をしていても1分間後にその電話が切れている確率は変わらず,同様にどれほど長く電話がかかってこなかったとしても1分後に電話がかかってきている確率は変わらない仮定する. Markov assumptionはが同じ分布であることを要求しないので,(は昼頃), (は深夜)というふうに,時刻によって利用のパターンが異なるモデルにも適用できる.

Example 1.2 (Random walk on )

から始まるrandom walkという確率過程を考える. 全ての時刻で,次の時刻に今あるstateにとどまるか,+1進むか,-1進むかを確率的に選ぶ過程である. 現在あるstateにかかわらず,そのstateにとどまる確率を, -1進む確率を, 進む確率をとする.である.
を,任意のに成立するr.v. によって

と記述する.このとき

であることは明らかである.さらに

が成り立つから,はMarkov chainである.

Markov chainの分布は初期分布によって完全に定まる.さらに*transition probabilitiesを と定めると,以下の命題が成立する.

Proposition 1.6

discrete Markov chain について,

proof.

この証明の1つめの等号は全てのr.v.の組に成立するが,2つ目の等号が成立するのはMarkov chain特有である.
Homogeneous Markov chainという更に特別なクラスはによってが変化せず,非常に扱いやすい.以下,全てのMarkov chainはhomogeneousとする.

Definition 1.7 (Homogeneous Markov Chain)

Markov chain がhomogeneous
というによらない実数が,任意のに存在する.

Definition (initial distribution)

initial distributionをと書く.の組によってhomogeneous Markov chainの分布は完全に定まる(後述).

Definition 1.8 (Transition kernel)


という行列をhomogeneous Markov chain のtransition kernelとかtransition matrixという.
が成立する.

Example 1.3 (Phone line(continued))



とするとき,transition kernelは

となる. transition probabilityを有向グラフを使って表現することが有る. Markov graphという. この例のMarkov graphはfig. 1.4のようになる.

Example 1.4 (Random walk on (continued))

前に挙げたrandom walkのhomogeneous Markov chainのtransition kernelは行,列ともに無限大のToeplitz matrix(テープリッツ行列)で,具体的には

という形をしている.

Definition 1.9 (m-step transition kernel)

homogeneous Markov chain について,-step transition kernelという.

Proposition 1.10

をhomogeneous Markov chainとすると,
i.
ii.
が成立する.

proof.

i. を示す.

ゆえにがたしかに成立し,帰納法によりである.
ii.

Example 1.5 (phone line(continued))


のm-step transition kernelは

1.2.2 Classificaton of states

Definition 1.11 (classification of states)

(a) あるがあって,が成り立つときを導くといい,と書く.
(b) であるときはcommunicateするといい,と書く.このときは同値関係である.

に同値関係を入れられたから,で同値類別できる. ある同値類の全ての元で他のの元に出るpathが無いとき(), はclosedであるという. ある同値類の元は様々な性質を共有していることをあとで示す.

Example 1.6


をtransition kernelにもつMarkov chainのMarkov graphはfig. 1.5のとおりである. が見て取れて,同値類別はであり,特にのみがclosedである.

figure 1.5

Definition 1.12 (Irreducibility)

の全ての元が互いにcommunicateするときはirreducibleであるという.

phone lineの例とrandom walkの例はreducibleであり,example 1.6はirreducibleである. ところで,ex. 1.6において,から再びに至るのは,から,から,からというステップを踏まなければならないので,
である. このような振る舞いをperiodicityという.

Definition 1.13 (Period)

(a) のperiod

と定める. periodを持たないstateも存在する.
(b) なら,aperiodicという.
(c) なら,periodicという.

Example 1.7 (Ex. 1.6 continued)

すでに述べたようにである. 同様にである.
まただから,.すなわちはaperiodicである.
ある同値類(以後,communicateによる同値類をcommunicating classか,単にclassという)においてperiodを共有しているのは偶然ではない.

Proposition 1.14

(a) あるclassの全ての元はperiodを共有する.
(b) irreducible chainでは全ての元はperiodを共有する.

1.2.3 Recurrence and transience

ex. 1.6のMarkov chainを辿り続けると,そのうちを往復するだけになる. このような振る舞いを定式化するため, number of visits in state :

を導入する. 初期値がであるときの条件付き期待値は

この値が有限か無限かによってstateを分類する.

Definition 1.15 (Recurrence and transience)

(a) がrucurrent

(b) がtransient

すなわち,がa.s.無限回訪れられるというのがrecurrentで,a.s.有限回訪れられるというのがtransientである.
prop. 1.14から,あるcommunication classの元たちはrecurrentであるか否かを共有する.

Proposition 1.16

あるcommunicating classにおいて,全ての元がrecurrentであるか,全ての元がtransientであるかのどちらかが成立する.

proof.

ならば,からに至る長さのpathがあり,からに一有る長さのpathがある. すなわちである.
とすると,

((1): からに行って,さらに後にまたに戻って,そこからに戻るという確率)
よってもまたtransientである.
またがrecurrentであるとき,

から,もrecurrent.

Proposition 1.17

(a) closedでないclassはtransient
(b) 有限かつclosedなclassはrecurrent

Example 1.8 (ex.16, 1.7 continued)

ex.1.6において,はclosedでないからtransient.
一方は有限かつclosedなのでrecurrent.

1.2.4 Invariant distribution and equilibrium

invariant distributionを導入して,Markov chainの長期的な振る舞いを調べる.

Definition 1.18 (Invariant distribution)

上のprobablility distributionとする. またがMarkov chainでtransition kernel をもつとする. invariant distribution (stationary distibution)

さらにこのとき,右からを掛けることで,

が成立する.したがってprop. 1.10より

が任意のに成立する. つまり,の分布は時刻によって変化しない.

Example 1.9 (Phone line (continued))


のstationary distributionを見つける.
を変形して,.よってのeigenvector(固有ベクトル)であって,ただし確率の公理からのそれぞれの要素は非負で,総和は1である.これを解くと,である.
Markov chainは必ずしもstationary distributionを持たない.上のrandom walkがその例である.

Example 1.10 (Random walk on Z (continued))


であることはすでに言った.の唯一の解だが,は無限次元のベクトルなので正規化できない.

ある種のMarkov chainは長期的にはstationary distributionに至る.

Theorem 1.19 (convergence to equilibrium)

がirreducibleかつaperiodicなMarkov chainで,stationary distribution をもつとする.このとき

が任意のに成立する.

proof. (sketch)

のinitial distribution, transition kernelをそれぞれ, とする. initial distribution (stational)とtransition matrix をもつ新しいMarkov chain を定める. またが初めてに同時に到達する時刻の確率変数をとする.すなわち

さらにであり,また新しいprocess

によって定める. の概略はfig.1.6のようになる. はinitial distribution をもち,transition kernel である. したがっては常に同じ分布を持つ.すなわちである.
のinitial distributionはstationaryなので,である. においてであって,ゆえに

Example 1.11 (Phone line (continued))

phone lineの例で,だから,.

Example 1.12

Theorem 1.19におけるaperiodicityの仮定が必須であることを示す.
, とする. これは明らかにirreducibleだがperiod 2である. stationary distibutionはだが,これは決定論的な過程だから,明らかにはこれに収束しない.

1.2.5 Reversibility and detailed balance

のように,現在(あるいは過去)を条件にした未来の状態の確率を論じてきたが,今度は逆に未来の状態を条件にした過去あるいは現在の状態の確率を議論する.

のように条件付き確率の前後が交換できるのはBayesの定理の教えるところである.
chainを逆に辿っていくような新しいMarkov chainの定義を動機づける.

definition 1.20 (Time-reversed chain)

について,をMarkov chainとする. とすると,のtime-reversed chainという.

である.

がhomogeneousでもがhomogeneousとは限らない.
しかし,のinitial distributionがstational であれば,が任意のに実数として決まって,

が成立するから,はhomogeneousである.

Example 1.13(Photo line(cont.))

すでに挙げた例で,
だから, 式(1.2)により

以上よりこの例ではは同じtransition probabilityをもつ. このようなchainはtime-reversibleであるという.

time-reversible であるか否かを判別する基準を導入する.

Definition 1.21 (Detailed balance, 詳細釣り合い条件)

transition kernel がdistribution によってdetailed balanceを満たす

detailed balanceは後で学ぶMarkov Chain Monte Carlo(MCMC)の議論でも極めて重要な役割を果たす. detailed balanceを満たすはstationary distributionであり,これはdef. 1.19の定義よりも扱いやすいことが多い.

Theorem 1.22

はMarkov chainで,そのtransition matrix をはdetailed balanceをによって満たすとする.このとき
(i) のstationary distributionである.
(ii) がinitial distributionであれば,はtime-reverisbleである.

proof.

(i)仮定より

((1): distributionの定義 (2): detailed balanceの定義)
よって確かにだから,はstationary distributionである.
(ii) のtime-reversalとする.

(1): 式1.2 (2): detailed balanceの定義
よって確かにはtransition matrixを共有する

一方,stationary distributionを持つからと行ってtime-reversibleであるとは限らない.

Example 1.14

.

というMarkov chainを考えると,stationary distributionは. Markov graphはfig.1.7の通り.
enter image description here
(1.2)からtime-reversed chain のtransition matrixが

と得られるが,これはと異なる行列である.

2017年8月29日火曜日

MIT OCW, Machine Learning 10日目 モデル選択の理論1

Rohit Singh, Tommi Jaakkola, and Ali Mohammad. 6.867 Machine Learning. Fall 2006. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Lecture 9

Kernel Optimization

kernelのあるパラメータを変えて,問題により適したkernelをつくることができる. 例えばradial basis kernelののようなパラメータを変化させたり,の次元に重み付けをしてからに渡すような方法が考えられる. パラメータのよさの基準には,cross-validationやgeneralization errorに関連した基準(marginなど)が用いられる. marginはを定数倍すると同時に倍化するため,normalization という制限を加える.normalizationは例えば

で実現できる.
他のkernel optimizationの方法にkernel alignentがある. すなわち,パラメータやGram matrixを理想的なkernelに近づけるように調整するのである. 例えばclassificationでは

を標的となるkernelのGram matrixとする.というのは,とすれば,

と,全てのtraining exampleが等しいmarginで正しく分類できるためである.
kernelをこの標的に近づける方法を考える.

のように,kernelたちのconvex combinationによってkernel を構成するとき,が我々が選べるパラメータである. のGram matrix を,標的のGram matrix に近づけるため,Gram matrixをベクトルと考えて,その内積を

と定める. こうしてのcosine類似度

を最大化させるを求めれば良い.

Model (kernel) selection

少ないtraining exampleに複雑すぎるmodel(kernel)を使うと,over-fittingという問題が起きる. 問題によって使うkernelの種類を制限することがある. kernelを選ぶことで
linearながあるとき,discriminant functionは

という形をしている.となる関数で,によるfeature representationという. を変えることで可能なdiscriminant functionの集合

を構成できる. 同様にquadratic kernelによって可能な集合がある. このように

Model Selection Preliminaries

はtraining setとする. をmodelとして選んで,をbest fitting discriminant functionとすると,

を最小化する.はhinge lossでもlogisticでも他の何でもよい. によってへk擦るregularization parameterである. が新しいexampleにどれほどgeneralizeできているかが問題となる.
それぞれのすなわちそれぞれのdiscriminant functionはexpected lossあるいはrisk

をもつ.ここでは問題となるデータを生成している分布で,普通は未知であり,もそこから生成されていると考える. これが,我々が最小化したいgeneralization errorである. によって決まるのrisk を最小化するを選ぶことが最終的な目標である. ただしから生成されるので,も確率変数である(理論的には便利な仮定だが,実際にが正しくから生成されているとは限らない).
が既知であるならを考えれば良いが,ここではは未知として,だけを使ってを,さらにはをも選ばなければならない.
簡単のため,を,linearとquadraticなdiscriminant functionの集合とし,のみを議論する. だから,から選ぶことで必ずtraining setにおけるerrorが小さいを得られるが,example とlabelの関係が線形であるときにも非線形なから選ぶと,over-fittingしているかもしれない. 真の分布が線形分離可能であるとき,quadraticなdecison boundaryはノイズに影響されてgeneralizeがうまく行っていないということである. したがってが複雑になるほどtraining setに対する性能が向上する一方でtest setに対する性能は低下していく(fig.1). よって適切な複雑さを選ぶことが重要になってくる.

enter image description here

Model selection criteria: structural risk minimization

expected risk

empirical risk(training errro)

を関連付けることができれば,を計算することでを議論することが出来る. モデルが複雑になるほどtraining errorがgeneralization errorを表現しなくなっていくと考えられるので,の関係を以下のように記述する.

complexity penaltyといって,が複雑になるほど増大し,によって減少する.
(16)はupper bound guarantee of generalization errorを与える. このupper boundが最小になるようなを選べば良い. fig.2 はモデルの複雑さとこのboundの関係である.
enter image description here

が有限集合である時の不等式(16)の意味を考える.

の上限を見積もる. これは少なくとも1つのについて,そのtraining errorとriskの差がを上回る確率で,sample spaceはの選び方である.


という主張が成立しない確率と言える. を固定すると,(6)をみたす最小のがcomplexity penaltyとなる.
によってを計算することはふつう不可能だから,上限を与える.

を固定してを考える. training sample がi.i.d.に得られて,とすると empirical error の和で,

だから,

ただしで,確率のsample spaceはをみたすである.
Hoeffding’s inequalityから

が成立する. この上限はによらない. この結果を(8)に代入して,

が成立する. に解いて,

である.これがの場合のcomplexity penaltyである.
以上より,少なくともの確率で

が成立する. model selectionではのそれぞれについてを選び,によってboundを計算し,boundが最小となるを選ぶ. このときは固定する.

Example

とし,training error 0, generalization error が最大10%であるようにtraining exampleの個数を見積もる.

だから,

である.

Model selection criteria: Bayesian score, Bayesian information criterion

linear regressionの例を通じてBayesian scoreについての理解を深める. モデル次元のインプットに写す写像で,

とする. を固定して,だけを動かすとする. が与えられたとき,likelihoodは

以前はを最大化するを唯一つ選んだが,Bayesian analysisではlinear regression functionたちをによって重み付けして,それら全てを利用する.
このような枠組みでは,を得た後のの知識はposterior distribution であって,これはと相似である.つまり.
しかし例えばの場合にはだから,が発散してしまう. よってprior distribution を導入する.

すると

で,normalization constantは

であり,marginal likelihoodともいう. これはにのみよる. regressionでは

ここではnoise とpriorの比で,である.
このときposteriorは

と正規化される.とposteriorも正規分布する.

新たなに対する推測は

で与えられる. 真のBayesianはまさに全てのについて上の積分を行うが,我々はfeature mapping で特徴づけられるregression modelにを制限して議論することになる.linearなとquadraticなをfeature mappingとする.

が比較するmodelである. modelにPrior distribution を含むのには利点も欠点もあるが,どちらにせよ含まないのと大した差はない.
のうち,よりmarginal likelihood (Bayesian score)が大きい方を選ぶことになる. すなわち,を与えられたら,ならばを選ぶのである.

Model selection criteria: Bayesian information criterion(BIC)

Bayesian information criterion(BIC)はBayesian scoreに対するasymptotic(漸近的な) 近似であって,その単純さのためによく使われる.

である.ここではtraining dataに対するmaximum likelihoodの対数であって,はmodelのindependent parameterの個数, はtraining exampleの個数である. が十分大きいときBayesian scoreに漸近する. Bayesian scoreの計算は困難なことが多いので,かわりにBICを使う. Bayesian scoreと同様に,BICが大きい方のmodelを選ぶ.

2017年8月28日月曜日

MIT OCW, Machine Learning 09日目 カーネル化SVM

Rohit Singh, Tommi Jaakkola, and Ali Mohammad. 6.867 Machine Learning. Fall 2006. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Lecture 8

Support Vector Machine Revisited

SVMをdual form(exampleが内積でのみ現れる形)に変換する. すべてのexampleを次元のfeature spaceに写し,が線形分離可能であるようにし,feature spaceにおいてmarginを最大化するパラメータを考える.この問題は

という最適化問題に一致する. もちろんslack variableも導入できるが,これは後に回す. このような最適化問題(凸,線形制約)は,Lagrange multipliersによってdual formに変形できる. を導入し,によって

によって最大化することを考えるのである.の最小化がに一致することを示す.
を少なくとも1つの束縛条件が満たされていないように設定する.であるとすると任意の.とすれば.だから,Lagrange multiplier は制約条件を満たさせる働きがあるとわかる.
Slater conditionsという条件を満たしているとき,ある変数で最大化し,他の変数で最小化するというLagrange multipliersの最適化問題の最大化最小化の順序を交換できる.つまり

である. 左辺をprimal formといい,右辺をdual formという. dual formについて,まずを解く.微分して

またしても,最適なの張る空間の元となった.これらをもとの式に代入して,

よって,dual formの解は

の解である. これがSVMのdual formとかkernel formといい,quadratic optimization problemであり,Gram matrix によって,特徴づけられる.
maximum margin hyperplaneはsupport vectorと呼ばれる少数のexampleによって決まることをすでに見たが,これはによって写像されたexampleたちにも同様で,ほとんどのになり,なるとき,をまたsupport vectorという.
が決まると,をsupport vectorの集合として,

によって新しいexample の推測が計算できる.
を求めた後で,

を解くことで得られる.
この解のgeometric marginはで得られる.つまり

geometric marginを最大にするようなkernelが最適なkernelと言えるが,定数倍によってgeometric marginもその分定数倍になるので,kernelの比較には正規化が必要である.

Kernel Optimization

kernelのあるパラメータを変えて,問題により適したkernelをつくることができる. パラメータの最適化には,cross-validationやgeneralization errorに関連した基準(marginなど)が用いられる.

2017年8月27日日曜日

MIT OCW, Discrete Stochastic Processes 03日目

Robert Gallager. 6.262 Discrete Stochastic Processes. Spring 2011. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Assignment Problem set 2.

解答

Exercise 1.10

答案.

はただの実数確率変数とする(拡大実数確率変数ならあきらかに命題は成り立たない)
である.
()のような場合が有るから,一般には等号ではない)
また,はreal r.v.だから,.

よって示せた.

Exercise 1.17

答案.

(a)
(b)
さらに
(c)
の公式でとすれば

がたしかに成立.
さらに,
の計算が非常に面倒なのはもはや明らかだろう.
(d)

さらに
ここで
したがってゆえに.

Exercise 1.31

答案.

(a)
ゆえに
2つめの広義積分も同様.
(b) ならばが全てのに成立するから
である.
(c) (b)と同様.
(d) は存在する.またにおいて右の項が存在するとき(a)から左の項も存在し,は定義されて, は定義されている.でも同様である.
(e) (模範解答)
とすると,.
とすると.

Exercise 1.33

答案.

CLTを使う.

それぞれの小問で求める極限をとする. に注意する.
(a)
(b)
(c)

Exercise 1.38

答案.


IIDだからとするとCLTによって左の項は,右の項はに収束する.よってその差はに収束する.

Exercise 1.42

(a)



(b) 回出ないということであって,求める確率は
(c) union bound:

が必ず成立するから,