Robert Gallager. 6.262 Discrete Stochastic Processes. Spring 2011. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.
Lecture videoを要約していく.
Lecture 1
well-posed problemを解くのは簡単だが,現実にある現象をモデル化してwell-posed problemに落とし込むのは難しい. このコースでは現実世界での確率と確率の理論を学んだ後discrete processがなんであるかを学び,数あるdiscrete processの内いくつかを学ぶ.
確率論がどこで役に立つか–どこでも役に立つのだが,いくつか例を挙げる
Kormogrovの確率の公理がどのように役に立っているか
確率論の復習
モデルを作るときに現れる重要な問題
1. – 完全なモデルは存在しない
完璧なモデルというのは存在しないが,現実の問題をより詳細に記述するモデル–より複雑なモデルを構築することは出来る. 一方モデルが複雑になるほど理解しづらくなってしまうので,モデルの複雑さと理解のしやすさの間でバランスを取ることが重要になってくる. Whiteheadの警句 “Seek simplicity and distrust it.” は,我々は単純なモデルを正しいと思い込みがちなので,単純なモデルがうまく言っているように見えても,よく検証しなければならないと主張する.
2. – その数学的モデルの解が現実で意味を持つか
確率のモデルの正当性はKormogorvの確率の公理に従っているかで決まる.
Stochastic Processとは?
確率モデルの一種で,sample pointが時間を変数とする関数であるものをstochastic process(確率過程)という. このときあるsample pointは時刻を添字とする確率変数の列の,その時刻における1点の現れと考えることが出来る. この確率変数列の全ての元が離散確率変数であるとき特にdiscrete stochastic processという.
このコースで学ぶprocessたち
- counting process
- Poisson process
- renewal process
- Markov process
- random walkとmartingale
以下はほとんどFundamentals of probabilityでやったが,念の為復習
Kormogorovの公理
Ωはある集合で,F⊂2Ωがeventの集合
⇔
(1) Ω∈F
(2) A1,A2,...∈F⇒∪Ai∈F
(3) A∈F⇒AC∈F
つまりFがΩのσ-algebraであるということ.
PがFに確率を割り当てる((Ω,F)のprobability measureである)
⇔
(1) P(Ω)=1
(2) A∈F⇒P(A)≥0
(3) {Ai}⊂Fが互いに素ならP(∪Ai)=∑P(Ai)
Eventの独立性
A1,A2∈Fがindependent
⇔P(A1∩A2)=P(A1)P(A2)
仮にA1∈F1が赤いサイコロをふって出る目が1であるというeventで,A2∈F2が白いサイコロをふって出る目が1であるというeventとすると,A1∩A2というのは(Ω1×Ω2,F1×F2,P1×P2)という新しいprobability spaceがあらわれて,例えばΩ1×Ω2は単に{1,...6}2といデカルト積(とりあえずサイコロの場合はそう).
一方ふるサイコロが両方とも白いとき(区別できないとき)には話は複雑になる.Ω1×Ω2={(1,1),(1,2),...,(1,6),(2,2),(2,3),...,(2,6),(3,3),...,(6,6)}となって,|Ω1×Ω2|=21これはサイコロが区別できるときとは異なる集合である. これは2つのeventを,区別できない状況で組み合わせるときに,組み合わせたeventの確率をどう評価するかという重要な問題の最も簡単な例と言える. この話題はまたあとで扱う.
Random Variable
X:Ω→Rが(Ω,F,P)のrandom variable(r.v., 確率変数)
⇔∀r∈R,{ω|X(ω)≤r}∈F⇔Xは(F,B)-可測⇔∀B∈B.X−1(B)∈F
また,FX(x)=P({ω|X(ω)≤x})をXのdistributinoという.
Lecture 2. 確率論の復習
Expectations
Xのexpectation(期待値) ˉX=E[X]を
E[X]=∑iaipX(ai) for discrete XE[X]=∫xfX(x)dxfor continuous XE[X]=∫FCX(x)dxfor arbitrary nonegative XE[X]=∫0−∞FX(x)dx+∫∞0FCX(x)dxfor arbitrary X
と定める(上の二つが定義,下の二つが定義から導かれる公式).
4番目の式の片方の項が−∞,もう一方が∞の場合を考えれば,expectationが定義できないrandom variableが存在することがわかる. 普通|E[X]|<∞のときのみ,E[X]が存在するという.
また,Xのstandard deviation(標準偏差) をσX=√E[|X−E[X]|2]と定める.
上から3番目の式を,discreteの場合に直感的に正当化する.
figure 1.
fig.1のそれぞれの四角形の面積が∑i∈{1,2,3,4}aipX(ai)の各項を表している.a0=0として,x∈[ai−1,ai]のx軸に垂直な直線と,四角形の重複する部分の長さは1−FX(ai)=FCX(Ai)だから,四角形の面積の和は∑i∈{1,2,3,4}FCX(ai)と一致する.
example: indicator random variable
A∈Fのindicator random variable IA:Ω∋ω↦{1 (ω∈A)0 (ω∉A)
についてPIA(0)=1−Pr(A),PIA(1)=Pr(A)だから,E[IA]=Pr(A)
σIA=√Pr(A)(1−Pr(A))2+(1−Pr(A))(0−Pr(A))2=√Pr(A)(1−Pr(A))
multiple random variables
random variables X,Yについてjoint distribution function
FXY(x,y)=Pr({ω|X(ω)≤x}∩{ω|X(ω)≤y})が定義できる.これはrandom variableの集合{Xi}でも動揺に定義できて,X=(X1,...,Xn)がindependentなら
FX(x1,...,xn)=n∏m=1FXm(xm) ∀x1,...,xn
である.
discrete rv’s X,Yについて
pX|Y(x|y)=pXY(x,y)pY(y) (if pY(y)≠0)
をconditional probabilityという. X,Yがindependentなら
IID random variables
X1,...,Xnがindependent and identically distributed(IID)
⇔∀x1,...,xnFX(x1,...,xn)=∏nk=1FX1(xk)かつ∀x.FXi(x)=FX1(x)
Ω=Rで,その上のr.v. Xがあるとき,i.i.d.として並べてRn上のr.v. (X1,...,Xn)を考えることが出来る(extended modelという).
(ΩがなんであってもΩnを考えればいいような気がするが・・・・)
Sample Average
Sn/n=(X1+...+Xn)/nはある実数に収束して,その極限が,extended modelが現実世界における試行の繰り返しであるとするなら,その結果の平均であるというのが,大数の法則の主張である.
しかし,いかに述べる問題から,正しいモデルが作れないこともある.
1. 現実での試行の列というのは,それぞれが十分似ていなかったり,独立でなかったりして,i.i.d.でモデル化できないかもしれない.
2. もとのモデルが間違っているかもしれない.例えばコイントスが表が出る確率0.5としたが,実際には0.45かもしれない
実験によって得られる結果というのはsample pointであって,確率ではない. extended modelが現実と合致しているときにのみ大数の法則やその関連を使って分布を考えることが出来る.
また,Sn−nˉXは平均0,分散nσ2のr.v.で,(Sn−nˉX)/√nσは平均0, 分散1. これがn→∞でN(0,1)に分布収束するというのがcentral limit theorem(CLT, 中心極限定理)の主張である.(characteristic functionの各点収束を示して証明した)
The Bernoulli Process
pY(1)=p>0,pY(0)=1−p=q>0がi.i.d.に並んだY1,...,Ynがあるとき,
Sn=Y1+...+Ynの分布を調べる.この節ではp<1/2と約束する.
(Y1,...,Yn)=(1,...,1_k個,0,...,0_n-k個)となる確率はpkqn−k.k=0で最大となり,kの増加とともに減少する.
また,(Y1,...,Yn)のうちちょうどk個が1,ほかが0である場合の数は(nk)個で,それぞれの確率はpkqn−kだから,確率の和は(nk)pkqn−k.よって
pSn(k)=(nk)pkqn−k
kによる増減は,
pSn(k+1)pSn(k)=n!(k+1)!(n−k−1)!k!(n−k)!n!pk+1qn−k−1pkqn−k=n−kk+1pq
だから,kの増加とともに狭義単調減少する.
さらに,
pSn(k+1)pSn(k)={<1 for k≥pn∼1for k<pn<k+1>1for k+1<pn
(以下CLTの成立の証明が続く)
Assignment 1. Problem set 1.
Exercise 1.3
A1,A2,...∈Fはdisjointで,Pr(An)=2−n−1,Ω=∪Anとする.
(a) この過程が確率の公理に反することを示せ
(b) Pr(∪i≥1Ai)=∑i≥1Pr(Ai)をPr(∪ni=1Ai)=∑ni=1Pr(Ai)で置き換えると,上の過程がその公理系を満たすことを示せ
この結果から,countable additivityがfinite additivityよりも強い概念であることがわかる.
答案.
(a)
∑i≥1Pr(Ai)=∑n≥12−n−1=1/2≠Pr(∪i≥1Ai)=Pr(Ω)=1
よって示せた.
(b)
∑ni=1Pr(Ai)=(1/2)(1−2−n)<1. これとPr(Ω)=1は矛盾しない.
Exercise 1.9
Xはr.v.で,distributionはFXとする.以下のr.v.たちのdistributionを与えよ
(a) XにIIDなr.v.たちの最大値のr.v.
(b) XにIIDなr.v.だちの最小値のr.v.
(c) (a)と(b)の差のr.v. ただしXはPDF fXを持つとする.
答案.
(a)
max(X1,...,Xn)≤x⇔X1≤x∧...∧Xn≤xから
Pr(max(X1,...,Xn)≤x)=Pr(X1≤x,....,Xn≤x)=Pr(X1≤x)...Pr(Xn≤x)(独立性)
よってFmax(X1,...,Xn)(x)=∏ni=1FXi(x)=FX(x)n
(b)
(a)とほとんど同様に,
F(min(X1,...,Xn))=(1−FX(x))n
(c) (模範解答)
求めるr.v. をRとする.
MAX=max(X1,...,Xn),MIN=min(X1,...,Xn)とする.
MAX≤x∧MIN>y⇔∀i.y<Xi≤xから
Pr(MAX≤x,MIN>y)=[FX(x)−FY(y)]n.
Pr(R≤r)=∫∂Pr(MAX≤x,MIN>y)∂x|y=x−rdx
XがPDF fXを持つことから,これは∫nfX(x)[FX(x)−FX(x−r)]n−1dxである.
Exercise 1.13
X1,...はPDF fX(x)をもつr.v.のIIDな無限列とする. n≥2について,Xnをrecord-to-date,すなわち∀i<n.Xn>Xiと定める. IIDの対称性を使って以下の問いに答えよ.
(a) X2がrecord-to-dateである確率を求めよ.
(b) Xnがrecord-to-dateである確率をnの関数として求めよ
(c) 任意のmについて,最初のm回の試行におけるrecord-to-dateの個数の期待値を求めよ. m→∞によって期待値が∞に発散すると示せ.
答案.
(a) Pr(X1<X2)=Pr(X1>X1)=1/2
(b) X1>max(∪{Xi}∖{X1}),X2>max(∪{Xi}∖{X2},...,Xn>max(∪{Xi}∖{Xn})
のどれか一つが確立1で成立し,対称性からPr(Xn>X1,...,Xn−1)=1/n.
(c) 1_個数⋅(1/2_(2)+1/3_(3)+⋯1/m_m) ((i)はXiがrecord-to-dateである確率)
∑i≥21/iが発散することは有名である.
(模範解答ではX1は必ずrecord-to-dateになっていた.全件否定からたしかにX1はrecod-to-date)
Exercise 1.20
(a) X,Y,Zは確率1/2で1,確率1/2で0をとるbinary rv’sとする. {X,Y,Z}がdependentだが,それぞれ2つを選ぶとindependentになる例を挙げ,PMF pXYZ(x,y,z)を求めよ (hint: もっとも単純な例では,ただ4つのjoint probabilityが正となる)
(b) pairwise independenceは
E[n∏i=1Xi]=n∏i=1E[Xi]
の十分条件か.
模範解答.
(a) Z=(X+Y)mod2
(b) この例で, Pr(XYZ=0)=1.よって十分条件でない.
Exercise 1.26
r.v. Xはcontinuousで,distributionはFX(x)とする. Y=FX(X)を新たなr.v.として考える.すなわち,ω∈Ωに,X(ω)=xならばY(ω)=FX(x)ということである. Yは[0,1]上でuniformly distributedであることを示せ.
答案.
FY(y)=y (0≤y≤1)を言えば良い.
FY(y)=Pr(Y≤y)=Pr({ω|Y(ω)≤y})=Pr({ω|FX(X(ω))≤y})
FXの単調性から,あるrがあって,x≤r⇒FX(x)≤y.rの最大値(連続性から存在)をF−1(y)とするとFY(y)=Pr(X≤F−1X(y))=FX(F−1X(y))=y.