2017年8月12日土曜日

MIT OCW, Machine Learning 04日目 宿題

Rohit Singh, Tommi Jaakkola, and Ali Mohammad. 6.867 Machine Learning. Fall 2006. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Assignments

Problem Set 1

Section A: Background

1.

人の集団で,少なくとも二人が同じ誕生日である確率を計算する関数birthday_prob(n)を書け.(Matlab指定だったがPythonでやる)

答案

import math
def birthday_prob(n):
    # n人全員の誕生日が違う場合の数は365Cn x n!. また,n人の誕生日の場合の数は365^n
    comp = (math.factorial(n)*math.factorial(365))/(math.factorial(365-n) * math.factorial(n))
    total = 365**n

    return 1 - comp/total
birthday_prob(23)
-> 0.5072972343239854

2

はi.i.d.で,上のUniform distributionに従うとする.
(a), (b)を求めよ.
答案

確率論でやった.
(a) とする.

独立性より
PDFはよって

(b) とする.

PDFはよって

3.

16の二人組があって,計32人のうち4人が風邪を引いてしまう.このときまだ組める二人組の数の期待値を求めよ.
答案

全ての事象の場合の数
- 2つの組が全員風邪を引く場合の数:
- 1つの組が二人風邪を引き,もう2つの組が一人づつ風邪を引く場合の数:
- 4つの組で一人づつ風邪を引く場合の数:

以上より求める期待値は

4 (Monty Hall)

3つのドアがあって,そのうち1つは当たり,他の2つは外れである. 1つのドアを選ぶと,Monty Hallは他の2つのドアのうち外れのドアを一つだけ教えてくれて,さらにもう一度ドアを選び直させてくれる.
(a) ドアを最初に選んだドアから選び直すべきだろうか?
(b) この試行を1000回おこなうプログラムを書き,結果を説明せよ.
(c) ドアを4つに増やしたほかは同じゲームを考える. 最初に選んだドアからドアを選び直すべきだろうか? そのとき, どのドアを改めて選ぶべきだろうか?
答案.

(a)
最初に選ぶドアを,もう2つのドアをとする.で当たり,ではずれ,でMontyがドアを選ぶという事象を表すことにする.
.



だから,ドアを選び変えたほうが良い.
(b)

def monty_trial(change = True):
    # ドアを0, 1, 2とする. 当たりのドアは毎回ランダムに生成され,最初に0のドアを選ぶとする.
    success = random.randint(0, 2)
    chosen = 0

    # 当たりのドアによって場合分けする.
    if success == 0:
        monty = random.randint(1, 2) # モンティがひらくドア
    elif success == 1:
        monty = 2
    else:
        monty = 1

    if change:
        chosen = 3 - monty

    if success == chosen:
        return 1
    else:
        return 0


cnt0 = 0
cnt1 = 0
for i in range(1000):
    cnt0 += monty_trial(True)
    cnt1 += monty_trial(False)

print(cnt0/1000)
print(cnt1/1000)

->

0.663
0.361

から, 確かに理論的な値に近い.

(c) (a)と同じ理由でドアを選び変えるべきだが,対称性から,どちらのドアを選んでも同じ.

5

(a) は正規分布のベクトルで

とする. のpdfを,joint PDF の形で書け.
(b) 行列で,次元のrandom variable vectorとする.

を示せ.

答案.

(a)
確率論で学んだ定義(def. 15-2)を書くと,

が成立する.

(b)

6

Gram-Schmidtの直行化法を使って,
を正規直行化せよ

答案.
>

import numpy as np
def GS(arrays):
    n = len(arrays)
    dim = len(arrays[0])

    us = []

    for i in range(n):
        u_proto = arrays[i]
        for j in range(i):
            u_proto = u_proto - us[j] * np.dot(us[j],arrays[i])
        us.append(u_proto/np.linalg.norm(u_proto) )

    return us

GS([np.array([0,0,0,0,0,1]), np.array([1,2,3,4,5,6]), np.array([1,4,9,16,25,36]), np.array([1,0,0,0,0,0])])

->

[array([ 0., 0., 0., 0., 0., 1.]),
array([ 0.13483997, 0.26967994, 0.40451992, 0.53935989, 0.67419986, 0. ]),
array([-0.40396119, -0.54653573, -0.42772361, -0.04752485, 0.59406057, 0. ]),
array([ 0.9047837 , -0.28420368, -0.25125253, -0.10159938, 0.16475576, 0. ])]

MIT OCW, Fundamentals of Probability 21日目 確率過程II

David Gamarnik, and John Tsitsiklis. 6.436J Fundamentals of Probability. Fall 2008. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Lecture 21. The Poisson Process Continued

1. Memorylessness in The Poisson Process

Poisson processはBernoulli processの連続時間版で,Bernoulli processのmemorylessnessを受け継いでいる. 特にPoisson processがあって,ある固定したや,未来を見ずに決めたに観測を始めると,観測しているprocessはPoisson processである. より形式的な性質を証明無しで挙げるが,それらの性質は今後よく使うことにする.
まず,連続時間におけるstopping timeを導入する.

Definition 21-1

random variable が stopping timeである
任意のについて, というeventが起こるか否かが,あるrandom variable の,における現れに寄ってのみ決まる.

より形式的に・・・

任意のについて,によって-algebra を定義して,であるとき,はstopping timeである.

Example

first arrival は,と同じことであり,後者はの現れによって決まるから,はstopping timeである.

stopping time から観測を始めたarrival process を,と定める.このときはパラメータをもとのprocessから受け継ぐPoisson processである. さらに, (すなわち以降の未来)は (すなわちの過去)と独立である.

2017年8月11日金曜日

MIT OCW, Machine Learning 03日目 logistic regression

Rohit Singh, Tommi Jaakkola, and Ali Mohammad. 6.867 Machine Learning. Fall 2006. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Lecture 4. Classification Errors, Regularization, Logistic Regression

The Support Vector Machine and Regularization


が,relaxationを入れた線形分離のパラメータを求める最適化問題であった.
を変形して,. だから,として,example に対するhinge loss

を定義する. 束縛条件とrelaxation項をまとめて,

とできる. これは,をregularization penaltyとしてを目的関数とする最適化問題と見ることが出来る. このように,classification lossのような目的関数とregularization penaltyを含む最適化問題をregularization problemという. 多くの機械学習アルゴリズムはregularization problemと見ることができて,regularization項は目的関数の最小化を安定させたり,事前の知識をアルゴリズムに組み込むために導入される.

Logistic Rgeression, Maximum Likelihood Estimation

labellingの間違いに対処するもう一つの方法に,labelの間違い(ノイズ)がどのように生成されるかをモデル化するというのがある. linear classificatioにおけるノイズの単純なモデルにlogistic regressionがある. decision boundaryから遠く離れたexampleのラベルはより正しい確率が高いというふうに,2つのラベルにprobability distributionを与えるのである.形式的には

とする. ここでで, logistic functionという. この関数は

から導かれる.例えばならばlog-oddsはであり,はdecision boundary上に有る.左辺をlog-oddsという.log-oddsの厳密な正当化は後でclass-conditional distributionの仮定をもとに行う.

から,

であって,故に

である.こうして,labelを確率的に推測するlinear classifierが得られた.training dataのそれぞれのexampleを正しく推測する確率を最大にすることを考える.この確立たちの総乗を

と書く.またを(conditional) likelihood functionといって,固定されたtraining dataに対するパラメータの関数である. これを最大化するmaximum likelihood estimatesという. また,training dataからmaximum likelihood estimatesを探す手続き(写像)をmaximum likelihood estimatorという.
を最大化するため,logをとって,

を最小化することになる. この関数は凸で,多くの最適化アルゴリズムが存在する. (stochastic) gradient descent(SGD)を導入する.
で偏微分して,

右辺のベクトルはが単位長さあたり最も増加するの方向を表しており,

によって更新を行う. ここでは小さい正数で,learning rateという. は間違ったlabelに分類する確率で,perceptron mistake driven updatesに似ているが,どれほど間違っているかによって更新の大きさを変えるところが重大な相違点である.
stochasticでないgradient descentは, を固定して,全てのを足し合わせて,その和によってを更新する.
最適化が実現したときには

が成立する.は,”label 1のexapleを-1に間違えて分類する確率”と”label -1のexampleを+1に間違えて分類する確率 ”の総和がであるということであって,間違いが均衡しているということである. あるいは,というベクトルと,というベクトルが直行しているということである.
同様に,の等式は,exampleのそれぞれの次元において,が直行しているということである.
この直交性によってが成立しているとき,training setにはもはやをより良くするための情報が無いということがわかる.

ところで,が常に正であるをみつけて両方を定数倍してこれらの値を際限なく大きくすると,に収束し,わざわざ確率的なモデルを使う意味がなくなってしまうので,regularziation項を加えて最適化する.すなわち


の最少化問題とする.またこれは

の最小化と同じことであり,どれほどregularizationを強くするかの係数がであるのがわかりやすいので,(26)の記法がよく使われる.っている.

2017年8月10日木曜日

MIT OCW, Fundamentals of Probability 20日目 確率過程I

David Gamarnik, and John Tsitsiklis. 6.436J Fundamentals of Probability. Fall 2008. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Lecture 20. The Bernoulli and Poisson Processes

stochastic process(確率過程)の議論をする準備ができた.
discrete-time stochastic processは共通したprobability space 上のrandom variableの列である. あるいは,を引数に取る関数で,任意のというrandom variableということであって,またを固定したときにはの関数(“time function”,とか “sample path”, “trajectory”という)と見ることも出来る.

1. The Bernoulli Process

Bernoulli processではで,全てがi.i.d.である.とすると,であって

である.ただしはPMFとする.
またを最初に試行が成功するまでの試行数とすると,であって,

である.

1.1 Stationarity and Memorylessness

Bernoulli processには特有の構造が有る.

Bernoulli process を考える.ある自然数を固定して,とすると,と同じdistributionを持ったBernoulli processである. より厳密には,と同じdistributionを持っている.この性質をstationarity(定常)性という.
また,より強い性質も成り立つ.の値が与えられても,は変化しない.形式的には

である.(1)の等式をmemoryless(無記憶)性という.(2)の等号はstationarity propertyの言い換えである.

1.2 Stopping Times

1.1では観測を始める時刻をに固定して議論したが,観測を始める時間がまた確率的に決まる場合を考える.は非負整数値をとるrandom variableとして,を議論する. は一般にと同じパラメータのBernoulli processではない. 例えばとするとである.この不等号はの実現値が決まってから,すなわち”未来を見て”決めたことに起因している.
一方がcausallyに決まるとき,つまり過去か現在のprocessのみから決まるとき,形式的には

Definition 20-1

stopping timeである
任意のについて,というeventが起きるか否かが,の顕れに寄ってのみ決まる
またこのとき,任意のという関数があって,

が成立する.

として,がstopping timeであるときにはmemorylessnessより強い性質を持つ.

したがってがstopping timeであればはまたBernoulli processである.

1.3 Arrival and Interarrival Times

th arrival timeといい, th interarrival timeとする.
はgeometricで,またstopping timeだから,もまたBernoulli processである. はもとのprocessのsecond interarrival timeだがのfirst arrival timeであって,よってはgeometricである.さらに,新しいprocessはと独立であって,もまたと独立である.特にとも独立である.
上の段落の議論を繰り返すと,はi.i.d. geometricであることがわかる.結果,のi.i.d. geometricの和だから,として,

である.こののPMFをPascal PMFという.

1.4 Marging and Splitting of Bernoulli Processes

は独立なBernoulli processで,パラメータはそれぞれとする. を,の”merged” processとして,と定義する.

だから,であって,はまたBernoulli processとなる.

また,というprocessを”Splitting”するprocessも考えられる.となったらコインを投げ(),その結果を記録していく仮定を考える.
形式的にはとして

とする.はパラメータのBernoulli processであり,はパラメータのBernoulli processである. dependentである.特に
である.

2. The Poisson Process

Poisson processはBernoulli processの連続時間への近似と考えることが出来る.時刻0から観測を初めて,時刻までに起きた成功の回数をrandom variableとする.つまり,とし,の間の成功の回数とすると,はpoisson過程である.
あるを固定して,を時刻におけるの現れとする.これはで成功しているならその点で不連続であり,右連続である:.
Bernoulli processと同様にいくつかのrandom variableを定義する.

さらにとする.
として,Poisson processは以下の性質によって定義される.
(a)

互いに素な区間たちがあって,その中で成功が起こる回数はindependentである.形式的には,
で,はindependentである.これはBernoulli processの試行の独立性の近似である.

(b)

ある区間における成功の回数のdistributionはと区間の長さのみによって決まる.形式的には,ならば

である.

(c)

という関数があって,

かつ任意の

である

はテイラー展開の2次以降の項を捉えるために導入される.

2.1 The Distribution of N(t)

を固定して,のclosed form expressionを考える.という区間を,同じ区間に複数の成功がないように細かく区切って,Bernoulli processで近似する.
大きなを一つ選び,とする.を長さごとに区切り,個の”slot”をつくる. 少なくとも1つの成功があるslotにある確率は

である.ただしである.
を固定して,以下のeventたちを定義する.

A: でちょうど回成功する
B: ちょうど個のslotがそれぞれ1つ以上の成功をもつ
C: 少なくとも1角slotが2つ以上の成功を持つ.

が起きない限り一致する.

であって

が成立する.ここで

右辺はに収束するから,に収束する.
成功があったslotの個数はbinomial distributionに従い,そのパラメータはであって,

が成立する. とすると,Lec.6と同様の計算で,右辺はPoisson PMFに収束し,

が成立する.これはをパラメータとするPoisson random variableであることを示している.またである.

2.2 The distribution of

Bernoulli processと同様に, interarrival times がi.i.d. でexponentialなrandom variableであることを示す.

2.2.1 First argument


である.これはexponentila CDFだから,

とPDFが得られる.
, または十分小さい正数とする.このとき十分狭い区間では複数個の成功は起こらないという仮定のもとで

両辺をで割ってとすれば

を得る.よってはindependentで,同じexponential distributionをもつ. 繰り返して,はi.i.d.で,共通したパラメータをもつexponential distributionに従う.

2.2.2 Second Argument

簡単のため,とする.として,

両辺を微分して,

が成立する.よって,を決めると,上uniformである.すなわち,2回目の成功が起きるまでの時刻,1回目の成功が起きうる時刻は同様に確からしい.
とすると,

である.

2.2.3 Alternative Definition of the Poisson Process

はi.i.d. でを共通のパラメータのexponential distributionをもつとする. 成功した時刻を記録していくとして,この定義はまたPoisson processの定義(a),(b),(c)を導く.

2.3 The Distribution of

個ののi.i.d.なrandom variableの和だから,PDFは畳み込みを繰り返して構成できる. PDFのもう一つの導出方法を述べる.
小さな区間で2つ以上成功する可能性を無視すると,

両辺をで割ってとし,

が言える.これを自由度GammaErlang(アーラン) distributionという.
他の導出に,に,というeventが

というeventと同じであることを考えれば,CDFは

であって,のPDFはこれを微分することで得られる.

2017年8月9日水曜日

MIT OCW, Machine Learning 02日目 SVM

Rohit Singh, Tommi Jaakkola, and Ali Mohammad. 6.867 Machine Learning. Fall 2006. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

The Support Vector Machine

大きなgeometric marginがあって線形分離できるという仮定のもとで,有限回の繰り返しでそのようなlinear classifierを与えられることを見た.Support Vector Machine(SVM)は繰り返しでなく直接そのようなlinear classifierを与える. まず,正しく線形分離を行うclassifierを見つけて(fig.1a),それからgeometric marginが最大になるようにを調節する(fig.1b).このような解は一意である.

figure 1

より形式的には,geometric marginを最大化する最適化問題となる. すなわち,がすべてのtraining dataに成立するという制約条件のもとで,を最大化する. を最大化する代わりに,逆数を最小化する問題とすることもできる.
の両辺をで割って

となる.この問題の解はのそれぞれの値を与えず,の定数倍によって得られるdecision boundaryは変わらないから,としてよい.以上から,結局

という最適化問題を解くことになる. この最適化問題はstandard SVM formであり,quadratic programming problem(目的関数が線形制約のもとのパラメータの二次関数)である. この解として得られるgeometric marginはである. decision boundaryとgeometric marginはという設定によって変化していない.

General Formulation, Offset Parameters

パラメータにoffset term を加えることで,decision boundaryが必ずしも原点を通らなくとも良くなる. このときclassifierは

separating hyperplaneはなるの集合である.の導入によって,原点を通るlinear classifierよりも大きなmarginを取れるようになることが有る. の導入によって最適化問題は

となる.は制約項においてだけ考慮する. はまさしくgeometric marginを最大化するためにのみ導入されるのである.

Properties of the Maximum Margin Linear Classifier

Benefits

解はtraining dataが与えられるたびに一意に決まり,geometric marginが最大になるようにboundaryを引くから,データのノイズに対して頑強である. さらに,marginの上のexampleたち(support vectors)のみによってパラメータは決まる(これが利点であるか否かを言うには,classifierの良さをより形式的に測る方法を議論する.).

training examplesのみが与えられたときのclassifierの性能をはcross-validationによって計量される. これは単純に,training dataのある部分集合だけを使ってclassifierを訓練し,そのclassifierが選ばれなかったtraing examplesに対する成績を計測していくのである. leave-one-out cross-validationはそのような方法の一つで,traing dataから1つだけexampleを取り出して訓練を行い,取り出されたexampleを正しく判別できたか否かをたしかめ,これをtraing data全てに繰り返す. 右肩にを置くことで番目のexampleを取り出して訓練したときのパラメーターを表すとすると,

である.ただし とする. leave-one-out CV errorが低いとよくgeneralizeできていると考えられるが,保証されているわけではない.
maximum margin linear classifierにおいて,あるexampleを除いて訓練を行ってそのexampleを判別し損ねるというのは,そのexampleがsupport vectorであるときであって,

である. よって,support vectorが少ないほどよい.これを解のsparse(疎)性質という.

Problems

たった一つのexampleであっても,labelが間違っていると完全にmaximum margin classifierを変化させてしまう.

Allowing Misclassified Examples, Relaxation

labelを間違えることはよく有ることだから,これに弱いというのは致命的なので,mislabelに強くする工夫が必要である. うまく判別できないデータが与えられたとして,それがmislabelによるのか,あるいは線形分離不可能だからなのかを知ることは困難である. どちらにせよ, traing exampleに対する正確性と,未知のexampleに対する正確性にはトレードオフの関係が有ることを肝に銘じなければならない.
maximum margin classifierをmislabelに頑強にする最も単純な方法の一つにslack variableの導入が有る. それぞれのexampleに対して,どれほどmarginの内側に来てしまうかを計量し,それのtraing dataの和を小さくするようにobjective functionに付け加えるのである.形式的には

となる.がslack variableである. example がmarginを内側にはみ出るときとなって,objective functionにを加え,の最少化を阻害し,未知のdataに対する頑強さを減じる. を小さくするとよりmislabelに強いが未知のexampleに弱く,を大きくするとmislabelに弱いが未知のexampleに強くなる.が極端に大きくなると,slack variableを考えないのと同じことになる.

MIT OCW, Fundamentals of Probability 19日目 大数の法則と中心極限定理

David Gamarnik, and John Tsitsiklis. 6.436J Fundamentals of Probability. Fall 2008. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Lecture 18. Laws Of Large Numbers

1. Useful Inequations

Markov Inequality

が非負なrandom variableなら

proof.


が必ず成立する.両辺のexpectationを考えれば直ちに成立.

Chevbyshev Inequality

proof.

Markov inequalityで,, とすれば直ちに成立.

2. The Weak Law of Large Numbers

expectationは無限回の試行の結果の平均と考えることが出来る. “有限回の試行の結果の平均(sample mean)はexpectationに近づく”ということの定式化がlaw of large numbers (大数の法則)である.
大数の弱法則と大数の強法則があり,後者は前者を導く.大数の強法則を僅かに弱くして証明し,弱法則をも導く.まずalmost sure convergenceの証明に使う補題を示す.

Proposition 19-1

をrandom variableの列とする.独立性は仮定しない.
(i)
(ii)

proof.

(i)
がmonotone conergence theoremから成立し,ゆえにというrandom variableは確率1で有限. したがってであり,.
(ii)
任意のを取ってとする. Borel-Cantelli lemmaからすなわちというeventは確率1で有限回のみ起こる. したがってが任意のに成立する.は単調でに収束する.よって

Theorem 18-1 The Weak Law of Large Numbers (証明略)

がi.i.d.でならば,とすると

Theorem 19-1 The Strong Law of Large Numbers

Theorem 18-1の仮定のもとで

proof.

を前提に加える. このとき. から

を仮定し,を示す.
まず

であって,i.i.d.だから,random variableたちの少なくとも1つが他のすべてのrandom variableと異なるとき. したがって,上の式で出ない項はあるいはという形をしている. となる通りで,となるの組み合わせは通りある.以上から

が成立する.を代入して,expectationをとってを考えればが成立する.ゆえに

したがって

ゆえには確率1でに収束し,もそうである.これがStrong law of large numbersの主張するところだった.
である場合,にa.s.収束することはにa.s.収束することだから,成立.

の仮定を外した場合の証明は省略する.

18-3 The Central Limit Theorem (中心極限定理)

Theorem 18-2 Central Limit Theorem, CLT

がi.i.d.で,そのexpectationとvarianceをそれぞれとする.とすると,

にdistribution convergenceする.

proof.

簡単のためとする. 1,2次のmomentが有限であることから,において2回微分可能である.

と書ける.のcharacteristic functionは

という形をしていて,を固定しての極限はである.これはのcharacteristic functionに等しい.から,たしかにdistribution convergenceが言えた.

CLTはのPDFはCDFについて何も言っていないが,以下の2つの命題が成り立つ.
(a)

が成立するがあるとき,で連続で
のPDFのPDFに一様収束(各点収束)する.すなわち

である.

(b)

を定数,を整数として,という値を取り,とする. という形のに,

である.

19-2. The Chernoff Bound

はi.i.d.で,とする.とする. (weak) law of large numbers から, が任意ので成立.この収束を上下から押さえる関数を与えたい.

19-2.1 Upper Bound

として,で成り立つとする.
. 任意のにMarkov inequalityを使って,

(では右辺がになってしまうが不等号自体は成立する)
とともに指数的に減少することがわかったが,を操作してより狭い境界を与える.

Theorem 19-2 (Chernooff Upper Bound) (証明略)

あるならば,

では
また

をとり,微分係数は正だから,十分小さいで正の値を取る. であって,を固定するとによって指数的に減少する.

Example

について,. したがって これの最小値は.これは

を与える.

19-2.2 Lower Bound

Assumption 19-1.

(i)
(ii) random variable はcontinuous で, PDFは
(iii) は有限の上限,下限を持たない.すなわち

Theorem 19-3 (Chernoff Lower Bound)

Assumption 1のもとで,任意の

2017年8月8日火曜日

MIT OCW, Fundamentals of Probability 18日目 確率変数の収束の関係性

David Gamarnik, and John Tsitsiklis. 6.436J Fundamentals of Probability. Fall 2008. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Lecture 17. Convergence of Random Variables

3. The Hierarchy of Convergence Concepts

Theorem 17-2


最初の2つの矢印の両辺では,すべてが同じprobability space上のrandom variableと仮定している.

proof.

(a)
を固定して,とする.ならばであって,が定数で抑えられることを考えればDCTより
(測度1で)
一方でから,が任意のに言えて,したがって

(b) (略)
(c)
のもとで,Theorem 17-1から,あるprobability space上のが有って,である. 任意の

(1): DCTと (Lec. 16, 4(f))

それぞれの矢印の逆命題を議論する.

3.1 Convergence Almost Surely Versus in Probability


,またはindependentとする.このときである.一方Borel-cantelliの補題から, () ゆえにほとんどすべてのに収束しない.
しかし,より弱い命題は成立する.すなわち,のときには,部分列があって,である. (証明略)
例えば上の例でとするとであって,Borel-Cantelliの補題から だから,たしかに.

3.2 Convergence in Probability Versus in Distribution


定数でないi.i.d.とする.このとき明らかにであって,一方を固定してに関係なく確定した非負実数値を取りうる.すなわちにconverge in probability しない.
ただしである.(証明略)

3.3 Convergence in Distributuion Versus Characteristic Functions

最後に,Theorem 17-2の最後の矢印の逆は必ず成立する.つまり同値関係である.以下の定理は,characteristic functionが似ているrandom variableはdistributionも似ていると主張する.

Theorem 17-3 Countinuity of inverse transfroms (証明略)

はrandom varirableとする.

さらに,
(i) characteristic functionたちに各点収束し
(ii) さらにその極限があるrandom variableのcharacteristic functionである
という命題は非常に便利である.(i)のもとで(ii)が成り立つ条件をTheorem 17-4は主張する.

Theorem 17-4 Continuity of inverse transforms (証明略)

はrandom variableで,をそのcharacteristic functionとする.つまり各点収束極限をとすると,以下のどちらかが成り立つ.
(i) で非連続であり,はconverge in distribution しない
(ii) で連続であり,random variable があって,そのcharacteristic functionは, さらにである.

2017年8月6日日曜日

MIT OCW, Fundamentals of Probability 17日目 確率変数の様々な収束

David Gamarnik, and John Tsitsiklis. 6.436J Fundamentals of Probability. Fall 2008. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Lecture 17. Convergence of Random Variables

1. Definitions

1.1 Almost Sure Convergence (概収束)

Definition 17-1

almost surely converge (概収束)する
があって,

またこのときと書く.

このときは必ず同じprobability spaceのrandom variableでなければならない. さらに,たちは一般にhighly dependentである.a.s. convergenceが現れる状況は以下の2つである.
(a)

確率的試行を何度も繰り返すとする.回目の試行に,というrandom variableを関連付ける(例えば日目の収入). このときとすると日目までの収入の合計であって,は生涯の収入と考えることが出来る. でうまく定義されている.

(b)

あるrandom variableと,可測関数によって作られる様々なrandom variableがあって,が任意のに成立するときである.例えば.よって

であるとき,dominated convergence theorem(優収束定理)から,

である.一方

は一般には成り立たない.例えば上の一様分布として,

とすると

一方,で,

1.2 Convergence in Distribution (分布収束)

Definition 17-2

をrandom variableとし,CDFをそれぞれとする.converge in distributionする


またこのときと書く.

重要な性質として,
(a)

で連続

(b)

,またとするとだが,である.また,は非連続だから,連続点のみを考えれば.より一般に,また確率1でで,ならば,である.
よってconvergence in distributionは実数の収束とconsistent.

(c)

この定義は,random variableたちのmarginal distributionだけを考えていて,異なったprobability spaceにおけるrandom variableについても,cenvergence in distributionは定義されている.

(d)

がcontinuous random variableで,PDFがにおいて対称とする.とすると,は全て同じdistributionを持っていて,.しかしほとんどすべてので,に収束しない.

(e)

random variableのdistributionがparametric(例えば,であるとき)かつそのparameterが収束して,その収束先によってを定義するとき,である.

(f)

discrete random variableの列がcontinuous random variableにconverge in distributionすることがある.例えばでuniformで,とすると,上のuniform random variableにconverge in distributionする.

(g)

continuous random variableの列がdiscrete random variableにconverge in distributionすることがある.例えばでuniformなら.

(h)

が連続でも,だからといってPDFたちが連続であるとは限らない.

(i)

が整数値を取って,ならば,PMFもまたと各点収束する.

1.3 Convergence in Probability (確率収束)

Definition 17-3

(a) 必ずしも同じprobability spaceのrandom variable列でないconverge in probabilityする


このときと書く.
(b) は同じprobability spaceのrandom variableたちとする. であるとき,にconverge in probabilityするといい,と書く.

また重要な性質に
(b)

というのは,直感的には,が増加するに従ってほとんどすべてのprobability massがの周りの小さな区間に集まってくるということである. 一方を固定するとその小さな区間からはみ出るprobability massがあってそれはslowly decaying tailをもつ(?). このようなtailはexpected valueに大きな影響が有る. よってconvergence in probability は極限のexpected valueを知るのには役立たない.

(c)

で,全てが同じprobability space上のrandom variableならである.

2. Convergence in Distribution

convergence in distributionとalmost sure convergenceの関係を詳しく見ることで,convergence in distributionの意味を把握する.

Theorem 17-1 (証明略)

なら,あるprobability spaceと,以下を満たすその上のrandom variableが存在する.
(a) 任意のが同じCDFをもち,も同じCDFを持つ.
(b)

convergence in distributionでは,random variable たちが独立であるか否かは問題ではなく,同じprobability space上で定義されている必要もない. 一方almost sure convergenceでは,random variableたちの強いdependenceが暗示されている. Theorem 17-1はmarginal distributionの保存を言っているが,たちの間の特別な形のdependenceを導入していて,結果almost sure convergenceが現れる.
このdependenceはcommon random number generatorを使って希望する分布上に定義する.例えば上のuniformly distrubutionとする.
すべてのCDFたちが連続で狭義単調増加するときとすると,(a)を満たしている.またこのときである.これはsection 1.1(b)からわかる.