Processing math: 74%

2017年8月12日土曜日

MIT OCW, Machine Learning 04日目 宿題

Rohit Singh, Tommi Jaakkola, and Ali Mohammad. 6.867 Machine Learning. Fall 2006. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Assignments

Problem Set 1

Section A: Background

1.

n人の集団で,少なくとも二人が同じ誕生日である確率を計算する関数birthday_prob(n)を書け.(Matlab指定だったがPythonでやる)

答案

import math
def birthday_prob(n):
    # n人全員の誕生日が違う場合の数は365Cn x n!. また,n人の誕生日の場合の数は365^n
    comp = (math.factorial(n)*math.factorial(365))/(math.factorial(365-n) * math.factorial(n))
    total = 365**n

    return 1 - comp/total
birthday_prob(23)
-> 0.5072972343239854

2

X1,...,Xn はi.i.d.で,(0,1)上のUniform distributionに従うとする.
(a)E[max(X1,...,Xn)], (b)E[min(X1,...,Xn)]を求めよ.
答案

確率論でやった.
(a) X=max(X1,...,Xn)とする.
Xx(X1x)...(XnX)
独立性よりP(Xx)=P(X1x)P(X2x)...P(XnX)=xn
PDFはnxn1a.e.よって
E[X]=10xnxn1=nn+1
(b) Y=min(X1,...,Xn)とする.
XyP(xX1)P(xX2)...P(xXn)=(1P(X1<x))...(1P(Xn<x))   (独立性)=(1P(X1x))...(1P(Xnx))CDFの連続性=(1x)n
PDFはn(1x)n1 a.e.よって
E[Y]=10n(1x)n1xdx=1n+1

3.

16の二人組があって,計32人のうち4人が風邪を引いてしまう.このときまだ組める二人組の数の期待値を求めよ.
答案

全ての事象の場合の数 32C4=35960
- 2つの組が全員風邪を引く場合の数:  16C2=120
- 1つの組が二人風邪を引き,もう2つの組が一人づつ風邪を引く場合の数: 16× 15C2×2×2=6720
- 4つの組で一人づつ風邪を引く場合の数:  16C4×24=29120

以上より求める期待値は(14×120+13×6720+12×29120)/35960=37831

4 (Monty Hall)

3つのドアがあって,そのうち1つは当たり,他の2つは外れである. 1つのドアを選ぶと,Monty Hallは他の2つのドアのうち外れのドアを一つだけ教えてくれて,さらにもう一度ドアを選び直させてくれる.
(a) ドアを最初に選んだドアから選び直すべきだろうか?
(b) この試行を1000回おこなうプログラムを書き,結果を説明せよ.
(c) ドアを4つに増やしたほかは同じゲームを考える. 最初に選んだドアからドアを選び直すべきだろうか? そのとき, どのドアを改めて選ぶべきだろうか?
答案.

(a)
最初に選ぶドアをA,もう2つのドアをB,Cとする.1で当たり,0ではずれ,1でMontyがドアを選ぶという事象を表すことにする.
P(A=1)=P(B=1)=P(C=1)=1/3.
P(A=1|B=1)=P(A=1B=1)/P(B=1)=(13×12)/(13×(12+1))=13
P(C=1|B=1)=P(C=1B=1)/P(B=1)=(13×1)/(13×(12+1))=23
P(B=1)=X{A,B,C}P(B=1|X=1)P(X=1)
だから,ドアを選び変えたほうが良い.
(b)

def monty_trial(change = True):
    # ドアを0, 1, 2とする. 当たりのドアは毎回ランダムに生成され,最初に0のドアを選ぶとする.
    success = random.randint(0, 2)
    chosen = 0

    # 当たりのドアによって場合分けする.
    if success == 0:
        monty = random.randint(1, 2) # モンティがひらくドア
    elif success == 1:
        monty = 2
    else:
        monty = 1

    if change:
        chosen = 3 - monty

    if success == chosen:
        return 1
    else:
        return 0


cnt0 = 0
cnt1 = 0
for i in range(1000):
    cnt0 += monty_trial(True)
    cnt1 += monty_trial(False)

print(cnt0/1000)
print(cnt1/1000)

->

0.663
0.361

から, 確かに理論的な値に近い.

(c) (a)と同じ理由でドアを選び変えるべきだが,対称性から,どちらのドアを選んでも同じ.

5

(a) Xは正規分布のベクトルで
E[X]=(10,5)T,cov(X)=(2111)
とする. Xのpdfを,joint PDF P(x1,x2)の形で書け.
(b) A,Bp×q行列で,xq次元のrandom variable vectorとする.
cov(Ax,Bx)=Acov(x)BT
を示せ.

答案.

(a)
確率論で学んだ定義(def. 15-2)を書くと,
fX(x)=1(2π)n|detV|exp[(xμ)V1(xμ)T2]=12πexp[(x110,x25)(1112)(x110,x25)T2]=12πexp((x212x1x210x1+2x22+50))
が成立する.

(b)
cov(Ax,Bx)=E[(AxE[Ax])(BxE[Bx])T]=E[(AxAE[x])(BxBE[x])T]=E[AxxTBTAxE[x]TBTAE[x]xTBT+AE[x]E[x]TBT]=AE[xxT]BT=Acov(x)BT

6

Gram-Schmidtの直行化法を使って,
(0,0,0,0,0,1)T,(1,2,3,4,5,6)T,(1,4,9,16,25,36)T,(1,0,0,0,0,0)Tを正規直行化せよ

答案.
>

import numpy as np
def GS(arrays):
    n = len(arrays)
    dim = len(arrays[0])

    us = []

    for i in range(n):
        u_proto = arrays[i]
        for j in range(i):
            u_proto = u_proto - us[j] * np.dot(us[j],arrays[i])
        us.append(u_proto/np.linalg.norm(u_proto) )

    return us

GS([np.array([0,0,0,0,0,1]), np.array([1,2,3,4,5,6]), np.array([1,4,9,16,25,36]), np.array([1,0,0,0,0,0])])

->

[array([ 0., 0., 0., 0., 0., 1.]),
array([ 0.13483997, 0.26967994, 0.40451992, 0.53935989, 0.67419986, 0. ]),
array([-0.40396119, -0.54653573, -0.42772361, -0.04752485, 0.59406057, 0. ]),
array([ 0.9047837 , -0.28420368, -0.25125253, -0.10159938, 0.16475576, 0. ])]

MIT OCW, Fundamentals of Probability 21日目 確率過程II

David Gamarnik, and John Tsitsiklis. 6.436J Fundamentals of Probability. Fall 2008. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Lecture 21. The Poisson Process Continued

1. Memorylessness in The Poisson Process

Poisson processはBernoulli processの連続時間版で,Bernoulli processのmemorylessnessを受け継いでいる. 特にPoisson processがあって,ある固定したtや,未来を見ずに決めたt=Sに観測を始めると,観測しているprocessはPoisson processである. より形式的な性質を証明無しで挙げるが,それらの性質は今後よく使うことにする.
まず,連続時間におけるstopping timeを導入する.

Definition 21-1

random variable S0が stopping timeである
任意のs0について, {Ss}というeventが起こるか否かが,あるrandom variable N(t)の,tsにおける現れに寄ってのみ決まる.

より形式的に・・・

任意のs0について,Fs=σ(t[0,s],k{0,1,...}{N(t)=k})によってσ-algebra Fsを定義して,{Ss}Fsであるとき,Sはstopping timeである.

Example

first arrival T1は,{T1s}{N(s)1}と同じことであり,後者はN(s)の現れによって決まるから,T1はstopping timeである.

stopping time Sから観測を始めたarrival process {M(t)}を,M(t)=N(S+t)N(S)と定める.このとき{M(t)}はパラメータλをもとのprocessから受け継ぐPoisson processである. さらに,{M(t)|t0} (すなわちS以降の未来)は{N(min{t,S})|t0} (すなわちSの過去)と独立である.

2017年8月11日金曜日

MIT OCW, Machine Learning 03日目 logistic regression

Rohit Singh, Tommi Jaakkola, and Ali Mohammad. 6.867 Machine Learning. Fall 2006. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Lecture 4. Classification Errors, Regularization, Logistic Regression

The Support Vector Machine and Regularization

minimize12θ2+Cnt=1ξtsubect to yt(θTxt+θ0)1ξt and ξt0 for all t=1,...,n
が,relaxationを入れた線形分離のパラメータを求める最適化問題であった.
yt(θTxt+θ0)1ξtを変形して,ξt1yt(θTxt+θ0). ξt0だから,()+:rmax(0,r)として,example xtに対するhinge loss
ˆξt=(1yt(θTxt+θ0))+
を定義する. 束縛条件とrelaxation項をまとめて,
minimize 12θ2+Cnt=1(1yt(θTxt+θ0))+_^ξt
とできる. これは,12θ2をregularization penaltyとしてCnt=1^ξtを目的関数とする最適化問題と見ることが出来る. このように,classification lossのような目的関数とregularization penaltyを含む最適化問題をregularization problemという. 多くの機械学習アルゴリズムはregularization problemと見ることができて,regularization項は目的関数の最小化を安定させたり,事前の知識をアルゴリズムに組み込むために導入される.

Logistic Rgeression, Maximum Likelihood Estimation

labellingの間違いに対処するもう一つの方法に,labelの間違い(ノイズ)がどのように生成されるかをモデル化するというのがある. linear classificatioにおけるノイズの単純なモデルにlogistic regressionがある. decision boundaryから遠く離れたexampleのラベルはより正しい確率が高いというふうに,2つのラベルにprobability distributionを与えるのである.形式的には
P(y=1|x,θ,θ0)=g(θTx+θ0)
とする. ここでg(z)=(1+exp(z))1で, logistic functionという. この関数は
logP(y=1|x,θ,θ0)P(y=1|x,θ,θ0)=θTx+θ0
から導かれる.例えばP(y=1|x,θ,θ0)=P(y=1|x,θ,θ0)=1/2ならばlog-oddsは0であり,xはdecision boundary上に有る.左辺をlog-oddsという.log-oddsの厳密な正当化は後でclass-conditional distributionの仮定をもとに行う.

1g(z)=g(z)から,
P(y=1|x,θ,θ0)=1P(y=1|x,θ,θ0)=1g(θTx+θ0)=g((θTx+θ0))
であって,故に
P(y|x,θ,θ0)=g(y(θTx+θ0))
である.こうして,labelを確率的に推測するlinear classifierが得られた.training dataのそれぞれのexampleを正しく推測する確率を最大にすることを考える.この確立たちの総乗を
L(θ,θ0)=nt=1P(yt|xt,θ,θ0)
と書く.またL(θ,θ0)を(conditional) likelihood functionといって,固定されたtraining dataに対するパラメータの関数である. これを最大化するθ,θ0maximum likelihood estimatesという. また,training dataからmaximum likelihood estimatesを探す手続き(写像)をmaximum likelihood estimatorという.
Lを最大化するため,logをとって,
l(θ,θ0)=nt=1logP(yt|xt,θ,θ0)=logg(yt(θTxt+θ0))=log[1+exp(yt(θTxt+θ0))]
を最小化することになる. この関数は凸で,多くの最適化アルゴリズムが存在する. (stochastic) gradient descent(SGD)を導入する.
l(θ,θ0)で偏微分して,
ddθ0log[1+exp(yt(θTxt+θ0))]=yt[1P(yt|xt,θ,θ0)]ddθlog[1+exp(yt(θTxt+θ0))]=ytxt[1P(yt|xt,θ,θ0)]
右辺のベクトルはlog[1+exp(yt(θTxt+θ0))]が単位長さあたり最も増加するθ0,θの方向を表しており,
θ0θ0+ηyt[1P(yt|xt,θ,θ0)]θθ+ηytxt[1P(yt|xt,θ,θ0)]
によって更新を行う. ここでηは小さい正数で,learning rateという. [1P(yt|xt,θ,θ0)]は間違ったlabelに分類する確率で,perceptron mistake driven updatesに似ているが,どれほど間違っているかによって更新の大きさを変えるところが重大な相違点である.
stochasticでないgradient descentは, θ,θ0を固定して,全てのtηyt[1P(yt|xt,θ,θ0)],ηytxt[1P(yt|xt,θ,θ0)]を足し合わせて,その和によってθ,θ0を更新する.
最適化が実現したときには
ddθ0(l(θ,θ0))=nt=1yt[1P(yt|xt,θ,θ0)]=0(19)ddθ(l(θ,θ0))=nt=1ytxt[1P(yt|xt,θ,θ0)]=0   (20)
が成立する.(19)は,”label 1のexapleを-1に間違えて分類する確率”と”label -1のexampleを+1に間違えて分類する確率 ×1”の総和が0であるということであって,間違いが均衡しているということである. あるいは,(y1,...,yn)Tというベクトルと,(1P(y1|x1,θ,θ0),...,1P(yn|xn,θ,θ0))Tというベクトルが直行しているということである.
同様に,(20)の等式は,exampleのそれぞれの次元jにおいて,(y1x1j,...,ynxnj)T(1P(y1|x1,θ,θ0),...,1P(yn|xn,θ,θ0))Tが直行しているということである.
この直交性によって(19,20)が成立しているとき,training setにはもはやθ,θ0をより良くするための情報が無いということがわかる.

ところで,yt(θTxt+θ0)が常に正であるθ,θ0をみつけて両方を定数倍してこれらの値を際限なく大きくすると,yt[1P(yt|xt,θ,θ0)]1に収束し,わざわざ確率的なモデルを使う意味がなくなってしまうので,regularziation項θ/2を加えて最適化する.すなわち

12θ2+Cnt=1log[1+exp(yt(θTxt+θ0))]
の最少化問題とする.またこれは
λ2θ2+nt=1log[1+exp(yt(θTxt+θ0))]   (26)
の最小化と同じことであり,どれほどregularizationを強くするかの係数がλであるのがわかりやすいので,(26)の記法がよく使われる.っている.

2017年8月10日木曜日

MIT OCW, Fundamentals of Probability 20日目 確率過程I

David Gamarnik, and John Tsitsiklis. 6.436J Fundamentals of Probability. Fall 2008. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Lecture 20. The Bernoulli and Poisson Processes

stochastic process(確率過程)の議論をする準備ができた.
discrete-time stochastic processは共通したprobability space (Ω,F,P)上のrandom variableの列{Xn}である. あるいは,n,ωを引数に取る関数Xで,任意のnXn:ωXn(ω)というrandom variableということであって,またωΩを固定したときにはnの関数(“time function”,とか “sample path”, “trajectory”という)と見ることも出来る.

1. The Bernoulli Process

Bernoulli processではXnBer(p)で,全てがi.i.d.である.Sn=X1+...+Xnとすると,Snbin(n,p)であって
pSn(k)=(nk)pk(1p)nk, E[Sn]=np var(Sn)=np(1p)
である.ただしpSnはPMFとする.
またT1を最初に試行が成功するまでの試行数とすると,Tngeom(p)であって,
pT1(k)=(1p)k1p,E[T1]=1/p
である.

1.1 Stationarity and Memorylessness

Bernoulli processには特有の構造が有る.

Bernoulli process {Xn}を考える.ある自然数mを固定して,Yn=Xm+nとすると,{Yn}{Xn}と同じdistributionを持ったBernoulli processである. より厳密には,(Y1,...,Yk)(X1,...,Xk)と同じdistributionを持っている.この性質をstationarity(定常)性という.
また,より強い性質も成り立つ.X1,...,Xmの値が与えられても,{Yn}は変化しない.形式的には
P((Xn+1,Xn+2,...)A|X1,...,Xn)=(1)P((Xn+1,Xn+2,...)A)=(2)P((X1,X2,...)A)
である.(1)の等式をmemoryless(無記憶)性という.(2)の等号はstationarity propertyの言い換えである.

1.2 Stopping Times

1.1では観測を始める時刻をmに固定して議論したが,観測を始める時間がまた確率的に決まる場合を考える.Nは非負整数値をとるrandom variableとして,{Yn}Yn=XN+nを議論する. {Yn}は一般に{Xn}と同じパラメータのBernoulli processではない. 例えばN=min{n|Xn+1=1}とするとP(Y1=1)=P(XN+1=1)=1pである.この不等号はNXN+1の実現値が決まってから,すなわち”未来を見て”決めたことに起因している.
一方Nがcausallyに決まるとき,つまり過去か現在のprocessのみから決まるとき,形式的には

Definition 20-1

Nstopping timeである
任意のnについて,{N=n}というeventが起きるか否かが,X1,...,Xnの顕れに寄ってのみ決まる
またこのとき,任意のnhnという関数があって,
IN=n=hn(X1,...,Xn)
が成立する.

として,Nがstopping timeであるときにはmemorylessnessより強い性質を持つ.
P((XN+1,XN+2,...)A|N=n,X1,...,Xn)=P((Xn+1,Xn+2,...)A)=P((X1,X2,...)A)
したがってNがstopping timeであれば{Yn}はまたBernoulli processである.

1.3 Arrival and Interarrival Times

Yk=min{n|Sn=k},Y0=0kth arrival timeといい, kth interarrival timeTk=YkYk1とする.
T1=Y1はgeometricで,またstopping timeだから,(XT1+1,XT1+2,...)もまたBernoulli processである. T2はもとのprocessのsecond interarrival timeだが(XT1+1,XT1+2,...)のfirst arrival timeであって,よってT2はgeometricである.さらに,新しいprocessは(X1,..,XT1)と独立であって,T2もまた(X1,...,XT+1)と独立である.特にT2T1とも独立である.
上の段落の議論を繰り返すと,Tkはi.i.d. geometricであることがわかる.結果,Ykkのi.i.d. geometricの和だから,St=X1+Xtとして,
P(Yk=t)=P(St1=k1Xt=1)=P(St1=k1)P(Xt=1)=(t1k1)pk1(1p)tkp=(t1k1)pk(1p)tk
である.このYkのPMFをPascal PMFという.

1.4 Marging and Splitting of Bernoulli Processes

{Xn}{Yn}は独立なBernoulli processで,パラメータはそれぞれp,qとする. {Zn}を,Xn,Ynの”merged” processとして,Zn=max{Xn,Yn}と定義する.
P(Zn=1)=1P(Xn=0,Yn=0)=1P(Xn=0)P(Yn=0)=1(1p)(1q)
だから,ZnBer(p+qpq)であって,{Zn}はまたBernoulli processとなる.

また,{ZnBer(p)}というprocessを”Splitting”するprocessも考えられる.Zn=1となったらコインを投げ(Ber(q)),その結果を記録していく仮定を考える.
形式的には{UnBer(q)}として
Xn=ZnUn, Yn=Zn(1Un)
とする.{Xn}はパラメータpqのBernoulli processであり,{Yn}はパラメータp(1q)のBernoulli processである. {Xn},{Yn}dependentである.特に
P(Xn=1|Yn=1)=0pq=P(Xn=1)である.

2. The Poisson Process

Poisson processはBernoulli processの連続時間への近似と考えることが出来る.時刻0から観測を初めて,時刻tまでに起きた成功の回数をrandom variableとする.つまり,N(0)=0とし,N(t)(0,t]の間の成功の回数とすると,Nはpoisson過程である.
あるωを固定して,N(t)を時刻tにおけるNの現れとする.これはtで成功しているならその点で不連続であり,右連続である:limτtN(τ)=N(t).
Bernoulli processと同様にいくつかのrandom variableを定義する.
Y0=0, Yk=min{t|N(t)=k}, Tk=YkYk1
さらにP(k;t)=P(N(t)=k)とする.
λ>0として,Poisson processは以下の性質によって定義される.
(a)

互いに素な区間たちがあって,その中で成功が起こる回数はindependentである.形式的には,
0<t1<...<tkで,N(t1),N(t2)N(t1),...,N(tk)N(tk1)はindependentである.これはBernoulli processの試行の独立性の近似である.

(b)

ある区間における成功の回数のdistributionはλと区間の長さのみによって決まる.形式的には,t1<t2ならば
P(N(t2)N(t1)=k)=P(N(t2t1)=k)=P(k;t2t1)
である.

(c)

okという関数があって,
limδ0ok(δ)δ=0
かつ任意のδ>0
P(0;δ)=1λδ+o1(δ)P(1;δ)=λδ+o2(δ)k=2P(k;δ)=o3(δ)
である

okはテイラー展開の2次以降の項を捉えるために導入される.

2.1 The Distribution of N(t)

λt>0を固定して,P(k;t)のclosed form expressionを考える.(0,t]という区間を,同じ区間に複数の成功がないように細かく区切って,Bernoulli processで近似する.
大きなnを一つ選び,δ=t/nとする.[0,t]を長さδごとに区切り,n個の”slot”をつくる. 少なくとも1つの成功があるslotにある確率は
p=1P(0;δ)=λδ+o(δ)=λtn+o(1/n)
である.ただしo(δ)/δ0である.
kを固定して,以下のeventたちを定義する.

A: (0,t]でちょうどk回成功する
B: ちょうどk個のslotがそれぞれ1つ以上の成功をもつ
C: 少なくとも1角slotが2つ以上の成功を持つ.

A,BCが起きない限り一致する.
BAB, ABC
であって
P(B)P(C)P(A)P(B)+P(C)
が成立する.ここで
P(C)no3(δ)=(t/δ)o3(δ)
右辺はnδ00に収束するから,P(A)nP(B)に収束する.
成功があったslotの個数はbinomial distributionに従い,そのパラメータはn=n,p=λt/n+o(1/n)であって,
P(B)=(nk)(λtn+o(1/n))k(1λtn+o(1/n))nk
が成立する. nとすると,Lec.6と同様の計算で,右辺はPoisson PMFに収束し,
P(k;t)=(λt)kk!eλt
が成立する.これは(t)λtをパラメータとするPoisson random variableであることを示している.またE[N(t)]=var(N(t))=λtである.

2.2 The distribution of Tk

Bernoulli processと同様に, interarrival times Tkがi.i.d. でexponentialなrandom variableであることを示す.

2.2.1 First argument

P(T1>t)=P(N(t)=0)=P(0;t)=eλt
である.これはexponentila CDFだから,
fT1(t)=λeλt
とPDFが得られる.
t1,t2>0, δ<t2, またδは十分小さい正数とする.このとき十分狭い区間では複数個の成功は起こらないという仮定のもとで
P(t1T1t1+δ,t2T2t2+δ)P(0;t1)P(1;δ)P(0;t2t1δ)P(1;δ)=eδt1λδeδ(t2δ)λδ
両辺をδ2で割ってδ0とすれば
fT1,T2(t1,t2)=λeλt1λeλt2, t1,t2>0
を得る.よってT1,T2はindependentで,同じexponential distributionをもつ. 繰り返して,{Tk}はi.i.d.で,共通したパラメータλをもつexponential distributionに従う.

2.2.2 Second Argument

簡単のため,λ=1とする.0<stとして,
P(Y1s,Y2t)=P(N(s)1,N(t)2)=P(N(s)=1)P(N(t)N(s)1)+P(N(s)2)=ses(1e(ts))+(1esses)=set+1es
両辺を微分して,
fY1,Y2(s,t)=2tsP(Y1s,Y2t)=et,  0st
が成立する.よって,Y2=tを決めると,Y1(0,t)上uniformである.すなわち,2回目の成功が起きるまでの時刻,1回目の成功が起きうる時刻は同様に確からしい.
T1=Y1,T2=Y2Y1とすると,
fT1,T2(t1,t2)=fY1,Y2(t1,t1+t2)=et1et2
である.

2.2.3 Alternative Definition of the Poisson Process

T1,T2,...はi.i.d. でλを共通のパラメータpのexponential distributionをもつとする. 成功した時刻T1,T1+T2,T1+T2+T3,...を記録していくとして,この定義はまたPoisson processの定義(a),(b),(c)を導く.

2.3 The Distribution of Yk

Ykk個のexp(λ)のi.i.d.なrandom variableの和だから,PDFは畳み込みを繰り返して構成できる. PDFのもう一つの導出方法を述べる.
小さな区間で2つ以上成功する可能性を無視すると,
P(yYky+δ)=P(k1;y)P(1;δ)=λk1(k1)!yk1eλyλδ
両辺をδで割ってδ0とし,
fYk(y)=λk1(k1)!yk1eλyλ,  y>0
が言える.これを自由度kGammaErlang(アーラン) distributionという.
他の導出に,y0に,{Yky}というeventが
{number of arrivals in the interval [0, y] is at least k}
というeventと同じであることを考えれば,CDFは
FYk(y)=P(Yky)=n=kP(n,y)=1k1n=0P(n,y)=1k1n=0(λy)neλyn!
であって,YkのPDFはこれを微分することで得られる.
fYk(y)=ddyFYk(y)=λkyk1eλy(k1)!

2017年8月9日水曜日

MIT OCW, Machine Learning 02日目 SVM

Rohit Singh, Tommi Jaakkola, and Ali Mohammad. 6.867 Machine Learning. Fall 2006. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

The Support Vector Machine

大きなgeometric marginがあって線形分離できるという仮定のもとで,有限回の繰り返しでそのようなlinear classifierを与えられることを見た.Support Vector Machine(SVM)は繰り返しでなく直接そのようなlinear classifierを与える. まず,正しく線形分離を行うclassifierを見つけて(fig.1a),それからgeometric marginが最大になるようにθを調節する(fig.1b).このような解は一意である.

figure 1

より形式的には,geometric marginを最大化する最適化問題となる. すなわち,ytθTxtγがすべてのtraining dataに成立するという制約条件のもとで,γgeom=γ/θを最大化する. γgeomを最大化する代わりに,逆数θ/γ12(θ/γ)2を最小化する問題とすることもできる.
ytθTxtγの両辺をγで割って
minimize 12θ/γ2 subject to yt(θ/γ)Txt1 for all t=1,...,n
となる.この問題の解はγθのそれぞれの値を与えず,θの定数倍によって得られるdecision boundaryは変わらないから,γ=1としてよい.以上から,結局
minimize 12θ|2 subject to yt(θ/)Txt1 for all t=1,...,n
という最適化問題を解くことになる. この最適化問題はstandard SVM formであり,quadratic programming problem(目的関数が線形制約のもとのパラメータの二次関数)である. この解として得られるgeometric marginは1/ˆθである. decision boundaryとgeometric marginはγ=1という設定によって変化していない.

General Formulation, Offset Parameters

パラメータにoffset term θ0を加えることで,decision boundaryが必ずしも原点を通らなくとも良くなる. このときclassifierは
f(x;θ,θ0)=sign(θTx+θ0)
separating hyperplaneはθTx+θ0=0なるxの集合である.θ0の導入によって,原点を通るlinear classifierよりも大きなmarginを取れるようになることが有る. θ0の導入によって最適化問題は
minimize 12θ|2 subject to yt(θTxt+θ0)1 for all t=1,...,n
となる.θ0は制約項においてだけ考慮する. θ0はまさしくgeometric marginを最大化するためにのみ導入されるのである.

Properties of the Maximum Margin Linear Classifier

Benefits

解はtraining dataが与えられるたびに一意に決まり,geometric marginが最大になるようにboundaryを引くから,データのノイズに対して頑強である. さらに,marginの上のexampleたち(support vectors)のみによってパラメータは決まる(これが利点であるか否かを言うには,classifierの良さをより形式的に測る方法を議論する.).

training examplesのみが与えられたときのclassifierの性能をはcross-validationによって計量される. これは単純に,training dataのある部分集合だけを使ってclassifierを訓練し,そのclassifierが選ばれなかったtraing examplesに対する成績を計測していくのである. leave-one-out cross-validationはそのような方法の一つで,traing dataから1つだけexampleを取り出して訓練を行い,取り出されたexampleを正しく判別できたか否かをたしかめ,これをtraing data全てに繰り返す. 右肩にiを置くことでi番目のexampleを取り出して訓練したときのパラメーターを表すとすると,
leave-one-out CV error =1nni=1Loss(yi,f(xi;θi,θi0))
である.ただしLoss(y,y)={1  (yy)0  otherwise とする. leave-one-out CV errorが低いとよくgeneralizeできていると考えられるが,保証されているわけではない.
maximum margin linear classifierにおいて,あるexampleを除いて訓練を行ってそのexampleを判別し損ねるというのは,そのexampleがsupport vectorであるときであって,
leave-one-out CV errornumberofsupportvectorsn
である. よって,support vectorが少ないほどよい.これを解のsparse(疎)性質という.

Problems

たった一つのexampleであっても,labelが間違っていると完全にmaximum margin classifierを変化させてしまう.

Allowing Misclassified Examples, Relaxation

labelを間違えることはよく有ることだから,これに弱いというのは致命的なので,mislabelに強くする工夫が必要である. うまく判別できないデータが与えられたとして,それがmislabelによるのか,あるいは線形分離不可能だからなのかを知ることは困難である. どちらにせよ, traing exampleに対する正確性と,未知のexampleに対する正確性にはトレードオフの関係が有ることを肝に銘じなければならない.
maximum margin classifierをmislabelに頑強にする最も単純な方法の一つにslack variableの導入が有る. それぞれのexampleに対して,どれほどmarginの内側に来てしまうかを計量し,それのtraing dataの和を小さくするようにobjective functionに付け加えるのである.形式的には
minimize12θ2+Cnt=1ξt
subject to yt(θTxt+θ0)1ξt and ξt0 for all t=1,...n

となる.ξtがslack variableである. example xtがmarginを内側にはみ出るときξt>0となって,objective functionにCξtを加え,1/2θ2の最少化を阻害し,未知のdataに対する頑強さを減じる. Cを小さくするとよりmislabelに強いが未知のexampleに弱く,Cを大きくするとmislabelに弱いが未知のexampleに強くなる.Cが極端に大きくなると,slack variableを考えないのと同じことになる.

MIT OCW, Fundamentals of Probability 19日目 大数の法則と中心極限定理

David Gamarnik, and John Tsitsiklis. 6.436J Fundamentals of Probability. Fall 2008. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Lecture 18. Laws Of Large Numbers

1. Useful Inequations

Markov Inequality

Xが非負なrandom variableなら
P(Xa)E[X]/a

proof.

I{Xa}X/a
が必ず成立する.両辺のexpectationを考えれば直ちに成立.

Chevbyshev Inequality

P(|XE[X]|ϵ)var[X]/ϵ2

proof.

Markov inequalityで,X=|XE[X]|, a=ϵ2とすれば直ちに成立.

2. The Weak Law of Large Numbers

expectationは無限回の試行の結果の平均と考えることが出来る. “有限回の試行の結果の平均(sample mean)はexpectationに近づく”ということの定式化がlaw of large numbers (大数の法則)である.
大数の弱法則と大数の強法則があり,後者は前者を導く.大数の強法則を僅かに弱くして証明し,弱法則をも導く.まずalmost sure convergenceの証明に使う補題を示す.

Proposition 19-1

{Xn}をrandom variableの列とする.独立性は仮定しない.
(i) E[|Xn|s]<,s>0Xna.s.0
(ii) ϵ>0,P(|Xn|>ϵ)<Xna.s.0

proof.

(i)
n=1E[|Xn|s]=E[n=1|Xn|s<がmonotone conergence theoremから成立し,ゆえにn=1|Xn|sというrandom variableは確率1で有限. したがって|Xn|sa.s.0であり,Xna.s.0.
(ii)
任意のkNを取ってϵ=1/kとする. Borel-Cantelli lemmaからP({|Xn|>1/k i.o.})=0すなわち{|Xn|>1/k}というeventは確率1で有限回のみ起こる. したがってP(lim supXn>1/k)=0が任意のkに成立する.{lim sup|Xn|>1/k}は単調でP({lim supXn>0})=0に収束する.よってXna.s.0

Theorem 18-1 The Weak Law of Large Numbers (証明略)

{Xn}がi.i.d.でE[|X1|]<ならば,Sn=ni=1Xiとすると
Snni.p.E[X1]

Theorem 19-1 The Strong Law of Large Numbers

Theorem 18-1の仮定のもとで
Snna.s.E[X1]

proof.

E[X4]<を前提に加える. このときE[|X|]<. |X|1+x4から
E[|X|]1+E[X4]<
E[X]=0を仮定し,E[(X1+Xn)4/n4]<を示す.
まず
E[(X1++Xn)4n4]=1n4ni1=1ni2=1ni3=1ni4=1E[Xi1Xi2Xi3Xi4]
であって,i.i.d.だから,random variableたちの少なくとも1つが他のすべてのrandom variableと異なるときE[Xi1Xi2Xi3Xi4]=0. したがって,上の式で0出ない項はE[X4i]あるいはE[X2iX2j] (ij)という形をしている. E[X4i]となるin通りで,E[X2iX2j] (ij)となるi,jの組み合わせは3n(n1)通りある.以上から
E[(X1++Xn)4n4]=nE[X41]+3n(n1)E[X21X22]n4
が成立する.xy(x2+y2)/2x=X21,y=X22を代入してX21X22X41+X42,expectationをとってE[X42]=E[X41]を考えればE[X21X22]E[X41]が成立する.ゆえに
E[(X1++Xn)4n4]3n2E[X41]n4=3E[X41]n2
したがって
E[n=1(X1++Xn)4n4]3E[X41]n=11n2<
ゆえに(X1++Xn)4/n4は確率1で0に収束し,(X1++Xn)/nもそうである.これがStrong law of large numbersの主張するところだった.
E[Xi]0である場合,(X1++XnnE[X1])/n0にa.s.収束することは(X1++Xn)/nE[X1]にa.s.収束することだから,成立.

E[X4]<の仮定を外した場合の証明は省略する.

18-3 The Central Limit Theorem (中心極限定理)

Theorem 18-2 Central Limit Theorem, CLT

X1,...がi.i.d.で,そのexpectationとvarianceをそれぞれμ<,σ2<とする.Sn=X1++Xnとすると,
Snnμσn
N(0,1)にdistribution convergenceする.

proof.

簡単のためμ=0,σ2=1とする. 1,2次のmomentが有限であることから,ϕX1(t)0において2回微分可能である.
ϕX(t)=1t2/2+o(t2)
と書ける.Sn/nのcharacteristic functionは
(ϕX(t/n))n=(1t2/2n+o(t2/n))n
という形をしていて,tを固定してnの極限はet2/2である.これはN(0,1)のcharacteristic functionϕZに等しい.ϕSn/n(t)ϕZ(t)tから,たしかにdistribution convergenceが言えた.

CLTはSn/のPDFはCDFについて何も言っていないが,以下の2つの命題が成り立つ.
(a)

|ϕX1(t)|rdt<が成立するrがあるとき,Snnrで連続で
(Snμn)/(σn)のPDFfnN(0,1)のPDFに一様収束(各点収束)する.すなわち
limnsupz|fn(z)12πez2/2|=0
である.

(b)

a,hを定数,kを整数として,Xia+hkという値を取り,E[X]=0,var[X]=1とする. z=(na+kh)/nという形のzに,
limnhP(Sn=z)=12πez2/2
である.

19-2. The Chernoff Bound

X,X1,...はi.i.d.で,Sn=X1+Xnとする.E[X]=0とする. (weak) law of large numbers から, P(Snna)0が任意のa>0で成立.この収束を上下から押さえる関数を与えたい.

19-2.1 Upper Bound

M(s)=E[esX]として,M(s)<s[0,c],c>0で成り立つとする.
MSn(s)=E[es(X1++Xn)]=(M(s))n. 任意のs>0にMarkov inequalityを使って,
P(Snna)=P(esSnensa)ensaE[esSn]=ensa(M(s))n
(c<sでは右辺がになってしまうが不等号自体は成立する)
P(Sna)nとともに指数的に減少することがわかったが,sを操作してより狭い境界を与える.

Theorem 19-2 (Chernooff Upper Bound) (証明略)

あるs>0,a>0E[esX]<ならば,
P(Snna)exp[nsups0(salogM(s))_ϕ(a)]

s=0ではsalogM(s)=0log1=0
また
dds(salogM(s))|s=0=a1M(s)ddsM(s)|s=0=a1E[X]=a>0
salogM(s)s=00をとり,微分係数は正だから,十分小さいs>で正の値を取る. ϕ(a)>0であって,a>0を固定するとP(Snna)nによって指数的に減少する.

Example

XN(0,1)について,M(s)=es2/2. したがってsalogM(s)=sas2/2 これの最小値はϕ(a)=a2/2.これは
P(Xa)ea2/2
を与える.

19-2.2 Lower Bound

Assumption 19-1.

(i) s M(s)=E[sX]<
(ii) random variable Xはcontinuous で, PDFはfX
(iii) Xは有限の上限,下限を持たない.すなわち0<FX(x)<1,xR

Theorem 19-3 (Chernoff Lower Bound)

Assumption 1のもとで,任意のa>0
limn1nlogP(Snna)=ϕ(a)

2017年8月8日火曜日

MIT OCW, Fundamentals of Probability 18日目 確率変数の収束の関係性

David Gamarnik, and John Tsitsiklis. 6.436J Fundamentals of Probability. Fall 2008. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Lecture 17. Convergence of Random Variables

3. The Hierarchy of Convergence Concepts

Theorem 17-2

[Xna.s.X][Xni.p.X][XndX][ϕXn(t)ϕX(t),t]
最初の2つの矢印の両辺では,すべてが同じprobability space上のrandom variableと仮定している.

proof.

(a) [Xna.s.X][Xni.p.X]
を固定して,とする.ならばであって,が定数で抑えられることを考えればDCTより
(測度1で)
一方でから,が任意のに言えて,したがって

(b) (略)
(c)
のもとで,Theorem 17-1から,あるprobability space上のが有って,である. 任意の

(1): DCTと (Lec. 16, 4(f))

それぞれの矢印の逆命題を議論する.

3.1 Convergence Almost Surely Versus in Probability


,またはindependentとする.このときである.一方Borel-cantelliの補題から, () ゆえにほとんどすべてのに収束しない.
しかし,より弱い命題は成立する.すなわち,のときには,部分列があって,である. (証明略)
例えば上の例でとするとであって,Borel-Cantelliの補題から だから,たしかに.

3.2 Convergence in Probability Versus in Distribution


定数でないi.i.d.とする.このとき明らかにであって,一方を固定してに関係なく確定した非負実数値を取りうる.すなわちにconverge in probability しない.
ただしである.(証明略)

3.3 Convergence in Distributuion Versus Characteristic Functions

最後に,Theorem 17-2の最後の矢印の逆は必ず成立する.つまり同値関係である.以下の定理は,characteristic functionが似ているrandom variableはdistributionも似ていると主張する.

Theorem 17-3 Countinuity of inverse transfroms (証明略)

はrandom varirableとする.

さらに,
(i) characteristic functionたちに各点収束し
(ii) さらにその極限があるrandom variableのcharacteristic functionである
という命題は非常に便利である.(i)のもとで(ii)が成り立つ条件をTheorem 17-4は主張する.

Theorem 17-4 Continuity of inverse transforms (証明略)

はrandom variableで,をそのcharacteristic functionとする.つまり各点収束極限をとすると,以下のどちらかが成り立つ.
(i) で非連続であり,はconverge in distribution しない
(ii) で連続であり,random variable があって,そのcharacteristic functionは, さらにである.

2017年8月6日日曜日

MIT OCW, Fundamentals of Probability 17日目 確率変数の様々な収束

David Gamarnik, and John Tsitsiklis. 6.436J Fundamentals of Probability. Fall 2008. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Lecture 17. Convergence of Random Variables

1. Definitions

1.1 Almost Sure Convergence (概収束)

Definition 17-1

almost surely converge (概収束)する
があって,

またこのときと書く.

このときは必ず同じprobability spaceのrandom variableでなければならない. さらに,たちは一般にhighly dependentである.a.s. convergenceが現れる状況は以下の2つである.
(a)

確率的試行を何度も繰り返すとする.回目の試行に,というrandom variableを関連付ける(例えば日目の収入). このときとすると日目までの収入の合計であって,は生涯の収入と考えることが出来る. でうまく定義されている.

(b)

あるrandom variableと,可測関数によって作られる様々なrandom variableがあって,が任意のに成立するときである.例えば.よって

であるとき,dominated convergence theorem(優収束定理)から,

である.一方

は一般には成り立たない.例えば上の一様分布として,

とすると

一方,で,

1.2 Convergence in Distribution (分布収束)

Definition 17-2

をrandom variableとし,CDFをそれぞれとする.converge in distributionする


またこのときと書く.

重要な性質として,
(a)

で連続

(b)

,またとするとだが,である.また,は非連続だから,連続点のみを考えれば.より一般に,また確率1でで,ならば,である.
よってconvergence in distributionは実数の収束とconsistent.

(c)

この定義は,random variableたちのmarginal distributionだけを考えていて,異なったprobability spaceにおけるrandom variableについても,cenvergence in distributionは定義されている.

(d)

がcontinuous random variableで,PDFがにおいて対称とする.とすると,は全て同じdistributionを持っていて,.しかしほとんどすべてので,に収束しない.

(e)

random variableのdistributionがparametric(例えば,であるとき)かつそのparameterが収束して,その収束先によってを定義するとき,である.

(f)

discrete random variableの列がcontinuous random variableにconverge in distributionすることがある.例えばでuniformで,とすると,上のuniform random variableにconverge in distributionする.

(g)

continuous random variableの列がdiscrete random variableにconverge in distributionすることがある.例えばでuniformなら.

(h)

が連続でも,だからといってPDFたちが連続であるとは限らない.

(i)

が整数値を取って,ならば,PMFもまたと各点収束する.

1.3 Convergence in Probability (確率収束)

Definition 17-3

(a) 必ずしも同じprobability spaceのrandom variable列でないconverge in probabilityする


このときと書く.
(b) は同じprobability spaceのrandom variableたちとする. であるとき,にconverge in probabilityするといい,と書く.

また重要な性質に
(b)

というのは,直感的には,が増加するに従ってほとんどすべてのprobability massがの周りの小さな区間に集まってくるということである. 一方を固定するとその小さな区間からはみ出るprobability massがあってそれはslowly decaying tailをもつ(?). このようなtailはexpected valueに大きな影響が有る. よってconvergence in probability は極限のexpected valueを知るのには役立たない.

(c)

で,全てが同じprobability space上のrandom variableならである.

2. Convergence in Distribution

convergence in distributionとalmost sure convergenceの関係を詳しく見ることで,convergence in distributionの意味を把握する.

Theorem 17-1 (証明略)

なら,あるprobability spaceと,以下を満たすその上のrandom variableが存在する.
(a) 任意のが同じCDFをもち,も同じCDFを持つ.
(b)

convergence in distributionでは,random variable たちが独立であるか否かは問題ではなく,同じprobability space上で定義されている必要もない. 一方almost sure convergenceでは,random variableたちの強いdependenceが暗示されている. Theorem 17-1はmarginal distributionの保存を言っているが,たちの間の特別な形のdependenceを導入していて,結果almost sure convergenceが現れる.
このdependenceはcommon random number generatorを使って希望する分布上に定義する.例えば上のuniformly distrubutionとする.
すべてのCDFたちが連続で狭義単調増加するときとすると,(a)を満たしている.またこのときである.これはsection 1.1(b)からわかる.