Loading [MathJax]/jax/output/HTML-CSS/jax.js

2017年8月13日日曜日

MIT OCW, Machine Learning 05日目 線形回帰

Rohit Singh, Tommi Jaakkola, and Ali Mohammad. 6.867 Machine Learning. Fall 2006. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Lecture 5. Linear Regression, Active Learning

regression (回帰)とは,exampleに対して,labelではなく連続なresponse(観測値)を推測することであって,ここでは実数とする. またここではlinear regression modelのみを扱うが,これは簡単にlinearでないmodelに拡張できる(次章).

xE[y|x]=θTx+θ0という写像がlinear regression modelであって,つまりdecision boundaryの直線が推測値になる. また,推測値の周りの観測値の分布が問題となるが,ここではresponseを期待値として,xに依存しない分散σ2の正規分布を使う. PDFは
N(y;μ,σ2)=12πσ2exp(12σ2(yμ)2)
ここで,μ=θTx+θ0だから,
P(y|x,θ,θ0)=N(y;θTx+θ0,σ2)
となる.
training data {(x1,y1),...,(xn,yn)}について,conditional likelihoodを最大化することで最適なパラメータθ,θ0,σ2を見つける.
L(θ,θ0,σ2)=nt=112πσ2exp(12σ2(ytθTxtθ0)2)
がLikelihoodであって, またlogをとって,
l(θ,θ0,σ2)=nt=1log[12σ2(ytθTxtθ0)2]=[12log(2π)12logσ212σ2(ytθTxtθ20)]=const. n2logσ212σ2nt=1(ytθTxtθ20)_MSE
まずはσ2に関係なく. mean squared error(MSE)
nt=1(ytθTxtθ0)2
を最大化するθ,θ0をみつける.
これは行列
X=(x(1)1x(2)1x(d)11x(1)2x(2)2x(d)21x(1)nx(d)n1) ( xitはtraining data のt番目のexampleの第i次元とする)
y=(y1,...,yn)Tを使うと,
MSE =nt=1(yt[θθ0]T[xt1])2=(yt[xTt,1][θθ0])2=[y1yn][xT1,1xTn,1][θθ0]2=yX[θθ0]2=yTy2[θθ0]TXTy+[θθ0]TXTX[θθ0]
となる.これを最小化する解をˆθ,^θ0とすると,
[ˆθ^θ0]=(XTX)1XTy    (14)
である. これがyの関数と考えると線形であり,この性質は後で使う.
^σ2は, ˆθ,^θ0をによってMSEの最小値を与えられた後で,
^σ2=1n(ytˆθTxt^θ0)2
で決定できる.

Bias and Variance of the Parameter Estimates

x,yが,未知のパラメータθ,θ0,σの線形モデルに従っていて,(14)で計算したˆθ,^θ0がどれほど適切なのかを議論する. このときˆθ,^θ0θ,θ0の推測と考えることが出来る.仮定より
yt=θTxt+θ0+ϵt, ϵtN(0,σ2)
が成り立つ.
y=X[θθ0]+e, e=(ϵ1,...,ϵn)T
と行列表示する.E[e]=0,E[eeT]=σ2Iで,またXeは独立である. (14)に代入して,
[ˆθ^θ0]=(XTX)1XT(X[θθ0]+e)=(XTX)1XTX[θθ0]+(XTX)1XTe=[θθ0]+(XTX)1XTe
である. E[e]=0だから, 両辺の期待値を取れば,
E[[ˆθ^θ0]]=[θθ0]
である. このように,推測値の期待値が真の値に一致するとき, 推測はunbiased(不偏)であるという.
さらに,
cov[[ˆθ^θ0]|X]=σ2(XTX)1
であって,つまりˆθ,^θ0Xのノイズを受け継ぎ,そのノイズがどのような形をしているかはXの関数として書ける.
さて,
E[zz2]=E[zE[z]+E[z]z2=E[zE[z]2]+2E[(zE[z])T](E[z]z)+E[z]z2=E[zE[z]]2_variance2+E[z]z2_bias2
が任意のzzを固定するたびに成り立つ. さらにvarianceは
E[zE[z]2]=E[(zE[z])T(zE[z)]=E[Tr[(zE[z])][zE[z]]T]=Tr[E[(zE[z])(zE[z])T]]=Tr[cov(z)]

以上から, biasが0であることを考えれば
E[[ˆθ^θ0][θθ0]|X]=σ2Tr[(XTX)1]
さらに,
XTX=nt=1[xt1][xTt,1]=n1nnt=1[xt1][xTt,1]nExP[[x1][xT,1]]=nC(C:もとの分布によって決まる定数行列)
だから,
E[[ˆθ^θ0][θθ0]|X]σ2nTr[C1]
すなわち,nが十分大きいとき,推定したパラメータの分散はσ2nTr[C1]である.

0 件のコメント:

コメントを投稿