Rohit Singh, Tommi Jaakkola, and Ali Mohammad. 6.867 Machine Learning. Fall 2006. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.
Lecture 5. Linear Regression, Active Learning
regression (回帰)とは,exampleに対して,labelではなく連続なresponse(観測値)を推測することであって,ここでは実数とする. またここではlinear regression modelのみを扱うが,これは簡単にlinearでないmodelに拡張できる(次章).
x↦E[y|x]=θTx+θ0という写像がlinear regression modelであって,つまりdecision boundaryの直線が推測値になる. また,推測値の周りの観測値の分布が問題となるが,ここではresponseを期待値として,xに依存しない分散σ2の正規分布を使う. PDFは
N(y;μ,σ2)=1√2πσ2exp(−12σ2(y−μ)2)
ここで,μ=θTx+θ0だから,
P(y|x,θ,θ0)=N(y;θTx+θ0,σ2)
となる.
training data {(x1,y1),...,(xn,yn)}について,conditional likelihoodを最大化することで最適なパラメータθ,θ0,σ2を見つける.
L(θ,θ0,σ2)=n∏t=11√2πσ2exp(−12σ2(yt−θTxt−θ0)2)
がLikelihoodであって, またlogをとって,
l(θ,θ0,σ2)=n∑t=1log[−12σ2(yt−θTxt−θ0)2]=∑[−12log(2π)−12logσ2−12σ2(yt−θTxt−θ20)]=const. −n2logσ2−12σ2n∑t=1(yt−θTxt−θ20)_MSE
まずはσ2に関係なく. mean squared error(MSE)
n∑t=1(yt−θTxt−θ0)2
を最大化するθ,θ0をみつける.
これは行列
X=(x(1)1x(2)1⋯x(d)11x(1)2x(2)2⋯x(d)21⋮x(1)n⋯⋯x(d)n1) ( xitはtraining data のt番目のexampleの第i次元とする)
とy=(y1,...,yn)Tを使うと,
MSE =n∑t=1(yt−[θθ0]T[xt1])2=∑(yt−[xTt,1][θθ0])2=‖[y1⋮yn]−[xT1,1⋮xTn,1][θθ0]‖2=‖y−X[θθ0]‖2=yTy−2[θθ0]TXTy+[θθ0]TXTX[θθ0]
となる.これを最小化する解をˆθ,^θ0とすると,
[ˆθ^θ0]=(XTX)−1XTy (14)
である. これがyの関数と考えると線形であり,この性質は後で使う.
^σ2は, ˆθ,^θ0をによってMSEの最小値を与えられた後で,
^σ2=1n∑(yt−ˆθTxt−^θ0)2
で決定できる.
Bias and Variance of the Parameter Estimates
x,yが,未知のパラメータθ∗,θ∗0,σ∗の線形モデルに従っていて,(14)で計算したˆθ,^θ0がどれほど適切なのかを議論する. このときˆθ,^θ0はθ∗,θ∗0の推測と考えることが出来る.仮定より
yt=θ∗Txt+θ∗0+ϵt, ϵt∼N(0,σ∗2)
が成り立つ.
y=X[θ∗θ∗0]+e, e=(ϵ1,...,ϵn)T
と行列表示する.E[e]=0,E[eeT]=σ∗2Iで,またXとeは独立である. (14)に代入して,
[ˆθ^θ0]=(XTX)−1XT(X[θ∗θ∗0]+e)=(XTX)−1XTX[θ∗θ∗0]+(XTX)−1XTe=[θ∗θ∗0]+(XTX)−1XTe
である. E[e]=0だから, 両辺の期待値を取れば,
E[[ˆθ^θ0]]=[θ∗θ∗0]
である. このように,推測値の期待値が真の値に一致するとき, 推測はunbiased(不偏)であるという.
さらに,
cov[[ˆθ^θ0]|X]=σ∗2(XTX)−1
であって,つまりˆθ,^θ0はXのノイズを受け継ぎ,そのノイズがどのような形をしているかはXの関数として書ける.
さて,
E[‖z−z∗‖2]=E[‖z−E[z]+E[z]−z∗‖2=E[‖z−E[z]‖2]+2E[(z−E[z])T](E[z]−z∗)+‖E[z]−z∗‖2=E[‖z−E[z]]‖2_variance2+‖E[z]−z∗‖2_bias2
が任意のzに z∗を固定するたびに成り立つ. さらにvarianceは
E[‖z−E[z]‖2]=E[(z−E[z])T(z−E[z)]=E[Tr[(z−E[z])][z−E[z]]T]=Tr[E[(z−E[z])(z−E[z])T]]=Tr[cov(z)]
以上から, biasが0であることを考えれば
E[‖[ˆθ^θ0]−[θ∗θ∗0]‖|X]=σ∗2Tr[(XTX)−1]
さらに,
XTX=n∑t=1[xt1][xTt,1]=n⋅1nn∑t=1[xt1][xTt,1]∼n⋅Ex∼P[[x1][xT,1]]=n⋅C(C:もとの分布によって決まる定数行列)
だから,
E[‖[ˆθ^θ0]−[θ∗θ∗0]‖|X]∼σ∗2n⋅Tr[C−1]
すなわち,nが十分大きいとき,推定したパラメータの分散はσ∗2n⋅Tr[C−1]である.
0 件のコメント:
コメントを投稿