Loading [MathJax]/jax/output/HTML-CSS/jax.js

2017年8月22日火曜日

MIT OCW, Machine Learning 07日目 リッジ回帰

Rohit Singh, Tommi Jaakkola, and Ali Mohammad. 6.867 Machine Learning. Fall 2006. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Penalized Log-Likelihood and Ridge Regression

training dataが,その各exampleの次元dに対して十分に大きくないときには,パラメータをregularizeすることが多い. prior distributionをP(θ,θ0)にassign することで,どのようにregularizeすればよいかを見る. prior distributionは, パラメータの推測値の絶対値を小さくするために導入する.
prior distributionを平均0のnormal distributionとする.つまり
P(θ,θ0,σ2)=N(θ0;0,σ2)
をlikelihood Lに追加すると
l(θ,θ0,σ2)=nt=1log[12πσ2exp(12σ2(ytθTxtθ0)2)]+logP(θ,θ0;σ2)=const.n2logσ212σ2nt=1(ytθTxtθ0)212σ2(θ20+dj=1θ2j)d+12logθ2
また,σ2=σ2/λとすることも多い. σ2が小さいときにはoverfittingのおそれがあるので,よりpenallityを大きくしてパラメータを0に近づけるのである. training dataが小さいときにはσ2が小さくなりなちなので,この節のはじめに説明したregularizationをする動機と合目的である.
σ2=σ2/λlに代入すると
l(θ,θ0,σ2)=const.n2logσ212σ2nt=1(ytθTxtθ0)2λ2σ2(θ20+dj=1θ2j)d+12log(σ2/λ)=const.n+d+12logσ2+d+12logλ12σ2[nt=1(ytθTxtθ0)2+λ(θ20+dj=1θ2j)]
このregularization problemの解を求めることをRidge regressionという.
その解ˆθ,^θ0は,
[ˆθ^θ0]=(λI+XTX)1Xy
で与えられる.
E[[ˆθ^θ0]|X]=(λI+XTX)1XTX[θθ0]=(λI+XTX)1(XTX+λIλI)[θθ0]=[θθ0]λ(λI+XTX)1[θθ0]=(Iλ(λI+XTX)1)[θθ0]
だから,ˆθ,^θ0はbiasedな推測である. また(Iλ(λI+XTX)1)は固有値が1未満の正定値行列で,λが大きくなるとともにθ,θ00へと近づいていく. 以前やったのと同じ方法で MSEを計算すると,
E[[ˆθ^θ0][θθ0]|X]=σ2Tr[(λI+XTX)1λ(λI+XTX)2]+λ2[θθ0]T(λI+XTX)2[θθ0]
であって,これはregularizationを考えない場合のMSE σ2Tr[(XTX)1]よりも小さく出来る.

Active Learning

training data {x1,...,xn}を能動的に選んでestimation errorを小さくすることを,active learning問題という. 例えば画像の分類で,すでにたくさんのtraining dataのもととなるlabelなしの画像データが有るが,そこからできるだけ少なくデータを選んでラベル付けし(ときにラベル付は画像そのものの収集よりコストがかかる),training dataとする状況を考える. 推測の正確性を犠牲にせずに,できるだけ選ぶ画像データを少なくする方法を考えるのである.
この問題を考察するため,regularizationの無い場合のestimation errorを再掲する.
E[[ˆθ^θ0][θθ0]|X]=σ2Tr[(XTX)1]
σ2はtraining dataの選び方によらないので,Tr[(XTX)1]が小さくなるようにすれば良い. ただし,この方法はexampleと推定値の写像の線形性を仮定しているから,そうでない場合には使えない.

0 件のコメント:

コメントを投稿