Rohit Singh, Tommi Jaakkola, and Ali Mohammad. 6.867 Machine Learning. Fall 2006. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.
Penalized Log-Likelihood and Ridge Regression
training dataが,その各exampleの次元dに対して十分に大きくないときには,パラメータをregularizeすることが多い. prior distributionをP(θ,θ0)にassign することで,どのようにregularizeすればよいかを見る. prior distributionは, パラメータの推測値の絶対値を小さくするために導入する.
prior distributionを平均0のnormal distributionとする.つまり
P(θ,θ0,σ′2)=N(θ0;0,σ′2)
をlikelihood Lに追加すると
l′(θ,θ0,σ2)=n∑t=1log[1√2πσ2exp(−12σ2(yt−θTxt−θ0)2)]+logP(θ,θ0;σ‘2)=const.−n2logσ2−12σ2n∑t=1(yt−θTxt−θ0)2−12σ′2(θ20+d∑j=1θ2j)−d+12logθ′2
また,σ′2=σ2/λとすることも多い. σ2が小さいときにはoverfittingのおそれがあるので,よりpenallityを大きくしてパラメータを0に近づけるのである. training dataが小さいときにはσ2が小さくなりなちなので,この節のはじめに説明したregularizationをする動機と合目的である.
σ′2=σ2/λをl′に代入すると
l′(θ,θ0,σ2)=const.−n2logσ2−12σ2n∑t=1(yt−θTxt−θ0)2−λ2σ2(θ20+d∑j=1θ2j)−d+12log(σ2/λ)=const.−n+d+12logσ2+d+12logλ−12σ2[n∑t=1(yt−θTxt−θ0)2+λ(θ20+d∑j=1θ2j)]
このregularization problemの解を求めることをRidge regressionという.
その解ˆθ,^θ0は,
[ˆθ^θ0]=(λI+XTX)−1Xy
で与えられる.
E[[ˆθ^θ0]|X]=(λI+XTX)−1XTX[θ∗θ∗0]=(λI+XTX)−1(XTX+λI−λI)[θ∗θ0∗]=[θ∗θ0∗]−λ(λI+XTX)−1[θ∗θ0∗]=(I−λ(λI+XTX)−1)[θ∗θ0∗]
だから,ˆθ,^θ0はbiasedな推測である. また(I−λ(λI+XTX)−1)は固有値が1未満の正定値行列で,λが大きくなるとともにθ,θ0は0へと近づいていく. 以前やったのと同じ方法で MSEを計算すると,
E[‖[ˆθ^θ0]−[θ∗θ0∗]‖|X]=σ∗2⋅Tr[(λI+XTX)−1−λ(λI+XTX)−2]+λ2[θ∗θ0∗]T(λI+XTX)−2[θ∗θ0∗]
であって,これはregularizationを考えない場合のMSE σ∗2⋅Tr[(XTX)−1]よりも小さく出来る.
Active Learning
training data {x1,...,xn}を能動的に選んでestimation errorを小さくすることを,active learning問題という. 例えば画像の分類で,すでにたくさんのtraining dataのもととなるlabelなしの画像データが有るが,そこからできるだけ少なくデータを選んでラベル付けし(ときにラベル付は画像そのものの収集よりコストがかかる),training dataとする状況を考える. 推測の正確性を犠牲にせずに,できるだけ選ぶ画像データを少なくする方法を考えるのである.
この問題を考察するため,regularizationの無い場合のestimation errorを再掲する.
E[‖[ˆθ^θ0]−[θ∗θ0∗]‖|X]=σ∗2Tr[(XTX)−1]
σ∗2はtraining dataの選び方によらないので,Tr[(XTX)−1]が小さくなるようにすれば良い. ただし,この方法はexampleと推定値の写像の線形性を仮定しているから,そうでない場合には使えない.
0 件のコメント:
コメントを投稿