2017年8月22日火曜日

MIT OCW, Machine Learning 07日目 リッジ回帰

Rohit Singh, Tommi Jaakkola, and Ali Mohammad. 6.867 Machine Learning. Fall 2006. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Penalized Log-Likelihood and Ridge Regression

training dataが,その各exampleの次元に対して十分に大きくないときには,パラメータをregularizeすることが多い. prior distributionをにassign することで,どのようにregularizeすればよいかを見る. prior distributionは, パラメータの推測値の絶対値を小さくするために導入する.
prior distributionを平均0のnormal distributionとする.つまり

をlikelihood に追加すると

また,とすることも多い. が小さいときにはoverfittingのおそれがあるので,よりpenallityを大きくしてパラメータを0に近づけるのである. training dataが小さいときにはが小さくなりなちなので,この節のはじめに説明したregularizationをする動機と合目的である.
に代入すると

このregularization problemの解を求めることをRidge regressionという.
その解は,

で与えられる.

だから,はbiasedな推測である. または固有値が1未満の正定値行列で,が大きくなるとともにへと近づいていく. 以前やったのと同じ方法で MSEを計算すると,

であって,これはregularizationを考えない場合のMSE よりも小さく出来る.

Active Learning

training data を能動的に選んでestimation errorを小さくすることを,active learning問題という. 例えば画像の分類で,すでにたくさんのtraining dataのもととなるlabelなしの画像データが有るが,そこからできるだけ少なくデータを選んでラベル付けし(ときにラベル付は画像そのものの収集よりコストがかかる),training dataとする状況を考える. 推測の正確性を犠牲にせずに,できるだけ選ぶ画像データを少なくする方法を考えるのである.
この問題を考察するため,regularizationの無い場合のestimation errorを再掲する.

はtraining dataの選び方によらないので,が小さくなるようにすれば良い. ただし,この方法はexampleと推定値の写像の線形性を仮定しているから,そうでない場合には使えない.

0 件のコメント:

コメントを投稿