Rohit Singh, Tommi Jaakkola, and Ali Mohammad. 6.867 Machine Learning. Fall 2006. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.
Penalized Log-Likelihood and Ridge Regression
training dataが,その各exampleの次元に対して十分に大きくないときには,パラメータをregularizeすることが多い. prior distributionをにassign することで,どのようにregularizeすればよいかを見る. prior distributionは, パラメータの推測値の絶対値を小さくするために導入する.
prior distributionを平均0のnormal distributionとする.つまり
をlikelihood に追加すると
また,とすることも多い. が小さいときにはoverfittingのおそれがあるので,よりpenallityを大きくしてパラメータを0に近づけるのである. training dataが小さいときにはが小さくなりなちなので,この節のはじめに説明したregularizationをする動機と合目的である.
をに代入すると
このregularization problemの解を求めることをRidge regressionという.
その解は,
で与えられる.
だから,はbiasedな推測である. または固有値が1未満の正定値行列で,が大きくなるとともにはへと近づいていく. 以前やったのと同じ方法で MSEを計算すると,
であって,これはregularizationを考えない場合のMSE よりも小さく出来る.
Active Learning
training data を能動的に選んでestimation errorを小さくすることを,active learning問題という. 例えば画像の分類で,すでにたくさんのtraining dataのもととなるlabelなしの画像データが有るが,そこからできるだけ少なくデータを選んでラベル付けし(ときにラベル付は画像そのものの収集よりコストがかかる),training dataとする状況を考える. 推測の正確性を犠牲にせずに,できるだけ選ぶ画像データを少なくする方法を考えるのである.
この問題を考察するため,regularizationの無い場合のestimation errorを再掲する.
はtraining dataの選び方によらないので,が小さくなるようにすれば良い. ただし,この方法はexampleと推定値の写像の線形性を仮定しているから,そうでない場合には使えない.
0 件のコメント:
コメントを投稿