Rohit Singh, Tommi Jaakkola, and Ali Mohammad. 6.867 Machine Learning. Fall 2006. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.
Lecture 4. Classification Errors, Regularization, Logistic Regression
The Support Vector Machine and Regularization
が,relaxationを入れた線形分離のパラメータを求める最適化問題であった.
を変形して,. だから,として,example に対するhinge loss
を定義する. 束縛条件とrelaxation項をまとめて,
とできる. これは,をregularization penaltyとしてを目的関数とする最適化問題と見ることが出来る. このように,classification lossのような目的関数とregularization penaltyを含む最適化問題をregularization problemという. 多くの機械学習アルゴリズムはregularization problemと見ることができて,regularization項は目的関数の最小化を安定させたり,事前の知識をアルゴリズムに組み込むために導入される.
Logistic Rgeression, Maximum Likelihood Estimation
labellingの間違いに対処するもう一つの方法に,labelの間違い(ノイズ)がどのように生成されるかをモデル化するというのがある. linear classificatioにおけるノイズの単純なモデルにlogistic regressionがある. decision boundaryから遠く離れたexampleのラベルはより正しい確率が高いというふうに,2つのラベルにprobability distributionを与えるのである.形式的には
とする. ここでで, logistic functionという. この関数は
から導かれる.例えばならばlog-oddsはであり,はdecision boundary上に有る.左辺をlog-oddsという.log-oddsの厳密な正当化は後でclass-conditional distributionの仮定をもとに行う.
から,
であって,故に
である.こうして,labelを確率的に推測するlinear classifierが得られた.training dataのそれぞれのexampleを正しく推測する確率を最大にすることを考える.この確立たちの総乗を
と書く.またを(conditional) likelihood functionといって,固定されたtraining dataに対するパラメータの関数である. これを最大化するをmaximum likelihood estimatesという. また,training dataからmaximum likelihood estimatesを探す手続き(写像)をmaximum likelihood estimatorという.
を最大化するため,logをとって,
を最小化することになる. この関数は凸で,多くの最適化アルゴリズムが存在する. (stochastic) gradient descent(SGD)を導入する.
で偏微分して,
右辺のベクトルはが単位長さあたり最も増加するの方向を表しており,
によって更新を行う. ここでは小さい正数で,learning rateという. は間違ったlabelに分類する確率で,perceptron mistake driven updatesに似ているが,どれほど間違っているかによって更新の大きさを変えるところが重大な相違点である.
stochasticでないgradient descentは, を固定して,全てのにを足し合わせて,その和によってを更新する.
最適化が実現したときには
が成立する.は,”label 1のexapleを-1に間違えて分類する確率”と”label -1のexampleを+1に間違えて分類する確率 ”の総和がであるということであって,間違いが均衡しているということである. あるいは,というベクトルと,というベクトルが直行しているということである.
同様に,の等式は,exampleのそれぞれの次元において,とが直行しているということである.
この直交性によってが成立しているとき,training setにはもはやをより良くするための情報が無いということがわかる.
ところで,が常に正であるをみつけて両方を定数倍してこれらの値を際限なく大きくすると,はに収束し,わざわざ確率的なモデルを使う意味がなくなってしまうので,regularziation項を加えて最適化する.すなわち
の最少化問題とする.またこれは
の最小化と同じことであり,どれほどregularizationを強くするかの係数がであるのがわかりやすいので,(26)の記法がよく使われる.っている.
0 件のコメント:
コメントを投稿