2017年8月28日月曜日

MIT OCW, Machine Learning 09日目 カーネル化SVM

Rohit Singh, Tommi Jaakkola, and Ali Mohammad. 6.867 Machine Learning. Fall 2006. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Lecture 8

Support Vector Machine Revisited

SVMをdual form(exampleが内積でのみ現れる形)に変換する. すべてのexampleを次元のfeature spaceに写し,が線形分離可能であるようにし,feature spaceにおいてmarginを最大化するパラメータを考える.この問題は

という最適化問題に一致する. もちろんslack variableも導入できるが,これは後に回す. このような最適化問題(凸,線形制約)は,Lagrange multipliersによってdual formに変形できる. を導入し,によって

によって最大化することを考えるのである.の最小化がに一致することを示す.
を少なくとも1つの束縛条件が満たされていないように設定する.であるとすると任意の.とすれば.だから,Lagrange multiplier は制約条件を満たさせる働きがあるとわかる.
Slater conditionsという条件を満たしているとき,ある変数で最大化し,他の変数で最小化するというLagrange multipliersの最適化問題の最大化最小化の順序を交換できる.つまり

である. 左辺をprimal formといい,右辺をdual formという. dual formについて,まずを解く.微分して

またしても,最適なの張る空間の元となった.これらをもとの式に代入して,

よって,dual formの解は

の解である. これがSVMのdual formとかkernel formといい,quadratic optimization problemであり,Gram matrix によって,特徴づけられる.
maximum margin hyperplaneはsupport vectorと呼ばれる少数のexampleによって決まることをすでに見たが,これはによって写像されたexampleたちにも同様で,ほとんどのになり,なるとき,をまたsupport vectorという.
が決まると,をsupport vectorの集合として,

によって新しいexample の推測が計算できる.
を求めた後で,

を解くことで得られる.
この解のgeometric marginはで得られる.つまり

geometric marginを最大にするようなkernelが最適なkernelと言えるが,定数倍によってgeometric marginもその分定数倍になるので,kernelの比較には正規化が必要である.

Kernel Optimization

kernelのあるパラメータを変えて,問題により適したkernelをつくることができる. パラメータの最適化には,cross-validationやgeneralization errorに関連した基準(marginなど)が用いられる.

0 件のコメント:

コメントを投稿