Rohit Singh, Tommi Jaakkola, and Ali Mohammad. 6.867 Machine Learning. Fall 2006. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.
Lecture 8
Support Vector Machine Revisited
SVMをdual form(exampleが内積でのみ現れる形)に変換する. すべてのexampleをで次元のfeature spaceに写し,が線形分離可能であるようにし,feature spaceにおいてmarginを最大化するパラメータを考える.この問題は
という最適化問題に一致する. もちろんslack variableも導入できるが,これは後に回す. このような最適化問題(凸,線形制約)は,Lagrange multipliersによってdual formに変形できる. を導入し,によって
をによって最大化することを考えるのである.の最小化がに一致することを示す.
を少なくとも1つの束縛条件が満たされていないように設定する.であるとすると任意のに.とすれば.だから,Lagrange multiplier は制約条件を満たさせる働きがあるとわかる.
Slater conditionsという条件を満たしているとき,ある変数で最大化し,他の変数で最小化するというLagrange multipliersの最適化問題の最大化最小化の順序を交換できる.つまり
である. 左辺をprimal formといい,右辺をdual formという. dual formについて,まずを解く.微分して
またしても,最適なはの張る空間の元となった.これらをもとの式に代入して,
よって,dual formの解は
の解である. これがSVMのdual formとかkernel formといい,quadratic optimization problemであり,Gram matrix によって,特徴づけられる.
maximum margin hyperplaneはsupport vectorと呼ばれる少数のexampleによって決まることをすでに見たが,これはによって写像されたexampleたちにも同様で,ほとんどのはになり,なるとき,やをまたsupport vectorという.
が決まると,をsupport vectorの集合として,
によって新しいexample の推測が計算できる.
はを求めた後で,
を解くことで得られる.
この解のgeometric marginはで得られる.つまり
geometric marginを最大にするようなkernelが最適なkernelと言えるが,定数倍によってgeometric marginもその分定数倍になるので,kernelの比較には正規化が必要である.
Kernel Optimization
kernelのあるパラメータを変えて,問題により適したkernelをつくることができる. パラメータの最適化には,cross-validationやgeneralization errorに関連した基準(marginなど)が用いられる.
0 件のコメント:
コメントを投稿