2017年8月29日火曜日

MIT OCW, Machine Learning 10日目 モデル選択の理論1

Rohit Singh, Tommi Jaakkola, and Ali Mohammad. 6.867 Machine Learning. Fall 2006. Massachusetts Institute of Technology: MIT OpenCourseWare, https://ocw.mit.edu. License: Creative Commons BY-NC-SA.

Lecture 9

Kernel Optimization

kernelのあるパラメータを変えて,問題により適したkernelをつくることができる. 例えばradial basis kernelののようなパラメータを変化させたり,の次元に重み付けをしてからに渡すような方法が考えられる. パラメータのよさの基準には,cross-validationやgeneralization errorに関連した基準(marginなど)が用いられる. marginはを定数倍すると同時に倍化するため,normalization という制限を加える.normalizationは例えば

で実現できる.
他のkernel optimizationの方法にkernel alignentがある. すなわち,パラメータやGram matrixを理想的なkernelに近づけるように調整するのである. 例えばclassificationでは

を標的となるkernelのGram matrixとする.というのは,とすれば,

と,全てのtraining exampleが等しいmarginで正しく分類できるためである.
kernelをこの標的に近づける方法を考える.

のように,kernelたちのconvex combinationによってkernel を構成するとき,が我々が選べるパラメータである. のGram matrix を,標的のGram matrix に近づけるため,Gram matrixをベクトルと考えて,その内積を

と定める. こうしてのcosine類似度

を最大化させるを求めれば良い.

Model (kernel) selection

少ないtraining exampleに複雑すぎるmodel(kernel)を使うと,over-fittingという問題が起きる. 問題によって使うkernelの種類を制限することがある. kernelを選ぶことで
linearながあるとき,discriminant functionは

という形をしている.となる関数で,によるfeature representationという. を変えることで可能なdiscriminant functionの集合

を構成できる. 同様にquadratic kernelによって可能な集合がある. このように

Model Selection Preliminaries

はtraining setとする. をmodelとして選んで,をbest fitting discriminant functionとすると,

を最小化する.はhinge lossでもlogisticでも他の何でもよい. によってへk擦るregularization parameterである. が新しいexampleにどれほどgeneralizeできているかが問題となる.
それぞれのすなわちそれぞれのdiscriminant functionはexpected lossあるいはrisk

をもつ.ここでは問題となるデータを生成している分布で,普通は未知であり,もそこから生成されていると考える. これが,我々が最小化したいgeneralization errorである. によって決まるのrisk を最小化するを選ぶことが最終的な目標である. ただしから生成されるので,も確率変数である(理論的には便利な仮定だが,実際にが正しくから生成されているとは限らない).
が既知であるならを考えれば良いが,ここではは未知として,だけを使ってを,さらにはをも選ばなければならない.
簡単のため,を,linearとquadraticなdiscriminant functionの集合とし,のみを議論する. だから,から選ぶことで必ずtraining setにおけるerrorが小さいを得られるが,example とlabelの関係が線形であるときにも非線形なから選ぶと,over-fittingしているかもしれない. 真の分布が線形分離可能であるとき,quadraticなdecison boundaryはノイズに影響されてgeneralizeがうまく行っていないということである. したがってが複雑になるほどtraining setに対する性能が向上する一方でtest setに対する性能は低下していく(fig.1). よって適切な複雑さを選ぶことが重要になってくる.

enter image description here

Model selection criteria: structural risk minimization

expected risk

empirical risk(training errro)

を関連付けることができれば,を計算することでを議論することが出来る. モデルが複雑になるほどtraining errorがgeneralization errorを表現しなくなっていくと考えられるので,の関係を以下のように記述する.

complexity penaltyといって,が複雑になるほど増大し,によって減少する.
(16)はupper bound guarantee of generalization errorを与える. このupper boundが最小になるようなを選べば良い. fig.2 はモデルの複雑さとこのboundの関係である.
enter image description here

が有限集合である時の不等式(16)の意味を考える.

の上限を見積もる. これは少なくとも1つのについて,そのtraining errorとriskの差がを上回る確率で,sample spaceはの選び方である.


という主張が成立しない確率と言える. を固定すると,(6)をみたす最小のがcomplexity penaltyとなる.
によってを計算することはふつう不可能だから,上限を与える.

を固定してを考える. training sample がi.i.d.に得られて,とすると empirical error の和で,

だから,

ただしで,確率のsample spaceはをみたすである.
Hoeffding’s inequalityから

が成立する. この上限はによらない. この結果を(8)に代入して,

が成立する. に解いて,

である.これがの場合のcomplexity penaltyである.
以上より,少なくともの確率で

が成立する. model selectionではのそれぞれについてを選び,によってboundを計算し,boundが最小となるを選ぶ. このときは固定する.

Example

とし,training error 0, generalization error が最大10%であるようにtraining exampleの個数を見積もる.

だから,

である.

Model selection criteria: Bayesian score, Bayesian information criterion

linear regressionの例を通じてBayesian scoreについての理解を深める. モデル次元のインプットに写す写像で,

とする. を固定して,だけを動かすとする. が与えられたとき,likelihoodは

以前はを最大化するを唯一つ選んだが,Bayesian analysisではlinear regression functionたちをによって重み付けして,それら全てを利用する.
このような枠組みでは,を得た後のの知識はposterior distribution であって,これはと相似である.つまり.
しかし例えばの場合にはだから,が発散してしまう. よってprior distribution を導入する.

すると

で,normalization constantは

であり,marginal likelihoodともいう. これはにのみよる. regressionでは

ここではnoise とpriorの比で,である.
このときposteriorは

と正規化される.とposteriorも正規分布する.

新たなに対する推測は

で与えられる. 真のBayesianはまさに全てのについて上の積分を行うが,我々はfeature mapping で特徴づけられるregression modelにを制限して議論することになる.linearなとquadraticなをfeature mappingとする.

が比較するmodelである. modelにPrior distribution を含むのには利点も欠点もあるが,どちらにせよ含まないのと大した差はない.
のうち,よりmarginal likelihood (Bayesian score)が大きい方を選ぶことになる. すなわち,を与えられたら,ならばを選ぶのである.

Model selection criteria: Bayesian information criterion(BIC)

Bayesian information criterion(BIC)はBayesian scoreに対するasymptotic(漸近的な) 近似であって,その単純さのためによく使われる.

である.ここではtraining dataに対するmaximum likelihoodの対数であって,はmodelのindependent parameterの個数, はtraining exampleの個数である. が十分大きいときBayesian scoreに漸近する. Bayesian scoreの計算は困難なことが多いので,かわりにBICを使う. Bayesian scoreと同様に,BICが大きい方のmodelを選ぶ.

0 件のコメント:

コメントを投稿