Linear classification: Support Vector Machine, Softmax 線形分離による分類アルゴリズムの解説．

Parameterized mapping from images to label scores

学習や評価に使うデータがD次元のベクトル空間で，ラベルは1からKまでの整数とする．
$f: \mathbb{R} ^D \mapsto \mathbb{R} ^K $ のような関数をscore function という.

Linear classifier

$$ f(x_i, W, b) = Wx_i + b$$

$x_i$ はD次元縦ベクトルで，$W$はK行D列ベクトル，$b$はk次元縦ベクトルである．$W$をweights, $b$をbiasesといい，$W$, $b$が最適になるようにするのが学習．学習が終わればtrain dataは予測には必要ないし，予測の計算は行列算だけなのでkNNより非常に高速．
$W$の第i行$W_{i:}$は第iクラスのclassifierである．つまりexample $x$ があるとき， $W_{i:} x $はxがどれほど第iクラスに属するらしいかを与える．

Interpretation of linear classifiers as template matching

$W_{i:}$ を第iクラスのtemplate(or prototype)と考えることもできる．各クラスのtemplateたちとexampleがどれほど似ているかを比較して，最良のものを選び出す．

Bias trick

$$ f(x_i, W, b) = Wx_i + b$$ について，CIFAR-10では$W$は10行3072列の行列で，$x$ は3072次元のベクトル, $b$は10次元のベクトルだが，$W$の第3073列に$b$を挿入して，$x$の11次元目を1とすれば，$$f(x_i, W) = Wx_i$$ と簡潔に書ける．これをbias trick という．

Image data ppreprocessing

CIFAR-10のデータは0から255の値を取る整数の3072次元のベクトルだが，ベクトルごとに標準化を行って，平均0, 標準偏差1に揃える．

Loss function(cost function, objective)

score function によって計算した予測と正しい答えの食い違いを計量する関数で，これができるだけ小さな値になるようにscore functionの係数を変えていく．

Multiclass Support Vector Machine loss

loss functionの一つ．exapmle $x_i$に対して$s = f(x_i, W)$とするとき，$x_i$におけるloss $L_i$を $$L_i = \sum_{j \neq y_i} max(0, s_j - s_{y_i} + \Delta ) (\Delta;マージンは定数)$$ で定義する．0に閾値をもつ$max(0, -)$の形の関数をhinge loss という．

Regularization

重みの行列の各要素は絶対値が小さくなるように最適化する．そのためにloss functionにregularization項 $$ R(W) = \sum_k \sum_l W^2 _{k,l} == ||W||_{F}^2 $$ を挿入する．理由は

$W$のある要素$W_{ij}$がほかと比べて大きいというのは，画像データの第j要素が画像のクラス分類に大きな影響があるということで，実際にそういうことは無さそうなので無くしたい(過学習の抑制)
$W$をできるだけ一意に決めたい( $W$が$x_i$の分類に成功するとき，$\lambda W$ ($\lambda > 1 $)も分類に成功する．) (2.の理由はNielsenには無かった気がする) regularization項を加えて，loss functionは $$ L = \frac{1}{n}\sum_i L_i + \lambda R(W)$$ となる．($\lambda$はregularization定数)

Practical Considerations

setting data

$\Delta$と$\lambda$は一見別々に設定するハイパーパラメーターだが，$\Delta$は判別成否によるlossを計量するをどれほど重視するかというハイパーパラメーターで，$\lambda$はどれほどregularzationを重視するかというハイパーパラメーターだから，どちらか一方を1.0と定めてもう一方を調整する．ふつう$\Delta =1.0$とする．

Softmax classifier

SVM分類器のほか，よく使われる分類器にSoftmax がある． $f(x_i;W)= Wx_i$にって各クラスのスコアを計算したあと，Softmax関数によって確率にする． $f(x_i;W)= Wx_i = f$とすると， $$softmax(f) = [\frac{e^{f_1}}{\sum_k {e^{f_k}}}, ... , \frac{e^{f_K}}{\sum_k {e^{f_k}}}]^T$$ またこれによるloss $$L_i = -log(\frac{e^{f_{y_i}}}{\sum_k e^{f_k}}) = -f_{y_i} + log \sum_k e^{f_k} $$ をcross-entropy loss という．

謎

Nielsenの定義と食い違う．今度調べる．
$C_i = $
$-\sum_k [y_k ln a_j ^L + (1 - y_k) ln (1 - a_j ^L)]$　式(63)のデータセットによる和を無視した変形
$= - ln a_i - \sum_{k \neq y_i} ln (1 - a_k)$
$= -ln \frac{e^{f_{y_i}}}{\sum_k e^{f_k}} - \sum_{k \neq y_i} ln ( 1 - \frac{e^{f_{y_k}}}{\sum_k e^{f_k}})$ (softmaxを使った場合)
$\neq L_i$

Information theory view (わからん)

真の確率分布$p$と推定された確率分布$q$があるとき,p, qの間のcross-entropy$H(p, q)$は $$ H(p, q) = -\sum_x p(x)logq(x) = H(p) + D_{KL} (p||q)$$ で定義される．推定された確率分布$q$とは$q=\frac{e^{f_{y_i}}}{\sum_k e^{f_k}}$ のことで，pは正しい分類すなわち$p = [o, ..., 1, ..., 0]$(y_i番目が1).
また$H(p)=0$から，$H(p, q) ==D_{KL} (p||q)$

Probablistic interpretation

$$ P(y_i| x_i;W) = \frac{e^{f_{y_i}}}{\sum_k e^{f_k}}$$ は$W$という重み行列があり，example $x_i$が与えられた時，そのラベルが$y_i$(正解)である事後確率と考えることができる．それを最大にするような$W$を計算することは最尤推定(Maximum Likelihood Estimation, MLE)であって，またregularization項$R(W)$はガウス事前分布を仮定した時の$W$のMaximum a posteriori(MAP)と考えることができる．

Practical issues: Numeric stability

$\frac{e^{f_{y_i}}}{\sum_k e^{f_k}}$ の分母分子は非常に大きな数になりがちで，数値計算上の問題が生じうるので，何かしら定数をexponentialの中に足して計算できるようにする．一般的には$C = -log(max_j f_j)$を足す．

import numpy as np
f = np.array([123, 456, 789])
p = np.exp(f)/np.sum(np.exp(f))
print(p)

[  0.   0.  nan]

-c:3: RuntimeWarning: overflow encountered in exp
-c:3: RuntimeWarning: invalid value encountered in true_divide

f -= np.max(f)
p = np.exp(f)/np.sum(np.exp(f))
print(p)

[  5.75274406e-290   2.39848787e-145   1.00000000e+000]

SVM vs. Softmax

Softmax classifier provides “probabilities” for each class.

fの出力が$[1, -2, 0]^T$のとき，softmaxの結果は$[0.7, 0.04, 0.26]^T$
Wの全ての要素が半分になると，fの出力は $[0.5, -1, 0]^T$で，softmaxの出力は$[0.55, 0.12, 0.33]$ よって確率はdiffuse(拡散)する．究極的には，$W$の要素の値たちが小さくなるに連れて，softmaxの結果は一様分布に近づいていく．よって，softmaxの結果はどのクラスに分類されるかの確率の形をしているが，実際には順序だけを考えるべき．

In practice, SVM and Softmax are usually comparable.

正解ラベルが1のexampleで，$Wx_i = [10, -2, 3]^T$であり，$\Delta = 1.0$であるとき，lossは0.$[10, -100, -100]^T,これは [10, 9, 9]^T$でも同様．一方softmaxは$[10, 9, 9]^T$で大きなlossを出す．このようにSVMのlossは近視眼出来なところがある．これは利点にもなりうる．例えば自動車分類器の行が，自動車とトラックの分離に殆どの要素を割いている時，すでに良好に分離が可能になったカエルのexampleに影響されるべきではない．例えば$[自動車, トラック, カエル]^T = [1, 2, 12]^T$のスコアがでているとき，softmaxでは多少のlossが発生して$W$が書き換えられてしまうが,SVMでは書き換えられない.(この解釈でいいのか？)

プログラミング練習

2017年3月22日水曜日

CS231n 2