プログラミング練習: 2018年の論文

ラベル 2018年の論文 の投稿を表示しています。すべての投稿を表示

2018年6月22日金曜日

論文読み2018, ADVERSARIAL DROPOUT REGULARIZATION

元ネタ: Saito et al, Adversarial Dropout Rgeularization, 2018
図表は特に断りがない限りこの論文から引用

Adversarial Dropout Regularization(ADR)はDomain Adaptationの手法で，dropoutの場所だけが異なるネットワークの出力の差異が大きくなるデータ点がdecision boundaryに近いと考えて，ネットワークの出力がそのdecision boundaryから遠ざかるように最適化する．

従来手法(Tzeng et al. 2014, Ganin and Lempitsky, 2014)
ネットワークをエンコーダー(generator)G, クラス分類器C, ドメイン分類器(Discriminator)Dに分けG->D->CかC<-G->Dの順に並べる.Eによって元の画像から生成された表現を，Dがsource domainに属するか，target domainに属するかを推測し，Gはその推測を間違わせるように最適化される．これによってGによる表現はsource, target domainにおいて共通となる．またsource domainのデータ点についてDが正しく分類できるようにDを最適化する．

従来手法ではDはドメインの違いしか考えていなかったので，Gがクラス分類に役に立たない表現にされてしまう(fig1, 左)．

本手法ではDを廃する．source domainではGとCは一連のclassification networkとして学習を行い，target domainではCはdecision boundaryに近いデータ点の検出器となって，GとCは敵対的に学習を行う．というのもCがクラス間のdecision boundaryに近い点に敏感なら,GはCを騙すためクラス間のdecision boundaryの近くにデータ点を写像するのをやめるはずで，したがってGはよりtarget domainでのクラス分類に役立つ表現を学習するようになる.(fig.1, 右)

figure 1. 従来手法と本手法の概念図

クラス間のdecision boundaryを決めているのはクラス分類器Cであって，Cのdropoutの場所を変えることで，Cが僅かに変化し，したがってdecision boundaryも僅かに変化する．decision bondaryの近くの点ほどこのdecision boundaryの変化によって大きくCの出力が変化する. この変化によってCはdecision boundaryに近いデータ点を検出する．
Cのdropoutの位置の異なった2つの現れをC1, C2として，データ点 $x_t$ に対するそれぞれの出力を $p_1, p_2$ とする．その距離を
$d(p_1, p_2) = \frac{1}{2} (D_{KL}(p_1||p_2) + D_{KL} (p_2||p_1))$
と定める．

学習のプロセス

GとCは一連の分類器として学習する.最適化する対象は
$\text{minimize}_{G, C} L(X_s, Y_s)$
$L(X_s, Y_s) = -E_{\mathbf{x}_s, y_s} \sum_k 1_{k=y_s} \log p(y|\mathbf{x}_s)$
Cはdecision boundaryに近いtarget domainの点を検出するように学習する．また，1.ですでに行ったことだが，source domainでの分類器としても学習を行うと性能が向上した. 最適化する対象は
$\text{minimize}_C\{ L(X_s, Y_s) - E_{\mathbf{x}_t \in X_t} [d(p_1, p_2)]\}$
Gがtarget domainでのCを騙すように最適化する．最適化する対象は
$\text{minimize}_G\{ L_{adv}(X_t) + E_{\mathbf{x}_t \sim X_t} \sum_k p(y=k|\mathbf{x}_t) \log p (y|\mathbf{x}_t)\}$
$L_{adv}(X_t)=E_{\mathbf{x}_t \sim X_t} [d(p_1, p_2)]$
このステップは複数回行うと性能が向上する．

2018年6月20日水曜日

論文読み 2018, Self-ensembling for visual domain adaptation

元ネタ: French and Mackewicz, Self-ensembling for visual domain adaptation, 2018
図表は特に断りがない限りこの論文から引用

Mean Teacherモデルをdomain adaptationに転用. VisDA-17 Classification 優勝

Domain adaptationとは

“新規タスクの効果的な仮説を効率的に見つけ出すために，一つ以上の別のタスクで学習された知識を得て，それを適用する問題”(朱鷺の杜)

例えば人・自動車・犬・猫といった物体の絵のデータセットから分類モデルを学習し，それらの写真を分類するような問題のことである．学習を行うドメインをsource domain，モデルを適用したいドメインをtarget domainという.この例では絵がsource domainで，写真がtarget domainとなる．
VISDA-2017では3次元モデルから生成した画像をsource domainに，写真をtarget domainとして，domain adaptationモデルを競った.なお，source domainではすべてのデータ点にラベルが与えられ，target domainではunsupervisedな学習が許された．

Self-ensembling for visual domain adaptation

fig.1 (a) mean-teacher (b) self-ensembling for visual domain adaptation
(a)における破線はラベルが与えられた場合にのみ実行されることを示している．

source domainとtarget domainをそれぞれ $X_{S}, X_{T}$ とする． $X_{S}$ には対応するラベルが与えられており，それを $Y_S$ とする. Mean-teacherでは，CrossEntropyによるLossはラベルが与えられた場合にのみ最適化していたが，self-ensembling for visual domain adaptationでは教師モデルがtarget domainのデータ点のクラスを推測し，それがconfidence threshold以上であれば，そのラベルを教師データとして生徒モデルの出力とCrossEntropyをlossとして最適化する．

2018年5月8日火曜日

論文読み 2018, 1cycle policy

The 1 cycle policy

ネタ元: A DISCIPLINED APPROACH TO NEURAL NETWORK HYPER-PARAMETERS: PART 1 - LEARNING RATE, BATCH SIZE, MOMENTUM, AND WEIGHT DECAY, Leslie N. Smith, 2018

著者の過去の論文では,learning rateを図1のように,イテレーションの間で何度も大きくしたり小さくしたり変化させる(boundaryの決め方は後で).この,小さなlearning rateがmax_lrに至り,またもう一度base_lrになるまでを著者はcycleと呼んでいる.
図1

一方,この論文では図2のように,最初は小さいlearning rateから初めて,全学習過程においてただ1度だけcycleを回し,最後にbase_lrよりも小さいlearning rateに線形に変化させている.
図2

また,learning rateとmomentumがともに大きいと学習が不安定になるので,momentumは図3のようにlearning rateとは反対の方向に減らしたり増やしたりすることを提案している.
図3

これによって高速かつ高性能なモデルが学習できるという.
また著者は大きなlearning rateはregularizationに有益と主張していて,そのため他のregularizationの手法の力を弱めるべきだと主張している.例えばweight decayやdropoutの係数を小さくするなどである.

max_lr, base_lrの決め方
学習を小さなlearning rateから初めて徐々に大きくしていく.最初はvalidation errorは小さくなっていくが,ある値からはvalidation errorが発散を始める.このときの値をmax_lrとし,base_lrはmax_lrの0.1~0.05倍とする.

(イテレーション回数は試行錯誤して決めるしかないようだ)

2018年3月6日火曜日

論文読み 2018, Towards Principled Design of Deep Convolutional Networks: Introducing SimpNet

Towards Principled Design of Deep Convolutional Networks: Introducing SimpNet, Hasanpour et al. githubでコードが公開されている Deep Learningのモデル設計についての論文. 著者の前の論文と同じく,モデルを設計する上でのいくつかの指針を示し,それに従って作ったモデルと他のモデルの性能を比較している.著者は軽い(パラメータの小さい,浅い)モデルで,他の重いモデルに匹敵する性能のモデルを目指し,SIMPNETを開発した.また,SAF-poolingという新しいプーリング層を導入し,汎化性能を向上させたと主張している.

モデル設計上の指針

A. Gradual Expansion with Minimum Allocation

小さなモデルから始めて,じょじょに広く,深いモデルにしていく.その際深さよりも広さを優先する.

B. Homogeneous Groups of Layers

畳み込み層,プーリング層,正規化 etc.のように層を積み上げていくと考えるのではなく,目的を持ったgroup(他の文献ではblockと呼ばれるものか？)をいくつか設計し,それらを積み重ねていく.同じgroupを複数回使っても良い.

C. Local Correlation Preservation

1x1のカーネルは特に入力に近いところでは避ける.また出力に近いところでfeature mapを急激に小さくするのではなく,層をいくつか設けて徐々に小さくする.

D. Maximum Information Utilization

プーリングそうを入力の近くに多く置きすぎないこと.Max poolingはtransition invarianceを与えるし,strideが2以上のconvolutionによるpoolingを上回るが,入力層の近くで(空間的に)大きなfeature mapを使うことは一般に有益である.

E. Maximum Performance Utilization

3x3のカーネルが計算速度とモデルとしての性能の両方を備えている

F. Balanced Distribution Scheme

ネットワークを大きくするときには,少数のレイヤーだけを大きくするのではなく,すべてのレイヤーをまんべんなく大きくする.

G. Rapid Prototyping In Isolation

ネットワークの構造自体を替える前に最適化のポリシー(learning rate, regularization method)を替えてみるべきだし,またそのときは2つ以上の要素を同時に替えるのではなく,一つづつ替えて実験する.

H. Dropout Utilization

dropoutの重要性を説いている.

I. Simple Adaptive Feature Composition Pooling

dropoutの前に置くmax-poolingをSimple Adaptive Feature Composition Pooling(SAF-Pooling)として導入する.poolingとdropoutの順番は実装によって違う¹²³が名前を付けたのは初めてなのか？ SAF-Poolingによって,dropoutの後のpoolingより高度な特徴を抽出できると考えている.

J. Final Regulation Stage

A-Iの指針は絶対ではない

SIMPNET

13層からなる単純なCNNで,convolutionには3x3のカーネルのみを使用している.10層のCNNから始めて,性能の向上が見られなく成るまで各層を広くしてゆき,それから層を増やすという手順で設計した.

SCはCaffeでいうscale layer(意味は知らない)で,ReLUとDropoutの操作のようだ. Max Poolingはコードを見ると直後にDropoutが置かれているのでつまりSAF-Poolingのこと.dropout率は0.25.

登録: 投稿 (Atom)