プログラミング練習: 2017年の論文

ラベル 2017年の論文 の投稿を表示しています。すべての投稿を表示

2018年6月22日金曜日

論文読み 2017, Mean teachers are better role models: Wieght-averaged consistency targets improve semi-supervised deep learning results

元ネタ: Tarvainen and Valpola, Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results, 2017
図表は特に断りがない限りこの論文から引用

Temporal Ensemblingでは，あるデータ点 $x$ に対して過去に計算した結果 $z_1, ...z_k$ のexponential moving average(EMA)を教師モデルの出力 $\tilde{z}_{k+1}$ としていた．この場合教師モデルが過去のエポック $(1, ...., k)$ で決まるから，第 $k+1$ エポックで学習してきた情報が教師モデルに統合されておらず，データセットが大きいほど学習のペースが遅くなってしまい，また過去のすべてのデータ点に対する出力を保持する必要がある．
そこで著者らは前のイテレーションにおけるネットワークの重みのEMAを教師モデルとする方法を考え，Mean Teacherと名付けた．

fig.1 Mean Teacherのダイアグラム

2018年6月20日水曜日

論文読み 2017, Temporal Ensembling for Semi-Supervised Learning manifold

元ネタ: Samuli Laine and Timo Aila, Temporal Ensembling for Semi-Supervised Learning, 2017, ICLR 2017
図表は特に断りがない限りこの論文から引用

複数のモデルのensembleは教師の有無にかかわらずよく使われる手法で，dropoutによる性能向上も内部で複数のモデルのensembleが起きているためだという人もいる．この論文ではdropout(とdata augmentation)によるensembleによって高精度な教師モデルを構成し，生徒モデルが教師モデルの出力を真似ることで半教師あり学習を行う．
Data Distillatinを思い出すが，Data Distillationは教師モデルがハードなラベル(すなわちクラスラベルそのもの)を推測してNLLやCrossEntropyをLossとして生徒モデルを最適化したのに対し，こちらでは同じ入力からの教師モデルと生徒モデルの出力の差異をLossとする. またラベル付きのデータ点に対してのみ，CrossEntropyをLossに足して最適化する．

dropoutの場所を変えてensembleを行う $\Pi$ -modelと,過去のepochにおける出力とensembleを行うTemporal ensemblingが提案されている.

$\Pi$ -model

同じexample $x$ について，確率的なaugmentationやdropoutによってニューラルネットワーク $f_\theta$ は非決定的な関数だから， $z=f_\theta(x), \tilde{z} = f_\theta(x)$ は異なっているはずで，その差異 $\|z - \tilde{z}\|$ を小さくする．さらに $x$ がラベル付きであるとき， $z, \tilde{z}$ とそのラベルの乖離を小さくする．この場合，教師モデルと生徒モデルは同じものである．

fig.1 $\Pi$ -modelのダイアグラム

fig.2 $\Pi$ -modelのアルゴリズム

Temporal ensembling

$\Pi$ -modelではネットワークのパラメータ $\theta$ を変えずに $z, \tilde{z}$ を計算したが，Temporal ensemblingでは過去のepochで計算した値のexponential moving averageを教師モデルの出力 $\tilde{z}$ とする．

fig.3 Temporal Ensemblingのダイアグラム

fig.4 Temporal Ensemblingのアルゴリズム

2018年2月21日水曜日

論文読み 2017, Data Distillation: Towards Omni-Supervised Learning

Data Distillation: Towards Omni-Supervised Learning, Radosavovic et al.

semi-supervised learningについての論文. ここでは正解データ(annotation)の付いた教師データを"ラベルありデータ",付いていない教師データを"ラベルなしデータ"と呼ぶことにする.
著者らは,ラベルありデータを最大限活用しながら,インターネット経由で得られるようなほとんど無尽蔵のラベルなしデータをも使って学習するモデルをomni-supervised learningと呼んでいる. 著者らは,ラベルありデータで学習してからラベルなしデータに推測を行い,その推測を仮のラベルとしてラベルなしデータについても学習を行うとしている.このとき,ラベルなしデータに対して様々なtransformation(回転,反転など)を行った結果を統合した結果の推測をensemble(統合)したラベルを仮のラベルとすることで,Hinton et al.[^1] の提案した Model Distillationと似たことが行えると著者らは主張しており(fig.1),これをData Distillationと名付けた.

enter image description here
figure 1. 上:Hinton et al[^1] のモデル, 下: 著者らのモデル

こうしたモデルは古くからあるが,近年の教師あり学習モデルの性能向上によって現実的になってきたとしている.
著者らはMask R-CNNを,リスケーリングと左右反転をtransformationとして,Data Distillation を使って学習させ,keypoint detectionとobject detectionで,supervised learningよりも良い結果を得た

2017年11月29日水曜日

論文読み 2017, Dynamic Routing Between Capsules

元ネタ: Dynamic Routing Between Capsules, Sabour et al. NIPS, 2017 (第一著者のSara氏にもっと敬意を)

人間の視覚は極僅かな凝視点(fixation points)を選んで，その近くだけを高解像度に処理している．例えば顔を認識する時，有る凝視点は口，またある凝視点は鼻・・・といった風に凝視点を選んでいるとしよう．この論文では，ある凝視点(口を見ている凝視点とする)を処理する時，単に口の情報だけでなくもっと多くの情報を得ていると仮定し，さらに我々の視覚はそれぞれの凝視点から得た情報を構文木のように構造化していると仮定する．ヒトの視覚はmulti-layer neural networkであることがわかっていて，さらにそれぞれのlayerは多くの”capsule”と呼ばれるneuron群に分割でき(これは多分筆者の想像)，見られているものに関係したcapsuleだけが発火して構文木を構成している. 低次の(目玉に近い)layerでのcapsuleの発火に従ってより高次のlayerでのcapsuleの発火が決定されていくという処理の繰り返しが起きているのである． capsuleの中のそれぞれのneuronは見ている対象の様々な属性(位置，大きさ，方向，deformation,測度,反射,etc.)を表現している．
この論文では以上の仮定の計算モデルを実装し，それが画像処理でうまく働いたことを示した．