プログラミング練習: 論文読み 2017, Temporal Ensembling for Semi-Supervised Learning manifold

2018年6月20日水曜日

論文読み 2017, Temporal Ensembling for Semi-Supervised Learning manifold

元ネタ: Samuli Laine and Timo Aila, Temporal Ensembling for Semi-Supervised Learning, 2017, ICLR 2017
図表は特に断りがない限りこの論文から引用

複数のモデルのensembleは教師の有無にかかわらずよく使われる手法で，dropoutによる性能向上も内部で複数のモデルのensembleが起きているためだという人もいる．この論文ではdropout(とdata augmentation)によるensembleによって高精度な教師モデルを構成し，生徒モデルが教師モデルの出力を真似ることで半教師あり学習を行う．
Data Distillatinを思い出すが，Data Distillationは教師モデルがハードなラベル(すなわちクラスラベルそのもの)を推測してNLLやCrossEntropyをLossとして生徒モデルを最適化したのに対し，こちらでは同じ入力からの教師モデルと生徒モデルの出力の差異をLossとする. またラベル付きのデータ点に対してのみ，CrossEntropyをLossに足して最適化する．

dropoutの場所を変えてensembleを行う $encoding="application/x-tex">\Pi</annotation></semantics></math>$ -modelと,過去のepochにおける出力とensembleを行うTemporal ensemblingが提案されている.

$encoding="application/x-tex">\Pi</annotation></semantics></math>$ -model

同じexample $x$ について，確率的なaugmentationやdropoutによってニューラルネットワーク $encoding="application/x-tex">f_\theta</annotation></semantics></math>$ は非決定的な関数だから， $encoding="application/x-tex">z=f_\theta(x), \tilde{z} = f_\theta(x)</annotation></semantics></math>$ は異なっているはずで，その差異 $encoding="application/x-tex">\|z - \tilde{z}\|</annotation></semantics></math>$ を小さくする．さらに $x$ がラベル付きであるとき， $\tilde{z}</annotation></semantics></math>$ とそのラベルの乖離を小さくする．この場合，教師モデルと生徒モデルは同じものである．

fig.1 $encoding="application/x-tex">\Pi</annotation></semantics></math>$ -modelのダイアグラム

fig.2 $encoding="application/x-tex">\Pi</annotation></semantics></math>$ -modelのアルゴリズム

Temporal ensembling

$encoding="application/x-tex">\Pi</annotation></semantics></math>$ -modelではネットワークのパラメータ $encoding="application/x-tex">\theta</annotation></semantics></math>$ を変えずに $\tilde{z}</annotation></semantics></math>$ を計算したが，Temporal ensemblingでは過去のepochで計算した値のexponential moving averageを教師モデルの出力 $encoding="application/x-tex">\tilde{z}</annotation></semantics></math>$ とする．

fig.3 Temporal Ensemblingのダイアグラム

fig.4 Temporal Ensemblingのアルゴリズム

プログラミング練習

2018年6月20日水曜日

論文読み 2017, Temporal Ensembling for Semi-Supervised Learning manifold

$encoding="application/x-tex">\Pi</annotation></semantics></math>$ -model

Temporal ensembling

0 件のコメント:

コメントを投稿

2018年6月20日水曜日

論文読み 2017, Temporal Ensembling for Semi-Supervised Learning manifold

Π<math><semantics><mrow><mi mathvariant="normal">Π</mi></mrow><annotation encoding="application/x-tex">\Pi</annotation></semantics></math>Π-model

Temporal ensembling

0 件のコメント:

コメントを投稿

$encoding="application/x-tex">\Pi</annotation></semantics></math>$ -model