プログラミング練習: 2018-07-29

2018年8月4日土曜日

論文読み 2018, Semi-convolutional Operators for Instance Segmentation

元ネタ: Novotny et al. Semi-convolutional Operators for Instance Segmentation

インスタンスセグメンテーションやバウンディングボックスでない物体検出のため，Semi-convolutionを提案する．

RCNNやYolo, SSDといった物体検出器は，物体がありそうな領域のproposalを計算し，さらにそこからその物体によくあるバウンディングボックスの座標を計算する(Propose and Verify, P&V)のだが，バウンディングボックスはほとんどの場合物体の位置のあらい近似だし，そこから改めて物体の詳細な位置を計算するには手間がかかる．そのため，画像のすべてのピクセルについて，"同じ物体に属するピクセルには同じ色をつけ,異なる物体に属するピクセルには異なる色をつける"という方法(Instance Coloring, IC)がより適していると考えられる．この定性的な優位性にかかわらずICがよい性能を示さないのはCNNのtranslation invarianceによるものと考え，translation variantなSemi-convolutionを提案する．

Instance Coloringを行う(理想的な)CNN $\Phi$ は, $\mathcal{X}$ を画像の集合， $\mathcal{L}$ を
ラベルの集合， $\Omega$ を画像の中のピクセルの集合), $\mathcal{S}=(S_1, ...)$ をインスタンスごとのラベルの集合，M>0として，
$\forall u, v \in \Omega: \begin{cases} \|\Phi_u(\mathbf{x}) - \Phi_v(\mathbf{x})\| \leq 1 - M , \exists k: u, v \in S_k \\\|\Phi_u(\mathbf{x}) - \Phi_v(\mathbf{x})\| \leq 1 + M , \text{otherwise}\end{cases}$
と定式化できる．しかしCNNはtransformation invariantなので，画像の中に同じインスタンスのレプリカがあると，それらを同じインスタンスであるとしてしまう．
そのためtransformation variantな操作 $\Psi$ を $\Phi_u (\mathbf{x}) = f(\phi_u(\mathbf{x}), u)$ と定め，semi-convolutional operatroと呼ぶことにする． $f:\mathcal{L} \times \Omega \rightarrow \mathcal{L}'$ :はmixing functionだが，単純に
$\Psi_u(\mathbf{X}) = \Phi_u(\mathbf{x}) + u, \phi_u(\mathbf{x}) \in \mathcal{L}=\mathbf{R}^2$
とすることができる.このとき,
$\forall u \in S_k, \Psi_u(\mathbf{x}) + u = c_k$
が成立する定数 $c_k$ が存在する． $c_k$ はインスタンスkのセントロイドと考えることができ，また $\Psi$ はピクセル $u$ から $c_k$ へのdisplacementを計算する関数と考えることができる(fig.1)．

figure 1.

もちろんラベル空間 $\mathcal{L}$ は二次元では足りないし，より高度な出力を同時にしたいことも多いので，より高次元な出力ができるよう，
$\Psi_u(x) = \hat{u} + \Phi_u(\mathcal{x}), \hat{u} = [u_x, u_y ,0 ,..., 0]^T \in \mathbf{R}^d$
などと，ゼロパッディングを施すことになる．

学習の際のlossは
$\mathcal{L}(\Phi|\mathbf{x}, \mathbf{S}) = \sum_{S \in \mathcal{S}} \left \| \Psi_u(\mathbf{x}) - \frac{1}{|S|} \sum_{S \in \mathcal{S}} \Psi_u(\mathbf{x}) \right\|$
として定式化する．