元ネタ: Dynamic Routing Between Capsules, Sabour et al. NIPS, 2017 (第一著者のSara氏にもっと敬意を)
人間の視覚は極僅かな凝視点(fixation points)を選んで,その近くだけを高解像度に処理している. 例えば顔を認識する時,有る凝視点は口,またある凝視点は鼻・・・といった風に凝視点を選んでいるとしよう. この論文では,ある凝視点(口を見ている凝視点とする)を処理する時,単に口の情報だけでなくもっと多くの情報を得ていると仮定し,さらに我々の視覚はそれぞれの凝視点から得た情報を構文木のように構造化していると仮定する. ヒトの視覚はmulti-layer neural networkであることがわかっていて,さらにそれぞれのlayerは多くの”capsule”と呼ばれるneuron群に分割でき(これは多分筆者の想像),見られているものに関係したcapsuleだけが発火して構文木を構成している. 低次の(目玉に近い)layerでのcapsuleの発火に従ってより高次のlayerでのcapsuleの発火が決定されていくという処理の繰り返しが起きているのである. capsuleの中のそれぞれのneuronは見ている対象の様々な属性(位置,大きさ,方向,deformation,測度,反射,etc.)を表現している.
この論文では以上の仮定の計算モデルを実装し,それが画像処理でうまく働いたことを示した.
0 件のコメント:
コメントを投稿