Peripheral Vision Transformer

要約

人間の視覚は、周辺視野と呼ばれる特殊なタイプの視覚処理システムを備えています。
周辺視野は、視線の中心までの距離に基づいて視野全体を複数の輪郭領域に分割し、さまざまな領域でさまざまな視覚的特徴を知覚する機能を提供します。
この作業では、生物学的に着想を得たアプローチを採用し、視覚認識のためにディープニューラルネットワークの周辺視野をモデル化することを検討します。
トレーニングデータが与えられた場合、ネットワークが視野を多様な周辺領域に分割することを学習できるように、周辺位置エンコーディングをマルチヘッド自己注意層に組み込むことを提案します。
大規模なImageNetデータセットで提案されたネットワーク(PerViTと呼ばれる)を評価し、機械知覚のモデルの内部動作を体系的に調査し、ネットワークが人間の視覚と同様に視覚データを知覚することを学習することを示します。
さまざまなモデルサイズにわたる画像分類タスクの最先端のパフォーマンスは、提案された方法の有効性を示しています。

要約(オリジナル)

Human vision possesses a special type of visual processing systems called peripheral vision. Partitioning the entire visual field into multiple contour regions based on the distance to the center of our gaze, the peripheral vision provides us the ability to perceive various visual features at different regions. In this work, we take a biologically inspired approach and explore to model peripheral vision in deep neural networks for visual recognition. We propose to incorporate peripheral position encoding to the multi-head self-attention layers to let the network learn to partition the visual field into diverse peripheral regions given training data. We evaluate the proposed network, dubbed PerViT, on the large-scale ImageNet dataset and systematically investigate the inner workings of the model for machine perception, showing that the network learns to perceive visual data similarly to the way that human vision does. The state-of-the-art performance in image classification task across various model sizes demonstrates the efficacy of the proposed method.

arxiv情報

著者 Juhong Min,Yucheng Zhao,Chong Luo,Minsu Cho
発行日 2022-06-14 12:47:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク