Retina Vision Transformer (RetinaViT): Introducing Scaled Patches into Vision Transformers

要約

人間は低空間周波数成分と高空間周波数成分を同時に認識し、両方からの情報を組み合わせて視覚的なシーンを形成します。
この神経科学的なインスピレーションに基づいて、入力画像の縮小バージョンからのパッチが最初の Transformer Encoder 層の入力に追加される、変更された Vision Transformer アーキテクチャを提案します。
人間の視覚系からインスピレーションを得たこのモデルを、Retina Vision Transformer (RetinaViT) と名付けました。
私たちの実験では、中程度の構成で ImageNet-1K データセットでトレーニングした場合、RetinaViT は元の ViT と比較して 3.3% のパフォーマンス向上を達成することを示しています。
この改善は、入力に低空間周波数成分が含まれているためであると仮説を立てています。これにより、構造的特徴を捕捉し、重要な特徴を選択してより深い層に転送する能力が向上します。
これにより、RetinaViT は垂直経路と注意パターンのさらなる研究への扉を開きます。

要約(オリジナル)

Humans see low and high spatial frequency components at the same time, and combine the information from both to form a visual scene. Drawing on this neuroscientific inspiration, we propose an altered Vision Transformer architecture where patches from scaled down versions of the input image are added to the input of the first Transformer Encoder layer. We name this model Retina Vision Transformer (RetinaViT) due to its inspiration from the human visual system. Our experiments show that when trained on the ImageNet-1K dataset with a moderate configuration, RetinaViT achieves a 3.3% performance improvement over the original ViT. We hypothesize that this improvement can be attributed to the inclusion of low spatial frequency components in the input, which improves the ability to capture structural features, and to select and forward important features to deeper layers. RetinaViT thereby opens doors to further investigations into vertical pathways and attention patterns.

arxiv情報

著者 Yuyang Shu,Michael E. Bain
発行日 2024-03-20 15:35:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク