EViT: An Eagle Vision Transformer with Bi-Fovea Self-Attention

要約

深層学習テクノロジーの進歩により、ビジョン トランスフォーマーはさまざまなコンピューター ビジョン タスクにおいて競争力のあるパフォーマンスを実証しました。
残念ながら、ビジョントランスフォーマーは、計算の複雑さや望ましい誘導バイアスの欠如など、依然としていくつかの課題に直面しています。
これらの問題を軽減するために、この研究はワシの目の二中心窩視覚の生理学的構造と特性にヒントを得た新しい二中心窩セルフアテンション (BFSA) を提案します。
この BFSA は、ワシの視覚の浅い中心窩と深い中心窩の機能をシミュレートできるため、ネットワークが粗いものから細かいものまでターゲットの特徴表現を抽出できるようになり、マルチスケールの特徴表現の相互作用が容易になります。
さらに、この研究では、BFSA と CNN に基づいて Bionic Eagle Vision (BEV) ブロックを設計します。
CNN と Vision Transformer を組み合わせて、ターゲットに対するネットワークのローカルおよびグローバル表現能力を強化します。
さらに、この研究では、BEV ブロックを積み重ねることにより、Eagle Vision Transformers (EViT) と呼ばれる、統合された効率的な一般的なピラミッド バックボーン ネットワーク ファミリを開発します。
画像分類、オブジェクト検出、インスタンス セグメンテーション、その他の転移学習タスクを含むさまざまなコンピューター ビジョン タスクに関する実験結果は、提案された EViT が同様のモデル サイズの下でベースラインよりも大幅に優れたパフォーマンスを示し、他のモデルと比較してグラフィックス処理ユニットでの速度が速いことを示しています。
コードは https://github.com/nkusyl でリリースされます。

要約(オリジナル)

Because of the advancement of deep learning technology, vision transformer has demonstrated competitive performance in various computer vision tasks. Unfortunately, vision transformer still faces some challenges such as high computational complexity and absence of desirable inductive bias. To alleviate these problems, this study proposes a novel Bi-Fovea Self-Attention (BFSA) inspired by the physiological structure and characteristics of bi-fovea vision in eagle eyes. This BFSA can simulate the shallow fovea and deep fovea functions of eagle vision, enabling the network to extract feature representations of targets from coarse to fine, facilitating the interaction of multi-scale feature representations. Additionally, this study designs a Bionic Eagle Vision (BEV) block based on BFSA and CNN. It combines CNN and Vision Transformer, to enhance the network’s local and global representation ability for targets. Furthermore, this study develops a unified and efficient general pyramid backbone network family, named Eagle Vision Transformers (EViTs) by stacking the BEV blocks. Experimental results on various computer vision tasks including image classification, object detection, instance segmentation and other transfer learning tasks show that the proposed EViTs perform significantly better than the baselines under similar model sizes, which exhibits faster speed on graphics processing unit compared to other models. Code will be released at https://github.com/nkusyl.

arxiv情報

著者 Yulong Shi,Mingwei Sun,Yongshuai Wang,Rui Wang,Hui Sun,Zengqiang Chen
発行日 2023-10-10 13:48:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク