要約
深層学習テクノロジーの進歩により、ビジョン トランスフォーマー (ViT) は、さまざまなコンピューター ビジョン タスクで優れたパフォーマンスを実証しました。
それにもかかわらず、ViT は依然として、計算の複雑さや望ましい誘導バイアスの欠如など、いくつかの課題に直面しています。
これらの問題を軽減するために、イーグルビジョンと ViT を組み合わせることの潜在的な利点が検討されます。
ワシの目の独特の生理学的および視覚的特徴に触発された Bi-Fovea Visual Interaction (BFVI) 構造を要約します。
この構造設計アプローチに基づいて、新しい二中心窩セルフアテンション (BFSA) メカニズムと二中心窩フィードフォワード ネットワーク (BFFN) が提案されています。これは、生物学的視覚野の階層的かつ並列情報処理スキームを模倣するために使用できます。
ネットワークを使用して、ターゲットの特徴表現を粗い方法から細かい方法まで学習します。
さらに、Bionic Eagle Vision (BEV) ブロックは、BFSA メカニズムと BFFN に基づいて基本的な構築ユニットとして設計されています。
BEV ブロックを積み重ねることにより、Eagle Vision Transformers (EViT) と呼ばれる統合された効率的なピラミッド バックボーン ネットワーク ファミリが開発されます。
実験結果は、EViT が画像分類、オブジェクト検出、セマンティック セグメンテーションなどのさまざまなコンピューター ビジョン タスクにおいて非常に競争力のあるパフォーマンスを発揮することを示しています。
他のアプローチと比較して、EViT には、特にパフォーマンスと計算効率の点で大きな利点があります。
コードは https://github.com/nkusyl/EViT で入手できます。
要約(オリジナル)
Owing to advancements in deep learning technology, Vision Transformers (ViTs) have demonstrated impressive performance in various computer vision tasks. Nonetheless, ViTs still face some challenges, such as high computational complexity and the absence of desirable inductive biases. To alleviate these issues, {the potential advantages of combining eagle vision with ViTs are explored. We summarize a Bi-Fovea Visual Interaction (BFVI) structure inspired by the unique physiological and visual characteristics of eagle eyes. A novel Bi-Fovea Self-Attention (BFSA) mechanism and Bi-Fovea Feedforward Network (BFFN) are proposed based on this structural design approach, which can be used to mimic the hierarchical and parallel information processing scheme of the biological visual cortex, enabling networks to learn feature representations of targets in a coarse-to-fine manner. Furthermore, a Bionic Eagle Vision (BEV) block is designed as the basic building unit based on the BFSA mechanism and BFFN. By stacking BEV blocks, a unified and efficient family of pyramid backbone networks called Eagle Vision Transformers (EViTs) is developed. Experimental results show that EViTs exhibit highly competitive performance in various computer vision tasks, such as image classification, object detection and semantic segmentation. Compared with other approaches, EViTs have significant advantages, especially in terms of performance and computational efficiency. Code is available at https://github.com/nkusyl/EViT
arxiv情報
著者 | Yulong Shi,Mingwei Sun,Yongshuai Wang,Jiahao Ma,Zengqiang Chen |
発行日 | 2024-11-06 13:29:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google