要約
視覚認識タスクは、主に Vision Transformer (ViT) アーキテクチャによって解決されます。ViT アーキテクチャは、その有効性にもかかわらず、セルフ アテンションのコンピューティングの 2 次複雑さによる計算のボトルネックに遭遇します。
この非効率性の主な原因は、視覚データ内の固有の冗長性を反映して、セルフアテンション ヘッドが冗長なトークン インタラクションをキャプチャすることにあります。
多くの研究は、ViT におけるセルフアテンションの計算の複雑さを軽減することを目的としており、効率的でスパースなトランス アーキテクチャの開発につながりました。
この論文では、効率というレンズを通して見ると、ViT にスパース セルフ アテンション戦略を導入すると、計算オーバーヘッドを低く抑えることができることがわかりました。
ただし、これらの戦略は、詳細な視覚的詳細をキャプチャできないことが多いため、最適とは言えません。
この観察により、フィボナッチ数列に基づいて構築された超線形の複雑さで自己注意を近似するための、Fibottention という名前の一般的で効率的なスパース アーキテクチャを提案することができました。
Fibottention の主な戦略には、冗長性を減らすために近接トークンを除外すること、計算需要を減らすために設計により構造化されたスパース性を採用すること、アテンション ヘッド全体にインセプションのような多様性を組み込むことが含まれます。
この多様性により、重複しないトークンの相互作用を通じて補完的な情報が確実に取得され、視覚表現学習のための ViT のパフォーマンスとリソース使用率の両方が最適化されます。
当社は、視覚タスク専用の複数の最先端のトランスフォーマー アーキテクチャに Fibottention メカニズムを組み込みました。
セルフ アテンション ヘッドの要素の 2 ~ 6% のみを活用し、ViT およびそのバリアントと組み合わせた Fibottention は、3 つのドメイン $\unicode{x2013}$ 画像分類にわたる 9 つのデータセットにおいて、標準 ViT と比較して一貫して大幅なパフォーマンス向上を達成します。
ビデオの理解とロボットの学習タスク。
要約(オリジナル)
Visual perception tasks are predominantly solved by Vision Transformer (ViT) architectures, which, despite their effectiveness, encounter a computational bottleneck due to the quadratic complexity of computing self-attention. This inefficiency is largely due to the self-attention heads capturing redundant token interactions, reflecting inherent redundancy within visual data. Many works have aimed to reduce the computational complexity of self-attention in ViTs, leading to the development of efficient and sparse transformer architectures. In this paper, viewing through the efficiency lens, we realized that introducing any sparse self-attention strategy in ViTs can keep the computational overhead low. However, these strategies are sub-optimal as they often fail to capture fine-grained visual details. This observation leads us to propose a general, efficient, sparse architecture, named Fibottention, for approximating self-attention with superlinear complexity that is built upon Fibonacci sequences. The key strategies in Fibottention include: it excludes proximate tokens to reduce redundancy, employs structured sparsity by design to decrease computational demands, and incorporates inception-like diversity across attention heads. This diversity ensures the capture of complementary information through non-overlapping token interactions, optimizing both performance and resource utilization in ViTs for visual representation learning. We embed our Fibottention mechanism into multiple state-of-the-art transformer architectures dedicated to visual tasks. Leveraging only 2-6% of the elements in the self-attention heads, Fibottention in conjunction with ViT and its variants, consistently achieves significant performance boosts compared to standard ViTs in nine datasets across three domains $\unicode{x2013}$ image classification, video understanding, and robot learning tasks.
arxiv情報
著者 | Ali Khaleghi Rahimian,Manish Kumar Govind,Subhajit Maity,Dominick Reilly,Christian Kümmerle,Srijan Das,Aritra Dutta |
発行日 | 2024-06-27 17:59:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google