BOAT: Bilateral Local Attention Vision Transformer

要約

ビジョン トランスフォーマーは、多くのコンピューター ビジョン タスクで卓越したパフォーマンスを達成しました。
ViT や DeiT などの初期のビジョン トランスフォーマーは、グローバルな自己注意を採用していますが、パッチの数が多いと計算コストが高くなります。
効率を改善するために、最近のビジョン トランスフォーマーは、ローカル ウィンドウ内でセルフ アテンションが計算されるローカル セルフ アテンション メカニズムを採用しています。
ウィンドウベースのローカル自己注意は効率を大幅に向上させるという事実にもかかわらず、画像平面内の離れているが類似したパッチ間の関係を捉えることができません。
画像空間の局所的な注意のこの制限を克服するために、この論文では、特徴空間内のパッチの局所性をさらに活用します。
特徴を使用してパッチを複数のクラスターにグループ化し、すべてのクラスター内で自己注意を計算します。
このような特徴空間のローカルな注意は、異なるローカル ウィンドウにまたがるパッチ間の接続を効果的にキャプチャしますが、それでも関連性があります。
特徴空間の局所的注意を画像空間の局所的注意と統合する、Bilateral local Attention Vision Transformer (BOAT) を提案します。
さらに、BOAT を Swin モデルと CSWin モデルの両方と統合し、いくつかのベンチマーク データセットで広範な実験を行った結果、BOAT-CSWin モデルが既存の最先端の CNN モデルやビジョン トランスフォーマーよりも明らかに一貫して優れていることが実証されました。

要約(オリジナル)

Vision Transformers achieved outstanding performance in many computer vision tasks. Early Vision Transformers such as ViT and DeiT adopt global self-attention, which is computationally expensive when the number of patches is large. To improve efficiency, recent Vision Transformers adopt local self-attention mechanisms, where self-attention is computed within local windows. Despite the fact that window-based local self-attention significantly boosts efficiency, it fails to capture the relationships between distant but similar patches in the image plane. To overcome this limitation of image-space local attention, in this paper, we further exploit the locality of patches in the feature space. We group the patches into multiple clusters using their features, and self-attention is computed within every cluster. Such feature-space local attention effectively captures the connections between patches across different local windows but still relevant. We propose a Bilateral lOcal Attention vision Transformer (BOAT), which integrates feature-space local attention with image-space local attention. We further integrate BOAT with both Swin and CSWin models, and extensive experiments on several benchmark datasets demonstrate that our BOAT-CSWin model clearly and consistently outperforms existing state-of-the-art CNN models and vision Transformers.

arxiv情報

著者 Tan Yu,Gangming Zhao,Ping Li,Yizhou Yu
発行日 2022-10-19 16:10:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク