SG-Former: Self-guided Transformer with Evolving Token Reallocation

要約

Vision Transformer は、さまざまな視覚タスクにわたって目覚ましい成功を収めています。
ただし、トークン シーケンスの長さに対して二次関数的に増加する重い計算コストにより、大規模な特徴マップを処理する能力は大幅に制限されます。
計算コストを軽減するために、これまでの研究では、局所的な小さな領域に限定されたきめの細かいセルフアテンション、またはグローバルなセルフアテンションに依存していましたが、シーケンス長が短くなり粒度が粗くなりました。
この論文では、適応性のある細かい粒度を備えた効果的なグローバルセルフアテンションに向けて、Self-guided Transformer~(SG-Former)と呼ばれる新しいモデルを提案します。
私たちのアプローチの中心となるのは、ハイブリッドスケールの自己注意を通じて推定され、トレーニング中に自動的に進化する重要度マップを利用して、各領域の重要度に基づいてトークンを再割り当てすることです。
直観的には、きめ細かい注意を実現するために顕著な領域により多くのトークンを割り当てますが、効率性と全体的な受容野と引き換えに、マイナーな領域にはより少ないトークンを割り当てます。
提案された SG-Former は、最先端技術を上回るパフォーマンスを達成します。当社の基本サイズ モデルは、ImageNet-1K で \textbf{84.7\%} トップ 1 の精度、CoCo で \textbf{51.2mAP} bbAP、\textbf{52.7mIoU を達成します。
} ADE20K では、計算コストが低く、パラメータが少なく、Swin Transformer を \textbf{+1.3\% / +2.7 mAP/ +3 mIoU} 上回っています。
コードは \href{https://github.com/OliverRensu/SG-Former}{https://github.com/OliverRensu/SG-Former} で入手できます。

要約(オリジナル)

Vision Transformer has demonstrated impressive success across various vision tasks. However, its heavy computation cost, which grows quadratically with respect to the token sequence length, largely limits its power in handling large feature maps. To alleviate the computation cost, previous works rely on either fine-grained self-attentions restricted to local small regions, or global self-attentions but to shorten the sequence length resulting in coarse granularity. In this paper, we propose a novel model, termed as Self-guided Transformer~(SG-Former), towards effective global self-attention with adaptive fine granularity. At the heart of our approach is to utilize a significance map, which is estimated through hybrid-scale self-attention and evolves itself during training, to reallocate tokens based on the significance of each region. Intuitively, we assign more tokens to the salient regions for achieving fine-grained attention, while allocating fewer tokens to the minor regions in exchange for efficiency and global receptive fields. The proposed SG-Former achieves performance superior to state of the art: our base size model achieves \textbf{84.7\%} Top-1 accuracy on ImageNet-1K, \textbf{51.2mAP} bbAP on CoCo, \textbf{52.7mIoU} on ADE20K surpassing the Swin Transformer by \textbf{+1.3\% / +2.7 mAP/ +3 mIoU}, with lower computation costs and fewer parameters. The code is available at \href{https://github.com/OliverRensu/SG-Former}{https://github.com/OliverRensu/SG-Former}

arxiv情報

著者 Sucheng Ren,Xingyi Yang,Songhua Liu,Xinchao Wang
発行日 2023-08-23 15:52:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク