VSA: Learning Varied-Size Window Attention in Vision Transformers

要約

ウィンドウ内の注意は、性能、計算の複雑さ、メモリフットプリントのバランスをとるために、視覚変換器において広く研究されてきた。しかし、現在のモデルは手作りの固定サイズウィンドウ設計を採用しており、長期的な依存関係をモデル化したり、異なるサイズのオブジェクトに適応したりする能力が制限されている。この欠点に対処するために、我々はデータから適応的なウィンドウ構成を学習する 〚aried-textbf{S}ize Window〛(VSA)を提案する。具体的には、各デフォルトウィンドウ内のトークンに基づいて、VSAはウィンドウ回帰モジュールを採用し、ターゲットウィンドウのサイズと位置、すなわちキーと値のトークンがサンプリングされるアテンション領域を予測する。各注目ヘッドに独立してVSAを採用することで、長期的な依存関係をモデル化し、多様なウィンドウから豊富なコンテキストを取得し、重なり合ったウィンドウ間の情報交換を促進することができる。VSAは実装が容易なモジュールであり、わずかな修正と無視できる余分な計算コストで、最先端の代表的なモデルの窓の注意を置き換えることができる。さらに、学習とテストに大きな画像を使用することで、性能向上が増加する。オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションなど、より下流のタスクに関する実験結果は、異なるサイズのオブジェクトを扱う際に、バニラウィンドウ注目よりもVSAが優れていることをさらに実証している。コードはhttps://github.com/ViTAE-Transformer/ViTAE-VSA。

要約(オリジナル)

Attention within windows has been widely explored in vision transformers to balance the performance, computation complexity, and memory footprint. However, current models adopt a hand-crafted fixed-size window design, which restricts their capacity of modeling long-term dependencies and adapting to objects of different sizes. To address this drawback, we propose \textbf{V}aried-\textbf{S}ize Window \textbf{A}ttention (VSA) to learn adaptive window configurations from data. Specifically, based on the tokens within each default window, VSA employs a window regression module to predict the size and location of the target window, i.e., the attention area where the key and value tokens are sampled. By adopting VSA independently for each attention head, it can model long-term dependencies, capture rich context from diverse windows, and promote information exchange among overlapped windows. VSA is an easy-to-implement module that can replace the window attention in state-of-the-art representative models with minor modifications and negligible extra computational cost while improving their performance by a large margin, e.g., 1.1\% for Swin-T on ImageNet classification. In addition, the performance gain increases when using larger images for training and test. Experimental results on more downstream tasks, including object detection, instance segmentation, and semantic segmentation, further demonstrate the superiority of VSA over the vanilla window attention in dealing with objects of different sizes. The code will be released https://github.com/ViTAE-Transformer/ViTAE-VSA.

arxiv情報

著者 Qiming Zhang,Yufei Xu,Jing Zhang,Dacheng Tao
発行日 2023-07-03 07:49:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク