AxWin Transformer: A Context-Aware Vision Transformer Backbone with Axial Windows


タイトル: AxWin Transformer:Axial Windowsを備えたコンテキストに敏感なVision Transformerバックボーン
– Transformerは、強力なモデリング能力のため、最近、いくつかのビジョンタスクで良好なパフォーマンスを示している。
– アテンションによる二次的な複雑さを減らすために、注目をローカル領域に制限する手法や軸方向相互作用を拡張する優れた仕事がいくつか存在する。
– しかし、これらの手法は、しばしばローカル情報とグローバル情報の相互作用や、粗視化された情報のバランスを取ることに欠ける。
– これらの問題に対処するために、我々はAxWin Attentionを提案し、それにより、ローカルウィンドウと軸方向の両方でコンテキスト情報をモデル化することができます。
– AxWin Attentionに基づいて、コンテキストに敏感なVision TransformerバックボーンであるAxWin Transformerを開発しました。
– AxWin Transformerは最新の方法を凌駕し、分類および下流のセグメンテーションと検出の両方のタスクで優れた性能を発揮します。


Recently Transformer has shown good performance in several vision tasks due to its powerful modeling capabilities. To reduce the quadratic complexity caused by the attention, some outstanding work restricts attention to local regions or extends axial interactions. However, these methos often lack the interaction of local and global information, balancing coarse and fine-grained information. To address this problem, we propose AxWin Attention, which models context information in both local windows and axial views. Based on the AxWin Attention, we develop a context-aware vision transformer backbone, named AxWin Transformer, which outperforming the state-of-the-art methods in both classification and downstream segmentation and detection tasks.


著者 Fangjian Lin,Yizhe Ma,Sitong Wu,Long Yu,Shengwei Tian
発行日 2023-05-02 09:33:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CV パーマリンク