要約
タイトル: 軽量ビジョン・トランスフォーマーにおけるローカルパーセプションの再考
要約:
– Vision Transformer(ViT)は、さまざまなビジョンタスクで効果的であることが示されています。
– しかし、モバイルに適したサイズにリサイズすると、性能が大幅に劣化します。そのため、軽量ビジョン・トランスフォーマーの開発は、研究の重要な分野になっています。
– 本論文では、コンテキストに対応したローカル強化を活用する軽量ビジョン・トランスフォーマー、CloFormerを紹介しています。
– CloFormerは、通常バニラ畳み込み演算子で使用されるグローバルに共有される重みと、アテンションで出現するトークン固有のコンテキストに敏感な重みの関係を探求し、高周波のローカル情報を捕捉するための効果的で直感的なモジュールを提案します。
– CloFormerでは、アテンションのスタイルで畳み込み演算子であるAttnConvを導入しています。
– AttnConvは、共有された重みを使用してローカル情報を集約し、慎重に設計されたコンテキストに敏感な重みを使用してローカル特徴を強化することを提案しています。
– CloFormerのAttnConvとバニラ・アテンションの組み合わせによって、モデルは高周波と低周波の情報を認識できるようになります。
– 表象学習、物体検出、セマンティック・セグメンテーションの広範な実験において、CloFormerの優越性が示されました。
要約(オリジナル)
Vision Transformers (ViTs) have been shown to be effective in various vision tasks. However, resizing them to a mobile-friendly size leads to significant performance degradation. Therefore, developing lightweight vision transformers has become a crucial area of research. This paper introduces CloFormer, a lightweight vision transformer that leverages context-aware local enhancement. CloFormer explores the relationship between globally shared weights often used in vanilla convolutional operators and token-specific context-aware weights appearing in attention, then proposes an effective and straightforward module to capture high-frequency local information. In CloFormer, we introduce AttnConv, a convolution operator in attention’s style. The proposed AttnConv uses shared weights to aggregate local information and deploys carefully designed context-aware weights to enhance local features. The combination of the AttnConv and vanilla attention which uses pooling to reduce FLOPs in CloFormer enables the model to perceive high-frequency and low-frequency information. Extensive experiments were conducted in image classification, object detection, and semantic segmentation, demonstrating the superiority of CloFormer.
arxiv情報
| 著者 | Qihang Fan,Huaibo Huang,Jiyang Guan,Ran He |
| 発行日 | 2023-04-03 11:53:31+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI