Rethinking Local Perception in Lightweight Vision Transformer

要約

タイトル:Lightweight Vision Transformerにおけるローカルパーセプションの再考

要約:
– Vision Transformers(ViTs)は、様々なビジョンタスクにおいて効果的であることが示されている。
– しかし、モバイルフレンドリーなサイズにリサイズすると、性能低下の問題が生じるため、軽量Vision Transformerの開発が重要な研究領域となっている。
– 本論文では、コンテキストに基づくローカルエンハンスメントを活用した軽量Vision TransformerであるCloFormerを紹介する。
– CloFormerでは、グローバルに共有される重みと、アテンションに現れるトークン固有のコンテキストに基づく重みとの関係を探求し、高周波数のローカル情報をキャプチャするために効果的で簡単なモジュールを提案する。
– CloFormerでは、アテンションのスタイルである畳み込み演算子AttnConvを導入する。AttnConvは、共有された重みを使用してローカル情報を集約し、注意力の特徴を強化するために注意深く設計されたコンテキストに基づく重みを展開する。
– CloFormerのAttnConvとプーリングを使用してFLOPsを削減するバニラアテンションの組み合わせにより、モデルは高周波数と低周波数の情報を認識できる。
– 画像分類、物体検出、セマンティックセグメンテーションにおいて幅広い実験が行われ、CloFormerの優位性が示された。

要約(オリジナル)

Vision Transformers (ViTs) have been shown to be effective in various vision tasks. However, resizing them to a mobile-friendly size leads to significant performance degradation. Therefore, developing lightweight vision transformers has become a crucial area of research. This paper introduces CloFormer, a lightweight vision transformer that leverages context-aware local enhancement. CloFormer explores the relationship between globally shared weights often used in vanilla convolutional operators and token-specific context-aware weights appearing in attention, then proposes an effective and straightforward module to capture high-frequency local information. In CloFormer, we introduce AttnConv, a convolution operator in attention’s style. The proposed AttnConv uses shared weights to aggregate local information and deploys carefully designed context-aware weights to enhance local features. The combination of the AttnConv and vanilla attention which uses pooling to reduce FLOPs in CloFormer enables the model to perceive high-frequency and low-frequency information. Extensive experiments were conducted in image classification, object detection, and semantic segmentation, demonstrating the superiority of CloFormer.

arxiv情報

著者 Qihang Fan,Huaibo Huang,Jiyang Guan,Ran He
発行日 2023-05-11 04:33:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク