Lightweight Vision Transformer with Cross Feature Attention

要約

ビジョン トランスフォーマー (ViT) の最近の進歩により、視覚認識タスクにおいて優れたパフォーマンスが達成されました。
畳み込みニューラル ネットワーク (CNN) は空間誘導バイアスを利用して視覚表現を学習しますが、これらのネットワークは空間的にローカルです。
ViT は自己注意メカニズムを使用してグローバル表現を学習できますが、通常は重量が重く、モバイル デバイスには適していません。
この論文では、トランスフォーマーの計算コストを削減するクロスフィーチャ アテンション (XFA) を提案し、効率的なモバイル CNN を組み合わせて、汎用バックボーンとして機能できる新しい効率的な軽量 CNN-ViT ハイブリッド モデル XFormer を形成します。
グローバル表現とローカル表現の両方を学びます。
実験結果は、XFormer がさまざまなタスクやデータセットにわたって多数の CNN および ViT ベースのモデルよりも優れたパフォーマンスを発揮することを示しています。
ImageNet1K データセットでは、XFormer は 550 万のパラメーターで 78.5% のトップ 1 の精度を達成しています。これは、同様の数のパラメーターの EfficientNet-B0 (CNN ベース) や DeiT (ViT ベース) よりも 2.2% および 6.3% 高い精度です。
私たちのモデルは、オブジェクト検出タスクやセマンティック セグメンテーション タスクに移行するときにも良好にパフォーマンスします。
MS COCO データセットでは、XFormer は、わずか 6.3M パラメータと 3.8G FLOP の YOLOv3 フレームワークで MobileNetV2 を 10.5 AP (22.7 -> 33.2 AP) 上回っています。
Cityscapes データセットでは、シンプルな全 MLP デコーダのみを使用して、XFormer は 78.5 の mIoU と 15.3 の FPS を達成し、最先端の軽量セグメンテーション ネットワークを上回ります。

要約(オリジナル)

Recent advances in vision transformers (ViTs) have achieved great performance in visual recognition tasks. Convolutional neural networks (CNNs) exploit spatial inductive bias to learn visual representations, but these networks are spatially local. ViTs can learn global representations with their self-attention mechanism, but they are usually heavy-weight and unsuitable for mobile devices. In this paper, we propose cross feature attention (XFA) to bring down computation cost for transformers, and combine efficient mobile CNNs to form a novel efficient light-weight CNN-ViT hybrid model, XFormer, which can serve as a general-purpose backbone to learn both global and local representation. Experimental results show that XFormer outperforms numerous CNN and ViT-based models across different tasks and datasets. On ImageNet1K dataset, XFormer achieves top-1 accuracy of 78.5% with 5.5 million parameters, which is 2.2% and 6.3% more accurate than EfficientNet-B0 (CNN-based) and DeiT (ViT-based) for similar number of parameters. Our model also performs well when transferring to object detection and semantic segmentation tasks. On MS COCO dataset, XFormer exceeds MobileNetV2 by 10.5 AP (22.7 -> 33.2 AP) in YOLOv3 framework with only 6.3M parameters and 3.8G FLOPs. On Cityscapes dataset, with only a simple all-MLP decoder, XFormer achieves mIoU of 78.5 and FPS of 15.3, surpassing state-of-the-art lightweight segmentation networks.

arxiv情報

著者 Youpeng Zhao,Huadong Tang,Yingying Jiang,Yong A,Qiang Wu
発行日 2023-07-05 16:11:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク