LightViT: Towards Light-Weight Convolution-Free Vision Transformers

要約

ビジョントランスフォーマー(ViT)は、誘導バイアスがないため、通常、畳み込みニューラルネットワーク(CNN)よりも軽量であると見なされます。
したがって、最近の作品は、プラグアンドプレイモジュールとして畳み込みに頼り、それらをさまざまなViTの対応物に埋め込みます。
この論文では、畳み込みカーネルがすべてのトークンを接続するために情報集約を実行することを主張します。
ただし、この明示的な集約がより均一な方法で機能する場合は、軽量ViTには実際には不要です。
これに触発されて、LightViTを軽量ViTの新しいファミリとして提示し、畳み込みのない純粋なトランスブロックでより優れた精度と効率のバランスを実現します。
具体的には、ViTの自己注意ネットワークとフィードフォワードネットワーク(FFN)の両方に、グローバルでありながら効率的な集約スキームを導入します。ここでは、グローバルな依存関係をキャプチャするために追加の学習可能なトークンが導入されます。
トークンの埋め込みには、2次元のチャネルと空間的な注意が課せられます。
実験は、私たちのモデルが画像分類、オブジェクト検出、およびセマンティックセグメンテーションタスクで大幅な改善を達成することを示しています。
たとえば、LightViT-Tは、わずか0.7GのフロップでImageNetで78.7%の精度を達成し、GPUで11%高速であるのに対し、PVTv2-B0を8.2%上回っています。
コードはhttps://github.com/hunto/LightViTで入手できます。

要約(オリジナル)

Vision transformers (ViTs) are usually considered to be less light-weight than convolutional neural networks (CNNs) due to the lack of inductive bias. Recent works thus resort to convolutions as a plug-and-play module and embed them in various ViT counterparts. In this paper, we argue that the convolutional kernels perform information aggregation to connect all tokens; however, they would be actually unnecessary for light-weight ViTs if this explicit aggregation could function in a more homogeneous way. Inspired by this, we present LightViT as a new family of light-weight ViTs to achieve better accuracy-efficiency balance upon the pure transformer blocks without convolution. Concretely, we introduce a global yet efficient aggregation scheme into both self-attention and feed-forward network (FFN) of ViTs, where additional learnable tokens are introduced to capture global dependencies; and bi-dimensional channel and spatial attentions are imposed over token embeddings. Experiments show that our model achieves significant improvements on image classification, object detection, and semantic segmentation tasks. For example, our LightViT-T achieves 78.7% accuracy on ImageNet with only 0.7G FLOPs, outperforming PVTv2-B0 by 8.2% while 11% faster on GPU. Code is available at https://github.com/hunto/LightViT.

arxiv情報

著者 Tao Huang,Lang Huang,Shan You,Fei Wang,Chen Qian,Chang Xu
発行日 2022-07-12 14:27:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク