Learning Spatially-Adaptive Squeeze-Excitation Networks for Image Synthesis and Image Recognition

要約

画像合成と画像認識の両方において、軽量でありながら表現力のあるディープネットワークを学習することは、依然として困難な問題である。本論文では、Transformerモデルにおけるマルチヘッド自己注意(MHSA)を強力にするのはデータ特異性であるという最近の観察に触発されて、広く採用されている軽量なSqueeze-Excitation(SE)モジュールを、SEの効率性と畳み込みの誘導基礎を保持しながら、MHSAの畳み込み代替手段として、そのデータ特異性を強化する空間適応型に拡張することを提案する。本論文では、画像合成と画像認識のための空間適応型スクイーズ励起(SASE)モジュールの2つの設計をそれぞれ紹介する。画像合成タスクについては、提案するSASEをローショットとワンショットの両方の学習タスクでテストする。その結果、先行技術よりも優れた性能を示すことがわかった。画像認識タスクでは、提案するSASEはResNetsの畳み込み層のドロップイン置き換えとして用いられ、バニラResNetsよりもはるかに良い精度を達成し、ImageNet-1000データセットにおけるSwin-TransformerやPyramid-TransformerなどのMHSA対応よりもわずかに良い、かなり小さいモデルで達成しています。

要約(オリジナル)

Learning light-weight yet expressive deep networks in both image synthesis and image recognition remains a challenging problem. Inspired by a more recent observation that it is the data-specificity that makes the multi-head self-attention (MHSA) in the Transformer model so powerful, this paper proposes to extend the widely adopted light-weight Squeeze-Excitation (SE) module to be spatially-adaptive to reinforce its data specificity, as a convolutional alternative of the MHSA, while retaining the efficiency of SE and the inductive basis of convolution. It presents two designs of spatially-adaptive squeeze-excitation (SASE) modules for image synthesis and image recognition respectively. For image synthesis tasks, the proposed SASE is tested in both low-shot and one-shot learning tasks. It shows better performance than prior arts. For image recognition tasks, the proposed SASE is used as a drop-in replacement for convolution layers in ResNets and achieves much better accuracy than the vanilla ResNets, and slightly better than the MHSA counterparts such as the Swin-Transformer and Pyramid-Transformer in the ImageNet-1000 dataset, with significantly smaller models.

arxiv情報

著者 Jianghao Shen,Tianfu Wu
発行日 2022-10-03 14:54:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク