SCSC: Spatial Cross-scale Convolution Module to Strengthen both CNNs and Transformers

要約

このペーパーでは、CNN とトランスフォーマーの両方を改善するのに効果的であることが検証されたモジュール、空間クロススケール コンボリューション (SCSC) について説明します。
現在、CNN と Transformer はさまざまなタスクで成功を収めています。
特にトランスフォーマーに関しては、コンピュータ ビジョン コミュニティで最先端のパフォーマンスを実現する作品が増えています。
したがって、研究者はそれらのアーキテクチャのメカニズムを調査し始めます。
大きな受容野、まばらな接続、重みの共有、および動的重みが、効果的な基本モデルを設計するための鍵であると考えられてきました。
ただし、まだ対処すべき問題がいくつかあります。大きくて高密度のカーネルと自己注意は非効率的であり、受容野が大きいため局所的な特徴を捕捉するのが困難です。
上記の分析に触発され、前述の問題を解決するために、この論文では、CNN とトランスフォーマーの両方を強化するために、これらの設計キーを取り入れた一般的なモジュールを設計します。
SCSC は、さまざまな特徴を 1 つのレイヤーでキャプチャするための効率的な空間クロススケール エンコーダーと空間埋め込みモジュールを導入しています。
顔認識タスクでは、SCSC を使用した FaceResNet により、FLOP が 68%、パラメータが 79% 減り、2.7% 改善できます。
ImageNet 分類タスクでは、SCSC を使用した Swin Transformer は 22% 少ない FLOP でさらに優れたパフォーマンスを達成でき、CSCS を使用した ResNet は同様の複雑さで 5.3% 向上できます。
さらに、SCSC が組み込まれた従来のネットワーク (ResNet など) は、Swin Transformer のパフォーマンスに匹敵することができます。

要約(オリジナル)

This paper presents a module, Spatial Cross-scale Convolution (SCSC), which is verified to be effective in improving both CNNs and Transformers. Nowadays, CNNs and Transformers have been successful in a variety of tasks. Especially for Transformers, increasing works achieve state-of-the-art performance in the computer vision community. Therefore, researchers start to explore the mechanism of those architectures. Large receptive fields, sparse connections, weight sharing, and dynamic weight have been considered keys to designing effective base models. However, there are still some issues to be addressed: large dense kernels and self-attention are inefficient, and large receptive fields make it hard to capture local features. Inspired by the above analyses and to solve the mentioned problems, in this paper, we design a general module taking in these design keys to enhance both CNNs and Transformers. SCSC introduces an efficient spatial cross-scale encoder and spatial embed module to capture assorted features in one layer. On the face recognition task, FaceResNet with SCSC can improve 2.7% with 68% fewer FLOPs and 79% fewer parameters. On the ImageNet classification task, Swin Transformer with SCSC can achieve even better performance with 22% fewer FLOPs, and ResNet with CSCS can improve 5.3% with similar complexity. Furthermore, a traditional network (e.g., ResNet) embedded with SCSC can match Swin Transformer’s performance.

arxiv情報

著者 Xijun Wang,Xiaojie Chu,Chunrui Han,Xiangyu Zhang
発行日 2023-08-14 12:49:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク