Dual Complementary Dynamic Convolution for Image Recognition

要約

強力なエンジンとして、バニラ畳み込みはさまざまなコンピューター タスクで大きなブレークスルーを促進しました。
ただし、多くの場合、サンプルとコンテンツに依存しない問題があり、畳み込みニューラル ネットワーク (CNN) の表現能力が制限されます。
この論文では、個人が所有するローカル空間適応部分とすべての個人に共有されるグローバルシフト不変部分の組み合わせとしてシーンの特徴を初めてモデル化し、新しい2ブランチデュアル補完ダイナミックを提案します
畳み込み (DCDC) 演算子を使用して、これら 2 種類の機能を柔軟に処理できます。
DCDC オペレーターは、通常の畳み込みと、空間適応機能のみをキャプチャするほとんどの既存の動的畳み込みの制限を克服し、CNN の表現能力を著しく向上させます。
実験によると、DCDC オペレーター ベースの ResNets (DCDC-ResNets) は、通常の ResNets や、画像分類に関する最先端の動的畳み込みネットワーク、およびオブジェクト検出、インスタンス、パノプティック セグメンテーション タスクなどのダウンストリーム タスクよりも大幅に優れていることが示されています。
FLOPS とパラメータを下げます。

要約(オリジナル)

As a powerful engine, vanilla convolution has promoted huge breakthroughs in various computer tasks. However, it often suffers from sample and content agnostic problems, which limits the representation capacities of the convolutional neural networks (CNNs). In this paper, we for the first time model the scene features as a combination of the local spatial-adaptive parts owned by the individual and the global shift-invariant parts shared to all individuals, and then propose a novel two-branch dual complementary dynamic convolution (DCDC) operator to flexibly deal with these two types of features. The DCDC operator overcomes the limitations of vanilla convolution and most existing dynamic convolutions who capture only spatial-adaptive features, and thus markedly boosts the representation capacities of CNNs. Experiments show that the DCDC operator based ResNets (DCDC-ResNets) significantly outperform vanilla ResNets and most state-of-the-art dynamic convolutional networks on image classification, as well as downstream tasks including object detection, instance and panoptic segmentation tasks, while with lower FLOPs and parameters.

arxiv情報

著者 Longbin Yan,Yunxiao Qin,Shumin Liu,Jie Chen
発行日 2022-11-11 12:32:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク