The Counterattack of CNNs in Self-Supervised Learning: Larger Kernel Size might be All You Need

要約

ビジョン トランスフォーマーは、その優れたスケーリング トレンドのおかげでコンピューター ビジョンで急速に台頭しており、畳み込みニューラル ネットワーク (CNN) に徐々に取って代わられています。
自己教師あり学習 (SSL) に関する最近の研究では、シャムの事前トレーニング タスクが導入されており、このタスクにおいて Transformer バックボーンは CNN よりも強力な結果を示し続けています。
人々は、SSL のコンテキストでは、本質的に CNN よりもトランスフォーマーまたはセルフアテンション モジュールの方が適していると考えるようになります。
ただし、CNN を使用した SSL の先行技術のすべてではないにしても、そのほとんどが標準の ResNet をバックボーンとして選択していることは注目に値します。そのアーキテクチャの有効性はすでに高度な Vision Transformers よりも遅れていることが知られています。
したがって、セルフ アテンション オペレーションが SSL の最近の進歩にとって重要であるのか、それとも CNN がより高度な設計でも同様の卓越性を提供できるのかは不明のままです。
Transformer と CNN の間の SSL パフォーマンスのギャップを埋めることはできるでしょうか?
これらの興味深い質問に答えるために、最近提案された強力なラガーカーネル CNN アーキテクチャに自己教師ありの事前トレーニングを適用し、SSL パフォーマンスに関して Transformers との同一比較を実施します。
私たちの結果は、他の小さな調整に加えて畳み込みカーネルのサイズをスケールアップするだけで、SSL でトレーニングされた最高の Transformer と同等以上のパフォーマンスを発揮する純粋な CNN SSL アーキテクチャを構築できることを示しています。
印象的なことに、下流のタスク \texttt{MS COCO} の検出とセグメンテーションに転送すると、SSL 事前トレーニング済み CNN モデル (100 エポックでトレーニング済み) は、300 エポックで事前トレーニング済みの Transformer モデルと同等の優れたパフォーマンスを達成します。
この研究が、自己教師あり学習のバックボーンに何が不可欠であるか (またはそうでないのか) をより深く理解するのに役立つことを願っています。

要約(オリジナル)

Vision Transformers have been rapidly uprising in computer vision thanks to their outstanding scaling trends, and gradually replacing convolutional neural networks (CNNs). Recent works on self-supervised learning (SSL) introduce siamese pre-training tasks, on which Transformer backbones continue to demonstrate ever stronger results than CNNs. People come to believe that Transformers or self-attention modules are inherently more suitable than CNNs in the context of SSL. However, it is noteworthy that most if not all prior arts of SSL with CNNs chose the standard ResNets as their backbones, whose architecture effectiveness is known to already lag behind advanced Vision Transformers. Therefore, it remains unclear whether the self-attention operation is crucial for the recent advances in SSL – or CNNs can deliver the same excellence with more advanced designs, too? Can we close the SSL performance gap between Transformers and CNNs? To answer these intriguing questions, we apply self-supervised pre-training to the recently proposed, stronger lager-kernel CNN architecture and conduct an apple-to-apple comparison with Transformers, in their SSL performance. Our results show that we are able to build pure CNN SSL architectures that perform on par with or better than the best SSL-trained Transformers, by just scaling up convolutional kernel sizes besides other small tweaks. Impressively, when transferring to the downstream tasks \texttt{MS COCO} detection and segmentation, our SSL pre-trained CNN model (trained in 100 epochs) achieves the same good performance as the 300-epoch pre-trained Transformer counterpart. We hope this work can help to better understand what is essential (or not) for self-supervised learning backbones.

arxiv情報

著者 Tianjin Huang,Tianlong Chen,Zhangyang Wang,Shiwei Liu
発行日 2023-12-12 18:23:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク