ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders

要約

改善されたアーキテクチャとより優れた表現学習フレームワークに後押しされて、視覚認識の分野は 2020 年代初頭に急速な近代化とパフォーマンスの向上を享受しました。
たとえば、ConvNeXt に代表される最新の ConvNet は、さまざまなシナリオで優れたパフォーマンスを発揮しています。
これらのモデルは、もともと ImageNet ラベルを使用した教師あり学習用に設計されたものですが、マスク オートエンコーダー (MAE) などの自己教師あり学習手法の恩恵を受ける可能性もあります。
ただし、これら 2 つのアプローチを組み合わせるだけで、標準以下のパフォーマンスにつながることがわかりました。
このホワイト ペーパーでは、完全な畳み込みマスク オートエンコーダ フレームワークと、チャネル間機能の競合を強化するために ConvNeXt アーキテクチャに追加できる新しいグローバル レスポンス ノーマライゼーション (GRN) レイヤを提案します。
この自己教師あり学習手法とアーキテクチャの改善の共同設計により、ConvNeXt V2 と呼ばれる新しいモデル ファミリが生まれました。これにより、ImageNet 分類、COCO 検出、ADE20K セグメンテーションなど、さまざまな認識ベンチマークで純粋な ConvNet のパフォーマンスが大幅に向上します。
また、ImageNet で 76.7% のトップ 1 精度を持つ効率的な 3.7M パラメータの Atto モデルから、最先端の 88.9% を達成する 650M の Huge モデルまで、さまざまなサイズの事前トレーニング済み ConvNeXt V2 モデルを提供します。
公開されているトレーニング データのみを使用して精度を向上させます。

要約(オリジナル)

Driven by improved architectures and better representation learning frameworks, the field of visual recognition has enjoyed rapid modernization and performance boost in the early 2020s. For example, modern ConvNets, represented by ConvNeXt, have demonstrated strong performance in various scenarios. While these models were originally designed for supervised learning with ImageNet labels, they can also potentially benefit from self-supervised learning techniques such as masked autoencoders (MAE). However, we found that simply combining these two approaches leads to subpar performance. In this paper, we propose a fully convolutional masked autoencoder framework and a new Global Response Normalization (GRN) layer that can be added to the ConvNeXt architecture to enhance inter-channel feature competition. This co-design of self-supervised learning techniques and architectural improvement results in a new model family called ConvNeXt V2, which significantly improves the performance of pure ConvNets on various recognition benchmarks, including ImageNet classification, COCO detection, and ADE20K segmentation. We also provide pre-trained ConvNeXt V2 models of various sizes, ranging from an efficient 3.7M-parameter Atto model with 76.7% top-1 accuracy on ImageNet, to a 650M Huge model that achieves a state-of-the-art 88.9% accuracy using only public training data.

arxiv情報

著者 Sanghyun Woo,Shoubhik Debnath,Ronghang Hu,Xinlei Chen,Zhuang Liu,In So Kweon,Saining Xie
発行日 2023-01-02 18:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク