Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling

要約

我々は、BERTスタイルの事前訓練、すなわちマスク画像のモデリングの成功を畳み込みネットワーク(convnets)に拡張する際の2つの重要な障害を特定し、克服した。(i)畳み込み演算は不規則でランダムなマスクの入力画像を扱えない。(ii)BERT事前学習のシングルスケールの性質はコンボネットの階層的構造と矛盾している。(i)については、マスクされていない画素を3次元点群の疎なボクセルとして扱い、疎な畳み込みを利用して符号化する。これは、2次元のマスキングされたモデリングにスパースコンボリューションを用いた最初の例である。(ii)については、マルチスケールで符号化された特徴量から画像を再構成するための階層的デコーダを開発する。我々の手法はスパースマスクドモデリング(SparK)と呼ばれ、バックボーンを変更することなく、あらゆる畳み込みモデルに直接利用できる一般的なものである。我々はこの手法を古典的なResNetと最新のConvNeXtの両方で検証し、3つの下流タスクにおいて、最新のコントラスト学習と変換器ベースのマスキングモデリングの両方を同様に大きなマージン(約1.0%)で上回ることを確認しました。また、物体検出とインスタンス分割では、より大きな改善(最大+3.5%)が見られ、学習された特徴の強い移植性が検証された。また、大規模なモデルでより大きな効果を得ることができ、その良好なスケーリング特性も確認された。これらの証拠から、コンブネットにおける生成的な事前学習の将来が期待されます。コードとモデルは、https://github.com/keyu-tian/SparK で公開されています。

要約(オリジナル)

We identify and overcome two key obstacles in extending the success of BERT-style pre-training, or the masked image modeling, to convolutional networks (convnets): (i) convolution operation cannot handle irregular, random-masked input images; (ii) the single-scale nature of BERT pre-training is inconsistent with convnet’s hierarchical structure. For (i), we treat unmasked pixels as sparse voxels of 3D point clouds and use sparse convolution to encode. This is the first use of sparse convolution for 2D masked modeling. For (ii), we develop a hierarchical decoder to reconstruct images from multi-scale encoded features. Our method called Sparse masKed modeling (SparK) is general: it can be used directly on any convolutional model without backbone modifications. We validate it on both classical (ResNet) and modern (ConvNeXt) models: on three downstream tasks, it surpasses both state-of-the-art contrastive learning and transformer-based masked modeling by similarly large margins (around +1.0%). Improvements on object detection and instance segmentation are more substantial (up to +3.5%), verifying the strong transferability of features learned. We also find its favorable scaling behavior by observing more gains on larger models. All this evidence reveals a promising future of generative pre-training on convnets. Codes and models are released at https://github.com/keyu-tian/SparK.

arxiv情報

著者 Keyu Tian,Yi Jiang,Qishuai Diao,Chen Lin,Liwei Wang,Zehuan Yuan
発行日 2023-01-10 08:02:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク