Co-training $2^L$ Submodels for Visual Recognition

要約

サブモデルの共同トレーニング、共同トレーニング、自己蒸留、確率的深さに関連する正則化方法を紹介します。
トレーニングするニューラル ネットワークが与えられた場合、サンプルごとに、2 つの変更されたネットワーク「サブモデル」を確率的深さで暗黙的にインスタンス化します。レイヤーのサブセットのみをアクティブにします。
各ネットワークは、ワンホット ラベルによって提供される通常の損失を補完する損失を提供することにより、他のネットワークのソフト ティーチャーとして機能します。
cosub と呼ばれる私たちのアプローチは、単一の重みセットを使用し、事前にトレーニングされた外部モデルや時間平均を必要としません。
実験的に、サブモデルの共同トレーニングが、画像分類やセマンティック セグメンテーションなどの認識タスクのバックボーンをトレーニングするのに効果的であることを示しています。
私たちのアプローチは、RegNet、ViT、PiT、XCiT、Swin、ConvNext など、複数のアーキテクチャと互換性があります。
私たちのトレーニング戦略は、同等の設定での結果を改善します。
たとえば、ImageNet-21k で cosub を使用して事前トレーニングされた ViT-B は、87.4% のトップ 1 acc を取得します。
ImageNet-val で @448。

要約(オリジナル)

We introduce submodel co-training, a regularization method related to co-training, self-distillation and stochastic depth. Given a neural network to be trained, for each sample we implicitly instantiate two altered networks, “submodels”, with stochastic depth: we activate only a subset of the layers. Each network serves as a soft teacher to the other, by providing a loss that complements the regular loss provided by the one-hot label. Our approach, dubbed cosub, uses a single set of weights, and does not involve a pre-trained external model or temporal averaging. Experimentally, we show that submodel co-training is effective to train backbones for recognition tasks such as image classification and semantic segmentation. Our approach is compatible with multiple architectures, including RegNet, ViT, PiT, XCiT, Swin and ConvNext. Our training strategy improves their results in comparable settings. For instance, a ViT-B pretrained with cosub on ImageNet-21k obtains 87.4% top-1 acc. @448 on ImageNet-val.

arxiv情報

著者 Hugo Touvron,Matthieu Cord,Maxime Oquab,Piotr Bojanowski,Jakob Verbeek,Hervé Jégou
発行日 2022-12-09 14:38:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク