要約
自己教師あり学習は、大きなモデルの事前トレーニングでは大きな進歩を遂げますが、小さなモデルのトレーニングでは苦労します。
この問題に対するこれまでの解決策は、主に知識の蒸留に依存しており、実際には 2 段階の学習手順があります。最初に大きな教師モデルをトレーニングし、次にそれを抽出して小さな教師モデルの一般化能力を向上させます。
この作業では、追加の教師なしで事前トレーニング済みの小さなモデルを取得するための新しい 1 段階のソリューションを提示します。それは、対照的な自己教師あり学習のためのスリム化可能なネットワーク (\emph{SlimCLR}) です。
スリム化可能なネットワークには、完全なネットワークといくつかの重みを共有するサブネットワークが含まれます。
1回だけの事前トレーニングで、計算コストの低い小さなネットワークを含むさまざまなネットワークを取得できます。
ただし、自己監視型の場合、重み共有ネットワーク間の干渉により、パフォーマンスが大幅に低下します。
干渉の証拠の 1 つは \emph{gradient imbalance} です。バックプロパゲーション中にごく一部のパラメータが優勢な勾配を生成し、主要なパラメータが完全に最適化されていない可能性があります。
さまざまなネットワークの勾配方向の発散も、ネットワーク間の干渉を引き起こす可能性があります。
これらの問題を克服するために、主なパラメーターが優勢な勾配を生成するようにし、サブネットワークのスロースタートトレーニング、オンライン蒸留、およびモデルサイズに応じた損失の再重み付けの 3 つの手法を使用して、サブネットワークに一貫したガイダンスを提供します。
さらに、重みを共有する線形層の干渉を避けるために、線形評価中に切り替え可能な線形プローブ層が適用されます。
典型的な対照学習フレームワークを使用して SlimCLR をインスタンス化し、より少ないパラメーターと FLOP で以前の技術よりも優れたパフォーマンスを達成します。
要約(オリジナル)
Self-supervised learning makes great progress in large model pre-training but suffers in training small models. Previous solutions to this problem mainly rely on knowledge distillation and indeed have a two-stage learning procedure: first train a large teacher model, then distill it to improve the generalization ability of small ones. In this work, we present a new one-stage solution to obtain pre-trained small models without extra teachers: slimmable networks for contrastive self-supervised learning (\emph{SlimCLR}). A slimmable network contains a full network and several weight-sharing sub-networks. We can pre-train for only one time and obtain various networks including small ones with low computation costs. However, in self-supervised cases, the interference between weight-sharing networks leads to severe performance degradation. One evidence of the interference is \emph{gradient imbalance}: a small proportion of parameters produces dominant gradients during backpropagation, and the main parameters may not be fully optimized. The divergence in gradient directions of various networks may also cause interference between networks. To overcome these problems, we make the main parameters produce dominant gradients and provide consistent guidance for sub-networks via three techniques: slow start training of sub-networks, online distillation, and loss re-weighting according to model sizes. Besides, a switchable linear probe layer is applied during linear evaluation to avoid the interference of weight-sharing linear layers. We instantiate SlimCLR with typical contrastive learning frameworks and achieve better performance than previous arts with fewer parameters and FLOPs.
arxiv情報
著者 | Shuai Zhao,Xiaohan Wang,Linchao Zhu,Yi Yang |
発行日 | 2022-09-30 15:15:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google