A surprisingly simple technique to control the pretraining bias for better transfer: Expand or Narrow your representation

要約

タイトル:表現を拡大または縮小することで事前学習バイアスを制御する驚くべき簡単な技術

要約:

– Self-Supervised Learning(SSL)モデルは、表現を学習するための前提タスクに依存しています。
– これらのモデルのパフォーマンスを評価するために使用されるダウンストリームタスクと前提タスクが異なるため、潜在的に調整不良または事前学習バイアスがあります。
– SSLでよく使用されるトリックは、トレーニング中に背骨ネットワークの上に小さなプロジェクター(通常は2層または3層のマルチレイヤーパーセプトロン)を追加することで、深いネットワークをより堅牢にすることができます。
– 過去の研究では、プロジェクターアーキテクチャの影響を研究したものの、私たちは単純で見過ごされがちなレバーに焦点を当てています。
– バックボーン表現の情報を制御するために、最後のブロックのサイズだけを変更することで次元数を変更するだけで、その事前学習バイアスを軽減する非常に効果的な技術であることを示します。
– Self-Supervised pre-trainedモデルとSupervised pre-trainedモデルの両方において、ダウンストリーム転送パフォーマンスを大幅に向上させます。

要約(オリジナル)

Self-Supervised Learning (SSL) models rely on a pretext task to learn representations. Because this pretext task differs from the downstream tasks used to evaluate the performance of these models, there is an inherent misalignment or pretraining bias. A commonly used trick in SSL, shown to make deep networks more robust to such bias, is the addition of a small projector (usually a 2 or 3 layer multi-layer perceptron) on top of a backbone network during training. In contrast to previous work that studied the impact of the projector architecture, we here focus on a simpler, yet overlooked lever to control the information in the backbone representation. We show that merely changing its dimensionality — by changing only the size of the backbone’s very last block — is a remarkably effective technique to mitigate the pretraining bias. It significantly improves downstream transfer performance for both Self-Supervised and Supervised pretrained models.

arxiv情報

著者 Florian Bordes,Samuel Lavoie,Randall Balestriero,Nicolas Ballas,Pascal Vincent
発行日 2023-04-11 17:24:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク