Amortised Invariance Learning for Contrastive Self-Supervision

要約

対照的な自己教師あり学習法は、さまざまなデータ拡張に対する不変性を学習することにより、高品質の転送可能な表現を生成することで有名です。
事前トレーニング中に確立された不変性は、強い誘導バイアスとして解釈できます。
ただし、これらは、下流のタスクの不変性要件に一致するかどうかによって、役立つ場合とそうでない場合があります。
これにより、事前トレーニング中にタスク固有の不変性を学習する試みがいくつか行われましたが、これらの方法は非常に計算量が多く、トレーニングが面倒です。
対照的な自己監督のための償却された不変性学習の概念を紹介します。
トレーニング前の段階では、表現によってエンコードされた不変性を制御する微分可能な不変性ハイパーパラメーターによって特徴抽出器をパラメーター化します。
次に、下流のタスクについて、線形読み出しとタスク固有の不変要件の両方を勾配降下法によって効率的かつ効果的に学習できます。
ビジョンとオーディオの 2 つの異なるモダリティでの対照学習の償却された不変性の概念を、ビジョンで広く使用されている 2 つの対照学習方法で評価します。ResNets や Vision Transformers などの一般的なアーキテクチャを使用した SimCLR と MoCo-v2、および ResNet-18 を使用した SimCLR です。
オーディオ用。
償却された機能は、単一の機能を使用してタスク固有の事前トレーニングを回避しながら、さまざまな不変性要件を持つ多様なダウンストリーム タスクを学習する信頼できる方法を提供することを示します。
これは、汎用表現学習の分野に新たな地平を開くエキサイティングな視点を提供します。

要約(オリジナル)

Contrastive self-supervised learning methods famously produce high quality transferable representations by learning invariances to different data augmentations. Invariances established during pre-training can be interpreted as strong inductive biases. However these may or may not be helpful, depending on if they match the invariance requirements of downstream tasks or not. This has led to several attempts to learn task-specific invariances during pre-training, however, these methods are highly compute intensive and tedious to train. We introduce the notion of amortised invariance learning for contrastive self supervision. In the pre-training stage, we parameterize the feature extractor by differentiable invariance hyper-parameters that control the invariances encoded by the representation. Then, for any downstream task, both linear readout and task-specific invariance requirements can be efficiently and effectively learned by gradient-descent. We evaluate the notion of amortised invariances for contrastive learning over two different modalities: vision and audio, on two widely-used contrastive learning methods in vision: SimCLR and MoCo-v2 with popular architectures like ResNets and Vision Transformers, and SimCLR with ResNet-18 for audio. We show that our amortised features provide a reliable way to learn diverse downstream tasks with different invariance requirements, while using a single feature and avoiding task-specific pre-training. This provides an exciting perspective that opens up new horizons in the field of general purpose representation learning.

arxiv情報

著者 Ruchika Chavhan,Henry Gouk,Jan Stuehmer,Calum Heggan,Mehrdad Yaghoobi,Timothy Hospedales
発行日 2023-02-24 16:15:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク