Feature Dropout: Revisiting the Role of Augmentations in Contrastive Learning

要約

対照学習においてオーグメンテーションはどのような役割を果たしますか?
最近の研究では、特定のダウンストリーム タスクに関して、適切な増強がラベルを保持することが示唆されています。
複数のダウンストリーム タスクの多様な汎用表現を学習することが目標である基礎モデルの設定では、ラベルを破壊する拡張が役立つ可能性があることを示すことで、この状況を複雑にしています。
複数のダウンストリームタスクを使用して、さまざまな画像および音声データセットで対照的な学習実験を実行します(たとえば、写真に重ねられた数字の場合、一方と他方のクラスを予測します)。
Viewmaker Networks は、対照学習の増強を学習するために最近提案されたモデルであり、さまざまなダウンストリーム タスクに必要な機能を確率的に破壊するラベル破壊増強を生成することがわかりました。
これらの拡張は解釈可能であり (たとえば、画像に追加された形状、数字、または文字を変更するなど)、驚くべきことに、ラベル情報を保持しないにもかかわらず、専門家が設計した拡張と比較してパフォーマンスが向上することがよくあります。
経験的な結果をサポートするために、線形モデルを使用して単純な対照学習設定を理論的に分析します。
この設定では、1 つの機能セットが別のダウンストリーム タスクに役立つ機能の学習を抑制するのを防ぐために、ラベル破壊の拡張が重要です。
私たちの結果は、基礎モデルの成功を説明しようとするとき、複数のダウンストリーム タスク間の相互作用を分析する必要性を強調しています。

要約(オリジナル)

What role do augmentations play in contrastive learning? Recent work suggests that good augmentations are label-preserving with respect to a specific downstream task. We complicate this picture by showing that label-destroying augmentations can be useful in the foundation model setting, where the goal is to learn diverse, general-purpose representations for multiple downstream tasks. We perform contrastive learning experiments on a range of image and audio datasets with multiple downstream tasks (e.g. for digits superimposed on photographs, predicting the class of one vs. the other). We find that Viewmaker Networks, a recently proposed model for learning augmentations for contrastive learning, produce label-destroying augmentations that stochastically destroy features needed for different downstream tasks. These augmentations are interpretable (e.g. altering shapes, digits, or letters added to images) and surprisingly often result in better performance compared to expert-designed augmentations, despite not preserving label information. To support our empirical results, we theoretically analyze a simple contrastive learning setting with a linear model. In this setting, label-destroying augmentations are crucial for preventing one set of features from suppressing the learning of features useful for another downstream task. Our results highlight the need for analyzing the interaction between multiple downstream tasks when trying to explain the success of foundation models.

arxiv情報

著者 Alex Tamkin,Margalit Glasgow,Xiluo He,Noah Goodman
発行日 2022-12-16 10:08:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS パーマリンク