要約
自己教師あり学習 (SSL) は、ラベルのないデータから学習するための強力な手法です。
適用されたデータ拡張に対して不変性を保つことを学習することで、SimCLR や MoCo などの手法は教師ありアプローチと同等の品質を達成できます。
ただし、この不変性は、色など、事前トレーニング中に使用される拡張によって影響を受ける特性に依存する下流のタスクを解決する場合に悪影響を与える可能性があります。
この論文では、自己監視型アーキテクチャの一般的なコンポーネントであるプロジェクター ネットワークを変更することで、表現空間におけるそのような特性に対する感度を高めることを提案します。
具体的には、画像に適用される拡張に関する情報をプロジェクターに追加します。
プロジェクターが SSL タスクを解決する際にこの補助条件付けを利用できるように、特徴抽出器は表現内の拡張情報を保存することを学習します。
私たちのアプローチは、Conditional Augmentation-aware Self-supervised Learning (CASSLE) という造語であり、目的関数に関係なく、典型的な共同埋め込み SSL 手法に直接適用できます。
さらに、ネットワーク アーキテクチャに大きな変更を加えたり、ダウンストリーム タスクに関する事前の知識を必要としません。
さまざまなデータ拡張に対する感度の分析に加えて、一連の実験を実施しました。その結果、CASSLE がさまざまな SSL 手法よりも向上し、複数の下流タスクで最先端のパフォーマンスに達することが示されました。
要約(オリジナル)
Self-supervised learning (SSL) is a powerful technique for learning from unlabeled data. By learning to remain invariant to applied data augmentations, methods such as SimCLR and MoCo can reach quality on par with supervised approaches. However, this invariance may be detrimental for solving downstream tasks that depend on traits affected by augmentations used during pretraining, such as color. In this paper, we propose to foster sensitivity to such characteristics in the representation space by modifying the projector network, a common component of self-supervised architectures. Specifically, we supplement the projector with information about augmentations applied to images. For the projector to take advantage of this auxiliary conditioning when solving the SSL task, the feature extractor learns to preserve the augmentation information in its representations. Our approach, coined Conditional Augmentation-aware Self-supervised Learning (CASSLE), is directly applicable to typical joint-embedding SSL methods regardless of their objective functions. Moreover, it does not require major changes in the network architecture or prior knowledge of downstream tasks. In addition to an analysis of sensitivity towards different data augmentations, we conduct a series of experiments, which show that CASSLE improves over various SSL methods, reaching state-of-the-art performance in multiple downstream tasks.
arxiv情報
著者 | Marcin Przewięźlikowski,Mateusz Pyla,Bartosz Zieliński,Bartłomiej Twardowski,Jacek Tabor,Marek Śmieja |
発行日 | 2024-10-15 16:31:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google