Can Generative Models Improve Self-Supervised Representation Learning?

要約

自己教師あり表現学習の急速な進歩により、ラベルのないデータを活用してリッチな視覚表現を学習できる可能性が浮き彫りになりました。
しかし、既存の技術、特に同じ画像のさまざまな拡張を使用する技術は、多くの場合、現実世界の変化を完全に捉えることができない、限られた単純な変換セットに依存しています。
これにより、サンプルの多様性と品質が制限され、次善の表現が得られます。
この論文では、生成モデルを利用して意味的に一貫した画像拡張を生成することにより、自己教師あり学習 (SSL) パラダイムを強化するフレームワークを紹介します。
ソース画像上で生成モデルを直接調整することにより、私たちの方法はソース画像のセマンティクスを維持しながら多様な拡張の生成を可能にし、SSL 用のより豊富なデータセットを提供します。
さまざまな共同埋め込み SSL 技術に関する広範な実験結果は、私たちのフレームワークが下流タスクで最大 10\% のトップ 1 精度により、学習された視覚表現の品質を大幅に向上させることを示しています。
この研究は、生成モデルを共同埋め込み SSL ワークフローに組み込むことで、合成データの可能性を探求するための新しい道が開かれることを実証しています。
この開発により、より堅牢で汎用性の高い表現学習手法への道が開かれます。

要約(オリジナル)

The rapid advancement in self-supervised representation learning has highlighted its potential to leverage unlabeled data for learning rich visual representations. However, the existing techniques, particularly those employing different augmentations of the same image, often rely on a limited set of simple transformations that cannot fully capture variations in the real world. This constrains the diversity and quality of samples, which leads to sub-optimal representations. In this paper, we introduce a framework that enriches the self-supervised learning (SSL) paradigm by utilizing generative models to produce semantically consistent image augmentations. By directly conditioning generative models on a source image, our method enables the generation of diverse augmentations while maintaining the semantics of the source image, thus offering a richer set of data for SSL. Our extensive experimental results on various joint-embedding SSL techniques demonstrate that our framework significantly enhances the quality of learned visual representations by up to 10\% Top-1 accuracy in downstream tasks. This research demonstrates that incorporating generative models into the joint-embedding SSL workflow opens new avenues for exploring the potential of synthetic data. This development paves the way for more robust and versatile representation learning techniques.

arxiv情報

著者 Sana Ayromlou,Vahid Reza Khazaie,Fereshteh Forghani,Arash Afkanpour
発行日 2024-12-17 15:31:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク