StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners

要約

私たちは、テキストから画像へのモデルによって生成された合成画像を使用して視覚表現を学習する可能性を調査します。
高品質の画像を生成するこのようなモデルの優れたパフォーマンスを考慮すると、これは当然の疑問です。
特に、主要なオープンソースのテキストから画像へのモデルの 1 つである Stable Diffusion について検討します。
我々は、(1) 生成モデルが適切な分類子なしのガイダンス スケールで構成されている場合、合成画像上で自己教師あり手法をトレーニングすると、対応する実際の画像と同等かそれを上回ることができることを示します。
(2) 同じテキスト プロンプトから生成された複数の画像を相互にポジティブなものとして扱うことにより、StableRep と呼ばれるマルチポジティブ対比学習方法を開発します。
合成画像のみを使用すると、StableRep によって学習された表現は、大規模なデータセット上で同じテキスト プロンプトと対応する実際の画像のセットを使用して SimCLR と CLIP によって学習された表現のパフォーマンスを上回ります。
さらに言語監視を追加すると、2,000 万の合成画像でトレーニングされた StableRep は、5,000 万の実際の画像でトレーニングされた CLIP よりも高い精度を達成します。

要約(オリジナル)

We investigate the potential of learning visual representations using synthetic images generated by text-to-image models. This is a natural question in the light of the excellent performance of such models in generating high-quality images. We consider specifically the Stable Diffusion, one of the leading open source text-to-image models. We show that (1) when the generative model is configured with proper classifier-free guidance scale, training self-supervised methods on synthetic images can match or beat the real image counterpart; (2) by treating the multiple images generated from the same text prompt as positives for each other, we develop a multi-positive contrastive learning method, which we call StableRep. With solely synthetic images, the representations learned by StableRep surpass the performance of representations learned by SimCLR and CLIP using the same set of text prompts and corresponding real images, on large scale datasets. When we further add language supervision, StableRep trained with 20M synthetic images achieves better accuracy than CLIP trained with 50M real images.

arxiv情報

著者 Yonglong Tian,Lijie Fan,Phillip Isola,Huiwen Chang,Dilip Krishnan
発行日 2023-06-01 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク