Learning Visual Generative Priors without Text

要約

テキストから画像への (T2I) モデルは、ビジュアル生成の先行技術として最近盛んですが、高品質のテキストと画像のペアに依存しているため、スケールアップにコストがかかります。
私たちは、クロスモダリティの調整を把握することは、サウンドビジュアル生成の事前処理には必須ではなく、テクスチャモデリングに焦点を当てるべきであると主張します。
このような哲学は、モデルが自己教師付きの方法で実際の画像から学習できるイメージツーイメージ (I2I) 生成の研究に私たちを刺激します。
まず、純粋なビジョンベースのトレーニング フレームワークである Lumos を開発し、I2I モデルの学習の実現可能性と拡張性を確認します。
次に、T2I の上流タスクとして、私たちの I2I モデルがより基礎的なビジュアル プリアとして機能し、微調整に 1/10 のテキストと画像のペアのみを使用して、既存の T2I モデルと同等以上のパフォーマンスを達成することがわかりました。
さらに、画像から 3D への変換や画像からビデオへの変換など、テキストに無関係な視覚生成タスクにおいては、I2I 事前分布が T2I 事前分布よりも優れていることを示します。

要約(オリジナル)

Although text-to-image (T2I) models have recently thrived as visual generative priors, their reliance on high-quality text-image pairs makes scaling up expensive. We argue that grasping the cross-modality alignment is not a necessity for a sound visual generative prior, whose focus should be on texture modeling. Such a philosophy inspires us to study image-to-image (I2I) generation, where models can learn from in-the-wild images in a self-supervised manner. We first develop a pure vision-based training framework, Lumos, and confirm the feasibility and the scalability of learning I2I models. We then find that, as an upstream task of T2I, our I2I model serves as a more foundational visual prior and achieves on-par or better performance than existing T2I models using only 1/10 text-image pairs for fine-tuning. We further demonstrate the superiority of I2I priors over T2I priors on some text-irrelevant visual generative tasks, like image-to-3D and image-to-video.

arxiv情報

著者 Shuailei Ma,Kecheng Zheng,Ying Wei,Wei Wu,Fan Lu,Yifei Zhang,Chen-wei Xie,Jiapeng Zhu,Yujun Shen
発行日 2024-12-10 18:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク