DreamDistribution: Learning Prompt Distribution for Diverse In-distribution Generation

要約

テキストからイメージ(T2I)拡散モデルの普及により、テキストの説明から高品質の画像の生成が可能になります。
ただし、参照視覚属性を使用して多様なカスタマイズされた画像を生成することは依然として困難です。
この作業は、より抽象的な概念またはカテゴリレベルでT2I拡散モデルをパーソナライズすることに焦点を当て、一連の参照画像から共通性を適応させながら、十分なバリエーションを備えた新しいインスタンスを作成します。
前処理されたT2I拡散モデルがソフトプロンプトのセットを学習できるようにするソリューションを導入し、学習した分布からプロンプトをサンプリングすることにより、新しい画像の生成を可能にします。
これらのプロンプトは、テキスト誘導編集機能と、複数の分布間の変動を制御し、混合する際の追加の柔軟性を提供します。
また、テキストから3Dなどの他のタスクへの学習迅速な分布の適応性も示しています。
最後に、自動評価や人間の評価などの定量分析を通じて、アプローチの有効性を実証します。
プロジェクトWebサイト:https://briannlongzhao.github.io/dreamdistribution

要約(オリジナル)

The popularization of Text-to-Image (T2I) diffusion models enables the generation of high-quality images from text descriptions. However, generating diverse customized images with reference visual attributes remains challenging. This work focuses on personalizing T2I diffusion models at a more abstract concept or category level, adapting commonalities from a set of reference images while creating new instances with sufficient variations. We introduce a solution that allows a pretrained T2I diffusion model to learn a set of soft prompts, enabling the generation of novel images by sampling prompts from the learned distribution. These prompts offer text-guided editing capabilities and additional flexibility in controlling variation and mixing between multiple distributions. We also show the adaptability of the learned prompt distribution to other tasks, such as text-to-3D. Finally we demonstrate effectiveness of our approach through quantitative analysis including automatic evaluation and human assessment. Project website: https://briannlongzhao.github.io/DreamDistribution

arxiv情報

著者 Brian Nlong Zhao,Yuhang Xiao,Jiashu Xu,Xinyang Jiang,Yifan Yang,Dongsheng Li,Laurent Itti,Vibhav Vineet,Yunhao Ge
発行日 2025-04-21 16:26:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク