Improving Subject-Driven Image Synthesis with Subject-Agnostic Guidance

要約

主題主導のテキストから画像への合成では、合成プロセスはユーザーが提供する参照画像に大きく影響される傾向があり、テキスト プロンプトに詳細が記載されている重要な属性が見落とされることがよくあります。
この研究では、問題を解決するためのシンプルかつ効果的な解決策である、被験者に依存しないガイダンス (SAG) を提案します。
主題に依存しない条件を構築し、提案した二重分類子を使用しないガイダンスを適用することにより、指定された主題と入力テキスト プロンプトの両方と一致する出力を取得できることを示します。
私たちは、最適化ベースとエンコーダーベースの両方の方法を通じてアプローチの有効性を検証します。
さらに、エンコーダベースのモデルが DreamBooth で微調整される 2 次カスタマイズ方法への適用性も実証します。
私たちのアプローチは概念的にシンプルで、コードの変更は最小限で済みますが、評価とユーザー調査で証明されているように、大幅な品質の向上につながります。

要約(オリジナル)

In subject-driven text-to-image synthesis, the synthesis process tends to be heavily influenced by the reference images provided by users, often overlooking crucial attributes detailed in the text prompt. In this work, we propose Subject-Agnostic Guidance (SAG), a simple yet effective solution to remedy the problem. We show that through constructing a subject-agnostic condition and applying our proposed dual classifier-free guidance, one could obtain outputs consistent with both the given subject and input text prompts. We validate the efficacy of our approach through both optimization-based and encoder-based methods. Additionally, we demonstrate its applicability in second-order customization methods, where an encoder-based model is fine-tuned with DreamBooth. Our approach is conceptually simple and requires only minimal code modifications, but leads to substantial quality improvements, as evidenced by our evaluations and user studies.

arxiv情報

著者 Kelvin C. K. Chan,Yang Zhao,Xuhui Jia,Ming-Hsuan Yang,Huisheng Wang
発行日 2024-05-02 15:03:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク