要約
Text-to-Image (T2I) 生成アプリケーションでは、ネガティブ埋め込みが生成品質を向上させるためのシンプルかつ効果的なアプローチであることが証明されています。
通常、これらのネガティブな埋め込みはユーザー定義のネガティブ プロンプトから派生しますが、これは機能的ではありますが、必ずしも最適であるとは限りません。
この論文では、報酬モデルに基づいて改善されたネガティブ埋め込みを学習するように設計されたエンドツーエンドの手法である ReNeg を紹介します。
報酬フィードバック学習フレームワークを採用し、以前は推論時にのみ利用されていた分類子なしガイダンス (CFG) をトレーニング プロセスに統合することで、ネガティブ埋め込みの効果的な学習を可能にします。
また、グローバルなネガティブ埋め込みとサンプルごとのネガティブ埋め込みの両方を学習するための 2 つの戦略も提案します。
広範な実験により、学習されたネガティブ埋め込みがヌルテキストや手作りの埋め込みよりも大幅に優れたパフォーマンスを示し、人間の好みの調整において大幅な改善が達成されることが示されています。
さらに、同じテキスト埋め込み空間内で学習されたネガティブ埋め込みは、強力な一般化機能を示します。
たとえば、同じ CLIP テキスト エンコーダを使用すると、SD1.5 で学習したネガティブ エンベディングを、ControlNet、ZeroScope、VideoCrafter2 などのテキストから画像へ、さらにはテキストからビデオへのモデルにシームレスに転送できるため、一貫したパフォーマンスの向上が得られます。
全体的に。
要約(オリジナル)
In text-to-image (T2I) generation applications, negative embeddings have proven to be a simple yet effective approach for enhancing generation quality. Typically, these negative embeddings are derived from user-defined negative prompts, which, while being functional, are not necessarily optimal. In this paper, we introduce ReNeg, an end-to-end method designed to learn improved Negative embeddings guided by a Reward model. We employ a reward feedback learning framework and integrate classifier-free guidance (CFG) into the training process, which was previously utilized only during inference, thus enabling the effective learning of negative embeddings. We also propose two strategies for learning both global and per-sample negative embeddings. Extensive experiments show that the learned negative embedding significantly outperforms null-text and handcrafted counterparts, achieving substantial improvements in human preference alignment. Additionally, the negative embedding learned within the same text embedding space exhibits strong generalization capabilities. For example, using the same CLIP text encoder, the negative embedding learned on SD1.5 can be seamlessly transferred to text-to-image or even text-to-video models such as ControlNet, ZeroScope, and VideoCrafter2, resulting in consistent performance improvements across the board.
arxiv情報
著者 | Xiaomin Li,Yixuan Liu,Takashi Isobe,Xu Jia,Qinpeng Cui,Dong Zhou,Dong Li,You He,Huchuan Lu,Zhongdao Wang,Emad Barsoum |
発行日 | 2024-12-27 13:31:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google