要約
テキストから画像の生成モデルは、入力プロンプトから高品質の画像を作成できます。
しかし、彼らは、ストーリーテリングのためのアイデンティティ提示要件の一貫した生成をサポートするのに苦労しています。
この問題に対する既存のアプローチでは、通常、大規模なデータセットでの広範なトレーニングまたは元のモデルアーキテクチャの追加の変更が必要です。
これにより、さまざまなドメインでの適用性が制限され、多様な拡散モデル構成が制限されます。
このホワイトペーパーでは、最初に、文脈モデルの固有の能力、コンテキストの一貫性を生み出し、単一のプロンプトを使用してコンテキストを介してアイデンティティを理解することを観察します。
固有のコンテキストの一貫性からインスピレーションを得て、「1-Plompt1-Story」(1prompt1story)と呼ばれる一貫したテキストからイメージ(T2I)生成のための新しいトレーニングなしの方法を提案します。
私たちのアプローチ1PROMPT1STORYは、すべてのプロンプトをT2I拡散モデルの単一の入力に連結し、最初は文字のアイデンティティを保持します。
次に、2つの新しい技術を使用して生成プロセスを改良します。単一値の再条件とアイデンティティを提供する相互参加を補い、各フレームの入力記述とのより良い整合性を確保します。
実験では、さまざまな既存の一貫したT2I生成アプローチと方法を比較して、定量的メトリックと定性的評価を通じてその有効性を実証します。
コードはhttps://github.com/byliutao/1prompt1storyで入手できます。
要約(オリジナル)
Text-to-image generation models can create high-quality images from input prompts. However, they struggle to support the consistent generation of identity-preserving requirements for storytelling. Existing approaches to this problem typically require extensive training in large datasets or additional modifications to the original model architectures. This limits their applicability across different domains and diverse diffusion model configurations. In this paper, we first observe the inherent capability of language models, coined context consistency, to comprehend identity through context with a single prompt. Drawing inspiration from the inherent context consistency, we propose a novel training-free method for consistent text-to-image (T2I) generation, termed ‘One-Prompt-One-Story’ (1Prompt1Story). Our approach 1Prompt1Story concatenates all prompts into a single input for T2I diffusion models, initially preserving character identities. We then refine the generation process using two novel techniques: Singular-Value Reweighting and Identity-Preserving Cross-Attention, ensuring better alignment with the input description for each frame. In our experiments, we compare our method against various existing consistent T2I generation approaches to demonstrate its effectiveness through quantitative metrics and qualitative assessments. Code is available at https://github.com/byliutao/1Prompt1Story.
arxiv情報
著者 | Tao Liu,Kai Wang,Senmao Li,Joost van de Weijer,Fahad Shahbaz Khan,Shiqi Yang,Yaxing Wang,Jian Yang,Ming-Ming Cheng |
発行日 | 2025-01-24 12:43:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google