Consistent Story Generation with Asymmetry Zigzag Sampling

要約

テキストからイメージの生成モデルは、テキストの説明から高品質の画像の作成に大きな進歩を遂げましたが、視覚的なストーリーテリングの基本的な要件である複数の画像にわたって主題の一貫性を維持することに苦労し続けています。
既存の方法は、リソース集約型の大規模なストーリー視覚化データセットのいずれかの微調整モデルによって、または世代を越えて情報を共有するトレーニングなしのテクニックを使用して、まだ限られた成功をもたらすことにより、これに対処しようとします。
このペーパーでは、非対称プロンプトと視覚的な共有を使用したZigzagサンプリングと呼ばれる新しいトレーニングフリーサンプリング戦略を紹介し、視覚的なストーリー生成における主題の一貫性を高めます。
私たちのアプローチでは、被験者の特性を保持するために非対称のプロンプトを交互に拡大するZigzagサンプリングメカニズムを提案し、視覚共有モジュールは生成された画像間で視覚的なキューを転送して、一貫性をさらに強制します。
定量的メトリックと定性的評価の両方に基づいた実験結果は、私たちの方法が、コヒーレントで一貫した視覚ストーリーを生成する際の以前のアプローチを大幅に上回ることを示しています。
このコードは、https://github.com/mingxiao-li/asymmetry-zigzag-storydiffusionで入手できます。

要約(オリジナル)

Text-to-image generation models have made significant progress in producing high-quality images from textual descriptions, yet they continue to struggle with maintaining subject consistency across multiple images, a fundamental requirement for visual storytelling. Existing methods attempt to address this by either fine-tuning models on large-scale story visualization datasets, which is resource-intensive, or by using training-free techniques that share information across generations, which still yield limited success. In this paper, we introduce a novel training-free sampling strategy called Zigzag Sampling with Asymmetric Prompts and Visual Sharing to enhance subject consistency in visual story generation. Our approach proposes a zigzag sampling mechanism that alternates between asymmetric prompting to retain subject characteristics, while a visual sharing module transfers visual cues across generated images to %further enforce consistency. Experimental results, based on both quantitative metrics and qualitative evaluations, demonstrate that our method significantly outperforms previous approaches in generating coherent and consistent visual stories. The code is available at https://github.com/Mingxiao-Li/Asymmetry-Zigzag-StoryDiffusion.

arxiv情報

著者 Mingxiao Li,Mang Ning,Marie-Francine Moens
発行日 2025-06-12 13:02:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク