Latent Beam Diffusion Models for Decoding Image Sequences

要約

拡散モデルは、テキストプロンプトから高品質の画像を生成することに優れていますが、画像シーケンスの視覚的な一貫性と格闘しています。
既存の方法は、各画像を独立して生成し、ばらばらの物語につながります。これは、シーンが隣接するフレームを超えて接続する必要がある非線形ストーリーテリングでさらに悪化します。
潜在的なスペース探索のための新しいビーム検索戦略を導入し、ビーム検索デコードを備えた完全な画像シーケンスの条件付き生成を可能にします。
固定された潜在性の前方を使用する以前のアプローチとは異なり、この方法は潜在表現の最適なシーケンスを動的に検索し、コヒーレントな視覚遷移を確保します。
潜在的な除去スペースが検討されると、ビーム検索グラフは、検索パスを効率的にスコアリングし、テキストプロンプトと視覚的コンテキストの両方とのアライメントを優先するクロスアテンションメカニズムで剪定されます。
ヒューマンおよび自動評価は、BeamDiffusionが他のベースラインメソッドを上回ることを確認し、優れたコヒーレンス、視覚的連続性、およびテキストアライメントを備えた完全なシーケンスを生成します。

要約(オリジナル)

While diffusion models excel at generating high-quality images from text prompts, they struggle with visual consistency in image sequences. Existing methods generate each image independently, leading to disjointed narratives – a challenge further exacerbated in non-linear storytelling, where scenes must connect beyond adjacent frames. We introduce a novel beam search strategy for latent space exploration, enabling conditional generation of full image sequences with beam search decoding. Unlike prior approaches that use fixed latent priors, our method dynamically searches for an optimal sequence of latent representations, ensuring coherent visual transitions. As the latent denoising space is explored, the beam search graph is pruned with a cross-attention mechanism that efficiently scores search paths, prioritizing alignment with both textual prompts and visual context. Human and automatic evaluations confirm that BeamDiffusion outperforms other baseline methods, producing full sequences with superior coherence, visual continuity, and textual alignment.

arxiv情報

著者 Guilherme Fernandes,Vasco Ramos,Regev Cohen,Idan Szpektor,João Magalhães
発行日 2025-05-28 15:52:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク