EIDT-V: Exploiting Intersections in Diffusion Trajectories for Model-Agnostic, Zero-Shot, Training-Free Text-to-Video Generation

要約

ゼロショット、トレーニングフリー、画像ベースのテキストツービデオツージェネレーションは、既存の画像ベースの拡散モデルを使用してビデオを生成することを目的とした新興領域です。
この空間の現在の方法では、画像生成モデルに特定のアーキテクチャの変更が必要であり、適応性とスケーラビリティを制限します。
このような方法とは対照的に、モデルに依存しないアプローチを提供します。
拡散軌跡で交差点を使用し、潜在的な値でのみ動作します。
軌跡の交差点のみを使用して、局所的なフレームごとのコヒーレンスと多様性を得ることができませんでした。
したがって、代わりにグリッドベースのアプローチを使用します。
コンテキスト内トレーニングLLMを使用して、コヒーレントなフレームごとのプロンプトを生成します。
別のものは、フレーム間の違いを識別するために使用されます。
これらに基づいて、各グリッドセルのプロンプトを切り替えるタイミングを制御するクリップベースの注意マスクを取得します。
以前のスイッチングはより高い分散をもたらしますが、後で切り替えると一貫性が高くなります。
したがって、私たちのアプローチは、フレームのコヒーレンスと分散の間の適切な制御を確保することができます。
私たちのアプローチにより、最先端のパフォーマンスが発生し、多様な画像生成モデルを操作する際の柔軟性が高まります。
定量的メトリックとユーザー研究を使用した実証分析により、モデルの優れた時間的一貫性、視覚的忠実度、ユーザー満足度が確認されているため、トレーニングのない画像ベースのテキストからビデオへの生成を得るための新しい方法を提供します。

要約(オリジナル)

Zero-shot, training-free, image-based text-to-video generation is an emerging area that aims to generate videos using existing image-based diffusion models. Current methods in this space require specific architectural changes to image generation models, which limit their adaptability and scalability. In contrast to such methods, we provide a model-agnostic approach. We use intersections in diffusion trajectories, working only with the latent values. We could not obtain localized frame-wise coherence and diversity using only the intersection of trajectories. Thus, we instead use a grid-based approach. An in-context trained LLM is used to generate coherent frame-wise prompts; another is used to identify differences between frames. Based on these, we obtain a CLIP-based attention mask that controls the timing of switching the prompts for each grid cell. Earlier switching results in higher variance, while later switching results in more coherence. Therefore, our approach can ensure appropriate control between coherence and variance for the frames. Our approach results in state-of-the-art performance while being more flexible when working with diverse image-generation models. The empirical analysis using quantitative metrics and user studies confirms our model’s superior temporal consistency, visual fidelity and user satisfaction, thus providing a novel way to obtain training-free, image-based text-to-video generation.

arxiv情報

著者 Diljeet Jagpal,Xi Chen,Vinay P. Namboodiri
発行日 2025-04-09 13:11:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク