要約
Text-to-Video モデルは、テキストの説明から短いビデオ クリップを生成する点で大幅な進歩を遂げました。
しかし、同じキャラクターの複数のビデオ ショットを生成し、ビデオの品質、ダイナミクス、テキスト プロンプトへの応答性を損なうことなくアイデンティティを維持するという重要な課題が残っています。
ビデオ ストーリーボードとは、事前トレーニング済みのテキストからビデオへのモデル間で特徴を共有することで、一貫した文字を含む複数のショットを生成できるようにする、トレーニング不要の手法です。
私たちの重要な洞察は、セルフ アテンション クエリ特徴 (Q) が動きとアイデンティティの両方をエンコードしているということです。
これにより、機能が共有される場合、キャラクターのアイデンティティを維持することとビデオを動的にすることの間に、避けがたいトレードオフが生じます。
この問題に対処するために、アイデンティティの保持と自然な動きの保持のバランスをとる新しいクエリインジェクション戦略を導入します。
このアプローチは、ビデオに適用される素朴な一貫性技術を改良したものであり、この微妙な均衡を維持するのに苦労することがよくあります。
私たちの実験では、高品質のモーションとテキストの配置を維持しながら、シーン全体でのキャラクターの一貫性が大幅に向上することが実証されました。
これらの結果は、ビデオ生成の重要な段階と、ビデオ拡散モデルにおける構造と動きの相互作用についての洞察を提供します。
要約(オリジナル)
Text-to-video models have made significant strides in generating short video clips from textual descriptions. Yet, a significant challenge remains: generating several video shots of the same characters, preserving their identity without hurting video quality, dynamics, and responsiveness to text prompts. We present Video Storyboarding, a training-free method to enable pretrained text-to-video models to generate multiple shots with consistent characters, by sharing features between them. Our key insight is that self-attention query features (Q) encode both motion and identity. This creates a hard-to-avoid trade-off between preserving character identity and making videos dynamic, when features are shared. To address this issue, we introduce a novel query injection strategy that balances identity preservation and natural motion retention. This approach improves upon naive consistency techniques applied to videos, which often struggle to maintain this delicate equilibrium. Our experiments demonstrate significant improvements in character consistency across scenes while maintaining high-quality motion and text alignment. These results offer insights into critical stages of video generation and the interplay of structure and motion in video diffusion models.
arxiv情報
著者 | Yuval Atzmon,Rinon Gal,Yoad Tewel,Yoni Kasten,Gal Chechik |
発行日 | 2024-12-10 18:49:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google