Frame In-N-Out: Unbounded Controllable Image-to-Video Generation

要約

制御可能性、時間的一貫性、および詳細合成は、ビデオ生成における最も重要な課題のままです。
このホワイトペーパーでは、フレームインおよびフレームアウトとして知られる一般的に使用されているが未定の映画のテクニックに焦点を当てています。
具体的には、画像からビデオへの生成から始めて、ユーザーは画像内のオブジェクトを制御して自然にシーンを離れるか、ユーザー指定のモーション軌跡によって導かれて、シーンを入力するために新しいアイデンティティ参照を壊すことができます。
このタスクをサポートするために、この設定をターゲットにした包括的な評価プロトコル、および効率的なアイデンティティを提供するモーション制御可能なビデオ拡散変圧器アーキテクチャをターゲットにした新しいデータセットを導入します。
私たちの評価は、提案されたアプローチが既存のベースラインを大幅に上回ることを示しています。

要約(オリジナル)

Controllability, temporal coherence, and detail synthesis remain the most critical challenges in video generation. In this paper, we focus on a commonly used yet underexplored cinematic technique known as Frame In and Frame Out. Specifically, starting from image-to-video generation, users can control the objects in the image to naturally leave the scene or provide breaking new identity references to enter the scene, guided by user-specified motion trajectory. To support this task, we introduce a new dataset curated semi-automatically, a comprehensive evaluation protocol targeting this setting, and an efficient identity-preserving motion-controllable video Diffusion Transformer architecture. Our evaluation shows that our proposed approach significantly outperforms existing baselines.

arxiv情報

著者 Boyang Wang,Xuweiyi Chen,Matheus Gadelha,Zezhou Cheng
発行日 2025-05-27 17:56:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク