要約
カスタマイズされたビデオ生成の最近の進歩により、ユーザーは特定の被写体と動きの軌跡の両方に合わせたビデオを作成できるようになりました。
しかし、既存の方法では、多くの場合、テスト時の複雑な微調整が必要であり、被験者の学習とモーション制御のバランスを取るのに苦労しており、現実世界への応用が制限されています。
このペーパーでは、テスト時間を必要とせず、それぞれ単一の画像とバウンディング ボックス シーケンスによってガイドされ、特定の被写体と動きの軌跡を含むビデオを生成できるゼロショット ビデオ カスタマイズ フレームワークである DreamVideo-2 を紹介します。
微調整。
具体的には、被験者の学習にモデル固有の機能を活用する参照注意を導入し、バウンディングボックスから得られるボックスマスクのロバストなモーション信号を最大限に活用することで正確なモーション制御を実現するマスクガイド付きモーションモジュールを考案します。
これら 2 つのコンポーネントは意図した機能を達成しますが、モーション コントロールが主題の学習よりも優勢になる傾向があることが経験的に観察されています。
これに対処するために、我々は 2 つの主要な設計を提案します。1) ブレンドされた潜在マスク モデリング スキームを参照アテンションに統合して、必要な位置での被写体の表現を強化するマスクされた参照アテンション、および 2) 再重み付けされた拡散損失。
境界ボックスの内側と外側の領域を調整して、被写体とモーション コントロールのバランスを確保します。
新たに厳選されたデータセットに関する広範な実験結果は、DreamVideo-2 が被験者のカスタマイズとモーション制御の両方において最先端の手法を上回るパフォーマンスを示していることを示しています。
データセット、コード、モデルは一般に公開されます。
要約(オリジナル)
Recent advances in customized video generation have enabled users to create videos tailored to both specific subjects and motion trajectories. However, existing methods often require complicated test-time fine-tuning and struggle with balancing subject learning and motion control, limiting their real-world applications. In this paper, we present DreamVideo-2, a zero-shot video customization framework capable of generating videos with a specific subject and motion trajectory, guided by a single image and a bounding box sequence, respectively, and without the need for test-time fine-tuning. Specifically, we introduce reference attention, which leverages the model’s inherent capabilities for subject learning, and devise a mask-guided motion module to achieve precise motion control by fully utilizing the robust motion signal of box masks derived from bounding boxes. While these two components achieve their intended functions, we empirically observe that motion control tends to dominate over subject learning. To address this, we propose two key designs: 1) the masked reference attention, which integrates a blended latent mask modeling scheme into reference attention to enhance subject representations at the desired positions, and 2) a reweighted diffusion loss, which differentiates the contributions of regions inside and outside the bounding boxes to ensure a balance between subject and motion control. Extensive experimental results on a newly curated dataset demonstrate that DreamVideo-2 outperforms state-of-the-art methods in both subject customization and motion control. The dataset, code, and models will be made publicly available.
arxiv情報
著者 | Yujie Wei,Shiwei Zhang,Hangjie Yuan,Xiang Wang,Haonan Qiu,Rui Zhao,Yutong Feng,Feng Liu,Zhizhong Huang,Jiaxin Ye,Yingya Zhang,Hongming Shan |
発行日 | 2024-10-17 17:52:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google