要約
既存の拡散ベースのビデオ編集方法は、モーション編集において目覚ましい成果を上げています。
既存の方法のほとんどは、編集されたビデオと参照ビデオの間のモーションの位置合わせに焦点を当てています。
ただし、これらの方法では、ビデオの背景とオブジェクトのコンテンツが変更されないように制限されないため、ユーザーが予期しないビデオを生成する可能性があります。
この論文では、トレーニングに 1 つのテキストとビデオのペアのみを必要とする、Edit-Your-Motion と呼ばれるワンショット ビデオ モーション編集方法を提案します。
具体的には、時空間拡散モデルの時空間特徴を分離するための詳細なプロンプトガイド付き学習戦略 (DPL) を設計します。
DPL は、学習オブジェクトのコンテンツと動作を 2 つのトレーニング段階に分けます。
最初のトレーニング段階では、空間的特徴 (オブジェクト コンテンツの特徴) を学習し、ビデオ フレームをシャッフルすることでビデオ フレーム内の時間的関係を分解することに重点を置きます。
さらに、順序のないビデオ フレームからオブジェクトの一貫したコンテンツの特徴を学習するための Recurrent-Causal Attendant (RC-Attn) を提案します。
トレーニングの第 2 段階では、ビデオ フレームの時間的関係を復元して、時間的特徴 (背景やオブジェクトの動きの特徴) を学習します。
また、フレーム間の差を平滑化するためにノイズ制約損失も採用しています。
最後に、推論段階では、2 つの分岐構造 (編集分岐と再構築分岐) を通じて、ソース オブジェクトのコンテンツ特徴を編集分岐に注入します。
Edit-Your-Motion を使用すると、ユーザーはソース ビデオ内のオブジェクトのモーションを編集して、よりエキサイティングで多様なビデオを生成できます。
包括的な定性実験、定量実験、およびユーザーの好みの調査により、Edit-Your-Motion が他の方法よりも優れたパフォーマンスを発揮することが実証されています。
要約(オリジナル)
Existing diffusion-based video editing methods have achieved impressive results in motion editing. Most of the existing methods focus on the motion alignment between the edited video and the reference video. However, these methods do not constrain the background and object content of the video to remain unchanged, which makes it possible for users to generate unexpected videos. In this paper, we propose a one-shot video motion editing method called Edit-Your-Motion that requires only a single text-video pair for training. Specifically, we design the Detailed Prompt-Guided Learning Strategy (DPL) to decouple spatio-temporal features in space-time diffusion models. DPL separates learning object content and motion into two training stages. In the first training stage, we focus on learning the spatial features (the features of object content) and breaking down the temporal relationships in the video frames by shuffling them. We further propose Recurrent-Causal Attention (RC-Attn) to learn the consistent content features of the object from unordered video frames. In the second training stage, we restore the temporal relationship in video frames to learn the temporal feature (the features of the background and object’s motion). We also adopt the Noise Constraint Loss to smooth out inter-frame differences. Finally, in the inference stage, we inject the content features of the source object into the editing branch through a two-branch structure (editing branch and reconstruction branch). With Edit-Your-Motion, users can edit the motion of objects in the source video to generate more exciting and diverse videos. Comprehensive qualitative experiments, quantitative experiments and user preference studies demonstrate that Edit-Your-Motion performs better than other methods.
arxiv情報
著者 | Yi Zuo,Lingling Li,Licheng Jiao,Fang Liu,Xu Liu,Wenping Ma,Shuyuan Yang,Yuwei Guo |
発行日 | 2024-05-07 17:06:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google