MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion

要約

ビデオ属性の変更における拡散ベースのビデオ編集モデルの目覚ましい進歩にもかかわらず、元の主人公の外観と背景を維持しながらモーション情報を変更することについての研究は限られています。
この論文では、ビデオモーション編集のための軽量のスコアガイド付き拡散モデルである MotionFollower を提案します。
ノイズ除去プロセスに条件付き制御を導入するために、MotionFollower は、私たちが提案する 2 つの軽量信号コントローラーを活用します。1 つはポーズ用、もう 1 つは外観用で、どちらも重度の注意計算を必要としない畳み込みブロックで構成されます。
さらに、再構築と編集ブランチを含む 2 つのブランチ アーキテクチャに基づいたスコア ガイダンス原理を設計し、テクスチャの詳細と複雑な背景のモデリング能力を大幅に強化します。
具体的には、スコア推定中にいくつかの一貫性正則化と損失を強制します。
したがって、結果として得られる勾配は、中間の潜在要素に適切なガイダンスを注入し、モーションの変更を妨げることなく、モデルに元の背景の詳細​​と主人公の外観を強制的に保存させます。
実験では、MotionFollower の競合モーション編集能力を定性的および定量的に実証します。
MotionFollower は、最先端のモーション編集モデルである MotionEditor と比較して、GPU メモリを約 80% 削減しながら、優れたモーション編集パフォーマンスを実現し、大きなカメラの動きやアクションを独占的にサポートします。

要約(オリジナル)

Despite impressive advancements in diffusion-based video editing models in altering video attributes, there has been limited exploration into modifying motion information while preserving the original protagonist’s appearance and background. In this paper, we propose MotionFollower, a lightweight score-guided diffusion model for video motion editing. To introduce conditional controls to the denoising process, MotionFollower leverages two of our proposed lightweight signal controllers, one for poses and the other for appearances, both of which consist of convolution blocks without involving heavy attention calculations. Further, we design a score guidance principle based on a two-branch architecture, including the reconstruction and editing branches, which significantly enhance the modeling capability of texture details and complicated backgrounds. Concretely, we enforce several consistency regularizers and losses during the score estimation. The resulting gradients thus inject appropriate guidance to the intermediate latents, forcing the model to preserve the original background details and protagonists’ appearances without interfering with the motion modification. Experiments demonstrate the competitive motion editing ability of MotionFollower qualitatively and quantitatively. Compared with MotionEditor, the most advanced motion editing model, MotionFollower achieves an approximately 80% reduction in GPU memory while delivering superior motion editing performance and exclusively supporting large camera movements and actions.

arxiv情報

著者 Shuyuan Tu,Qi Dai,Zihao Zhang,Sicheng Xie,Zhi-Qi Cheng,Chong Luo,Xintong Han,Zuxuan Wu,Yu-Gang Jiang
発行日 2024-05-30 17:57:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T10, 68T45, cs.CV パーマリンク