MotionEditor: Editing Video Motion via Content-Aware Diffusion

要約

既存の拡散ベースのビデオ編集モデルは、時間の経過とともにソースビデオの属性の編集に関して素晴らしい進歩を遂げてきましたが、元の主人公の外観と背景を維持しながらモーション情報を操作するのに苦労しています。
これに対処するために、ビデオ モーション編集の普及モデルである MotionEditor を提案します。
MotionEditor は、新しいコンテンツ認識モーション アダプタを ControlNet に組み込んで、時間的なモーションの対応をキャプチャします。
ControlNet ではスケルトン ポーズに基づいた直接生成が可能ですが、反転ノイズ内のソースのモーションを変更する場合、ノイズ (ソース) と条件 (リファレンス) の間の矛盾した信号により課題に直面します。
当社のアダプタは、ソース コンテンツを関与させて適応された制御信号をシームレスに転送することで ControlNet を補完します。
さらに、ブランチ間の相互作用を容易にする高忠実度のアテンション注入メカニズムを備えた 2 つのブランチ アーキテクチャ (再構築ブランチと編集ブランチ) を構築します。
このメカニズムにより、編集ブランチは分離された方法で再構築ブランチからキーと値をクエリできるため、編集ブランチは元の背景と主人公の外観を保持できます。
また、ポーズのサイズと位置の不一致に対処するためのスケルトン位置合わせアルゴリズムも提案します。
実験により、MotionEditor の有望なモーション編集能力が定性的および定量的に実証されました。

要約(オリジナル)

Existing diffusion-based video editing models have made gorgeous advances for editing attributes of a source video over time but struggle to manipulate the motion information while preserving the original protagonist’s appearance and background. To address this, we propose MotionEditor, a diffusion model for video motion editing. MotionEditor incorporates a novel content-aware motion adapter into ControlNet to capture temporal motion correspondence. While ControlNet enables direct generation based on skeleton poses, it encounters challenges when modifying the source motion in the inverted noise due to contradictory signals between the noise (source) and the condition (reference). Our adapter complements ControlNet by involving source content to transfer adapted control signals seamlessly. Further, we build up a two-branch architecture (a reconstruction branch and an editing branch) with a high-fidelity attention injection mechanism facilitating branch interaction. This mechanism enables the editing branch to query the key and value from the reconstruction branch in a decoupled manner, making the editing branch retain the original background and protagonist appearance. We also propose a skeleton alignment algorithm to address the discrepancies in pose size and position. Experiments demonstrate the promising motion editing ability of MotionEditor, both qualitatively and quantitatively.

arxiv情報

著者 Shuyuan Tu,Qi Dai,Zhi-Qi Cheng,Han Hu,Xintong Han,Zuxuan Wu,Yu-Gang Jiang
発行日 2023-11-30 18:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク