Decouple and Track: Benchmarking and Improving Video Diffusion Transformers for Motion Transfer

要約

モーション転送タスクでは、ソースビデオから新しく生成されたビデオにモーションを転送することが含まれ、モデルが外観からモーションを切り離す必要があります。
以前の拡散ベースの方法は、主に3D U-NET内の個別の空間的および時間的注意メカニズムに依存しています。
対照的に、最先端のビデオ拡散変圧器(DIT)モデルは、3D完全な注意を使用していますが、これは明示的に時間的情報と空間情報を分離しません。
したがって、空間的寸法と時間的寸法の間の相互作用により、DITモデルのモーションと外観の分離と外観がより困難になります。
この論文では、DITモデルを適応させてモーショントランスファー能力を向上させる方法であるDetを提案します。
私たちのアプローチでは、シンプルでありながら効果的な時間カーネルを導入して、時間の次元に沿って滑らかにする機能を滑らかにし、背景の外観からの前景の動きの分離を促進します。
一方、時間カーネルは、運動に密接に関連するDIT機能の時間的変動を効果的にキャプチャします。
さらに、潜在的な特徴空間に密集した軌跡に沿った明示的な監督を導入して、運動の一貫性をさらに強化します。
さらに、モーション転送の一般的で挑戦的なベンチマークであるMtbenchを提示します。
また、グローバルとローカルのモーションの類似性の両方を考慮するハイブリッドモーションフィデリティメトリックも導入します。
したがって、私たちの仕事は、以前の作品よりも包括的な評価を提供します。
Mtbenchでの広範な実験は、DETがモーションフィデリティとフィデリティの編集の間の最高のトレードオフを達成することを示しています。

要約(オリジナル)

The motion transfer task involves transferring motion from a source video to newly generated videos, requiring the model to decouple motion from appearance. Previous diffusion-based methods primarily rely on separate spatial and temporal attention mechanisms within 3D U-Net. In contrast, state-of-the-art video Diffusion Transformers (DiT) models use 3D full attention, which does not explicitly separate temporal and spatial information. Thus, the interaction between spatial and temporal dimensions makes decoupling motion and appearance more challenging for DiT models. In this paper, we propose DeT, a method that adapts DiT models to improve motion transfer ability. Our approach introduces a simple yet effective temporal kernel to smooth DiT features along the temporal dimension, facilitating the decoupling of foreground motion from background appearance. Meanwhile, the temporal kernel effectively captures temporal variations in DiT features, which are closely related to motion. Moreover, we introduce explicit supervision along dense trajectories in the latent feature space to further enhance motion consistency. Additionally, we present MTBench, a general and challenging benchmark for motion transfer. We also introduce a hybrid motion fidelity metric that considers both the global and local motion similarity. Therefore, our work provides a more comprehensive evaluation than previous works. Extensive experiments on MTBench demonstrate that DeT achieves the best trade-off between motion fidelity and edit fidelity.

arxiv情報

著者 Qingyu Shi,Jianzong Wu,Jinbin Bai,Jiangning Zhang,Lu Qi,Xiangtai Li,Yunhai Tong
発行日 2025-03-21 17:52:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク