要約
私たちは、参照ビデオのモーションを新しく合成されたビデオに転送する方法であり、拡散トランス (DiT) 用に特別に設計された DiTFlow を提案します。
まず、事前トレーニング済み DiT を使用してリファレンス ビデオを処理して、フレーム間のアテンション マップを分析し、アテンション モーション フロー (AMF) と呼ばれるパッチごとのモーション信号を抽出します。
AMF 損失を使用して潜在を最適化し、参照の動きを再現するビデオを生成することで、最適化ベースのトレーニング不要の方法で潜在ノイズ除去プロセスをガイドします。
また、最適化戦略をトランスフォーマーの位置埋め込みに適用し、ゼロショット モーション転送機能を強化します。
最近公開された手法と比較して DiTFlow を評価し、複数の指標と人間による評価のすべてにおいて優れたパフォーマンスを示しています。
要約(オリジナル)
We propose DiTFlow, a method for transferring the motion of a reference video to a newly synthesized one, designed specifically for Diffusion Transformers (DiT). We first process the reference video with a pre-trained DiT to analyze cross-frame attention maps and extract a patch-wise motion signal called the Attention Motion Flow (AMF). We guide the latent denoising process in an optimization-based, training-free, manner by optimizing latents with our AMF loss to generate videos reproducing the motion of the reference one. We also apply our optimization strategy to transformer positional embeddings, granting us a boost in zero-shot motion transfer capabilities. We evaluate DiTFlow against recently published methods, outperforming all across multiple metrics and human evaluation.
arxiv情報
著者 | Alexander Pondaven,Aliaksandr Siarohin,Sergey Tulyakov,Philip Torr,Fabio Pizzati |
発行日 | 2024-12-10 18:59:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google