要約
Ropecraftを提案します。Ropecraftは、回転式位置埋め込み(ロープ)を変更するだけで動作する拡散トランス向けのトレーニングなしのビデオモーション転送方法です。
最初に参照ビデオから密な光学流を抽出し、結果のモーションオフセットを利用して、ロープの複雑な表現テンソルをゆがめ、生成プロセスに効果的にモーションをエンコードします。
これらの埋め込みは、フローマッチング目標を使用して、予測された速度とターゲット速度の間の軌跡アライメントを介して、除去時期の間にさらに最適化されます。
テキストプロンプトに出力を忠実に保ち、重複した世代を防ぐために、参照ビデオのフーリエ変換の位相コンポーネントに基づいて正規化用語を組み込み、高頻度のアーティファクトを抑制するために位相角度を滑らかなマニホールドに投影します。
ベンチマークでの実験により、ロペクラフトは、定性的および定量的に最近公開されたすべての方法を上回ることが明らかになりました。
要約(オリジナル)
We propose RoPECraft, a training-free video motion transfer method for diffusion transformers that operates solely by modifying their rotary positional embeddings (RoPE). We first extract dense optical flow from a reference video, and utilize the resulting motion offsets to warp the complex-exponential tensors of RoPE, effectively encoding motion into the generation process. These embeddings are then further optimized during denoising time steps via trajectory alignment between the predicted and target velocities using a flow-matching objective. To keep the output faithful to the text prompt and prevent duplicate generations, we incorporate a regularization term based on the phase components of the reference video’s Fourier transform, projecting the phase angles onto a smooth manifold to suppress high-frequency artifacts. Experiments on benchmarks reveal that RoPECraft outperforms all recently published methods, both qualitatively and quantitatively.
arxiv情報
著者 | Ahmet Berke Gokmen,Yigit Ekin,Bahri Batuhan Bilecen,Aysegul Dundar |
発行日 | 2025-05-19 16:50:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google