MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent

要約

MotionAgentを提案し、テキスト誘導画像からビデオへの生成のための細粒モーション制御を可能にします。
重要な手法は、テキストのモーション情報を明示的なモーションフィールドに変換するモーションフィールドエージェントであり、柔軟で正確なモーションガイダンスを提供します。
具体的には、エージェントは、テキストで説明されているオブジェクトの動きとカメラの動きを抽出し、それぞれオブジェクトの軌跡とカメラ外部に変換します。
分析的光学流量構成モジュールは、これらのモーション表現を3D空間に統合し、それらを統一された光流量に投影します。
オプティカルフローアダプターは、細粒の制御ビデオを生成するためのベース画像間拡散モデルを制御するためのフローを使用します。
Vbenchのビデオテキストカメラモーションメトリックの大幅な改善は、私たちの方法がカメラのモーションを正確に制御することを達成していることを示しています。
Vbenchのサブセットを構築して、テキスト内のモーション情報のアラインメントを評価し、生成されたビデオを評価し、モーション生成の精度に関する他の高度なモデルを上回ります。

要約(オリジナル)

We propose MotionAgent, enabling fine-grained motion control for text-guided image-to-video generation. The key technique is the motion field agent that converts motion information in text prompts into explicit motion fields, providing flexible and precise motion guidance. Specifically, the agent extracts the object movement and camera motion described in the text and converts them into object trajectories and camera extrinsics, respectively. An analytical optical flow composition module integrates these motion representations in 3D space and projects them into a unified optical flow. An optical flow adapter takes the flow to control the base image-to-video diffusion model for generating fine-grained controlled videos. The significant improvement in the Video-Text Camera Motion metrics on VBench indicates that our method achieves precise control over camera motion. We construct a subset of VBench to evaluate the alignment of motion information in the text and the generated video, outperforming other advanced models on motion generation accuracy.

arxiv情報

著者 Xinyao Liao,Xianfang Zeng,Liao Wang,Gang Yu,Guosheng Lin,Chi Zhang
発行日 2025-02-05 14:26:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク