要約
この論文は、ビデオ生成においてマルチエンティティ 3D モーションを操作することを目的としています。
制御可能なビデオ生成に関するこれまでの方法は、主に 2D 制御信号を利用してオブジェクトの動きを操作し、顕著な合成結果を達成しました。
ただし、2D 制御信号は、オブジェクトの動きの 3D 特性を表現するには本質的に制限があります。
この問題を解決するために、ユーザーが望むエンティティの 6DoF ポーズ (位置と回転) シーケンスを与えて、3D 空間内のマルチエンティティのダイナミクスを制御する堅牢なコントローラーである 3DTrajMaster を導入します。
私たちのアプローチの中核となるのは、ゲートされた自己注意メカニズムを通じて複数の入力エンティティをそれぞれの 3D 軌道と融合する、プラグアンドプレイの 3D モーション接地オブジェクト インジェクターです。
さらに、インジェクター アーキテクチャを利用してビデオ拡散を事前に保存します。これは汎化能力にとって重要です。
ビデオ品質の低下を軽減するために、トレーニング中にドメイン アダプターを導入し、推論中にアニーリングされたサンプリング戦略を採用します。
適切なトレーニング データの欠如に対処するために、私たちは 360 モーション データセットを構築します。これは、まず収集された 3D の人間および動物のアセットを GPT で生成された軌道と関連付け、次にさまざまな 3D UE プラットフォーム上の 12 台の均等に周囲に配置されたカメラでその動きをキャプチャします。
広範な実験により、3DTrajMaster がマルチエンティティの 3D モーションを制御する精度と汎用性の両方において新しい最先端を確立していることが示されています。
プロジェクトページ: http://fuxiao0719.github.io/projects/3dtrajmaster
要約(オリジナル)
This paper aims to manipulate multi-entity 3D motions in video generation. Previous methods on controllable video generation primarily leverage 2D control signals to manipulate object motions and have achieved remarkable synthesis results. However, 2D control signals are inherently limited in expressing the 3D nature of object motions. To overcome this problem, we introduce 3DTrajMaster, a robust controller that regulates multi-entity dynamics in 3D space, given user-desired 6DoF pose (location and rotation) sequences of entities. At the core of our approach is a plug-and-play 3D-motion grounded object injector that fuses multiple input entities with their respective 3D trajectories through a gated self-attention mechanism. In addition, we exploit an injector architecture to preserve the video diffusion prior, which is crucial for generalization ability. To mitigate video quality degradation, we introduce a domain adaptor during training and employ an annealed sampling strategy during inference. To address the lack of suitable training data, we construct a 360-Motion Dataset, which first correlates collected 3D human and animal assets with GPT-generated trajectory and then captures their motion with 12 evenly-surround cameras on diverse 3D UE platforms. Extensive experiments show that 3DTrajMaster sets a new state-of-the-art in both accuracy and generalization for controlling multi-entity 3D motions. Project page: http://fuxiao0719.github.io/projects/3dtrajmaster
arxiv情報
著者 | Xiao Fu,Xian Liu,Xintao Wang,Sida Peng,Menghan Xia,Xiaoyu Shi,Ziyang Yuan,Pengfei Wan,Di Zhang,Dahua Lin |
発行日 | 2024-12-10 18:55:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google