ControlMM: Controllable Masked Motion Generation

要約

モーション拡散モデルの最近の進歩により、空間的に制御可能なテキストからモーションへの生成が可能になりました。
ただし、これらのモデルは許容可能な制御精度を達成しているにもかかわらず、生成速度と忠実度の制限に悩まされています。
これらの課題に対処するために、生成マスク運動モデルに空間制御信号を組み込む新しいアプローチである ControlMM を提案します。
ControlMM は、リアルタイム、高忠実度、高精度の制御可能なモーション生成を同時に実現します。
私たちのアプローチでは 2 つの重要な革新が導入されています。
まず、マスクされた一貫性モデリングを提案します。これは、入力制御信号と生成されたモーションから抽出された制御信号の間の不一致を最小限に抑えながら、ランダムなマスキングと再構成によって高忠実度のモーション生成を保証します。
制御精度をさらに高めるために、推論時ロジット編集を導入します。これは、予測された条件付きモーション分布を操作して、調整された分布からサンプリングされた生成されたモーションが入力制御信号に厳密に従うようにします。
推論中、ControlMM は複数のモーション トークンの並列反復デコードを可能にし、高速モーション生成を可能にします。
広範な実験により、最先端技術と比較して、ControlMM は、より優れた FID スコア (0.061 対 0.271) とより高い制御精度 (平均誤差 0.0091 対 0.0108) により、動作品質において優れた結果をもたらすことが示されています。
ControlMM は、拡散ベースの方法より 20 倍高速にモーションを生成します。
さらに、ControlMM は、任意の関節、任意のフレーム制御、身体部分のタイムライン制御、障害物回避などのさまざまなアプリケーションのロックを解除します。
ビデオ視覚化は https://exitudio.github.io/ControlMM-page にあります。

要約(オリジナル)

Recent advances in motion diffusion models have enabled spatially controllable text-to-motion generation. However, despite achieving acceptable control precision, these models suffer from generation speed and fidelity limitations. To address these challenges, we propose ControlMM, a novel approach incorporating spatial control signals into the generative masked motion model. ControlMM achieves real-time, high-fidelity, and high-precision controllable motion generation simultaneously. Our approach introduces two key innovations. First, we propose masked consistency modeling, which ensures high-fidelity motion generation via random masking and reconstruction, while minimizing the inconsistency between the input control signals and the extracted control signals from the generated motion. To further enhance control precision, we introduce inference-time logit editing, which manipulates the predicted conditional motion distribution so that the generated motion, sampled from the adjusted distribution, closely adheres to the input control signals. During inference, ControlMM enables parallel and iterative decoding of multiple motion tokens, allowing for high-speed motion generation. Extensive experiments show that, compared to the state of the art, ControlMM delivers superior results in motion quality, with better FID scores (0.061 vs 0.271), and higher control precision (average error 0.0091 vs 0.0108). ControlMM generates motions 20 times faster than diffusion-based methods. Additionally, ControlMM unlocks diverse applications such as any joint any frame control, body part timeline control, and obstacle avoidance. Video visualization can be found at https://exitudio.github.io/ControlMM-page

arxiv情報

著者 Ekkasit Pinyoanuntapong,Muhammad Usama Saleem,Korrawe Karunratanakul,Pu Wang,Hongfei Xue,Chen Chen,Chuan Guo,Junli Cao,Jian Ren,Sergey Tulyakov
発行日 2024-10-14 17:50:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク