DART: A Diffusion-Based Autoregressive Motion Model for Real-Time Text-Driven Motion Control

要約

自然言語によるユーザーの対話を可能にする、テキスト条件付きの人間のモーション生成の人気が高まっています。
既存の方法は通常、単一の入力文に基づいて短くて孤立したモーションを生成します。
ただし、人間の動作は継続的であり、長期間にわたる可能性があり、豊富なセマンティクスを伴います。
特にオンラインおよびリアルタイム設定において、テキスト記述のストリームに正確に応答する長く複雑なモーションを作成することは、依然として大きな課題です。
さらに、テキスト条件付きモーション生成に空間制約を組み込むには、テキスト記述で指定されたモーション セマンティクスを、ゴールの位置や 3D シーンのジオメトリなどの幾何学的情報と調整する必要があるため、さらなる課題が生じます。
これらの制限に対処するために、リアルタイムのテキスト駆動モーション制御用の拡散ベースの自己回帰モーション プリミティブ モデルである DART を提案します。
私たちのモデルである DART は、潜在拡散モデルを使用して、モーション履歴とテキスト入力を共同で条件付けたコンパクトなモーション プリミティブ空間を効果的に学習します。
DART は、以前の履歴と現在のテキスト入力に基づいてモーション プリミティブを自己回帰的に生成することにより、自然言語記述によるリアルタイムの逐次モーション生成を可能にします。
さらに、学習されたモーション プリミティブ空間により、正確な空間モーション制御が可能になります。これは、潜在ノイズ最適化問題として、または強化学習を通じて対処されるマルコフ決定プロセスとして定式化されます。
両方のアプローチに効果的なアルゴリズムを提示し、さまざまなモーション合成タスクにおけるモデルの多用途性と優れたパフォーマンスを実証します。
実験では、私たちの方法が動きのリアリズム、効率、制御性において既存のベースラインを上回っていることが示されています。
ビデオ結果はプロジェクト ページ: https://zkf1997.github.io/DART/ でご覧いただけます。

要約(オリジナル)

Text-conditioned human motion generation, which allows for user interaction through natural language, has become increasingly popular. Existing methods typically generate short, isolated motions based on a single input sentence. However, human motions are continuous and can extend over long periods, carrying rich semantics. Creating long, complex motions that precisely respond to streams of text descriptions, particularly in an online and real-time setting, remains a significant challenge. Furthermore, incorporating spatial constraints into text-conditioned motion generation presents additional challenges, as it requires aligning the motion semantics specified by text descriptions with geometric information, such as goal locations and 3D scene geometry. To address these limitations, we propose DART, a Diffusion-based Autoregressive motion primitive model for Real-time Text-driven motion control. Our model, DART, effectively learns a compact motion primitive space jointly conditioned on motion history and text inputs using latent diffusion models. By autoregressively generating motion primitives based on the preceding history and current text input, DART enables real-time, sequential motion generation driven by natural language descriptions. Additionally, the learned motion primitive space allows for precise spatial motion control, which we formulate either as a latent noise optimization problem or as a Markov decision process addressed through reinforcement learning. We present effective algorithms for both approaches, demonstrating our model’s versatility and superior performance in various motion synthesis tasks. Experiments show our method outperforms existing baselines in motion realism, efficiency, and controllability. Video results are available on the project page: https://zkf1997.github.io/DART/.

arxiv情報

著者 Kaifeng Zhao,Gen Li,Siyu Tang
発行日 2024-10-07 17:58:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク