TLControl: Trajectory and Language Control for Human Motion Synthesis

要約

制御可能な人間のモーション合成は、AR/VR、ゲーム、および身体型 AI のアプリケーションに不可欠です。
既存の方法は、言語または完全な軌道制御のいずれかのみに焦点を当てていることが多く、特に多関節制御の場合、ユーザー指定の軌道に合わせたモーションの合成の精度が不足しています。
これらの問題に対処するために、ニューラルベースと最適化ベースの技術の統合を通じて、低レベルの軌跡制御と高レベルの言語セマンティクス制御の両方を組み込んだ、現実的な人間の動作合成のための新しい方法である TLControl を紹介します。
具体的には、身体の部分によって組織化されたコンパクトでよく構造化された潜在運動空間の VQ-VAE をトレーニングすることから始めます。
次に、言語と軌跡を条件とした動き分布を予測するためのマスクされた軌跡変換器 (MTT) を提案します。
トレーニングが完了したら、MTT を使用して、ユーザーが指定した部分軌道と条件付けとしてのテキスト記述を与えられた初期動作予測をサンプリングします。
最後に、これらの粗い予測を精緻化して正確な軌道制御を行うためのテスト時の最適化を導入します。これにより、ユーザーがさまざまな最適化目標を指定できるようにすることで柔軟性が提供され、高い実行時効率が保証されます。
包括的な実験により、TLControl は軌道精度と時間効率において最先端のものを大幅に上回り、インタラクティブで高品質なアニメーション生成に実用的であることが示されています。

要約(オリジナル)

Controllable human motion synthesis is essential for applications in AR/VR, gaming and embodied AI. Existing methods often focus solely on either language or full trajectory control, lacking precision in synthesizing motions aligned with user-specified trajectories, especially for multi-joint control. To address these issues, we present TLControl, a novel method for realistic human motion synthesis, incorporating both low-level Trajectory and high-level Language semantics controls, through the integration of neural-based and optimization-based techniques. Specifically, we begin with training a VQ-VAE for a compact and well-structured latent motion space organized by body parts. We then propose a Masked Trajectories Transformer (MTT) for predicting a motion distribution conditioned on language and trajectory. Once trained, we use MTT to sample initial motion predictions given user-specified partial trajectories and text descriptions as conditioning. Finally, we introduce a test-time optimization to refine these coarse predictions for precise trajectory control, which offers flexibility by allowing users to specify various optimization goals and ensures high runtime efficiency. Comprehensive experiments show that TLControl significantly outperforms the state-of-the-art in trajectory accuracy and time efficiency, making it practical for interactive and high-quality animation generation.

arxiv情報

著者 Weilin Wan,Zhiyang Dou,Taku Komura,Wenping Wang,Dinesh Jayaraman,Lingjie Liu
発行日 2024-07-24 13:55:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク