NEURAL MARIONETTE: A Transformer-based Multi-action Human Motion Synthesis System


NEURAL MARIONETTE と呼ばれるこのシステムは、予想されるアクション持続時間を持つ一連のアクション タグや、ユーザーが指定した場合はオプションで手書きの移動軌跡など、単純なユーザー入力からのスムーズな移行により、高品質で意味のあるモーションを生成できます。
私たちのシステムの中核は、アクション タグが与えられた多様なモーションを生成できる、新しい Transformer ベースのモーション生成モデル、つまり MARIONET です。
既存のモーション生成モデルとは異なり、MARIONET は過去のモーション クリップと将来のアクション タグからのコンテキスト情報を利用し、過去のアクションと将来のアクションをスムーズにブレンドできるアクションの生成に特化しています。
具体的には、MARIONET はまずターゲットのアクションタグとコンテキスト情報をアクションレベルの潜在コードにエンコードします。
コードは、タイム アンローリング モジュールを介してフレーム レベルの制御信号に展開され、ターゲット軌道などの他のフレーム レベルの制御信号と組み合わせることができます。
次に、モーション フレームが自動回帰的な方法で生成されます。
MARIONETT を順次適用することで、システム NEURAL MARIONETTE は、「Shadow Start」と「Action Revision」という 2 つの単純なスキームの助けを借りて、長期にわたるマルチアクションのモーションを堅牢に生成できます。
新しいシステムに加えて、アクション タグとそのコンテキスト情報の両方を含む、マルチアクション モーション合成タスク専用の新しいデータセットも紹介します。


We present a neural network-based system for long-term, multi-action human motion synthesis. The system, dubbed as NEURAL MARIONETTE, can produce high-quality and meaningful motions with smooth transitions from simple user input, including a sequence of action tags with expected action duration, and optionally a hand-drawn moving trajectory if the user specifies. The core of our system is a novel Transformer-based motion generation model, namely MARIONET, which can generate diverse motions given action tags. Different from existing motion generation models, MARIONET utilizes contextual information from the past motion clip and future action tag, dedicated to generating actions that can smoothly blend historical and future actions. Specifically, MARIONET first encodes target action tag and contextual information into an action-level latent code. The code is unfolded into frame-level control signals via a time unrolling module, which could be then combined with other frame-level control signals like the target trajectory. Motion frames are then generated in an auto-regressive way. By sequentially applying MARIONET, the system NEURAL MARIONETTE can robustly generate long-term, multi-action motions with the help of two simple schemes, namely ‘Shadow Start’ and ‘Action Revision’. Along with the novel system, we also present a new dataset dedicated to the multi-action motion synthesis task, which contains both action tags and their contextual information. Extensive experiments are conducted to study the action accuracy, naturalism, and transition smoothness of the motions generated by our system.


著者 Weiqiang Wang,Xuefei Zhe,Qiuhong Ke,Di Kang,Tingguang Li,Ruizhi Chen,Linchao Bao
発行日 2023-11-27 15:19:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV, cs.GR パーマリンク