FreeMotion: MoCap-Free Human Motion Synthesis with Multimodal Large Language Models

要約

人間の動きの合成は、コンピューター アニメーションの基本的なタスクです。
ディープラーニングとモーション キャプチャ データを利用したこの分野の最近の進歩にも関わらず、既存の手法は常に特定のモーション カテゴリ、環境、スタイルに限定されています。
この汎用性の低さは、大規模で高品質のモーション データを収集することの難しさと費用が部分的に原因である可能性があります。
同時に、インターネット規模の画像およびテキスト データでトレーニングされた基礎モデルは、さまざまな下流タスクに対する驚くべき世界知識と推論能力を実証しました。
これらの基礎モデルを利用すると、人間の動きの合成に役立つ可能性がありますが、最近の研究では表面的に研究されています。
ただし、これらの方法は、このタスクに対する基礎モデルの可能性を完全には明らかにしておらず、いくつかの単純なアクションと環境のみをサポートしています。
この論文では、モーション データを一切使用せずに、あらゆるモーション タスクおよび環境にわたる MLLM に基づくユーザー制御信号として自然言語命令を使用する、オープンセットの人間のモーション合成を初めて検討します。
私たちのフレームワークは 2 つの段階に分割できます。1) キーフレーム デザイナーおよびアニメーターとして MLLM を利用することによる順次キーフレーム生成。
2) 補間とモーション トラッキングによるキーフレーム間のモーション充填。
私たちの方法は、多くの下流タスクで一般的な人間の動きの合成を実現できます。
有望な結果は、MLLM を利用したモーションキャップなしの人間のモーション合成の価値を示し、将来の研究への道を開きます。

要約(オリジナル)

Human motion synthesis is a fundamental task in computer animation. Despite recent progress in this field utilizing deep learning and motion capture data, existing methods are always limited to specific motion categories, environments, and styles. This poor generalizability can be partially attributed to the difficulty and expense of collecting large-scale and high-quality motion data. At the same time, foundation models trained with internet-scale image and text data have demonstrated surprising world knowledge and reasoning ability for various downstream tasks. Utilizing these foundation models may help with human motion synthesis, which some recent works have superficially explored. However, these methods didn’t fully unveil the foundation models’ potential for this task and only support several simple actions and environments. In this paper, we for the first time, without any motion data, explore open-set human motion synthesis using natural language instructions as user control signals based on MLLMs across any motion task and environment. Our framework can be split into two stages: 1) sequential keyframe generation by utilizing MLLMs as a keyframe designer and animator; 2) motion filling between keyframes through interpolation and motion tracking. Our method can achieve general human motion synthesis for many downstream tasks. The promising results demonstrate the worth of mocap-free human motion synthesis aided by MLLMs and pave the way for future research.

arxiv情報

著者 Zhikai Zhang,Yitang Li,Haofeng Huang,Mingxian Lin,Li Yi
発行日 2024-06-21 12:55:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク