MotionGlot: A Multi-Embodied Motion Generation Model

要約

このホワイトペーパーでは、四足動物や人体など、さまざまな作用寸法を持つ複数の実施形態で動きを生成できるモデルであるMotionGlotを紹介します。
大規模な言語モデル(LLMS)で一般的に使用される確立されたトレーニング手順を活用することにより、モーション関連のタスク専用に設計された命令調整テンプレートを導入します。
私たちのアプローチは、LLMトレーニングの根底にある原則が、異なるアクションディメンションを持つ複数の実施形態で幅広いモーション生成タスクを学習するために成功裏に適応できることを示しています。
6つのタスクのセットでMotionGlotのさまざまな能力を示し、タスク全体で35.3%の平均改善を報告します。
さらに、2つの新しいデータセットを紹介します。(1)方向ベースのテキスト注釈とペアになった約48,000の軌跡を備えた専門家制御された四足運動のデータセットと、(2)人間のモーション生成タスクの23,000を超える状況テキストプロンプトのデータセット。
最後に、実際のアプリケーションでシステムの機能を検証するためにハードウェア実験を実施します。

要約(オリジナル)

This paper introduces MotionGlot, a model that can generate motion across multiple embodiments with different action dimensions, such as quadruped robots and human bodies. By leveraging the well-established training procedures commonly used in large language models (LLMs), we introduce an instruction-tuning template specifically designed for motionrelated tasks. Our approach demonstrates that the principles underlying LLM training can be successfully adapted to learn a wide range of motion generation tasks across multiple embodiments with different action dimensions. We demonstrate the various abilities of MotionGlot on a set of 6 tasks and report an average improvement of 35.3% across tasks. Additionally, we contribute two new datasets: (1) a dataset of expert-controlled quadruped locomotion with approximately 48,000 trajectories paired with direction-based text annotations, and (2) a dataset of over 23,000 situational text prompts for human motion generation tasks. Finally, we conduct hardware experiments to validate the capabilities of our system in real-world applications.

arxiv情報

著者 Sudarshan Harithas,Srinath Sridhar
発行日 2025-05-01 06:13:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク