MotionGPT: Finetuned LLMs Are General-Purpose Motion Generators

要約

デジタル ヒューマンの新たな要件により、与えられた動作記述から現実的な人間の動きを生成することは大幅な進歩を遂げています。
最近の研究では、テキストのアクション記述からモーションを直接生成するという点で目覚ましい成果を上げていますが、多くの場合、制御信号の単一のモダリティのみをサポートしているため、実際のデジタル ヒューマン業界での応用が制限されています。
この論文では、マルチモーダル制御信号 (テキストや単一フレームのポーズなど) を使用して、マルチモーダル信号を大規模言語モデル (LLM) の特別な入力トークンとして扱うことにより、連続的な人間の動作を生成できるモーション汎用ジェネレーター (MotionGPT) を紹介します。
具体的には、まずマルチモーダル制御信号を離散コードに量子化し、次にそれらを統合プロンプト命令に定式化して、LLM にモーション応答を生成するように依頼します。
当社の MotionGPT は、LLM パラメーターのわずか 0.4% を調整することで、マルチモーダルな制御信号を使用した統合人間動作生成モデルを実証します。
私たちの知る限り、MotionGPT はマルチモーダルな制御信号によって人間の動きを生成する最初の方法であり、これがこの新しい方向性を明らかにすることができると期待しています。
Web ページ https://qiqiapink.github.io/MotionGPT/ にアクセスしてください。

要約(オリジナル)

Generating realistic human motion from given action descriptions has experienced significant advancements because of the emerging requirement of digital humans. While recent works have achieved impressive results in generating motion directly from textual action descriptions, they often support only a single modality of the control signal, which limits their application in the real digital human industry. This paper presents a Motion General-Purpose generaTor (MotionGPT) that can use multimodal control signals, e.g., text and single-frame poses, for generating consecutive human motions by treating multimodal signals as special input tokens in large language models (LLMs). Specifically, we first quantize multimodal control signals into discrete codes and then formulate them in a unified prompt instruction to ask the LLMs to generate the motion answer. Our MotionGPT demonstrates a unified human motion generation model with multimodal control signals by tuning a mere 0.4% of LLM parameters. To the best of our knowledge, MotionGPT is the first method to generate human motion by multimodal control signals, which we hope can shed light on this new direction. Visit our webpage at https://qiqiapink.github.io/MotionGPT/.

arxiv情報

著者 Yaqi Zhang,Di Huang,Bin Liu,Shixiang Tang,Yan Lu,Lu Chen,Lei Bai,Qi Chu,Nenghai Yu,Wanli Ouyang
発行日 2024-03-18 04:14:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク