Generating Fine-Grained Human Motions Using ChatGPT-Refined Descriptions

要約

近年、テキストベースの動作生成が著しく進歩し、テキストの記述に沿った多様で高品質な人物動作を生成できるようになりました。
ただし、詳細なテキスト説明が注釈付けされたデータセットが不足しているため、きめの細かいモーションや様式化されたモーションを生成することは依然として困難です。
分割統治戦略を採用することにより、人間の動きを生成するためのファイングレインヒューマンモーション拡散モデル(FG-MDM)と呼ばれる新しいフレームワークを提案します。
具体的には、まず、大規模な言語モデル (GPT-3.5) を活用して、以前の漠然としたテキストの注釈を解析して、体のさまざまな部分の詳細な記述を作成します。
次に、これらのきめの細かい記述を使用して、変圧器ベースの普及モデルを導きます。
FG-MDM は、トレーニング データの配布外でも、きめの細かい定型化されたモーションを生成できます。
私たちの実験結果は、FG-MDM が以前の方法よりも優れていること、特に強力な汎化能力を実証しています。
HumanML3D および KIT 用のきめ細かいテキスト アノテーションをリリースします。

要約(オリジナル)

Recently, significant progress has been made in text-based motion generation, enabling the generation of diverse and high-quality human motions that conform to textual descriptions. However, it remains challenging to generate fine-grained or stylized motions due to the lack of datasets annotated with detailed textual descriptions. By adopting a divide-and-conquer strategy, we propose a new framework named Fine-Grained Human Motion Diffusion Model (FG-MDM) for human motion generation. Specifically, we first parse previous vague textual annotation into fine-grained description of different body parts by leveraging a large language model (GPT-3.5). We then use these fine-grained descriptions to guide a transformer-based diffusion model. FG-MDM can generate fine-grained and stylized motions even outside of the distribution of the training data. Our experimental results demonstrate the superiority of FG-MDM over previous methods, especially the strong generalization capability. We will release our fine-grained textual annotations for HumanML3D and KIT.

arxiv情報

著者 Xu Shi,Chuanchen Luo,Junran Peng,Hongwen Zhang,Yunlian Sun
発行日 2023-12-05 14:01:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク