Motion Generation from Fine-grained Textual Descriptions

要約

text2motion のタスクは、与えられたテキストの説明からモーション シーケンスを生成することであり、モデルは自然言語の命令と人体の動きの間の相互作用を探索する必要があります。
既存の作品のほとんどは粗い動きの記述(例:「男性がしゃがむ」)に限定されている一方で、関連する身体部分の動きを指定する細かい動きの記述はほとんど検討されていません。
粗いテキストでトレーニングされたモデルは、きめの細かいモーション関連の単語からモーション プリミティブへのマッピングを学習できない可能性があり、その結果、目に見えない記述からモーションを生成できない可能性があります。
この論文では、GPT-3.5-turbo に繊細なプロンプトを供給することで、きめの細かいテキスト記述を備えた大規模な言語動作データセット FineHumanML3D を構築します。
そこで、きめの細かいテキスト情報を最大限に活用する、新しい text2motion モデル FineMotionDiffuse を設計します。
私たちの実験では、FineHumanML3D でトレーニングされた FineMotionDiffuse が定量的な評価において良好な結果を得ることが示されました。
また、このモデルは、単純な説明から対応する基本的な動きへの暗黙的なマッピングを学習することにより、空間的/時間的に複合的な動きをより適切に生成できることもわかりました。

要約(オリジナル)

The task of text2motion is to generate motion sequences from given textual descriptions, where a model should explore the interactions between natural language instructions and human body movements. While most existing works are confined to coarse-grained motion descriptions (e.g., ‘A man squats.’), fine-grained ones specifying movements of relevant body parts are barely explored. Models trained with coarse texts may not be able to learn mappings from fine-grained motion-related words to motion primitives, resulting in the failure in generating motions from unseen descriptions. In this paper, we build a large-scale language-motion dataset with fine-grained textual descriptions, FineHumanML3D, by feeding GPT-3.5-turbo with delicate prompts. Accordingly, we design a new text2motion model, FineMotionDiffuse, which makes full use of fine-grained textual information. Our experiments show that FineMotionDiffuse trained on FineHumanML3D acquires good results in quantitative evaluation. We also find this model can better generate spatially/chronologically composite motions by learning the implicit mappings from simple descriptions to the corresponding basic motions.

arxiv情報

著者 Kunhang Li,Yansong Feng
発行日 2024-03-20 11:38:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO パーマリンク