Motion Generation from Fine-grained Textual Descriptions

要約

text2motion のタスクは、与えられたテキストの説明から人間の動作シーケンスを生成することであり、モデルは自然言語の指示から人体の動きまでの多様なマッピングを調査します。
既存の作品のほとんどは、「男性がしゃがむ」などの粗い動きの記述に限定されている一方で、関連する身体部分の動きを指定する細やかな記述はほとんど検討されていません。
粗粒度のテキストでトレーニングされたモデルは、粒度の細かいモーション関連の単語からモーション プリミティブへのマッピングを学習できない可能性があり、その結果、目に見えない記述からモーションを生成できなくなる可能性があります。
この論文では、GPT-3.5-turboに疑似コード強制チェックを伴うステップバイステップの命令を与えることにより、きめの細かいテキスト記述に特化した大規模な言語動作データセット FineHumanML3D を構築します。
そこで、きめの細かいテキスト情報を最大限に活用して、新しい text2motion モデル FineMotionDiffuse を設計します。
私たちの定量的評価では、FineHumanML3D でトレーニングされた FineMotionDiffuse が、競合ベースラインと比較して FID を 0.38 という大きなマージンで改善することが示されています。
定性的評価とケーススタディによると、私たちのモデルは、細粒度の記述から対応する基本動作への暗黙的なマッピングを学習することにより、空間的または時系列的に複合動作を生成する点で MotionDiffuse よりも優れています。
データは https://github.com/KunhangL/finemotiondiffuse で公開しています。

要約(オリジナル)

The task of text2motion is to generate human motion sequences from given textual descriptions, where the model explores diverse mappings from natural language instructions to human body movements. While most existing works are confined to coarse-grained motion descriptions, e.g., ‘A man squats.’, fine-grained descriptions specifying movements of relevant body parts are barely explored. Models trained with coarse-grained texts may not be able to learn mappings from fine-grained motion-related words to motion primitives, resulting in the failure to generate motions from unseen descriptions. In this paper, we build a large-scale language-motion dataset specializing in fine-grained textual descriptions, FineHumanML3D, by feeding GPT-3.5-turbo with step-by-step instructions with pseudo-code compulsory checks. Accordingly, we design a new text2motion model, FineMotionDiffuse, making full use of fine-grained textual information. Our quantitative evaluation shows that FineMotionDiffuse trained on FineHumanML3D improves FID by a large margin of 0.38, compared with competitive baselines. According to the qualitative evaluation and case study, our model outperforms MotionDiffuse in generating spatially or chronologically composite motions, by learning the implicit mappings from fine-grained descriptions to the corresponding basic motions. We release our data at https://github.com/KunhangL/finemotiondiffuse.

arxiv情報

著者 Kunhang Li,Yansong Feng
発行日 2024-03-26 11:16:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO パーマリンク