Priority-Centric Human Motion Generation in Discrete Latent Space

要約

テキストからモーションへの生成は、人間の能力と物理法則に準拠しながら、入力テキストと一致する人間のモーションを生成することを目的とした、大変な作業です。
拡散モデルには進歩が見られますが、離散空間における拡散モデルの応用はまだ研究されていません。
現在の方法では、さまざまな動作のさまざまな重要性が見落とされ、それらを一律に扱うことがよくあります。
すべてのモーションが特定のテキスト説明と同じ関連性を持っているわけではないことを認識することが重要です。
一部のモーションは、より顕著で有益なものであるため、生成中に優先される必要があります。
これに応えて、優先度中心のモーション離散拡散モデル (M2DM) を導入します。これは、Transformer ベースの VQ-VAE を利用して簡潔な離散モーション表現を導き出し、コード崩壊に対抗するためのグローバル セルフ アテンション メカニズムと正則化項を組み込みます。

また、モーション シーケンス全体における各モーション トークンの重要性によって決定される、革新的なノイズ スケジュールを採用したモーション離散拡散モデルも提示します。
このアプローチでは、逆拡散プロセス中に最も顕著なモーションが保持され、より意味的に豊かで多様なモーションが得られます。
さらに、テキストと視覚の両方の指標を利用して、モーション トークンの重要性を評価する 2 つの戦略を策定します。
HumanML3D および KIT-ML データセットの包括的な実験により、特に複雑なテキスト記述に関して、私たちのモデルが忠実性と多様性において既存の技術を超えていることが確認されました。

要約(オリジナル)

Text-to-motion generation is a formidable task, aiming to produce human motions that align with the input text while also adhering to human capabilities and physical laws. While there have been advancements in diffusion models, their application in discrete spaces remains underexplored. Current methods often overlook the varying significance of different motions, treating them uniformly. It is essential to recognize that not all motions hold the same relevance to a particular textual description. Some motions, being more salient and informative, should be given precedence during generation. In response, we introduce a Priority-Centric Motion Discrete Diffusion Model (M2DM), which utilizes a Transformer-based VQ-VAE to derive a concise, discrete motion representation, incorporating a global self-attention mechanism and a regularization term to counteract code collapse. We also present a motion discrete diffusion model that employs an innovative noise schedule, determined by the significance of each motion token within the entire motion sequence. This approach retains the most salient motions during the reverse diffusion process, leading to more semantically rich and varied motions. Additionally, we formulate two strategies to gauge the importance of motion tokens, drawing from both textual and visual indicators. Comprehensive experiments on the HumanML3D and KIT-ML datasets confirm that our model surpasses existing techniques in fidelity and diversity, particularly for intricate textual descriptions.

arxiv情報

著者 Hanyang Kong,Kehong Gong,Dongze Lian,Michael Bi Mi,Xinchao Wang
発行日 2023-08-30 15:33:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク