LEAD: Latent Realignment for Human Motion Diffusion

要約

私たちの目標は、自然言語からリアルな人間の動きを生成することです。
最新の手法では、モデルの表現力とテキストとモーションの位置合わせの間のトレードオフに直面することがよくあります。
テキストとモーションの潜在スペースを揃えるものもありますが、表現力は犠牲になります。
他のモデルは、印象的な動きを生成する拡散モデルに依存していますが、潜在空間に意味論的な意味がありません。
これにより、現実性、多様性、および適用性が損なわれる可能性があります。
ここでは、潜在拡散と再調整メカニズムを組み合わせて、言語の意味論をコード化する新しい意味論的に構造化された空間を生成することで、この問題に対処します。
この機能を活用して、テキストのモーション反転のタスクを導入して、いくつかの例から新しいモーションの概念を捉えます。
モーション合成については、HumanML3D および KIT-ML で LEAD を評価し、リアリズム、多様性、テキストとモーションの一貫性の点で最先端のパフォーマンスに匹敵するパフォーマンスを示しています。
当社の定性分析とユーザー調査により、合成されたモーションは最新の方法と比較してよりシャープで人間らしく、テキストへの適合性が高いことが明らかになりました。
モーション テキスト反転の場合、私たちの方法は、従来の VAE と比較して、分布外の特性を捕捉する能力が向上していることを示しています。

要約(オリジナル)

Our goal is to generate realistic human motion from natural language. Modern methods often face a trade-off between model expressiveness and text-to-motion alignment. Some align text and motion latent spaces but sacrifice expressiveness; others rely on diffusion models producing impressive motions, but lacking semantic meaning in their latent space. This may compromise realism, diversity, and applicability. Here, we address this by combining latent diffusion with a realignment mechanism, producing a novel, semantically structured space that encodes the semantics of language. Leveraging this capability, we introduce the task of textual motion inversion to capture novel motion concepts from a few examples. For motion synthesis, we evaluate LEAD on HumanML3D and KIT-ML and show comparable performance to the state-of-the-art in terms of realism, diversity, and text-motion consistency. Our qualitative analysis and user study reveal that our synthesized motions are sharper, more human-like and comply better with the text compared to modern methods. For motion textual inversion, our method demonstrates improved capacity in capturing out-of-distribution characteristics in comparison to traditional VAEs.

arxiv情報

著者 Nefeli Andreou,Xi Wang,Victoria Fernández Abrevaya,Marie-Paule Cani,Yiorgos Chrysanthou,Vicky Kalogeiton
発行日 2024-10-18 14:43:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR パーマリンク