要約
これは、均質化された標準的な体型を学習することが容易なため、既存のテキストからモーションを生成する手法では見過ごされがちな側面である。しかし、この均質化は、異なる体型とその動きのダイナミクスの間の自然な相関を歪める可能性がある。本手法は、自然言語プロンプトから体型を考慮した人間のモーションを生成することで、このギャップに対処する。我々は、有限スカラー量子化ベースの変分オートエンコーダ(FSQ-VAE)を利用して、モーションを離散的なトークンに量子化し、連続的な体型情報を活用して、これらのトークンを連続的で詳細なモーションに戻す。さらに、連続的な形状パラメータとモーション・トークンの両方を予測するために、事前に訓練された言語モデルの能力を利用し、テキストに沿ったモーションの合成と、形状を意識したモーションへのデコードを容易にする。本手法を定量的、定性的に評価し、形状認識モーションの生成における有効性を実証するための包括的な知覚研究も行う。
要約(オリジナル)
We explore how body shapes influence human motion synthesis, an aspect often overlooked in existing text-to-motion generation methods due to the ease of learning a homogenized, canonical body shape. However, this homogenization can distort the natural correlations between different body shapes and their motion dynamics. Our method addresses this gap by generating body-shape-aware human motions from natural language prompts. We utilize a finite scalar quantization-based variational autoencoder (FSQ-VAE) to quantize motion into discrete tokens and then leverage continuous body shape information to de-quantize these tokens back into continuous, detailed motion. Additionally, we harness the capabilities of a pretrained language model to predict both continuous shape parameters and motion tokens, facilitating the synthesis of text-aligned motions and decoding them into shape-aware motions. We evaluate our method quantitatively and qualitatively, and also conduct a comprehensive perceptual study to demonstrate its efficacy in generating shape-aware motions.
arxiv情報
著者 | Ting-Hsuan Liao,Yi Zhou,Yu Shen,Chun-Hao Paul Huang,Saayan Mitra,Jia-Bin Huang,Uttaran Bhattacharya |
発行日 | 2025-04-04 17:59:10+00:00 |
arxivサイト | arxiv_id(pdf) |