要約
拡散モデルは、人間のモーション生成において優れたパフォーマンスを実現します。
しかし、現在のアプローチは通常、潜在空間内のきめ細かい動きを捕捉する際の周波数領域情報の重要性を無視しています(たとえば、低周波数は静的ポーズと相関し、高周波数はきめの細かい動きと一致します)。
さらに、テキストとモーションの間には意味上の矛盾があり、生成されたモーションとテキストの説明の間に不一致が生じます。
この研究では、周波数状態空間モデル (FreqSSM) とテキスト状態空間モデル (TextSSM) を備えた新しい拡散ベースの FTMoMamba フレームワークを提案します。
具体的には、細粒度の表現を学習するために、FreqSSM はシーケンスを低周波数成分と高周波成分に分解し、それぞれ静的ポーズ (例: 座る、横たわる) と細粒度の動き (例: 遷移、よろめき) の生成をガイドします。
テキストとモーションの一貫性を確保するために、TextSSM はテキストの特徴を文レベルでエンコードし、テキストのセマンティクスを連続した特徴と調整します。
広範な実験により、FTMoMamba がテキストからモーションへの生成タスクで優れたパフォーマンスを達成し、特に HumanML3D データセットで最低の FID 0.181 (MLD の 0.421 よりむしろ低い) を獲得したことが示されています。
要約(オリジナル)
Diffusion models achieve impressive performance in human motion generation. However, current approaches typically ignore the significance of frequency-domain information in capturing fine-grained motions within the latent space (e.g., low frequencies correlate with static poses, and high frequencies align with fine-grained motions). Additionally, there is a semantic discrepancy between text and motion, leading to inconsistency between the generated motions and the text descriptions. In this work, we propose a novel diffusion-based FTMoMamba framework equipped with a Frequency State Space Model (FreqSSM) and a Text State Space Model (TextSSM). Specifically, to learn fine-grained representation, FreqSSM decomposes sequences into low-frequency and high-frequency components, guiding the generation of static pose (e.g., sits, lay) and fine-grained motions (e.g., transition, stumble), respectively. To ensure the consistency between text and motion, TextSSM encodes text features at the sentence level, aligning textual semantics with sequential features. Extensive experiments show that FTMoMamba achieves superior performance on the text-to-motion generation task, especially gaining the lowest FID of 0.181 (rather lower than 0.421 of MLD) on the HumanML3D dataset.
arxiv情報
| 著者 | Chengjian Li,Xiangbo Shu,Qiongjie Cui,Yazhou Yao,Jinhui Tang | 
| 発行日 | 2024-11-26 15:48:12+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
