要約
言語は人間の動作の領域において重要な役割を果たします。
既存の方法は、モーション生成のために CLIP テキスト埋め込みに大きく依存していましたが、静止画像とテキストのペアに対する CLIP の事前トレーニングのため、言語とモーションを効果的に調整するには不十分でした。
この研究では、言語視覚からより適切な言語運動潜在空間に移行する、新しい言語運動事前訓練モデルである LaMP を紹介します。
モーション情報を提供するテキスト埋め込みを生成することで主要な制限に対処し、生成されたモーション シーケンスの関連性とセマンティクスを大幅に強化します。
LaMP を使用して、言語と動作の表現を調整して学習することで、テキストからモーションの生成、モーション テキストの取得、およびモーション キャプションの 3 つの主要なタスクを推進します。
生成には、CLIP の代わりに LaMP を利用してテキスト条件を提供し、自己回帰マスク予測は、トランスフォーマーでのランク崩壊なしでマスク モデリングを実現するように設計されています。
取得の場合、LaMP のモーション トランスフォーマーからのモーション フィーチャはクエリ トークンと対話してテキスト トランスフォーマーからテキスト フィーチャを取得し、その逆も同様です。
キャプションについては、言語情報を提供するモーション機能を備えた大規模な言語モデルを微調整して、強力なモーション キャプション モデルを開発します。
さらに、生成されたモーションとテキストの説明の整合性を評価するために、LaMP-BertScore メトリクスを導入します。
複数のデータセットに関する広範な実験結果は、3 つのタスクすべてにおいて以前の方法に比べて大幅な改善を示しています。
私たちのメソッドのコードは公開されます。
要約(オリジナル)
Language plays a vital role in the realm of human motion. Existing methods have largely depended on CLIP text embeddings for motion generation, yet they fall short in effectively aligning language and motion due to CLIP’s pretraining on static image-text pairs. This work introduces LaMP, a novel Language-Motion Pretraining model, which transitions from a language-vision to a more suitable language-motion latent space. It addresses key limitations by generating motion-informative text embeddings, significantly enhancing the relevance and semantics of generated motion sequences. With LaMP, we advance three key tasks: text-to-motion generation, motion-text retrieval, and motion captioning through aligned language-motion representation learning. For generation, we utilize LaMP to provide the text condition instead of CLIP, and an autoregressive masked prediction is designed to achieve mask modeling without rank collapse in transformers. For retrieval, motion features from LaMP’s motion transformer interact with query tokens to retrieve text features from the text transformer, and vice versa. For captioning, we finetune a large language model with the language-informative motion features to develop a strong motion captioning model. In addition, we introduce the LaMP-BertScore metric to assess the alignment of generated motions with textual descriptions. Extensive experimental results on multiple datasets demonstrate substantial improvements over previous methods across all three tasks. The code of our method will be made public.
arxiv情報
| 著者 | Zhe Li,Weihao Yuan,Yisheng He,Lingteng Qiu,Shenhao Zhu,Xiaodong Gu,Weichao Shen,Yuan Dong,Zilong Dong,Laurence T. Yang |
| 発行日 | 2024-10-09 17:33:03+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google