要約
この論文では、テキストから 3D の人間の動きを取得するためのシンプルかつ効果的なアプローチである TMR を紹介します。
これまでの研究では取得を代理評価指標としてのみ扱っていましたが、私たちはこれをスタンドアロンのタスクとして扱います。
私たちの手法は、最先端のテキストからモーションへの合成モデル TEMOS を拡張し、クロスモーダル潜在空間をより適切に構造化するためにコントラスト損失を組み込んでいます。
良好なパフォーマンスを得るには、対照的なトレーニングとともにモーション生成の損失を維持することが重要であることを示します。
評価用のベンチマークを導入し、いくつかのプロトコルの結果を報告することで詳細な分析を提供します。
KIT-ML および HumanML3D データセットに対する広範な実験では、TMR が以前の研究よりも大幅に優れていることが示されており、たとえば中央順位が 54 から 19 に減少しています。最後に、モーメント検索におけるアプローチの可能性を示します。
私たちのコードとモデルは https://mathis.petrovich.fr/tmr で公開されています。
要約(オリジナル)
In this paper, we present TMR, a simple yet effective approach for text to 3D human motion retrieval. While previous work has only treated retrieval as a proxy evaluation metric, we tackle it as a standalone task. Our method extends the state-of-the-art text-to-motion synthesis model TEMOS, and incorporates a contrastive loss to better structure the cross-modal latent space. We show that maintaining the motion generation loss, along with the contrastive training, is crucial to obtain good performance. We introduce a benchmark for evaluation and provide an in-depth analysis by reporting results on several protocols. Our extensive experiments on the KIT-ML and HumanML3D datasets show that TMR outperforms the prior work by a significant margin, for example reducing the median rank from 54 to 19. Finally, we showcase the potential of our approach on moment retrieval. Our code and models are publicly available at https://mathis.petrovich.fr/tmr.
arxiv情報
著者 | Mathis Petrovich,Michael J. Black,Gül Varol |
発行日 | 2023-08-25 09:35:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google