TMR: Text-to-Motion Retrieval Using Contrastive 3D Human Motion Synthesis

要約

タイトル:3D人間モーション合成を用いた対照的テキストからモーション検索
要約:
– TMRというアプローチが提案された。
– これは、テキストを3D人間モーションに変換する手法であり、評価尺度として検索のみでなく単体でのタスクにも取り組んでいる。
– TEMOSモデルを拡張し、対照的損失を組み込むことでクロスモーダルな潜在空間をより構造化する。
– モーション生成損失と対照的トレーニングを維持することが重要であることが示された。
– 評価ベンチマークが導入され、KIT-MLおよびHumanML3Dデータセットにおける結果が報告された。
– TMRが、前の研究よりも優れており(例えば、中央値順位が54から19に削減される)、ほかのプロトコルでも結果が報告された。
– 最後に、モーメント検索におけるアプローチの可能性を示す。
-コードとモデルは公開されています。

要約(オリジナル)

In this paper, we present TMR, a simple yet effective approach for text to 3D human motion retrieval. While previous work has only treated retrieval as a proxy evaluation metric, we tackle it as a standalone task. Our method extends the state-of-the-art text-to-motion synthesis model TEMOS, and incorporates a contrastive loss to better structure the cross-modal latent space. We show that maintaining the motion generation loss, along with the contrastive training, is crucial to obtain good performance. We introduce a benchmark for evaluation and provide an in-depth analysis by reporting results on several protocols. Our extensive experiments on the KIT-ML and HumanML3D datasets show that TMR outperforms the prior work by a significant margin, for example reducing the median rank from 54 to 19. Finally, we showcase the potential of our approach on moment retrieval. Our code and models are publicly available.

arxiv情報

著者 Mathis Petrovich,Michael J. Black,Gül Varol
発行日 2023-05-02 17:52:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CV パーマリンク