Cross-Modal Retrieval for Motion and Text via MildTriple Loss

要約

【タイトル】MildTriple Lossによる運動とテキストのクロスモーダル検索

【要約】
– クロスモーダル検索は、画像-テキストや動画-テキストの検索技術の進歩により、コンピュータビジョンや自然言語処理において主要な研究トピックとなっています。
– しかし、人間の動作シーケンスとテキストの間のクロスモーダル検索は、バーチャルリアリティアプリケーションのユーザーの行動と言語の理解を改善するなどの広範な応用価値を持ちながら、十分な注目を集めていません。
– このタスクは、2つのモダリティの共同モデリング、テキストから人物中心情報の理解の要求、および3D人間動作シーケンスからの行動特徴の学習など、いくつかの課題があります。
– 以前の動作データモデリングに関する研究では、過去の情報を忘れる可能性がある自己回帰特徴抽出器に主に依存していました。
– しかし、本研究では、シンプルで強力なトランスフォーマーベースの動きとテキストエンコーダを含む革新的なモデルを提案し、2つの異なるモダリティから表現を学び、長期依存関係を捉えることが可能となっています。
– また、異なる人間の動作の同じ原子的動作の重複は、意味的な競合を引き起こすことがあり、それに対処するためにMildTriple Lossという新しいトリプレット損失関数を探求しています。
– 本研究では、HumanML3DおよびKIT Motion-Languageデータセットでモデルと方法を評価し、HumanML3Dデータセットで運動検索において62.9%のリコール、テキスト検索において71.5%のリコール(R@10に基づく)を達成しました。

要約(オリジナル)

Cross-modal retrieval has become a prominent research topic in computer vision and natural language processing with advances made in image-text and video-text retrieval technologies. However, cross-modal retrieval between human motion sequences and text has not garnered sufficient attention despite the extensive application value it holds, such as aiding virtual reality applications in better understanding users’ actions and language. This task presents several challenges, including joint modeling of the two modalities, demanding the understanding of person-centered information from text, and learning behavior features from 3D human motion sequences. Previous work on motion data modeling mainly relied on autoregressive feature extractors that may forget previous information, while we propose an innovative model that includes simple yet powerful transformer-based motion and text encoders, which can learn representations from the two different modalities and capture long-term dependencies. Furthermore, the overlap of the same atomic actions of different human motions can cause semantic conflicts, leading us to explore a new triplet loss function, MildTriple Loss. it leverages the similarity between samples in intra-modal space to guide soft-hard negative sample mining in the joint embedding space to train the triplet loss and reduce the violation caused by false negative samples. We evaluated our model and method on the latest HumanML3D and KIT Motion-Language datasets, achieving a 62.9\% recall for motion retrieval and a 71.5\% recall for text retrieval (based on R@10) on the HumanML3D dataset. Our code is available at https://github.com/eanson023/rehamot.

arxiv情報

著者 Sheng Yan,Haoqiang Wang,Xin Du,Mengyuan Liu,Hong Liu
発行日 2023-05-07 05:40:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CV パーマリンク