Text-to-Motion Retrieval: Towards Joint Understanding of Human Motion Data and Natural Language

要約

最近の姿勢推定方法の進歩により、人間の動きを 3D スケルトン シーケンスの形式で一般的なビデオから抽出できるようになりました。
素晴らしいアプリケーションの機会にもかかわらず、そのような大量の時空間スケルトン データへの効果的かつ効率的なコンテンツ ベースのアクセスは依然として困難な問題のままです。
この論文では、指定された自然言語のテキスト記述に基づいて関連するモーションを検索することを目的とした、新しいコンテンツベースのテキストからモーションへの検索タスクを提案します。
この未知のタスクのベースラインを定義するために、BERT および CLIP 言語表現を使用してテキスト モダリティをエンコードし、成功した時空間モデルを使用してモーション モダリティをエンコードします。
さらに、モーション トランスフォーマー (MoT) と呼ばれるトランスフォーマー ベースのアプローチを導入します。これは、分割された時空の注意を利用して、空間と時間のさまざまなスケルトン ジョイントを効果的に集約します。
テキストと画像/ビデオのマッチングにおける最近の進歩に触発され、広く採用されている 2 つの計量学習損失関数を実験します。
最後に、最近導入された 2 つの KIT Motion-Language データセットと HumanML3D データセットを対象として、取得されたモーションの品質を評価するための定性的指標を定義することにより、共通の評価プロトコルを設定しました。
結果を再現するためのコードは、https://github.com/mesnico/text-to-motion-retrieval で入手できます。

要約(オリジナル)

Due to recent advances in pose-estimation methods, human motion can be extracted from a common video in the form of 3D skeleton sequences. Despite wonderful application opportunities, effective and efficient content-based access to large volumes of such spatio-temporal skeleton data still remains a challenging problem. In this paper, we propose a novel content-based text-to-motion retrieval task, which aims at retrieving relevant motions based on a specified natural-language textual description. To define baselines for this uncharted task, we employ the BERT and CLIP language representations to encode the text modality and successful spatio-temporal models to encode the motion modality. We additionally introduce our transformer-based approach, called Motion Transformer (MoT), which employs divided space-time attention to effectively aggregate the different skeleton joints in space and time. Inspired by the recent progress in text-to-image/video matching, we experiment with two widely-adopted metric-learning loss functions. Finally, we set up a common evaluation protocol by defining qualitative metrics for assessing the quality of the retrieved motions, targeting the two recently-introduced KIT Motion-Language and HumanML3D datasets. The code for reproducing our results is available at https://github.com/mesnico/text-to-motion-retrieval.

arxiv情報

著者 Nicola Messina,Jan Sedmidubsky,Fabrizio Falchi,Tomáš Rebok
発行日 2023-10-04 12:37:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク