Text-controlled Motion Mamba: Text-Instructed Temporal Grounding of Human Motion

要約

人間の動きの理解は、大規模なモーション キャプチャ データセットの利用によって促進される、さまざまな実践的な応用を伴う基本的なタスクです。
最近の研究は、テキストベースのモーション生成、編集、質問応答などのテキストモーションタスクに焦点を当てています。
この研究では、トリムされていないモーション シーケンス内の特定のテキスト記述に対応する時間セグメントを正確に位置特定することを目的とした、テキストベースのヒューマン モーション グラウンディング (THMG) という新しいタスクを導入します。
グローバルな時間情報を取得することは、THMG タスクにとって重要です。
ただし、グローバルな時間的セルフアテンションに依存するトランスフォーマーベースのモデルは、トリミングされていない長いシーケンスを処理するときに、二次計算コストが原因で課題に直面します。
私たちは、時間的なグローバル コンテキスト、言語クエリ制御、空間グラフ トポロジを線形メモリ コストのみで統合する統合モデルである Text-controlled Motion Mamba (TM-Mamba) を提案することで、これらの課題に対処します。
モデルの中核は、テキスト クエリに基づいてグローバルな時間情報を動的に組み込むテキスト制御の選択メカニズムです。
このモデルは、リレーショナル埋め込みの統合により、トポロジを認識できるようにさらに強化されています。
評価のために、人間の行動とそれに対応する時間セグメントの詳細なテキスト記述を提供する初のテキストモーション データセットである BABEL-Grounding を導入します。
広範な評価により、BABEL-Grounding に対する TM-Mamba の有効性が実証されています。

要約(オリジナル)

Human motion understanding is a fundamental task with diverse practical applications, facilitated by the availability of large-scale motion capture datasets. Recent studies focus on text-motion tasks, such as text-based motion generation, editing and question answering. In this study, we introduce the novel task of text-based human motion grounding (THMG), aimed at precisely localizing temporal segments corresponding to given textual descriptions within untrimmed motion sequences. Capturing global temporal information is crucial for the THMG task. However, transformer-based models that rely on global temporal self-attention face challenges when handling long untrimmed sequences due to the quadratic computational cost. We address these challenges by proposing Text-controlled Motion Mamba (TM-Mamba), a unified model that integrates temporal global context, language query control, and spatial graph topology with only linear memory cost. The core of the model is a text-controlled selection mechanism which dynamically incorporates global temporal information based on text query. The model is further enhanced to be topology-aware through the integration of relational embeddings. For evaluation, we introduce BABEL-Grounding, the first text-motion dataset that provides detailed textual descriptions of human actions along with their corresponding temporal segments. Extensive evaluations demonstrate the effectiveness of TM-Mamba on BABEL-Grounding.

arxiv情報

著者 Xinghan Wang,Zixi Kang,Yadong Mu
発行日 2024-04-17 13:33:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク