InterMamba: Efficient Human-Human Interaction Generation with Adaptive Spatio-Temporal Mamba

要約

人間と人間のインタラクション生成は、人間を社会的存在として理解する上で重要な役割を果たすため、モーション合成において大きな注目を集めている。しかし、既存の手法は一般的にトランスフォーマーベースのアーキテクチャに依存しており、スケーラビリティや効率性に関する課題にしばしば直面する。これらの問題に対処するために、我々はMambaフレームワークに基づく、新規で効率的な人間と人間のインタラクション生成手法を提案する。具体的には、モーションシーケンスの空間的特徴と時間的特徴を統合する適応的メカニズムを持つ2つの並列SSMブランチを利用する適応的時空間マンバフレームワークを導入する。個々のモーションシーケンス内の依存関係や、異なる個々のシーケンス間の相互作用を捉えるモデルの能力をさらに向上させるために、我々は2つの重要なモジュールを開発する。すなわち、自己適応型時空間マンバモジュールと交差適応型時空間マンバモジュールであり、効率的な特徴学習を可能にする。広範な実験により、我々の手法が2つの相互作用データセットにおいて、顕著な品質と効率で最先端の結果を達成したことが実証された。ベースライン手法であるInterGenと比較して、我々の手法は精度を向上させるだけでなく、InterGenの実行時間の46%である0.57秒という平均推論速度を達成しながら、InterGenの36%である66Mという最小限のパラメータサイズしか必要としない。

要約(オリジナル)

Human-human interaction generation has garnered significant attention in motion synthesis due to its vital role in understanding humans as social beings. However, existing methods typically rely on transformer-based architectures, which often face challenges related to scalability and efficiency. To address these issues, we propose a novel, efficient human-human interaction generation method based on the Mamba framework, designed to meet the demands of effectively capturing long-sequence dependencies while providing real-time feedback. Specifically, we introduce an adaptive spatio-temporal Mamba framework that utilizes two parallel SSM branches with an adaptive mechanism to integrate the spatial and temporal features of motion sequences. To further enhance the model’s ability to capture dependencies within individual motion sequences and the interactions between different individual sequences, we develop two key modules: the self-adaptive spatio-temporal Mamba module and the cross-adaptive spatio-temporal Mamba module, enabling efficient feature learning. Extensive experiments demonstrate that our method achieves state-of-the-art results on two interaction datasets with remarkable quality and efficiency. Compared to the baseline method InterGen, our approach not only improves accuracy but also requires a minimal parameter size of just 66M ,only 36% of InterGen’s, while achieving an average inference speed of 0.57 seconds, which is 46% of InterGen’s execution time.

arxiv情報

著者 Zizhao Wu,Yingying Sun,Yiming Chen,Xiaoling Gu,Ruyu Liu,Jiazhou Chen
発行日 2025-06-03 17:05:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク