MambaTalk: Efficient Holistic Gesture Synthesis with Selective State Space Models

要約

ジェスチャ合成は、人間とコンピューターのインタラクションの重要な領域であり、映画、ロボット工学、仮想現実などのさまざまな分野に幅広く応用されています。
最近の進歩では、拡散モデルと注意メカニズムを利用してジェスチャ合成を改善しています。
ただし、これらの技術は計算の複雑さが高いため、長くて多様なシーケンスを低遅延で生成することは依然として課題です。
私たちは、ジェスチャの品質を向上させるために離散モーション事前分布を使用した 2 段階のモデリング戦略を実装して、この課題に対処するための状態空間モデル (SSM) の可能性を探ります。
基本的な Mamba ブロックを活用して、マルチモーダル統合を通じてジェスチャの多様性とリズムを強化する MambaTalk を導入します。
広範な実験により、私たちの手法が最先端のモデルのパフォーマンスに匹敵するか、それを上回ることが実証されました。

要約(オリジナル)

Gesture synthesis is a vital realm of human-computer interaction, with wide-ranging applications across various fields like film, robotics, and virtual reality. Recent advancements have utilized the diffusion model and attention mechanisms to improve gesture synthesis. However, due to the high computational complexity of these techniques, generating long and diverse sequences with low latency remains a challenge. We explore the potential of state space models (SSMs) to address the challenge, implementing a two-stage modeling strategy with discrete motion priors to enhance the quality of gestures. Leveraging the foundational Mamba block, we introduce MambaTalk, enhancing gesture diversity and rhythm through multimodal integration. Extensive experiments demonstrate that our method matches or exceeds the performance of state-of-the-art models.

arxiv情報

著者 Zunnan Xu,Yukang Lin,Haonan Han,Sicheng Yang,Ronghui Li,Yachao Zhang,Xiu Li
発行日 2024-03-14 15:10:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC パーマリンク