MambaTalk: Efficient Holistic Gesture Synthesis with Selective State Space Models

要約

ジェスチャーの合成は、映画、ロボット工学、仮想現実などのさまざまな分野で幅広いアプリケーションを備えた、人間コンピューターの相互作用の重要な領域です。
最近の進歩により、拡散モデルと注意メカニズムを利用して、ジェスチャーの合成を改善しています。
ただし、これらの手法の計算の複雑さが高いため、遅延が低い長くて多様なシーケンスを生成することは依然として課題です。
課題に対処するための状態空間モデル(SSMS)の可能性を調査し、ジェスチャーの品質を高めるために離散運動事前に2段階モデリング戦略を実装します。
基礎的なマンバブロックを活用して、マンバタルクを紹介し、マルチモーダル統合を通じてジェスチャーの多様性とリズムを高めます。
広範な実験は、私たちの方法が最先端のモデルのパフォーマンスに一致するかそれを超えることを示しています。
当社のプロジェクトは、https://kkkkkka.github.io/mambatalkで公開されています

要約(オリジナル)

Gesture synthesis is a vital realm of human-computer interaction, with wide-ranging applications across various fields like film, robotics, and virtual reality. Recent advancements have utilized the diffusion model and attention mechanisms to improve gesture synthesis. However, due to the high computational complexity of these techniques, generating long and diverse sequences with low latency remains a challenge. We explore the potential of state space models (SSMs) to address the challenge, implementing a two-stage modeling strategy with discrete motion priors to enhance the quality of gestures. Leveraging the foundational Mamba block, we introduce MambaTalk, enhancing gesture diversity and rhythm through multimodal integration. Extensive experiments demonstrate that our method matches or exceeds the performance of state-of-the-art models. Our project is publicly available at https://kkakkkka.github.io/MambaTalk

arxiv情報

著者 Zunnan Xu,Yukang Lin,Haonan Han,Sicheng Yang,Ronghui Li,Yachao Zhang,Xiu Li
発行日 2025-06-16 15:28:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC パーマリンク