SSD-Poser: Avatar Pose Estimation with State Space Duality from Sparse Observations

要約

AR/VRのアプリケーションの増加により、ヘッドマウントディスプレイ(HMDS)からのリアルタイムフルボディポーズ推定の需要が増加します。
HMDは頭と手から関節信号を提供しますが、全身のポーズを再構築することは、制約のない下半身のために依然として挑戦的です。
最近の進歩は、多くの場合、従来のニューラルネットワークと生成モデルに依存して、変圧器や拡散モデルなどのこのタスクのパフォーマンスを改善します。
ただし、これらのアプローチは、正確なポーズ再構成を達成することと、推論の速度を維持することとのバランスをとるのに苦労しています。
これらの課題を克服するために、軽量で効率的なモデルであるSSDポーザーは、まばらな観測からの堅牢なフルボディモーション推定のために設計されています。
SSD-Poserには、適切に設計されたハイブリッドエンコーダーである状態空間注意エンコーダが組み込まれており、状態空間の二重性を複雑なモーションポーズに適応させ、リアルタイムのリアルなポーズ再構築を可能にします。
さらに、周波数認識デコーダーが導入され、可変周波数の動き信号によって引き起こされるジッターを緩和し、モーションスムーズさを著しく強化します。
AMASSデータセットでの包括的な実験は、SSDポーザーが並外れた精度と計算効率を達成し、最先端の方法と比較して優れた推論効率を示していることを示しています。

要約(オリジナル)

The growing applications of AR/VR increase the demand for real-time full-body pose estimation from Head-Mounted Displays (HMDs). Although HMDs provide joint signals from the head and hands, reconstructing a full-body pose remains challenging due to the unconstrained lower body. Recent advancements often rely on conventional neural networks and generative models to improve performance in this task, such as Transformers and diffusion models. However, these approaches struggle to strike a balance between achieving precise pose reconstruction and maintaining fast inference speed. To overcome these challenges, a lightweight and efficient model, SSD-Poser, is designed for robust full-body motion estimation from sparse observations. SSD-Poser incorporates a well-designed hybrid encoder, State Space Attention Encoders, to adapt the state space duality to complex motion poses and enable real-time realistic pose reconstruction. Moreover, a Frequency-Aware Decoder is introduced to mitigate jitter caused by variable-frequency motion signals, remarkably enhancing the motion smoothness. Comprehensive experiments on the AMASS dataset demonstrate that SSD-Poser achieves exceptional accuracy and computational efficiency, showing outstanding inference efficiency compared to state-of-the-art methods.

arxiv情報

著者 Shuting Zhao,Linxin Bai,Liangjing Shao,Ye Zhang,Xinrong Chen
発行日 2025-04-25 13:18:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68U05, cs.CV, cs.HC パーマリンク