要約
表現力豊かな人間のポーズおよび形状推定(EHPS)は、単眼画像からの人間のポーズ、手のジェスチャー、表情を共同で推定することを目的としています。
既存の方法は、主に変圧器ベースのアーキテクチャに依存しており、それは自己関節における二次的な複雑さに悩まされており、特にマルチパーソンシナリオではかなりの計算オーバーヘッドにつながります。
最近、マンバは、その効率的なグローバルモデリング機能により、トランスの有望な代替手段として浮上しています。
ただし、正確なEHPに不可欠な、きめ細かい局所依存関係をキャプチャすることは限られたままです。
これらの問題に対処するために、マルチパーソンEHPの効率的なマルチパーソン1ステージモデルであるEMO-Xを提案します。
具体的には、グローバルコンテキストをスケルトンを意識したローカル機能と統合して、ヒトのトークンを繰り返し強化するスキャンベースのグローバルローカルデコーダー(SGLD)を探索します。
私たちのEMO-Xは、Mambaの優れたグローバルモデリング機能を活用し、スケルトンを認識している局所洗練のための局所的な双方向スキャンメカニズムを設計しています。
包括的な実験は、EMO-Xが効率と精度の間の優れたバランスをとることを示しています。
特に、計算の複雑さが大幅に削減され、最先端の(SOTA)方法と比較して69.8%の推論時間が必要になり、それらのほとんどを精度で上回ります。
要約(オリジナル)
Expressive Human Pose and Shape Estimation (EHPS) aims to jointly estimate human pose, hand gesture, and facial expression from monocular images. Existing methods predominantly rely on Transformer-based architectures, which suffer from quadratic complexity in self-attention, leading to substantial computational overhead, especially in multi-person scenarios. Recently, Mamba has emerged as a promising alternative to Transformers due to its efficient global modeling capability. However, it remains limited in capturing fine-grained local dependencies, which are essential for precise EHPS. To address these issues, we propose EMO-X, the Efficient Multi-person One-stage model for multi-person EHPS. Specifically, we explore a Scan-based Global-Local Decoder (SGLD) that integrates global context with skeleton-aware local features to iteratively enhance human tokens. Our EMO-X leverages the superior global modeling capability of Mamba and designs a local bidirectional scan mechanism for skeleton-aware local refinement. Comprehensive experiments demonstrate that EMO-X strikes an excellent balance between efficiency and accuracy. Notably, it achieves a significant reduction in computational complexity, requiring 69.8% less inference time compared to state-of-the-art (SOTA) methods, while outperforming most of them in accuracy.
arxiv情報
著者 | Haohang Jian,Jinlu Zhang,Junyi Wu,Zhigang Tu |
発行日 | 2025-04-11 17:30:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google