要約
トランスフォーマーベースの手法は、長距離の依存関係をモデル化する強力な能力により、最近 3D 人間の姿勢推定で大きな成功を収めています。
ただし、グローバル アテンション メカニズムだけに依存するだけでは、正確な姿勢推定に不可欠な局所的な詳細をきめ細かく捕捉するには不十分です。
これに対処するために、ローカルな特徴とグローバルな依存関係を効果的に統合して 3D 人間の姿勢推定を強化するデュアル ストリーム モデルである SSR-STF を提案します。
具体的には、SSRFormer を紹介します。SSRFormer は、スケルトン選択的リファイン アテンション (SSRA) メカニズムを採用して人間のポーズ シーケンスのきめ細かいローカル依存関係を捕捉し、Transformer によってモデル化されたグローバルな依存関係を補完する、シンプルかつ効果的なモジュールです。
これら 2 つの特徴ストリームを適応的に融合することで、SSR-STF は人間のポーズの基礎となる構造をより適切に学習し、局所特徴抽出における従来の方法の制限を克服できます。
Human3.6M および MPI-INF-3DHP データセットに対する広範な実験により、SSR-STF が P1 誤差がそれぞれ 37.4 mm および 13.2 mm という最先端のパフォーマンスを達成し、精度と一般化の両方で既存の手法を上回ることが実証されました。
さらに、私たちのモデルによって学習されたモーション表現は、ヒューマン メッシュの回復などの下流タスクでも有効であることが証明されています。
コードは https://github.com/poker-xu/SSR-STF で入手できます。
要約(オリジナル)
Transformer-based methods have recently achieved significant success in 3D human pose estimation, owing to their strong ability to model long-range dependencies. However, relying solely on the global attention mechanism is insufficient for capturing the fine-grained local details, which are crucial for accurate pose estimation. To address this, we propose SSR-STF, a dual-stream model that effectively integrates local features with global dependencies to enhance 3D human pose estimation. Specifically, we introduce SSRFormer, a simple yet effective module that employs the skeleton selective refine attention (SSRA) mechanism to capture fine-grained local dependencies in human pose sequences, complementing the global dependencies modeled by the Transformer. By adaptively fusing these two feature streams, SSR-STF can better learn the underlying structure of human poses, overcoming the limitations of traditional methods in local feature extraction. Extensive experiments on the Human3.6M and MPI-INF-3DHP datasets demonstrate that SSR-STF achieves state-of-the-art performance, with P1 errors of 37.4 mm and 13.2 mm respectively, outperforming existing methods in both accuracy and generalization. Furthermore, the motion representations learned by our model prove effective in downstream tasks such as human mesh recovery. Codes are available at https://github.com/poker-xu/SSR-STF.
arxiv情報
著者 | Guangsheng Xu,Guoyi Zhang,Lejia Ye,Shuwei Gan,Xiaohu Zhang,Xia Yang |
発行日 | 2024-12-27 14:54:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google