要約
単眼の 3D 人間の形状と姿勢を推定するための既存の Transformer は、通常、特徴の長さに関して 2 次計算とメモリの複雑さがあり、正確な再構成に有益な高解像度の特徴におけるきめの細かい情報の利用を妨げます。
この研究では、この問題に対処するために SMPL ベースの Transformer フレームワーク (SMPLer) を提案します。
SMPLer には、分離されたアテンション操作と SMPL ベースのターゲット表現という 2 つの重要な要素が組み込まれており、これにより、Transformer の高解像度機能を効果的に利用できるようになります。
さらに、これら 2 つの設計に基づいて、再構成パフォーマンスをさらに高めるためのマルチスケール アテンションや共同認識アテンションなど、いくつかの新しいモジュールも導入します。
広範な実験により、既存の 3D 人間の形状と姿勢の推定方法に対する SMPLer の有効性が定量的および定性的に実証されました。
特に、提案されたアルゴリズムは Human3.6M データセット上で 45.2 mm の MPJPE を達成し、3 分の 1 未満のパラメータで Mesh Graphormer よりも 10% 以上改善しています。
コードと事前トレーニングされたモデルは https://github.com/xuxy09/SMPLer で入手できます。
要約(オリジナル)
Existing Transformers for monocular 3D human shape and pose estimation typically have a quadratic computation and memory complexity with respect to the feature length, which hinders the exploitation of fine-grained information in high-resolution features that is beneficial for accurate reconstruction. In this work, we propose an SMPL-based Transformer framework (SMPLer) to address this issue. SMPLer incorporates two key ingredients: a decoupled attention operation and an SMPL-based target representation, which allow effective utilization of high-resolution features in the Transformer. In addition, based on these two designs, we also introduce several novel modules including a multi-scale attention and a joint-aware attention to further boost the reconstruction performance. Extensive experiments demonstrate the effectiveness of SMPLer against existing 3D human shape and pose estimation methods both quantitatively and qualitatively. Notably, the proposed algorithm achieves an MPJPE of 45.2 mm on the Human3.6M dataset, improving upon Mesh Graphormer by more than 10% with fewer than one-third of the parameters. Code and pretrained models are available at https://github.com/xuxy09/SMPLer.
arxiv情報
著者 | Xiangyu Xu,Lijuan Liu,Shuicheng Yan |
発行日 | 2024-04-23 17:59:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google