RTMW: Real-Time Multi-Person 2D and 3D Whole-body Pose Estimation

要約

全身の姿勢推定は、体、手、顔、足のキーポイントを同時に予測する必要がある難しいタスクです。
全身姿勢推定は、顔、胴体、手、足を含む人体の詳細な姿勢情報を予測することを目的としています。これは、人間中心の知覚と生成の研究やさまざまなアプリケーションにおいて重要な役割を果たします。
この研究では、2D/3D 全身姿勢推定用の高性能モデル シリーズである RTMW (リアルタイム複数人全身姿勢推定モデル) を紹介します。
RTMPose モデル アーキテクチャと FPN および HEM (階層エンコーディング モジュール) を組み込んで、さまざまなスケールのさまざまな体の部位からポーズ情報をより適切にキャプチャします。
このモデルは、手動で調整されたアノテーションを備えたオープンソースのヒューマン キーポイント データセットの豊富なコレクションを使用してトレーニングされ、2 段階の蒸留戦略によってさらに強化されています。
RTMW は、高い推論効率と導入のしやすさを維持しながら、複数の全身姿勢推定ベンチマークで強力なパフォーマンスを実証します。
m/l/x の 3 つのサイズをリリースしており、RTMW-l は COCO-Wholebody ベンチマークで 70.2 mAP を達成し、このベンチマークで 70 mAP を超える最初のオープンソース モデルとなっています。
一方、我々は、座標分類方式で画像ベースの単眼 3D 全身姿勢推定を実行する、3D 全身姿勢推定のタスクにおける RTMW のパフォーマンスを調査しました。
この研究が学術研究と産業応用の両方に役立つことを願っています。
コードとモデルは、https://github.com/open-mmlab/mmpose/tree/main/projects/rtmpose で公開されています。

要約(オリジナル)

Whole-body pose estimation is a challenging task that requires simultaneous prediction of keypoints for the body, hands, face, and feet. Whole-body pose estimation aims to predict fine-grained pose information for the human body, including the face, torso, hands, and feet, which plays an important role in the study of human-centric perception and generation and in various applications. In this work, we present RTMW (Real-Time Multi-person Whole-body pose estimation models), a series of high-performance models for 2D/3D whole-body pose estimation. We incorporate RTMPose model architecture with FPN and HEM (Hierarchical Encoding Module) to better capture pose information from different body parts with various scales. The model is trained with a rich collection of open-source human keypoint datasets with manually aligned annotations and further enhanced via a two-stage distillation strategy. RTMW demonstrates strong performance on multiple whole-body pose estimation benchmarks while maintaining high inference efficiency and deployment friendliness. We release three sizes: m/l/x, with RTMW-l achieving a 70.2 mAP on the COCO-Wholebody benchmark, making it the first open-source model to exceed 70 mAP on this benchmark. Meanwhile, we explored the performance of RTMW in the task of 3D whole-body pose estimation, conducting image-based monocular 3D whole-body pose estimation in a coordinate classification manner. We hope this work can benefit both academic research and industrial applications. The code and models have been made publicly available at: https://github.com/open-mmlab/mmpose/tree/main/projects/rtmpose

arxiv情報

著者 Tao Jiang,Xinchen Xie,Yining Li
発行日 2024-07-11 16:15:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク