SHaRPose: Sparse High-Resolution Representation for Human Pose Estimation

要約

人間の姿勢推定モデルで優れたパフォーマンスを達成するには、高解像度の表現が不可欠です。
このような特徴を得るために、既存の作品は高解像度の入力画像または細粒度の画像トークンを利用しています。
ただし、この高密度の高解像度表現は、かなりの計算負荷をもたらします。
この論文では、「人間の姿勢推定では人間のまばらなキーポイント位置のみが検出されますが、画像全体を高密度で高解像度の方法で記述する必要があるのでしょうか?」という質問に対処します。
動的変換モデルに基づいて、人間の姿勢推定 (SHaRPose) にスパース高解像度表現のみを使用するフレームワークを提案します。
詳細には、SHARPose は 2 つのステージで構成されます。
粗い段階では、粗い推定値が生成されながら、画像領域とキーポイントの間の関係が動的にマイニングされます。
次に、品質予測子を適用して、粗い推定結果を調整する必要があるかどうかを決定します。
細かい段階では、SHaRPose はキーポイントに関連する領域のみにまばらな高解像度表現を構築し、洗練された高精度の人間の姿勢推定を提供します。
広範な実験により、提案された方法の優れたパフォーマンスが実証されています。
具体的には、最先端の手法である ViTPose と比較して、当社のモデル SHaRPose-Base は、COCO 検証セットで 77.4 AP (+0.5 AP)、COCO テスト開発セットで 76.7 AP (+0.5 AP) を達成しています。
ViTPose-Base より $1.4\倍$ の速度で推論します。

要約(オリジナル)

High-resolution representation is essential for achieving good performance in human pose estimation models. To obtain such features, existing works utilize high-resolution input images or fine-grained image tokens. However, this dense high-resolution representation brings a significant computational burden. In this paper, we address the following question: ‘Only sparse human keypoint locations are detected for human pose estimation, is it really necessary to describe the whole image in a dense, high-resolution manner?’ Based on dynamic transformer models, we propose a framework that only uses Sparse High-resolution Representations for human Pose estimation (SHaRPose). In detail, SHaRPose consists of two stages. At the coarse stage, the relations between image regions and keypoints are dynamically mined while a coarse estimation is generated. Then, a quality predictor is applied to decide whether the coarse estimation results should be refined. At the fine stage, SHaRPose builds sparse high-resolution representations only on the regions related to the keypoints and provides refined high-precision human pose estimations. Extensive experiments demonstrate the outstanding performance of the proposed method. Specifically, compared to the state-of-the-art method ViTPose, our model SHaRPose-Base achieves 77.4 AP (+0.5 AP) on the COCO validation set and 76.7 AP (+0.5 AP) on the COCO test-dev set, and infers at a speed of $1.4\times$ faster than ViTPose-Base.

arxiv情報

著者 Xiaoqi An,Lin Zhao,Chen Gong,Nannan Wang,Di Wang,Jian Yang
発行日 2023-12-17 16:29:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク