Lightweight Super-Resolution Head for Human Pose Estimation

要約

ヒートマップベースの方法は、その優れたパフォーマンスにより姿勢推定の主流の方法となっています。
ただし、ヒートマップベースのアプローチでは、ダウンスケール ヒートマップによる重大な量子化エラーが発生し、パフォーマンスが制限され、中間監視の悪影響が生じます。
以前のヒートマップベースの手法は、量子化エラーを軽減するために追加の後処理に大きく依存していました。
一部のヒートマップ ベースのアプローチでは、コストのかかる複数のアップサンプリング レイヤーを使用して位置特定の精度を向上させることで、特徴マップの解像度を向上させます。
上記の問題を解決するために、私たちはバックボーン ネットワークを劣化プロセスとして独創的に捉え、ヒートマップ予測を超解像度 (SR) タスクとして再定式化します。
まず、超解像によって入力特徴マップよりも高い(または入力画像と一致する)空間解像度でヒートマップを予測し、量子化誤差とさらなる後処理への依存を効果的に削減する SR ヘッドを提案します。
さらに、LR ヒートマップと劣化した特徴から HR ヒートマップを粗いものから細かいものへと段階的に回復する SRPose を提案します。
HR ヒートマップのトレーニングの難易度を軽減するために、SRPose は SR ヘッドを適用して各ステージの中間特徴を監視します。
また、SRヘッドはトップダウン方式、ボトムアップ方式に対応した軽量な汎用ヘッドです。
COCO、MPII、および CrowdPose データセットに関する広範な実験により、SRPose が対応するヒートマップ ベースのアプローチよりも優れたパフォーマンスを発揮することが示されています。
コードとモデルは https://github.com/haonanwang0522/SRPose で入手できます。

要約(オリジナル)

Heatmap-based methods have become the mainstream method for pose estimation due to their superior performance. However, heatmap-based approaches suffer from significant quantization errors with downscale heatmaps, which result in limited performance and the detrimental effects of intermediate supervision. Previous heatmap-based methods relied heavily on additional post-processing to mitigate quantization errors. Some heatmap-based approaches improve the resolution of feature maps by using multiple costly upsampling layers to improve localization precision. To solve the above issues, we creatively view the backbone network as a degradation process and thus reformulate the heatmap prediction as a Super-Resolution (SR) task. We first propose the SR head, which predicts heatmaps with a spatial resolution higher than the input feature maps (or even consistent with the input image) by super-resolution, to effectively reduce the quantization error and the dependence on further post-processing. Besides, we propose SRPose to gradually recover the HR heatmaps from LR heatmaps and degraded features in a coarse-to-fine manner. To reduce the training difficulty of HR heatmaps, SRPose applies SR heads to supervise the intermediate features in each stage. In addition, the SR head is a lightweight and generic head that applies to top-down and bottom-up methods. Extensive experiments on the COCO, MPII, and CrowdPose datasets show that SRPose outperforms the corresponding heatmap-based approaches. The code and models are available at https://github.com/haonanwang0522/SRPose.

arxiv情報

著者 Haonan Wang,Jie Liu,Jie Tang,Gangshan Wu
発行日 2023-07-31 15:35:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク