Learning Structure-Guided Diffusion Model for 2D Human Pose Estimation

要約

2D 人間姿勢推定 (HPE) の主流のスキームの 1 つは、ニューラル ネットワークによるキーポイント ヒートマップの学習です。
既存の方法では通常、高解像度表現やビジョン トランスフォーマーなどのカスタマイズされたアーキテクチャによってヒートマップの品質が向上します。
この論文では、ノイズのあるヒートマップからのキーポイント ヒートマップ生成問題として 2D HPE を定式化する新しいスキーム \textbf{DiffusionPose} を提案します。
トレーニング中に、ノイズを追加することでキーポイントがランダムな分布に拡散され、拡散モデルは、画像特徴によって構築された条件に関して、ノイズのあるヒートマップからグラウンドトゥルース ヒートマップを復元する方法を学習します。
推論中、拡散モデルは段階的なノイズ除去方法で初期化されたヒートマップからヒートマップを生成します。
さらに、人間の構造情報からの条件を使用して DiffusionPose のパフォーマンスを向上させることをさらに検討します。
広範な実験により、広く使用されている COCO、CrowdPose、および AI Challenge データセットでそれぞれ 1.6、1.2、および 1.2 mAP の向上をもたらした DiffusionPose の優れた性能が示されています。

要約(オリジナル)

One of the mainstream schemes for 2D human pose estimation (HPE) is learning keypoints heatmaps by a neural network. Existing methods typically improve the quality of heatmaps by customized architectures, such as high-resolution representation and vision Transformers. In this paper, we propose \textbf{DiffusionPose}, a new scheme that formulates 2D HPE as a keypoints heatmaps generation problem from noised heatmaps. During training, the keypoints are diffused to random distribution by adding noises and the diffusion model learns to recover ground-truth heatmaps from noised heatmaps with respect to conditions constructed by image feature. During inference, the diffusion model generates heatmaps from initialized heatmaps in a progressive denoising way. Moreover, we further explore improving the performance of DiffusionPose with conditions from human structural information. Extensive experiments show the prowess of our DiffusionPose, with improvements of 1.6, 1.2, and 1.2 mAP on widely-used COCO, CrowdPose, and AI Challenge datasets, respectively.

arxiv情報

著者 Zhongwei Qiu,Qiansheng Yang,Jian Wang,Xiyu Wang,Chang Xu,Dongmei Fu,Kun Yao,Junyu Han,Errui Ding,Jingdong Wang
発行日 2023-06-29 16:24:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク