UV R-CNN: Stable and Efficient Dense Human Pose Estimation

要約

密な姿勢推定は、インスタンスレベルの人体解析のための密な3D予測タスクであり、RGB画像から人体の3D表面に人体ピクセルをマッピングすることを目的としている。大量の表面点回帰のため、他の領域ベースの人体インスタンス分析タスクと比較して、学習過程が崩れやすいように見える。既存の密な姿勢推定モデルの損失定式化を分析することにより、我々は、学習進捗を安定させるために密な点}損失と名付けられた新しい点回帰損失関数と、マルチタスク損失を扱うための新しいバランス損失加重戦略を導入する。以上の特徴により、我々はUV R-CNNと名付けた全く新しいアーキテクチャを提案する。また、ResNet-50-FPNを用いたDensePose-COCO検証において、AP_{gps}$ 65.0%、AP_{gpsm}$ 66.1%を達成し、最先端の人物ポーズ推定手法と比較して優位に立つことができた。

要約(オリジナル)

Dense pose estimation is a dense 3D prediction task for instance-level human analysis, aiming to map human pixels from an RGB image to a 3D surface of the human body. Due to a large amount of surface point regression, the training process appears to be easy to collapse compared to other region-based human instance analyzing tasks. By analyzing the loss formulation of the existing dense pose estimation model, we introduce a novel point regression loss function, named Dense Points} loss to stable the training progress, and a new balanced loss weighting strategy to handle the multi-task losses. With the above novelties, we propose a brand new architecture, named UV R-CNN. Without auxiliary supervision and external knowledge from other tasks, UV R-CNN can handle many complicated issues in dense pose model training progress, achieving 65.0% $AP_{gps}$ and 66.1% $AP_{gpsm}$ on the DensePose-COCO validation subset with ResNet-50-FPN feature extractor, competitive among the state-of-the-art dense human pose estimation methods.

arxiv情報

著者 Wenhe Jia,Yilin Zhou,Xuhan Zhu,Mengjie Hu,Chun Liu,Qing Song
発行日 2022-11-04 09:29:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク