Hybrid model for Single-Stage Multi-Person Pose Estimation

要約

タイトル:シングルステージマルチパーソンポーズ推定のハイブリッドモデル

要約:

– 人間のポーズ推定は、アーキテクチャによって回帰(ヒートマップ不使用)とヒートマップベースのアプローチに分類される。
– 初めのアプローチでは、各キーポイントの正確な座標を畳み込み層と完全接続層を使って直接推定することができる。このアプローチは密集しているキーポイントを検出することができるが、場面に存在しないキーポイントによって予期しない結果が得られる可能性がある。
– 一方、後者のアプローチは、キーポイントごとの予測済ヒートマップを利用して存在しないキーポイントを除外することができる。しかし、ヒートマップからキーポイント座標を取得する際の量子化誤差に苦しむことになる。また、回帰アプローチとは異なり、画像内に密集して配置されたキーポイントを区別することが難しい。
– このため、ヒートマップベースアプローチと回帰アプローチの強みを最大化し、それぞれの欠点を補完するハイブリッドモデル「HybridPose」を提案する。また、キーポイント座標と可視性の間に空間依存性を注入する「自己相関損失」を導入する。そのため、HybridPoseは、密集して配置されたキーポイントを検出するだけでなく、画像内の存在しないキーポイントをフィルタリングすることができる。
– 実験結果では、提案されたHybridPoseはポーズ推定精度の観点から性能低下なしにキーポイントの可視性を示す。

要約(オリジナル)

In general, human pose estimation methods are categorized into two approaches according to their architectures: regression (i.e., heatmap-free) and heatmap-based methods. The former one directly estimates precise coordinates of each keypoint using convolutional and fully-connected layers. Although this approach is able to detect overlapped and dense keypoints, unexpected results can be obtained by non-existent keypoints in a scene. On the other hand, the latter one is able to filter the non-existent ones out by utilizing predicted heatmaps for each keypoint. Nevertheless, it suffers from quantization error when obtaining the keypoint coordinates from its heatmaps. In addition, unlike the regression one, it is difficult to distinguish densely placed keypoints in an image. To this end, we propose a hybrid model for single-stage multi-person pose estimation, named HybridPose, which mutually overcomes each drawback of both approaches by maximizing their strengths. Furthermore, we introduce self-correlation loss to inject spatial dependencies between keypoint coordinates and their visibility. Therefore, HybridPose is capable of not only detecting densely placed keypoints, but also filtering the non-existent keypoints in an image. Experimental results demonstrate that proposed HybridPose exhibits the keypoints visibility without performance degradation in terms of the pose estimation accuracy.

arxiv情報

著者 Jonghyun Kim,Bosang Kim,Hyotae Lee,Jungpyo Kim,Wonhyeok Im,Lanying Jin,Dowoo Kwon,Jungho Lee
発行日 2023-05-02 02:55:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク