Explicit Box Detection Unifies End-to-End Multi-Person Pose Estimation

要約

本論文では、ED-Poseと呼ばれる多人数ポーズ推定のための明示的ボックス検出を用いた新しいエンドツーエンドのフレームワークを提案する。このフレームワークは、人間レベル(グローバル)とキーポイントレベル(ローカル)の情報の間の文脈学習を統合したものである。ED-Poseは、従来の1段の手法とは異なり、このタスクを2つの明示的な箱型検出処理として捉え直し、統一的な表現と回帰監視を行う。まず、グローバルな特徴を抽出するために、符号化されたトークンから人間検出デコーダを導入する。これは、後者のキーポイント検出のための良い初期化を提供し、学習プロセスを高速に収束させることができます。第二に、キーポイント付近の文脈情報を取り込むため、姿勢推定をキーポイントボックス検出問題とみなし、各キーポイントのボックスの位置と内容の両方を学習する。人間からキーポイントへの検出デコーダは、人間とキーポイントの特徴の間の対話的な学習戦略を採用し、グローバルおよびローカルの特徴集約をさらに強化する。一般に、ED-Poseは、後処理や高密度ヒートマップの監修を必要としない概念的にシンプルなものである。ED-Poseは、2段階および1段階の手法と比較して、その有効性と効率性を実証している。特に、明示的なボックス検出により、COCOでは4.5AP、CrowdPoseでは9.9APの姿勢推定性能の向上が確認された。ED-Poseは、L1回帰損失を用いた完全なエンドツーエンドのフレームワークとして初めて、同じバックボーンを持つヒートマップベースのトップダウン手法をCOCOで1.2AP、CrowdPoseで76.6AP上回る最先端を達成し、ベルやホイッスルなしで、その性能を発揮することができました。コードは https://github.com/IDEA-Research/ED-Pose で公開されています。

要約(オリジナル)

This paper presents a novel end-to-end framework with Explicit box Detection for multi-person Pose estimation, called ED-Pose, where it unifies the contextual learning between human-level (global) and keypoint-level (local) information. Different from previous one-stage methods, ED-Pose re-considers this task as two explicit box detection processes with a unified representation and regression supervision. First, we introduce a human detection decoder from encoded tokens to extract global features. It can provide a good initialization for the latter keypoint detection, making the training process converge fast. Second, to bring in contextual information near keypoints, we regard pose estimation as a keypoint box detection problem to learn both box positions and contents for each keypoint. A human-to-keypoint detection decoder adopts an interactive learning strategy between human and keypoint features to further enhance global and local feature aggregation. In general, ED-Pose is conceptually simple without post-processing and dense heatmap supervision. It demonstrates its effectiveness and efficiency compared with both two-stage and one-stage methods. Notably, explicit box detection boosts the pose estimation performance by 4.5 AP on COCO and 9.9 AP on CrowdPose. For the first time, as a fully end-to-end framework with a L1 regression loss, ED-Pose surpasses heatmap-based Top-down methods under the same backbone by 1.2 AP on COCO and achieves the state-of-the-art with 76.6 AP on CrowdPose without bells and whistles. Code is available at https://github.com/IDEA-Research/ED-Pose.

arxiv情報

著者 Jie Yang,Ailing Zeng,Shilong Liu,Feng Li,Ruimao Zhang,Lei Zhang
発行日 2023-02-03 08:18:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク