Group Pose: A Simple Baseline for End-to-End Multi-person Pose Estimation

要約

この論文では、エンドツーエンドの複数人の姿勢推定の問題を研究します。
最先端のソリューションは DETR のようなフレームワークを採用しており、主に複雑なデコーダを開発します。たとえば、ポーズ推定をキーポイント ボックス検出として扱い、ED-Pose での人物検出と組み合わせ、ポーズ デコーダとジョイント (キーポイント) で階層的に予測します。
) PETR のデコーダ。
ここでは、グループ ポーズという名前の、シンプルかつ効果的なトランスフォーマー アプローチを紹介します。
$K$ キーポイントのポーズ推定は、それぞれキーポイント クエリから $N\times K$ のキーポイント位置のセットを予測するものであり、$N$ ポーズ予測をスコアリングするためのインスタンス クエリで各ポーズを表すものとして単純に考えられます。
異なるタイプのインスタンス間クエリ間の相互作用は直接的には役に立たないという直観に基づいて、デコーダのセルフアテンションに簡単な変更を加えます。
すべての $N\times(K+1)$ クエリにわたる単一のセルフ アテンションを、その後の 2 つのグループ セルフ アテンションに置き換えます。 (i) $N$ のインスタンス内セルフ アテンション。各 $K$ キーポイント クエリと
1 つのインスタンス クエリ、および (ii) $(K+1)$ 個の同じタイプのインスタンス間セルフアテンション、それぞれが同じタイプの $N$ 個のクエリにわたって行われます。
結果として得られるデコーダは、インスタンス間でタイプの異なるクエリ間の相互作用を除去し、最適化を容易にし、パフォーマンスを向上させます。
MS COCO と CrowdPose での実験結果は、ヒューマン ボックス監視を使用しないアプローチが、複雑なデコーダを使用した以前の方法よりも優れており、ヒューマン ボックス監視を使用する ED-Pose よりもわずかに優れていることを示しています。
$\href{https://github.com/Michel-liu/GroupPose-Paddle}{\rm Paddle}$ および $\href{https://github.com/Michel-liu/GroupPose}{\rm PyTorch}
$コードが利用可能です。

要約(オリジナル)

In this paper, we study the problem of end-to-end multi-person pose estimation. State-of-the-art solutions adopt the DETR-like framework, and mainly develop the complex decoder, e.g., regarding pose estimation as keypoint box detection and combining with human detection in ED-Pose, hierarchically predicting with pose decoder and joint (keypoint) decoder in PETR. We present a simple yet effective transformer approach, named Group Pose. We simply regard $K$-keypoint pose estimation as predicting a set of $N\times K$ keypoint positions, each from a keypoint query, as well as representing each pose with an instance query for scoring $N$ pose predictions. Motivated by the intuition that the interaction, among across-instance queries of different types, is not directly helpful, we make a simple modification to decoder self-attention. We replace single self-attention over all the $N\times(K+1)$ queries with two subsequent group self-attentions: (i) $N$ within-instance self-attention, with each over $K$ keypoint queries and one instance query, and (ii) $(K+1)$ same-type across-instance self-attention, each over $N$ queries of the same type. The resulting decoder removes the interaction among across-instance type-different queries, easing the optimization and thus improving the performance. Experimental results on MS COCO and CrowdPose show that our approach without human box supervision is superior to previous methods with complex decoders, and even is slightly better than ED-Pose that uses human box supervision. $\href{https://github.com/Michel-liu/GroupPose-Paddle}{\rm Paddle}$ and $\href{https://github.com/Michel-liu/GroupPose}{\rm PyTorch}$ code are available.

arxiv情報

著者 Huan Liu,Qiang Chen,Zichang Tan,Jiang-Jiang Liu,Jian Wang,Xiangbo Su,Xiaolong Li,Kun Yao,Junyu Han,Errui Ding,Yao Zhao,Jingdong Wang
発行日 2023-08-14 17:58:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク