要約
入力画像から複数人のキーポイント シーケンスを直接予測できる、QueryPose と呼ばれるスパースなエンド ツー エンドの複数人のポーズ回帰フレームワークを提案します。
既存のエンド ツー エンドの方法は、正確なキーポイント ローカリゼーションのために空間の詳細と構造を保持するために、密な表現に依存しています。
ただし、密なパラダイムは、推論中に複雑で冗長な後処理を導入します。
私たちのフレームワークでは、各人間のインスタンスは、インスタンス レベルのクエリに関連付けられたいくつかの学習可能な空間認識の部分レベルのクエリによってエンコードされます。
まず、部分レベルのクエリを強化するための空間の詳細と構造情報を含む、いくつかの空間に敏感な部分埋め込みを生成するために、局所的な空間的注意メカニズムを考慮する空間部分埋め込み生成モジュール (SPEGM) を提案します。
次に、選択的反復モジュール (SIM) を導入して、生成された空間に敏感な部分の埋め込みを段階的に介して、疎な部分レベルのクエリを適応的に更新します。
2 つの提案されたモジュールに基づいて、部分レベルのクエリは、正確なキーポイント回帰のために空間の詳細と構造情報を完全にエンコードできます。
2 部構成のマッチングにより、QueryPose は手作業で設計された後処理を回避し、MS COCO ミニバル セットで 73.6 AP、CrowdPose テスト セットで 72.7 AP という既存の高密度エンド ツー エンド メソッドを上回ります。
コードは https://github.com/buptxyb666/QueryPose で入手できます。
要約(オリジナル)
We propose a sparse end-to-end multi-person pose regression framework, termed QueryPose, which can directly predict multi-person keypoint sequences from the input image. The existing end-to-end methods rely on dense representations to preserve the spatial detail and structure for precise keypoint localization. However, the dense paradigm introduces complex and redundant post-processes during inference. In our framework, each human instance is encoded by several learnable spatial-aware part-level queries associated with an instance-level query. First, we propose the Spatial Part Embedding Generation Module (SPEGM) that considers the local spatial attention mechanism to generate several spatial-sensitive part embeddings, which contain spatial details and structural information for enhancing the part-level queries. Second, we introduce the Selective Iteration Module (SIM) to adaptively update the sparse part-level queries via the generated spatial-sensitive part embeddings stage-by-stage. Based on the two proposed modules, the part-level queries are able to fully encode the spatial details and structural information for precise keypoint regression. With the bipartite matching, QueryPose avoids the hand-designed post-processes and surpasses the existing dense end-to-end methods with 73.6 AP on MS COCO mini-val set and 72.7 AP on CrowdPose test set. Code is available at https://github.com/buptxyb666/QueryPose.
arxiv情報
著者 | Yabo Xiao,Kai Su,Xiaojuan Wang,Dongdong Yu,Lei Jin,Mingshu He,Zehuan Yuan |
発行日 | 2022-12-15 14:22:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google