要約
人間中心の認識 (歩行者の検出、セグメンテーション、姿勢推定、属性分析など) は、コンピューター ビジョンの長年の問題です。
このペーパーでは、単一ステージ、複数人、マルチタスクの人間中心の知覚 (HCP) のための統合された多用途フレームワーク (HQNet) を紹介します。
私たちのアプローチは、ヒューマン クエリと呼ばれる統合されたヒューマン クエリ表現の学習に重点を置いています。これは、個々の人の複雑なインスタンス レベルの特徴を捕捉し、複雑な複数人のシナリオを解きほぐします。
さまざまな HCP タスクは個別によく研究されていますが、包括的なベンチマーク データセットが存在しないため、HCP タスクの単一段階マルチタスク学習は文献で十分に活用されていません。
このギャップに対処するために、モデル開発と包括的な評価を可能にする COCO-UniHuman ベンチマーク データセットを提案します。
実験結果は、マルチタスク HCP モデル間での提案手法の最先端のパフォーマンスと、タスク固有の HCP モデルと比較した競合パフォーマンスを示しています。
さらに、私たちの実験は、Human Query の新しい HCP タスクへの適応性を強調し、その堅牢な一般化機能を実証しています。
コードとデータは一般にアクセスできるようになります。
要約(オリジナル)
Human-centric perception (e.g. pedetrian detection, segmentation, pose estimation, and attribute analysis) is a long-standing problem for computer vision. This paper introduces a unified and versatile framework (HQNet) for single-stage multi-person multi-task human-centric perception (HCP). Our approach centers on learning a unified human query representation, denoted as Human Query, which captures intricate instance-level features for individual persons and disentangles complex multi-person scenarios. Although different HCP tasks have been well-studied individually, single-stage multi-task learning of HCP tasks has not been fully exploited in the literature due to the absence of a comprehensive benchmark dataset. To address this gap, we propose COCO-UniHuman benchmark dataset to enable model development and comprehensive evaluation. Experimental results demonstrate the proposed method’s state-of-the-art performance among multi-task HCP models and its competitive performance compared to task-specific HCP models. Moreover, our experiments underscore Human Query’s adaptability to new HCP tasks, thus demonstrating its robust generalization capability. Codes and data will be publicly accessible.
arxiv情報
著者 | Sheng Jin,Shuhuai Li,Tong Li,Wentao Liu,Chen Qian,Ping Luo |
発行日 | 2024-03-14 15:59:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google