要約
人間の姿勢推定は、アクティビティ認識やインタラクティブ システムなどのさまざまなアプリケーションを使用するコンピューター ビジョンの重要なタスクです。
ただし、異なるデータセット間で注釈付きスケルトンに一貫性がないため、普遍的に適用可能なモデルを開発する際に課題が生じます。
この課題に対処するために、複数の教師による知識の蒸留と統一されたスケルトン表現を統合する新しいアプローチを提案します。
私たちのネットワークは、それぞれ 17 個と 16 個のキーポイントを含む COCO データセットと MPII データセットで共同トレーニングされています。
元のアノテーションよりも 4 (COCO) と 5 (MPII) 多い 21 キーポイントの拡張セットを予測することで適応性が強化され、データセット間の一般化が向上することを示します。
私たちの結合モデルは、単一のデータセットでトレーニングし、両方で評価した場合の平均精度が 53.79 と 55.78 であったのに対し、70.89 と 76.40 を達成しました。
さらに、Halpe データセットで 66.84 および 72.75 の AP を報告することで、2 つのモデルによる 21 の予測ポイントすべても評価します。
これは、姿勢推定の研究と応用における最も差し迫った課題の 1 つである骨格注釈の不一致に対処するための私たちの技術の可能性を強調しています。
要約(オリジナル)
Human pose estimation is a key task in computer vision with various applications such as activity recognition and interactive systems. However, the lack of consistency in the annotated skeletons across different datasets poses challenges in developing universally applicable models. To address this challenge, we propose a novel approach integrating multi-teacher knowledge distillation with a unified skeleton representation. Our networks are jointly trained on the COCO and MPII datasets, containing 17 and 16 keypoints, respectively. We demonstrate enhanced adaptability by predicting an extended set of 21 keypoints, 4 (COCO) and 5 (MPII) more than original annotations, improving cross-dataset generalization. Our joint models achieved an average accuracy of 70.89 and 76.40, compared to 53.79 and 55.78 when trained on a single dataset and evaluated on both. Moreover, we also evaluate all 21 predicted points by our two models by reporting an AP of 66.84 and 72.75 on the Halpe dataset. This highlights the potential of our technique to address one of the most pressing challenges in pose estimation research and application – the inconsistency in skeletal annotations.
arxiv情報
著者 | Muhammad Saif Ullah Khan,Dhavalkumar Limbachiya,Didier Stricker,Muhammad Zeshan Afzal |
発行日 | 2024-05-30 14:14:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google