Adept: Annotation-Denoising Auxiliary Tasks with Discrete Cosine Transform Map and Keypoint for Human-Centric Pretraining

要約

人間中心の認識は、多様なコンピュータービジョンタスクの中核であり、長年の研究焦点でした。
しかし、以前の研究では、これらの人間中心のタスクを個別に研究しましたが、そのパフォーマンスは大部分がパブリックタスク固有のデータセットのサイズに限定されています。
最近の人間中心の方法は、たとえば深さなどの追加のモダリティを活用して、カメラビューに対する感受性とインターネット上のRGB-Dデータの希少性のために事前トレーニングモデルの利点を制限します。
このホワイトペーパーでは、深さ情報を破棄し、離散コサイン変換(DCT)によって周波数空間でRGB画像の意味情報を探索することにより、人間中心の事前トレーニング方法のデータスケーリビリティを改善します。
さらに、キーポイントとDCTマップを使用した新しい注釈除去補助タスクを提案して、RGB画像抽出器を実施して、人体の細かい意味情報を学習します。
私たちの広範な実験は、深度注釈なしで大規模なデータセット(COCOおよびAICデータセット)で前提条件である場合、モデルは、COCOの+0.5マップ、MPIIの+1.4 PCKHよりも最先端のマップよりも優れたパフォーマンスを達成することを示しています。
SHAのMAEおよびSHBのMAEは、群衆のカウントのためのSHBのMAE、SHAで+1.1 F1スコア、SHAの+0.8 F1スコア、群衆のローカリゼーションでは+0.8 F1スコア、およびPerson ReidのMSMTのMarket1501および+0.8マップで+0.1マップ。
また、MPII+NTURGBDデータセットに対する方法の有効性を検証します

要約(オリジナル)

Human-centric perception is the core of diverse computer vision tasks and has been a long-standing research focus. However, previous research studied these human-centric tasks individually, whose performance is largely limited to the size of the public task-specific datasets. Recent human-centric methods leverage the additional modalities, e.g., depth, to learn fine-grained semantic information, which limits the benefit of pretraining models due to their sensitivity to camera views and the scarcity of RGB-D data on the Internet. This paper improves the data scalability of human-centric pretraining methods by discarding depth information and exploring semantic information of RGB images in the frequency space by Discrete Cosine Transform (DCT). We further propose new annotation denoising auxiliary tasks with keypoints and DCT maps to enforce the RGB image extractor to learn fine-grained semantic information of human bodies. Our extensive experiments show that when pretrained on large-scale datasets (COCO and AIC datasets) without depth annotation, our model achieves better performance than state-of-the-art methods by +0.5 mAP on COCO, +1.4 PCKh on MPII and -0.51 EPE on Human3.6M for pose estimation, by +4.50 mIoU on Human3.6M for human parsing, by -3.14 MAE on SHA and -0.07 MAE on SHB for crowd counting, by +1.1 F1 score on SHA and +0.8 F1 score on SHA for crowd localization, and by +0.1 mAP on Market1501 and +0.8 mAP on MSMT for person ReID. We also validate the effectiveness of our method on MPII+NTURGBD datasets

arxiv情報

著者 Weizhen He,Yunfeng Yan,Shixiang Tang,Yiheng Deng,Yangyang Zhong,Pengxin Luo,Donglian Qi
発行日 2025-04-29 14:14:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク