HAP: Structure-Aware Masked Image Modeling for Human-Centric Perception

要約

人間中心の認識にはモデルの事前トレーニングが不可欠です。
このペーパーでは、まず、このタスクの事前トレーニング アプローチとしてマスク イメージ モデリング (MIM) を紹介します。
MIM トレーニング戦略を再考すると、人間の事前構造が大きな可能性を秘めていることがわかります。
この洞察に基づいて、私たちはさらに、事前の直感的な人間の構造、つまり人間の部分を事前トレーニングに組み込みます。
具体的には、マスク サンプリング プロセスをガイドする前にこれを使用します。
人物の部分領域に対応する画像パッチは、マスクアウトされる優先度が高くなります。
これにより、モデルは事前トレーニング中に身体構造情報にさらに集中することが促進され、人間中心のさまざまな認識タスクにわたって大きなメリットが得られます。
人間の特徴をさらに捉えるために、事前に人間の部分によってガイドされ、異なるマスクされたビューが同じ画像に対して厳密に位置合わせされるように強制する、構造不変の位置合わせ損失を提案します。
このメソッド全体を HAP と呼びます。
HAP は単純な ViT をエンコーダーとして使用するだけで、11 の人間中心のベンチマークで新しい最先端のパフォーマンスを確立し、1 つのデータセットで同等の結果をもたらします。
たとえば、HAP は、人物の再識別では MSMT17 で 78.1% mAP、歩行者属性認識では PA-100K で 86.54% mA、2D ポーズ推定では MS COCO で 78.2% AP、3D ポーズでは 3DPW で 56.0 PA-MPJPE を達成します。
形状推定。

要約(オリジナル)

Model pre-training is essential in human-centric perception. In this paper, we first introduce masked image modeling (MIM) as a pre-training approach for this task. Upon revisiting the MIM training strategy, we reveal that human structure priors offer significant potential. Motivated by this insight, we further incorporate an intuitive human structure prior – human parts – into pre-training. Specifically, we employ this prior to guide the mask sampling process. Image patches, corresponding to human part regions, have high priority to be masked out. This encourages the model to concentrate more on body structure information during pre-training, yielding substantial benefits across a range of human-centric perception tasks. To further capture human characteristics, we propose a structure-invariant alignment loss that enforces different masked views, guided by the human part prior, to be closely aligned for the same image. We term the entire method as HAP. HAP simply uses a plain ViT as the encoder yet establishes new state-of-the-art performance on 11 human-centric benchmarks, and on-par result on one dataset. For example, HAP achieves 78.1% mAP on MSMT17 for person re-identification, 86.54% mA on PA-100K for pedestrian attribute recognition, 78.2% AP on MS COCO for 2D pose estimation, and 56.0 PA-MPJPE on 3DPW for 3D pose and shape estimation.

arxiv情報

著者 Junkun Yuan,Xinyu Zhang,Hao Zhou,Jian Wang,Zhongwei Qiu,Zhiyin Shao,Shaofeng Zhang,Sifan Long,Kun Kuang,Kun Yao,Junyu Han,Errui Ding,Lanfen Lin,Fei Wu,Jingdong Wang
発行日 2023-10-31 17:56:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク