要約
現在の人物再識別(Re-identification: ReID)手法では、ほとんどの領域汎化研究は、領域間のスタイルの違いに対処することに焦点を当て、予測不可能なカメラの視点変更をほとんど無視している。視点変更に対処するため、本研究では、3D高密度姿勢推定モデルと、歩行者画像を正規の視点画像にマッピングするテクスチャマッピングモジュールを使用することを提案する。しかし、テクスチャーマッピングモジュールの不完全性により、正規化された画像は元画像から識別可能な詳細情報を失う可能性があり、ReIDに直接使用すると、必然的に低い性能となる。この問題を解決するために、我々は、変換器を用いて原画像と正準画像を融合することを提案する。この設計の重要な洞察は、変換器内の交差注目メカニズムが、原画像と正準ビュー画像の識別可能なテクスチャ手がかりを整合させる理想的な解決策となり、正準ビュー画像の低品質テクスチャ情報を補償し得るということである。本手法は、様々な評価設定において、既存の手法よりも優れた性能を発揮することが、広範な実験を通して示された。
要約(オリジナル)
In the current person Re-identification (ReID) methods, most domain generalization works focus on dealing with style differences between domains while largely ignoring unpredictable camera view change, which we identify as another major factor leading to a poor generalization of ReID methods. To tackle the viewpoint change, this work proposes to use a 3D dense pose estimation model and a texture mapping module to map the pedestrian images to canonical view images. Due to the imperfection of the texture mapping module, the canonical view images may lose the discriminative detail clues from the original images, and thus directly using them for ReID will inevitably result in poor performance. To handle this issue, we propose to fuse the original image and canonical view image via a transformer-based module. The key insight of this design is that the cross-attention mechanism in the transformer could be an ideal solution to align the discriminative texture clues from the original image with the canonical view image, which could compensate for the low-quality texture information of the canonical view image. Through extensive experiments, we show that our method can lead to superior performance over the existing approaches in various evaluation settings.
arxiv情報
著者 | Bingliang Jiao,Lingqiao Liu,Liying Gao,Guosheng Lin,Ruiqi Wu,Shizhou Zhang,Peng Wang,Yanning Zhang |
発行日 | 2022-12-05 16:24:09+00:00 |
arxivサイト | arxiv_id(pdf) |