A Semantic-aware Attention and Visual Shielding Network for Cloth-changing Person Re-identification

要約

着替え人物再識別 (ReID) は、着替えた歩行者を取得することを目的とした新たな研究テーマです。
服装の違いによる人間の外観は大きな変化を示すため、既存のアプローチでは識別的でロバストな特徴表現を抽出することは非常に困難です。
現在の作品は主に身体の形や輪郭のスケッチに焦点を当てていますが、人間の意味情報や、衣服を着替える前後の歩行者の特徴の潜在的な一貫性は十分に調査されていない、または無視されています。
これらの問題を解決するために、本研究では、着替え人物 ReID (略称 SAVS) のための新しい意味を意識した注意と視覚遮蔽ネットワークを提案します。ここで重要なアイデアは、服装の外観に関連する手がかりを遮蔽し、服装のみに焦点を当てることです。
視点や姿勢の変化に影響されない視覚的な意味情報。
具体的には、まず視覚的セマンティック エンコーダを使用して、人間のセマンティック セグメンテーション情報に基づいて人体と衣服の領域の位置を特定します。
次に、人間の意味論的情報を強調表示し、視覚的特徴マップの重み付けを変更するために、人間意味論的注意モジュール (HSA) が提案されます。
さらに、視覚的衣服遮蔽モジュール (VCS) も、衣服領域をカバーし、衣服に関係のない視覚的意味情報にモデルを焦点を当てることにより、衣服交換タスクのためのより堅牢な特徴表現を抽出するように設計されています。
最も重要なことは、これら 2 つのモジュールがエンドツーエンドの統一フレームワークで共同で検討されていることです。
広範な実験により、提案された方法が最先端の方法を大幅に上回り、着替えをする人に対してより堅牢な特徴を抽出できることが実証されました。
FSAM (CVPR 2021 で公開) と比較して、この方法は mAP (ランク 1) に関して LTCC および PRCC データセットでそれぞれ 32.7% (16.5%) と 14.9% (-) の改善を達成できます。

要約(オリジナル)

Cloth-changing person reidentification (ReID) is a newly emerging research topic that aims to retrieve pedestrians whose clothes are changed. Since the human appearance with different clothes exhibits large variations, it is very difficult for existing approaches to extract discriminative and robust feature representations. Current works mainly focus on body shape or contour sketches, but the human semantic information and the potential consistency of pedestrian features before and after changing clothes are not fully explored or are ignored. To solve these issues, in this work, a novel semantic-aware attention and visual shielding network for cloth-changing person ReID (abbreviated as SAVS) is proposed where the key idea is to shield clues related to the appearance of clothes and only focus on visual semantic information that is not sensitive to view/posture changes. Specifically, a visual semantic encoder is first employed to locate the human body and clothing regions based on human semantic segmentation information. Then, a human semantic attention module (HSA) is proposed to highlight the human semantic information and reweight the visual feature map. In addition, a visual clothes shielding module (VCS) is also designed to extract a more robust feature representation for the cloth-changing task by covering the clothing regions and focusing the model on the visual semantic information unrelated to the clothes. Most importantly, these two modules are jointly explored in an end-to-end unified framework. Extensive experiments demonstrate that the proposed method can significantly outperform state-of-the-art methods, and more robust features can be extracted for cloth-changing persons. Compared with FSAM (published in CVPR 2021), this method can achieve improvements of 32.7% (16.5%) and 14.9% (-) on the LTCC and PRCC datasets in terms of mAP (rank-1), respectively.

arxiv情報

著者 Zan Gao,Hongwei Wei,Weili Guan,Jie Nie,Meng Wang,Shenyong Chen
発行日 2023-11-17 08:50:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク