Camera Alignment and Weighted Contrastive Learning for Domain Adaptation in Video Person ReID

要約

人物再識別(ReID)システムは、完全にラベル付けされた大規模な画像データセットで学習した場合、高い精度を達成することができます。しかし、多様な撮影条件(カメラの視点や照明など)に伴う領域シフトは、性能の大幅な低下につながる可能性がある。この論文では、ビデオベースのReIDのための教師なし領域適応(UDA)に焦点を当てる。このシナリオでは、ReIDモデルはトラックレット情報に基づいて、多様なビデオカメラのネットワークによって定義される複雑なターゲットドメインに適応しなければならない。しかし、ターゲットカメラ(サブドメイン)間のドメインシフトは、クラスタリング手法の初期化に失敗し、エポック間でノイズを伝播させるため、ReIDモデルが同一人物のサンプルを正確に関連付けることができなくなる可能性がある。本論文では、映像人物再識別のためのUDA手法を紹介する。この手法は、映像トラックレットに関する知識と、ターゲットカメラで撮影されたフレームの分布に関する知識を活用し、擬似ラベルを用いて学習したCNNバックボーンの性能を向上させるものである。本手法は敵対的アプローチに依存しており、カメラ弁別ネットワークを導入して、カメラに依存しない弁別表現を抽出し、その後のクラスタリングを容易にする。さらに、クラスタの信頼性を活用し、誤ったIDの関連付けのリスクを軽減するために、重み付き対照損失を提案する。PRID2011、iLIDS-VID、MARSの3つの動画像ベースの人物再認識データセットで得られた実験結果から、提案手法は関連する最先端手法よりも優れていることが示される。提案手法は、以下のサイトで公開されています。\■https://github.com/dmekhazni/CAWCL-ReID

要約(オリジナル)

Systems for person re-identification (ReID) can achieve a high accuracy when trained on large fully-labeled image datasets. However, the domain shift typically associated with diverse operational capture conditions (e.g., camera viewpoints and lighting) may translate to a significant decline in performance. This paper focuses on unsupervised domain adaptation (UDA) for video-based ReID – a relevant scenario that is less explored in the literature. In this scenario, the ReID model must adapt to a complex target domain defined by a network of diverse video cameras based on tracklet information. State-of-art methods cluster unlabeled target data, yet domain shifts across target cameras (sub-domains) can lead to poor initialization of clustering methods that propagates noise across epochs, thus preventing the ReID model to accurately associate samples of same identity. In this paper, an UDA method is introduced for video person ReID that leverages knowledge on video tracklets, and on the distribution of frames captured over target cameras to improve the performance of CNN backbones trained using pseudo-labels. Our method relies on an adversarial approach, where a camera-discriminator network is introduced to extract discriminant camera-independent representations, facilitating the subsequent clustering. In addition, a weighted contrastive loss is proposed to leverage the confidence of clusters, and mitigate the risk of incorrect identity associations. Experimental results obtained on three challenging video-based person ReID datasets – PRID2011, iLIDS-VID, and MARS – indicate that our proposed method can outperform related state-of-the-art methods. Our code is available at: \url{https://github.com/dmekhazni/CAWCL-ReID}

arxiv情報

著者 Djebril Mekhazni,Maximilien Dufau,Christian Desrosiers,Marco Pedersoli,Eric Granger
発行日 2022-11-07 15:32:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク