要約
教師なし可視赤外人物再識別(UVI-ReID)は、コストのかかるアノテーションを行うことなく、異なるモダリティの歩行者画像を検索することを目的としているが、モダリティギャップと監視の欠如による課題に直面している。既存の手法では、クラスタリングによって生成された擬似ラベルを用いた自己学習が採用されることが多いが、これらのラベルが常に正しいことを暗黙の前提としている。しかし実際には、擬似ラベルのノイズが不可避であるため、この仮定は破綻し、モデルの学習を妨げる。これに対処するため、我々は、3つの重要な課題、すなわちノイズのオーバーフィット、エラーの蓄積、ノイズの多いクラスタ対応関係を特徴とする擬似ラベルノイズ(PLN)を明示的に考慮した新しい学習パラダイムを導入する。この目的のために、我々はノイズの多い擬似ラベルの影響を軽減するために、UVI-ReIDのための新しいロバストデュアリティ学習フレームワーク(RoDE)を提案する。第一に、ノイズのオーバーフィッティングに対抗するため、ノイズのあるサンプルを重み付けする一方で、クリーンなサンプルを動的に強調するロバスト適応学習メカニズム(RAL)を提案する。第二に、モデルが自身のミスを強化するエラーの蓄積を緩和するために、RoDEは、多様性を奨励し、崩壊を防ぐために、互いの擬似ラベルを用いて交互に学習される2つの異なるモデルを採用する。しかし、このデュアルモデル戦略は、モデルやモダリティ間のクラスタ間のずれをもたらし、ノイズの多いクラスタ対応を生み出す。これを解決するために、我々は、クラスタ間の類似度を測定することにより、モデルとモダリティ間のクラスタを整合する、クラスタ整合性マッチング(CCM)を導入する。3つのベンチマークを用いた広範な実験により、RoDEの有効性を実証する。
要約(オリジナル)
Unsupervised visible-infrared person re-identification (UVI-ReID) aims to retrieve pedestrian images across different modalities without costly annotations, but faces challenges due to the modality gap and lack of supervision. Existing methods often adopt self-training with clustering-generated pseudo-labels but implicitly assume these labels are always correct. In practice, however, this assumption fails due to inevitable pseudo-label noise, which hinders model learning. To address this, we introduce a new learning paradigm that explicitly considers Pseudo-Label Noise (PLN), characterized by three key challenges: noise overfitting, error accumulation, and noisy cluster correspondence. To this end, we propose a novel Robust Duality Learning framework (RoDE) for UVI-ReID to mitigate the effects of noisy pseudo-labels. First, to combat noise overfitting, a Robust Adaptive Learning mechanism (RAL) is proposed to dynamically emphasize clean samples while down-weighting noisy ones. Second, to alleviate error accumulation-where the model reinforces its own mistakes-RoDE employs dual distinct models that are alternately trained using pseudo-labels from each other, encouraging diversity and preventing collapse. However, this dual-model strategy introduces misalignment between clusters across models and modalities, creating noisy cluster correspondence. To resolve this, we introduce Cluster Consistency Matching (CCM), which aligns clusters across models and modalities by measuring cross-cluster similarity. Extensive experiments on three benchmarks demonstrate the effectiveness of RoDE.
arxiv情報
著者 | Yongxiang Li,Yuan Sun,Yang Qin,Dezhong Peng,Xi Peng,Peng Hu |
発行日 | 2025-05-05 10:36:52+00:00 |
arxivサイト | arxiv_id(pdf) |