Mutual Information Guided Optimal Transport for Unsupervised Visible-Infrared Person Re-identification

要約

教師なし可視赤外線人物再識別 (USVI-ReID) は、ラベル情報を使用せずにクロスモダリティの歩行者画像を取得することを目的とした、困難な検索タスクです。
このタスクでは、クロスモダリティの分散が大きいため、信頼できるクロスモダリティラベルを生成することが困難になり、アノテーションの欠如もモダリティ不変の特徴の学習にさらなる困難をもたらします。
この論文では、まず、モデルのクロスモダリティ入力と出力の間の相互情報に基づいて、教師なし VI-ReID の最適化目標を推定します。
等価導出により、「シャープネス」(エントロピー最小化)、「公平性」(均一なラベル分布)、「フィットネス」(信頼性の高いクロスモダリティマッチング)の 3 つの学習原則が得られます。
彼らの指導の下、モデルトレーニングとクロスモダリティマッチングを交互に繰り返すループ反復トレーニング戦略を設計します。
マッチング段階では、一致する可視プロトタイプと赤外線プロトタイプを選択するために、均一な事前ガイドによる最適なトランスポート割り当て (「フィットネス」、「公平性」) が提案されます。
トレーニング段階では、このマッチング情報を利用して、モダリティ内およびモダリティ間のエントロピー (「シャープネス」) を最小限に抑えるためのプロトタイプベースの対照学習を導入します。
ベンチマークに関する広範な実験結果により、当社の手法の有効性が実証されています。たとえば、注釈なしの SYSU-MM01 および RegDB でのランク 1 精度の 60.6% および 90.3% です。

要約(オリジナル)

Unsupervised visible infrared person re-identification (USVI-ReID) is a challenging retrieval task that aims to retrieve cross-modality pedestrian images without using any label information. In this task, the large cross-modality variance makes it difficult to generate reliable cross-modality labels, and the lack of annotations also provides additional difficulties for learning modality-invariant features. In this paper, we first deduce an optimization objective for unsupervised VI-ReID based on the mutual information between the model’s cross-modality input and output. With equivalent derivation, three learning principles, i.e., ‘Sharpness’ (entropy minimization), ‘Fairness’ (uniform label distribution), and ‘Fitness’ (reliable cross-modality matching) are obtained. Under their guidance, we design a loop iterative training strategy alternating between model training and cross-modality matching. In the matching stage, a uniform prior guided optimal transport assignment (‘Fitness’, ‘Fairness’) is proposed to select matched visible and infrared prototypes. In the training stage, we utilize this matching information to introduce prototype-based contrastive learning for minimizing the intra- and cross-modality entropy (‘Sharpness’). Extensive experimental results on benchmarks demonstrate the effectiveness of our method, e.g., 60.6% and 90.3% of Rank-1 accuracy on SYSU-MM01 and RegDB without any annotations.

arxiv情報

著者 Zhizhong Zhang,Jiangming Wang,Xin Tan,Yanyun Qu,Junping Wang,Yong Xie,Yuan Xie
発行日 2024-07-17 17:32:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク