CPCL: Cross-Modal Prototypical Contrastive Learning for Weakly Supervised Text-based Person Re-Identification

要約

弱監視テキストベース人物再識別 (TPRe-ID) は、ID アノテーションに依存せず、テキストによる説明を使用して対象人物の画像を取得しようとするもので、より挑戦的で実用的です。
主な課題は、モーダル内の機能のバリエーションやモーダル間のセマンティック ギャップを含むクラス内の差異です。
これまでの研究では、インスタンスレベルのサンプルに焦点を当て、固有かつ不変である各人の原型的な特徴を無視していました。
これに向けて、クロスモーダルプロトタイプ対照学習 (CPCL) 手法を提案します。
実際には、CPCL は初めて弱く監視された TPRe-ID に CLIP モデルを導入し、ビジュアルおよびテキストのインスタンスを共有潜在空間にマッピングします。
その後、提案されたプロトタイプ マルチモーダル メモリ (PMM) モジュールは、ハイブリッド クロスモーダル マッチング (HCM) モジュールを通じて、多対多マッピング方式で、同じ人物に属する画像とテキストのペアの異種モダリティ間の関連性をキャプチャします。
さらに、Outlier Pseudo Label Mining (OPLM) モジュールは、各モダリティから貴重な外れ値サンプルをさらに区別し、画像とテキストのペア間の暗黙的な関係をマイニングすることで、より信頼性の高いクラスターの作成を強化します。
実験結果は、私たちが提案した CPCL が 3 つの公開データセットすべてで最先端のパフォーマンスを達成し、CUHK-PEDES、ICFG-PEDES、RSTPReid で Rank@1 精度が 11.58%、8.77%、5.25% と大幅に向上したことを示しています。
それぞれデータセット。
コードは https://github.com/codeGallery24/CPCL で入手できます。

要約(オリジナル)

Weakly supervised text-based person re-identification (TPRe-ID) seeks to retrieve images of a target person using textual descriptions, without relying on identity annotations and is more challenging and practical. The primary challenge is the intra-class differences, encompassing intra-modal feature variations and cross-modal semantic gaps. Prior works have focused on instance-level samples and ignored prototypical features of each person which are intrinsic and invariant. Toward this, we propose a Cross-Modal Prototypical Contrastive Learning (CPCL) method. In practice, the CPCL introduces the CLIP model to weakly supervised TPRe-ID for the first time, mapping visual and textual instances into a shared latent space. Subsequently, the proposed Prototypical Multi-modal Memory (PMM) module captures associations between heterogeneous modalities of image-text pairs belonging to the same person through the Hybrid Cross-modal Matching (HCM) module in a many-to-many mapping fashion. Moreover, the Outlier Pseudo Label Mining (OPLM) module further distinguishes valuable outlier samples from each modality, enhancing the creation of more reliable clusters by mining implicit relationships between image-text pairs. Experimental results demonstrate that our proposed CPCL attains state-of-the-art performance on all three public datasets, with a significant improvement of 11.58%, 8.77% and 5.25% in Rank@1 accuracy on CUHK-PEDES, ICFG-PEDES and RSTPReid datasets, respectively. The code is available at https://github.com/codeGallery24/CPCL.

arxiv情報

著者 Yanwei Zheng,Xinpeng Zhao,Chuanlin Lan,Xiaowei Zhang,Bowen Huang,Jibin Yang,Dongxiao Yu
発行日 2024-01-18 14:27:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク