CLIP-Driven Semantic Discovery Network for Visible-Infrared Person Re-Identification

要約

可視赤外線人物再識別 (VIReID) は主に、さまざまなモダリティからの人物画像間での ID の照合を扱います。
可視画像と赤外線画像の間にはモダリティのギャップがあるため、クロスモダリティの ID 照合には重大な課題が生じます。
性別、体形、服装スタイルなどの歩行者の外観の高レベルの意味論がモダリティ間で一貫していることを認識し、この論文は視覚的特徴に高レベルの意味論を注入することでモダリティのギャップを埋めることを目的としています。
視覚表現に対応する高レベルのセマンティック情報を感知する CLIP の機能を考慮して、VIReID のドメイン内での CLIP のアプリケーションを検討します。
その結果、我々は、モダリティ固有のプロンプト学習器、セマンティック情報統合(SII)、および高レベルセマンティック埋め込み(HSE)で構成されるCLIP駆動型セマンティックディスカバリーネットワーク(CSDN)を提案します。
具体的には、言語記述におけるモダリティの不一致に起因する多様性を考慮して、可視画像と赤外線画像のそれぞれについてモダリティプライベートの意味情報を取得するためのバイモーダル学習可能テキストトークンを考案します。
さらに、さまざまなモダリティにわたる意味論的詳細の補完的な性質を認識し、バイモーダル言語記述からのテキスト特徴を統合して、包括的な意味論を実現します。
最後に、統合されたテキスト機能とモダリティ全体の視覚的機能の間の接続を確立します。
このプロセスでは、豊富な高レベルの意味情報が視覚表現に埋め込まれ、それによって視覚表現のモダリティの不変性が促進されます。
既存の方法に対する私たちの提案する CSDN の有効性と優位性は、広く使用されている複数のベンチマークでの実験評価を通じて実証されています。
コードは \url{https://github.com/nengdong96/CSDN} でリリースされます。

要約(オリジナル)

Visible-infrared person re-identification (VIReID) primarily deals with matching identities across person images from different modalities. Due to the modality gap between visible and infrared images, cross-modality identity matching poses significant challenges. Recognizing that high-level semantics of pedestrian appearance, such as gender, shape, and clothing style, remain consistent across modalities, this paper intends to bridge the modality gap by infusing visual features with high-level semantics. Given the capability of CLIP to sense high-level semantic information corresponding to visual representations, we explore the application of CLIP within the domain of VIReID. Consequently, we propose a CLIP-Driven Semantic Discovery Network (CSDN) that consists of Modality-specific Prompt Learner, Semantic Information Integration (SII), and High-level Semantic Embedding (HSE). Specifically, considering the diversity stemming from modality discrepancies in language descriptions, we devise bimodal learnable text tokens to capture modality-private semantic information for visible and infrared images, respectively. Additionally, acknowledging the complementary nature of semantic details across different modalities, we integrate text features from the bimodal language descriptions to achieve comprehensive semantics. Finally, we establish a connection between the integrated text features and the visual features across modalities. This process embed rich high-level semantic information into visual representations, thereby promoting the modality invariance of visual representations. The effectiveness and superiority of our proposed CSDN over existing methods have been substantiated through experimental evaluations on multiple widely used benchmarks. The code will be released at \url{https://github.com/nengdong96/CSDN}.

arxiv情報

著者 Xiaoyan Yu,Neng Dong,Liehuang Zhu,Hao Peng,Dapeng Tao
発行日 2024-01-12 11:14:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク