要約
可視性のある人の再識別(VI-REID)は、目に見える画像と赤外線画像の間の大きなモダリティの矛盾があるため、困難なタスクであり、適切な共通空間への特徴のアライメントを複雑にします。
さらに、照明や色のコントラストなどのスタイルノイズは、アイデンティティの識別性と機能のモダリティの不変性を減らします。
これらの課題に対処するために、アイデンティティ関連の機能を異なるモダリティからテキスト埋め込みスペースに整列させ、各モダリティ内のアイデンティティに関連する機能を解き放つために、新しい多様なセマンティクスガイド機能アライメントとデカップリング(DSFAD)ネットワークを提案します。
具体的には、多様なセマンティクスガイド機能アライメント(DSFA)モジュールを開発し、多様な文構造を使用して歩行者の説明を生成して、視覚的特徴のクロスモダリティアラインメントを導きます。
さらに、スタイル情報をフィルタリングするために、視覚的特徴を歩行者関連のスタイル関連コンポーネントに分解し、前者とテキストの埋め込みの類似性を少なくともテキスト埋め込みの間のマージンよりも高いマージンに分解するセマンティックマージン誘導機能デカップリング(SMFD)モジュールを提案します。
さらに、機能分離中に歩行者のセマンティクスの喪失を防ぐために、セマンティックな一貫性ガイド付き機能回復(SCFR)モジュールを設計します。これにより、スタイル関連の機能から識別するための有用な情報をさらに発掘し、歩行者関連の機能に戻し、その後、補充後の埋め込み後の埋め込みの埋め込みとの埋め込みの間のテキストの埋め込みの間の特徴との類似性を制約します。
3つのVI-REIDデータセットでの広範な実験は、DSFADの優位性を示しています。
要約(オリジナル)
Visible-Infrared Person Re-Identification (VI-ReID) is a challenging task due to the large modality discrepancy between visible and infrared images, which complicates the alignment of their features into a suitable common space. Moreover, style noise, such as illumination and color contrast, reduces the identity discriminability and modality invariance of features. To address these challenges, we propose a novel Diverse Semantics-guided Feature Alignment and Decoupling (DSFAD) network to align identity-relevant features from different modalities into a textual embedding space and disentangle identity-irrelevant features within each modality. Specifically, we develop a Diverse Semantics-guided Feature Alignment (DSFA) module, which generates pedestrian descriptions with diverse sentence structures to guide the cross-modality alignment of visual features. Furthermore, to filter out style information, we propose a Semantic Margin-guided Feature Decoupling (SMFD) module, which decomposes visual features into pedestrian-related and style-related components, and then constrains the similarity between the former and the textual embeddings to be at least a margin higher than that between the latter and the textual embeddings. Additionally, to prevent the loss of pedestrian semantics during feature decoupling, we design a Semantic Consistency-guided Feature Restitution (SCFR) module, which further excavates useful information for identification from the style-related features and restores it back into the pedestrian-related features, and then constrains the similarity between the features after restitution and the textual embeddings to be consistent with that between the features before decoupling and the textual embeddings. Extensive experiments on three VI-ReID datasets demonstrate the superiority of our DSFAD.
arxiv情報
著者 | Neng Dong,Shuanglin Yan,Liyan Zhang,Jinhui Tang |
発行日 | 2025-05-01 15:55:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google