要約
テキストベースの人物再識別 (TPR) は、テキストによる説明に基づいてデータセットから特定の個人画像を取得することを目的としています。
既存の TPR 手法は、主に明示的で肯定的な特性を認識することに焦点を当てており、否定的な説明の役割が見落とされていることがよくあります。
この見落としにより、誤検知、つまり肯定的な基準を満たしているにもかかわらず、否定的な説明に基づいて除外する必要がある画像が発生する可能性があります。
これらの制限に対処するために、TPR タスクにおける視覚言語モデルの解釈の精度を高めるために、もっともらしい記述を統合する統合フレームワークである DualFocus を導入します。
DualFocus は、Dual Image-Attribute Contrastive (DIAC) 学習と Sensitive Image-Attributes Matching (SIAM) 学習を組み込んだ Dual (ポジティブ/ネガティブ) 属性プロンプト学習 (DAPL) を活用し、存在しない属性の検出を可能にし、誤検知を削減します。
視覚的埋め込みとテキスト埋め込みの粗い位置合わせと細かい位置合わせの間のバランスを達成するために、動的トークンワイズ類似性 (DTS) 損失を提案します。これは、一致する記述と一致しない記述の両方の表現を洗練し、それによって詳細かつ適応性のあるマッチング プロセスを改善します。
類似性の評価。
CUHK-PEDES、ICFG-PEDES、および RSTPReid に関する包括的な実験により、DualFocus は最先端の方法よりも優れたパフォーマンスを実証し、TPR の精度と堅牢性の両方を大幅に向上させます。
要約(オリジナル)
Text-based Person Re-identification (TPR) aims to retrieve specific individual images from datasets based on textual descriptions. Existing TPR methods primarily focus on recognizing explicit and positive characteristics, often overlooking the role of negative descriptions. This oversight can lead to false positives-images that meet positive criteria but should be excluded based on negative descriptions. To address these limitations, we introduce DualFocus, a unified framework that integrates plausible descriptions to enhance the interpretative accuracy of vision-language models in TPR tasks. DualFocus leverages Dual (Positive/Negative) Attribute Prompt Learning (DAPL), which incorporates Dual Image-Attribute Contrastive (DIAC) Learning and Sensitive Image-Attributes Matching (SIAM) Learning, enabling the detection of non-existent attributes and reducing false positives. To achieve a balance between coarse and fine-grained alignment of visual and textual embeddings, we propose the Dynamic Tokenwise Similarity (DTS) loss, which refines the representation of both matching and non-matching descriptions, thereby improving the matching process through detailed and adaptable similarity assessments. The comprehensive experiments on CUHK-PEDES, ICFG-PEDES, and RSTPReid, DualFocus demonstrates superior performance over state-of-the-art methods, significantly enhancing both precision and robustness in TPR.
arxiv情報
著者 | Yuchuan Deng,Zhanpeng Hu,Jiakun Han,Chuang Deng,Qijun Zhao |
発行日 | 2024-08-16 10:53:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google