要約
テキストから画像への人物検索 (TIPR) の目的は、指定されたテキストの説明に従って特定の人物の画像を取得することです。
この課題の主な課題は、視覚的モダリティとテキストモダリティの間の実質的な表現上のギャップを埋めることです。
一般的な方法では、テキストと画像を統一された埋め込み空間にマッピングして照合しますが、テキストと画像の間の複雑な意味論的な対応関係はまだ効果的に構築されていません。
この問題に対処するために、人物の画像と対応するテキストの間のきめの細かいインタラクションと位置合わせを構築するための新しい TIPR フレームワークを提案します。
具体的には、Contrastive Language-Image Pre-training (CLIP) モデルを微調整することにより、まず視覚とテキストのデュアル エンコーダーが構築され、画像とテキストの特徴を事前に調整します。
次に、抽象的なテキスト エンティティを特定の画像領域にマッピングするテキスト ガイド付き画像復元 (TIR) 補助タスクが提案され、ローカルなテキストと視覚的な埋め込み間の位置合わせが向上します。
さらに、硬いサンプルを処理するために、クロスモーダル三重項損失が提示され、小さな違いに対するモデルの識別能力がさらに強化されます。
さらに、枝刈りベースのテキスト データ拡張アプローチは、説明内の重要な要素への焦点を強化するために提案されており、それによって重要度の低い情報に対するモデルの過度の注意が回避されます。
実験結果は、私たちが提案した手法が 3 つの一般的なベンチマーク データセットで最先端の手法よりも優れていることを示しており、コードは https://github.com/Delong-liu-bupt/SEN で公開される予定です。
要約(オリジナル)
The goal of Text-to-Image Person Retrieval (TIPR) is to retrieve specific person images according to the given textual descriptions. A primary challenge in this task is bridging the substantial representational gap between visual and textual modalities. The prevailing methods map texts and images into unified embedding space for matching, while the intricate semantic correspondences between texts and images are still not effectively constructed. To address this issue, we propose a novel TIPR framework to build fine-grained interactions and alignment between person images and the corresponding texts. Specifically, via fine-tuning the Contrastive Language-Image Pre-training (CLIP) model, a visual-textual dual encoder is firstly constructed, to preliminarily align the image and text features. Secondly, a Text-guided Image Restoration (TIR) auxiliary task is proposed to map abstract textual entities to specific image regions, improving the alignment between local textual and visual embeddings. Additionally, a cross-modal triplet loss is presented to handle hard samples, and further enhance the model’s discriminability for minor differences. Moreover, a pruning-based text data augmentation approach is proposed to enhance focus on essential elements in descriptions, thereby avoiding excessive model attention to less significant information. The experimental results show our proposed method outperforms state-of-the-art methods on three popular benchmark datasets, and the code will be made publicly available at https://github.com/Delong-liu-bupt/SEN.
arxiv情報
著者 | Delong Liu,Haiwen Li,Zhicheng Zhao,Yuan Dong,Nikolaos V. Boulgouris |
発行日 | 2024-11-25 18:01:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google