Unleashing the Imagination of Text: A Novel Framework for Text-to-image Person Retrieval via Exploring the Power of Words

要約

テキストから画像への人物検索の目的は、指定されたテキストの説明に一致する人物画像を大規模なギャラリーから取得することです。
このタスクの主な課題は、視覚的モダリティとテキストモダリティの間の情報表現の大きな違いにあります。
テキストモダリティは語彙や文法構造を通じて抽象的かつ正確な情報を伝えますが、視覚モダリティは画像を通じて具体的で直感的な情報を伝えます。
テキスト表現の表現力を最大限に活用するには、抽象的なテキストの説明を特定の画像に正確にマッピングすることが不可欠です。
この問題に対処するために、私たちは、文章内の単語の力を完全に探索することを目的として、テキストから画像への人物検索でテキストの想像力を解き放つ (UIT) という新しいフレームワークを提案します。
具体的には、フレームワークは事前にトレーニングされた完全な CLIP モデルを画像とテキストのデュアル エンコーダーとして採用し、以前のクロスモーダル アライメントの知識を活用します。
テキストガイド付き画像復元補助タスクは、抽象的なテキスト エンティティを特定の画像領域に暗黙的にマッピングし、テキストと視覚的な埋め込み間の位置合わせを容易にすることを目的として提案されています。
さらに、硬いサンプルの処理に合わせて調整されたクロスモーダル三重項損失を導入し、小さな違いを区別するモデルの能力を強化します。
文内の主要なコンポーネントにモデルを集中させるために、新しいテキスト データ拡張手法を提案します。
私たちが提案する手法は、3 つの一般的なベンチマーク データセットで最先端の結果を達成しており、ソース コードは間もなく公開される予定です。

要約(オリジナル)

The goal of Text-to-image person retrieval is to retrieve person images from a large gallery that match the given textual descriptions. The main challenge of this task lies in the significant differences in information representation between the visual and textual modalities. The textual modality conveys abstract and precise information through vocabulary and grammatical structures, while the visual modality conveys concrete and intuitive information through images. To fully leverage the expressive power of textual representations, it is essential to accurately map abstract textual descriptions to specific images. To address this issue, we propose a novel framework to Unleash the Imagination of Text (UIT) in text-to-image person retrieval, aiming to fully explore the power of words in sentences. Specifically, the framework employs the pre-trained full CLIP model as a dual encoder for the images and texts , taking advantage of prior cross-modal alignment knowledge. The Text-guided Image Restoration auxiliary task is proposed with the aim of implicitly mapping abstract textual entities to specific image regions, facilitating alignment between textual and visual embeddings. Additionally, we introduce a cross-modal triplet loss tailored for handling hard samples, enhancing the model’s ability to distinguish minor differences. To focus the model on the key components within sentences, we propose a novel text data augmentation technique. Our proposed methods achieve state-of-the-art results on three popular benchmark datasets, and the source code will be made publicly available shortly.

arxiv情報

著者 Delong Liu,Haiwen Li
発行日 2023-07-18 08:23:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク