Benchmarking Robustness of Text-Image Composed Retrieval

要約

テキストと画像の複合検索は、画像と入力画像に対する必要な変更を説明するテキストの形式で指定される複合クエリを通じてターゲット画像を取得することを目的としています。
情報量豊富な画像と簡潔な言語の両方を活用して、対象画像の要件を正確に表現できるため、近年注目を集めています。
ただし、現実世界の破損やさらなるテキスト理解に対するこれらのアプローチの堅牢性については、これまで研究されたことがありません。
この論文では、最初の堅牢性研究を実行し、視覚とテキストの両方における自然な破損に対するテキスト画像合成検索の体系的な分析と、テクスチャの理解をさらに調査するための 3 つの新しい多様なベンチマークを確立します。
自然破損分析では、オープン ドメインとファッション ドメインでのテスト用に、それぞれ CIRR-C と FashionIQ-C という 2 つの新しい大規模ベンチマーク データセットを導入しました。どちらも 15 件の視覚的破損と 7 件のテクスチャ破損を適用します。
テクスチャ理解分析では、元の生データを合成データで拡張することにより、新しい診断データセット CIRR-D を導入します。このデータセットには、数値の変化、属性の変化、オブジェクトの除去、背景の変化、および微細な変化などのテキスト理解能力を向上させるために修正されたテキストが含まれています。
粒度の高い評価。
コードとベンチマーク データセットは、https://github.com/SunTongtongtong/Benchmark-Robustness-Text-Image-Compose-Retrieval で入手できます。

要約(オリジナル)

Text-image composed retrieval aims to retrieve the target image through the composed query, which is specified in the form of an image plus some text that describes desired modifications to the input image. It has recently attracted attention due to its ability to leverage both information-rich images and concise language to precisely express the requirements for target images. However, the robustness of these approaches against real-world corruptions or further text understanding has never been studied. In this paper, we perform the first robustness study and establish three new diversified benchmarks for systematic analysis of text-image composed retrieval against natural corruptions in both vision and text and further probe textural understanding. For natural corruption analysis, we introduce two new large-scale benchmark datasets, CIRR-C and FashionIQ-C for testing in open domain and fashion domain respectively, both of which apply 15 visual corruptions and 7 textural corruptions. For textural understanding analysis, we introduce a new diagnostic dataset CIRR-D by expanding the original raw data with synthetic data, which contains modified text to better probe textual understanding ability including numerical variation, attribute variation, object removal, background variation, and fine-grained evaluation. The code and benchmark datasets are available at https://github.com/SunTongtongtong/Benchmark-Robustness-Text-Image-Compose-Retrieval.

arxiv情報

著者 Shitong Sun,Jindong Gu,Shaogang Gong
発行日 2023-11-30 18:14:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR パーマリンク