Rethinking Benchmarks for Cross-modal Image-text Retrieval

要約

タイトル:Cross-modal Image-text Retrievalのためのベンチマークの再考
要約:
– Image-text retrievalは、情報検索の基本的かつ重要な分野であり、幅広い研究の注目を集めている。
– このタスクの主な課題は、クロスモーダルな意味理解とマッチングである。
– 近年の多様な前処理されたモデル(例えばX-VLM)の普及に伴い、MSCOCO-Test-5KやFlickr30K-Test-1Kのように広く使われている画像-テキスト検索のベンチマークに対して、いくつかの最先端のモデルがほぼ完璧なパフォーマンスを発揮している。
– しかし、これらの古いベンチマークには多くの粗い画像やテキストが含まれているため、モデルのFine-grainedなクロスモーダルな意味理解能力を真の能力として評価するのには不十分である。
– そこで、MSCOCO-FGやFlickr30K-FGなどの改善されたベンチマークを確立するために、ベンチマークの粗い画像やテキストを改善するアプローチを提案した。
– 具体的には、画像の側では、より類似した画像を採用することで元の画像プールを拡大し、テキストの側では、少ない人的労力で粗い文章をより詳細なものに再編集する半自動的なアプローチを提案している。
– さらに、改善されたベンチマークで代表的な画像-テキスト検索モデルを評価し、私たちの手法の有効性を示した。
– Fine-grainedな意味理解能力に関する包括的な実験により、最先端のモデルでも、特に画像内の近いオブジェクトの属性を区別することにおいて、改善の余地があることが示されている。
– 私たちのコードと改善されたベンチマークデータセットは、https://github.com/cwj1412/MSCOCO-Flikcr30K_FGで公開されており、クロスモーダル検索に関するより深い研究を促進することが期待される。

要約(オリジナル)

Image-text retrieval, as a fundamental and important branch of information retrieval, has attracted extensive research attentions. The main challenge of this task is cross-modal semantic understanding and matching. Some recent works focus more on fine-grained cross-modal semantic matching. With the prevalence of large scale multimodal pretraining models, several state-of-the-art models (e.g. X-VLM) have achieved near-perfect performance on widely-used image-text retrieval benchmarks, i.e. MSCOCO-Test-5K and Flickr30K-Test-1K. In this paper, we review the two common benchmarks and observe that they are insufficient to assess the true capability of models on fine-grained cross-modal semantic matching. The reason is that a large amount of images and texts in the benchmarks are coarse-grained. Based on the observation, we renovate the coarse-grained images and texts in the old benchmarks and establish the improved benchmarks called MSCOCO-FG and Flickr30K-FG. Specifically, on the image side, we enlarge the original image pool by adopting more similar images. On the text side, we propose a novel semi-automatic renovation approach to refine coarse-grained sentences into finer-grained ones with little human effort. Furthermore, we evaluate representative image-text retrieval models on our new benchmarks to demonstrate the effectiveness of our method. We also analyze the capability of models on fine-grained semantic comprehension through extensive experiments. The results show that even the state-of-the-art models have much room for improvement in fine-grained semantic understanding, especially in distinguishing attributes of close objects in images. Our code and improved benchmark datasets are publicly available at: https://github.com/cwj1412/MSCOCO-Flikcr30K_FG, which we hope will inspire further in-depth research on cross-modal retrieval.

arxiv情報

著者 Weijing Chen,Linli Yao,Qin Jin
発行日 2023-04-21 09:07:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.MM パーマリンク