Image-text Retrieval via preserving main Semantics of Vision

要約

【タイトル】ビジョンの主要なセマンティックスを保存した画像テキスト検索

【要約】
– クロスモーダル検索の主要なタスクの1つである画像テキスト検索において、画像とテキストを共通の空間にマッピングする手法がいくつか提案されている。
– しかしながら、画像のコンテンツ(セマンティクス)の豊かさから、画像中の余分な二次情報が誤ったマッチングを引き起こしたりしうる。
– この問題に対処するため、本論文では、ビジュアルセマンティック損失(VSL)として実装されたセマンティック最適化アプローチを提供し、モデルが画像の主要コンテンツに注目できるよう支援する。
– このアプローチは、通常、画像のコンテンツを説明することで画像の注釈をつける人々の方法に触発されており、画像に対応する注釈テキストを活用して、モデルが画像の主要コンテンツを捕捉するのを支援し、二次コンテンツのネガティブな影響を減らす。
– MSCOCOおよびFlickr30Kの2つのベンチマークデータセットでの詳細実験で、本手法の優れたパフォーマンスが示されている。
– コードはhttps://github.com/ZhangXu0963/VSLで利用可能。

要約(オリジナル)

Image-text retrieval is one of the major tasks of cross-modal retrieval. Several approaches for this task map images and texts into a common space to create correspondences between the two modalities. However, due to the content (semantics) richness of an image, redundant secondary information in an image may cause false matches. To address this issue, this paper presents a semantic optimization approach, implemented as a Visual Semantic Loss (VSL), to assist the model in focusing on an image’s main content. This approach is inspired by how people typically annotate the content of an image by describing its main content. Thus, we leverage the annotated texts corresponding to an image to assist the model in capturing the main content of the image, reducing the negative impact of secondary content. Extensive experiments on two benchmark datasets (MSCOCO and Flickr30K) demonstrate the superior performance of our method. The code is available at: https://github.com/ZhangXu0963/VSL.

arxiv情報

著者 Xu Zhang,Xinzheng Niu,Philippe Fournier-Viger,Xudong Dai
発行日 2023-04-20 12:23:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク