要約
画像とテキストの検索における重要な課題は、画像とテキストの間の正確な対応をどのように学習するかということです。
ほとんどの既存の方法は、主にセマンティック オブジェクトの共起に基づく粗粒度の対応に焦点を当てていますが、細粒度のローカル対応を区別することはできません。
この論文では、画像とテキストの検索のためのイントラおよびクロスモーダルフュージョンを通じて画像/テキストの機能を強化する、新しいシーングラフベースのフュージョンネットワーク(SGFNと呼ばれる)を提案します。
具体的には、オブジェクト、属性、関係などのセマンティック コンテキストをシーン グラフを介して画像/テキストの特徴ベクトルに組み込むモーダル内階層的注意融合と、コンテキストを結合するクロスモーダル 注意融合を設計します。
文脈上のベクトルによるセマンティクスとローカルフュージョン。
公開データセット Flickr30K と MSCOCO での広範な実験により、当社の SGFN がかなりの数の SOTA 画像テキスト検索方法よりも優れたパフォーマンスを発揮することが示されています。
要約(オリジナル)
A critical challenge to image-text retrieval is how to learn accurate correspondences between images and texts. Most existing methods mainly focus on coarse-grained correspondences based on co-occurrences of semantic objects, while failing to distinguish the fine-grained local correspondences. In this paper, we propose a novel Scene Graph based Fusion Network (dubbed SGFN), which enhances the images’/texts’ features through intra- and cross-modal fusion for image-text retrieval. To be specific, we design an intra-modal hierarchical attention fusion to incorporate semantic contexts, such as objects, attributes, and relationships, into images’/texts’ feature vectors via scene graphs, and a cross-modal attention fusion to combine the contextual semantics and local fusion via contextual vectors. Extensive experiments on public datasets Flickr30K and MSCOCO show that our SGFN performs better than quite a few SOTA image-text retrieval methods.
arxiv情報
著者 | Guoliang Wang,Yanlei Shang,Yong Chen |
発行日 | 2023-03-20 13:22:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google