要約
画像とテキストのモダリティにまたがるクロスモーダル検索は、その固有のあいまいさのため、困難な作業です。画像にはさまざまな状況が表れることが多く、キャプションはさまざまな画像と結合される可能性があります。
この問題の解決策として、セットベースの埋め込みが研究されています。
これは、サンプルを、サンプルのさまざまなセマンティクスをキャプチャするさまざまな埋め込みベクトルのセットにエンコードしようとします。
この論文では、2 つの点で以前の研究とは異なる、新しいセットベースの埋め込み方法を紹介します。
まず、smooth-Chamfer 類似度と呼ばれる新しい類似度関数を紹介します。これは、セットベースの埋め込みに対する既存の類似度関数の副作用を軽減するように設計されています。
第二に、スロット アテンション メカニズムによって入力の多様なセマンティクスを効果的にキャプチャする埋め込みベクトルのセットを生成する新しいセット予測モジュールを提案します。
私たちの手法は、さまざまなビジュアル バックボーンにわたる COCO および Flickr30K データセットで評価されており、推論時に大幅に大規模な計算を必要とする手法を含む既存の手法よりも優れています。
要約(オリジナル)
Cross-modal retrieval across image and text modalities is a challenging task due to its inherent ambiguity: An image often exhibits various situations, and a caption can be coupled with diverse images. Set-based embedding has been studied as a solution to this problem. It seeks to encode a sample into a set of different embedding vectors that capture different semantics of the sample. In this paper, we present a novel set-based embedding method, which is distinct from previous work in two aspects. First, we present a new similarity function called smooth-Chamfer similarity, which is designed to alleviate the side effects of existing similarity functions for set-based embedding. Second, we propose a novel set prediction module to produce a set of embedding vectors that effectively captures diverse semantics of input by the slot attention mechanism. Our method is evaluated on the COCO and Flickr30K datasets across different visual backbones, where it outperforms existing methods including ones that demand substantially larger computation at inference.
arxiv情報
著者 | Dongwon Kim,Namyup Kim,Suha Kwak |
発行日 | 2023-07-24 13:53:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google