要約
画像とテキストのモダリティ間のクロスモーダル検索は、固有のあいまいさのために困難な作業です。画像はさまざまな状況を示すことが多く、キャプションはさまざまな画像と組み合わせることができます。
この問題の解決策として、セットベースの埋め込みが研究されています。
サンプルのさまざまなセマンティクスをキャプチャするさまざまな埋め込みベクトルのセットにサンプルをエンコードしようとします。
この論文では、2つの側面で以前の研究とは異なる、新しいセットベースの埋め込み方法を提示します。
まず、smooth-Chamfer 類似性と呼ばれる新しい類似性関数を提示します。これは、セットベースの埋め込みに対する既存の類似性関数の副作用を軽減するように設計されています。
次に、スロットアテンションメカニズムによって入力の多様なセマンティクスを効果的にキャプチャする埋め込みベクトルのセットを生成するための新しいセット予測モジュールを提案します。
私たちの方法は、さまざまな視覚的バックボーンにわたる COCO および Flickr30K データセットで評価され、推論時に大幅に大きな計算を必要とするものを含む既存の方法よりも優れています。
要約(オリジナル)
Cross-modal retrieval across image and text modalities is a challenging task due to its inherent ambiguity: An image often exhibits various situations, and a caption can be coupled with diverse images. Set-based embedding has been studied as a solution to this problem. It seeks to encode a sample into a set of different embedding vectors that capture different semantics of the sample. In this paper, we present a novel set-based embedding method, which is distinct from previous work in two aspects. First, we present a new similarity function called smooth-Chamfer similarity, which is designed to alleviate the side effects of existing similarity functions for set-based embedding. Second, we propose a novel set prediction module to produce a set of embedding vectors that effectively captures diverse semantics of input by the slot attention mechanism. Our method is evaluated on the COCO and Flickr30K datasets across different visual backbones, where it outperforms existing methods including ones that demand substantially larger computation at inference.
arxiv情報
著者 | Dongwon Kim,Namyup Kim,Suha Kwak |
発行日 | 2023-02-28 13:57:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google