要約
クロスモーダル検索は、コンピュータービジョンと自然言語処理の両方の分野で大きな注目を集めています。
畳み込みニューラルネットワークの開発により、画像テキストモダリティ全体での検索のボトルネックは、画像とテキストの特徴の抽出ではなく、埋め込み空間での効率的な損失関数学習です。
多くの損失関数は、異種のモダリティからペアワイズ機能を近づけようとします。
この論文は、同じ均質なモダリティからの負のペアの違反を減らすために、モーダル内制約損失関数を使用して画像とテキストの共同埋め込みを学習する方法を提案します。
実験結果は、私たちのアプローチがFlickr30KおよびMicrosoftCOCOデータセットでの最先端の双方向画像テキスト検索方法よりも優れていることを示しています。
私たちのコードは公開されています:https://github.com/CanonChen/IMC。
要約(オリジナル)
Cross-modal retrieval has drawn much attention in both computer vision and natural language processing domains. With the development of convolutional and recurrent neural networks, the bottleneck of retrieval across image-text modalities is no longer the extraction of image and text features but an efficient loss function learning in embedding space. Many loss functions try to closer pairwise features from heterogeneous modalities. This paper proposes a method for learning joint embedding of images and texts using an intra-modal constraint loss function to reduce the violation of negative pairs from the same homogeneous modality. Experimental results show that our approach outperforms state-of-the-art bi-directional image-text retrieval methods on Flickr30K and Microsoft COCO datasets. Our code is publicly available: https://github.com/CanonChen/IMC.
arxiv情報
著者 | Jianan Chen,Lu Zhang,Qiong Wang,Cong Bai,Kidiyo Kpalma |
発行日 | 2022-07-13 16:09:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google