Nearest Neighbor Normalization Improves Multimodal Retrieval

要約

マルチモーダル モデルは、大規模な事前トレーニングを利用して、画像キャプション、視覚的な質問応答、クロスモーダル検索などのタスクで強力ではあるがまだ不完全なパフォーマンスを実現します。
この論文では、追加のトレーニングを行わずに、トレーニング済みの対照的な画像テキスト検索モデルのエラーを修正するための、最近傍正規化 (NNN) と呼ばれる、シンプルで効率的な方法を紹介します。
テストしたすべての対照モデル (CLIP、BLIP、ALBEF、SigLIP、BEiT) と、使用した両方のデータセット (MS-COCO および Flickr30k) について、テキスト検索と画像検索の両方で検索メトリクスの改善が見られました。

NNN には参照データベースが必要ですが、このデータベースでのトレーニングは必要なく、微調整後のモデルの検索精度を高めることもできます。

要約(オリジナル)

Multimodal models leverage large-scale pre-training to achieve strong but still imperfect performance on tasks such as image captioning, visual question answering, and cross-modal retrieval. In this paper, we present a simple and efficient method for correcting errors in trained contrastive image-text retrieval models with no additional training, called Nearest Neighbor Normalization (NNN). We show an improvement on retrieval metrics in both text retrieval and image retrieval for all of the contrastive models that we tested (CLIP, BLIP, ALBEF, SigLIP, BEiT) and for both of the datasets that we used (MS-COCO and Flickr30k). NNN requires a reference database, but does not require any training on this database, and can even increase the retrieval accuracy of a model after finetuning.

arxiv情報

著者 Neil Chowdhury,Franklin Wang,Sumedh Shenoy,Douwe Kiela,Sarah Schwettmann,Tristan Thrush
発行日 2024-10-31 16:44:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク