EVCap: Retrieval-Augmented Image Captioning with External Visual-Name Memory for Open-World Comprehension

要約

大規模言語モデル (LLM) ベースの画像キャプションには、トレーニング データで明示的に観察されないオブジェクトを記述する機能があります。
しかし、新しいオブジェクトが頻繁に発生するため、オープンワールドを理解するには最新のオブジェクトの知識を維持する必要があります。
大量のデータに依存してネットワーク パラメータをスケールアップする代わりに、外部ビジュアル名前メモリ (EVCap) から取得したオブジェクト名を LLM に要求する、非常に効果的な検索拡張画像キャプション手法を導入します。
私たちは、オブジェクトのビジュアルと名前を使用して、常に変化するオブジェクトの知識メモリを構築します。これにより、(i) 最小限のコストでメモリを更新し、(ii) 軽量でトレーニングが速いモデルを利用して、取得したオブジェクト名で LLM を簡単に拡張できます。
COCO データセットのみでトレーニングされたモデルは、追加の微調整や再トレーニングを行わずに、ドメイン外のデータに適応させることができます。
さまざまなベンチマークと常識に反する合成データに対して行われた包括的な実験により、397 万のトレーニング可能なパラメーターのみで構成される EVCap が、同等のモデル サイズ スケールの他の方法と比較して優れたパフォーマンスを示すことが実証されました。
特に、膨大な数のパラメータを持つ専門的な SOTA に対して競争力のあるパフォーマンスを実現します。
私たちのコードは https://jiaxuan-li.github.io/EVCap で入手できます。

要約(オリジナル)

Large language models (LLMs)-based image captioning has the capability of describing objects not explicitly observed in training data; yet novel objects occur frequently, necessitating the requirement of sustaining up-to-date object knowledge for open-world comprehension. Instead of relying on large amounts of data and scaling up network parameters, we introduce a highly effective retrieval-augmented image captioning method that prompts LLMs with object names retrieved from External Visual–name memory (EVCap). We build ever-changing object knowledge memory using objects’ visuals and names, enabling us to (i) update the memory at a minimal cost and (ii) effortlessly augment LLMs with retrieved object names utilizing a lightweight and fast-to-train model. Our model, which was trained only on the COCO dataset, can be adapted to out-domain data without additional fine-tuning or retraining. Our comprehensive experiments conducted on various benchmarks and synthetic commonsense-violating data demonstrate that EVCap, comprising solely 3.97M trainable parameters, exhibits superior performance compared to other methods of equivalent model size scale. Notably, it achieves competitive performance against specialist SOTAs with an enormous number of parameters. Our code is available at https://jiaxuan-li.github.io/EVCap.

arxiv情報

著者 Jiaxuan Li,Duc Minh Vo,Akihiro Sugimoto,Hideki Nakayama
発行日 2023-11-27 14:51:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク