Learning to Compress Contexts for Efficient Knowledge-based Visual Question Answering

要約

マルチモーダル大規模言語モデル (MLLM) は、ビジュアル質問応答 (VQA) で優れたゼロショット パフォーマンスを実証しました。
ただし、知識ベースの VQA (KB-VQA) に関しては、MLLM にはそのような質問に答えるための人間の常識や専門分野の知識が不足している可能性があり、外部の知識ソースから必要な情報を取得する必要があります。
Retrival-Augmented VQA-v2 (RAVQA-v2) などのこれまでの作品は、画像ベースのテキスト記述や取得した知識などの入力情報をできるだけ多く利用してパフォーマンスを向上させることに焦点を当てていましたが、それらはすべて、データの数に応じて次のような問題が見落とされています。
入力トークンが増加すると、推論効率が大幅に低下し、実際のアプリケーションの要求と矛盾します。
この問題に対処するために、圧縮コンテキストを使用した検索拡張 MLLM (RACC) を提案します。
RACC は、取得したコンテキストを圧縮して集約することを学習し、そこから Key-Value (KV) キャッシュの形式でコンパクトな変調を生成します。
この変調は、下流の凍結された MLLM を適応させるために使用され、それによって効果的かつ効率的な推論が実現されます。
RACC は、OK-VQA で 62.9% の最先端 (SOTA) パフォーマンスを達成します。
さらに、著名な RAVQA-v2 と比較して、推論遅延が 22.0% ~ 59.7% も大幅に削減されます。
豊富な実験により、RACC の幅広い適用可能性が示されています。
さまざまな既製の MLLM と互換性があり、テキスト文書やマルチモーダル文書などのさまざまな知識ソースも処理できます。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have demonstrated great zero-shot performance on visual question answering (VQA). However, when it comes to knowledge-based VQA (KB-VQA), MLLMs may lack human commonsense or specialized domain knowledge to answer such questions and require obtaining necessary information from external knowledge sources. Previous works like Retrival-Augmented VQA-v2 (RAVQA-v2) focus on utilizing as much input information, such as image-based textual descriptions and retrieved knowledge, as possible to improve performance, but they all overlook the issue that with the number of input tokens increasing, inference efficiency significantly decreases, which contradicts the demands of practical applications. To address this issue, we propose Retrieval-Augmented MLLM with Compressed Contexts (RACC). RACC learns to compress and aggregate retrieved contexts, from which it generates a compact modulation in the form of Key-Value (KV) cache. This modulation is then used to adapt the downstream frozen MLLM, thereby achieving effective and efficient inference. RACC achieves a state-of-the-art (SOTA) performance of 62.9% on OK-VQA. Moreover, it significantly reduces inference latency by 22.0%-59.7% compared to the prominent RAVQA-v2. Abundant experiments show RACC’s broad applicability. It is compatible with various off-the-shelf MLLMs and can also handle different knowledge sources including textual and multimodal documents.

arxiv情報

著者 Weixi Weng,Jieming Zhu,Hao Zhang,Xiaojun Meng,Rui Zhang,Chun Yuan
発行日 2024-09-11 15:11:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク