Wiki-LLaVA: Hierarchical Retrieval-Augmented Generation for Multimodal LLMs

要約

マルチモーダル LLM は LLM の自然な進化であり、純粋なテキスト モダリティを超えて機能するように機能が拡張されました。
新しいアーキテクチャや視覚と言語のアダプターを設計するための研究が行われているため、この論文では、外部の知識を必要とする質問に答える機能をそのようなモデルに与えることに焦点を当てます。
Wiki-LLaVA と呼ばれる私たちのアプローチは、階層検索パイプラインを通じてアクセスされるマルチモーダル文書の外部知識ソースを統合することを目的としています。
このアプローチを使用すると、関連する文章が外部の知識ソースから取得され、LLM の追加のコンテキストとして使用され、生成された対話の有効性と精度が向上します。
私たちは、外部データを使用した視覚的な質問応答に合わせたデータセットで広範な実験を実施し、アプローチの適切性を実証します。

要約(オリジナル)

Multimodal LLMs are the natural evolution of LLMs, and enlarge their capabilities so as to work beyond the pure textual modality. As research is being carried out to design novel architectures and vision-and-language adapters, in this paper we concentrate on endowing such models with the capability of answering questions that require external knowledge. Our approach, termed Wiki-LLaVA, aims at integrating an external knowledge source of multimodal documents, which is accessed through a hierarchical retrieval pipeline. Relevant passages, using this approach, are retrieved from the external knowledge source and employed as additional context for the LLM, augmenting the effectiveness and precision of generated dialogues. We conduct extensive experiments on datasets tailored for visual question answering with external data and demonstrate the appropriateness of our approach.

arxiv情報

著者 Davide Caffagni,Federico Cocchi,Nicholas Moratelli,Sara Sarto,Marcella Cornia,Lorenzo Baraldi,Rita Cucchiara
発行日 2024-04-23 18:00:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM パーマリンク