VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents

要約

検索拡張生成 (RAG) は、大規模言語モデル (LLM) が外部の知識ソースを生成に利用できるようにする効果的な手法です。
しかし、現在の RAG システムはテキストのみに基づいているため、現実世界のマルチモダリティ ドキュメントで重要な役割を果たすレイアウトや画像などの視覚情報を利用することができません。
このペーパーでは、ビジョン言語モデル (VLM) ベースの RAG パイプラインを確立することでこの問題に取り組む VisRAG を紹介します。
このパイプラインでは、最初にドキュメントを解析してテキストを取得するのではなく、VLM を使用してドキュメントを画像として直接埋め込み、その後取得して VLM の生成を強化します。
従来のテキストベースの RAG と比較して、VisRAG は元のドキュメント内のデータ情報の保持と利用を最大限に高め、解析プロセス中に発生する情報損失を排除します。
VisRAG でレトリバーをトレーニングし、さまざまな生成方法を検討するために、オープンソース データと合成データの両方を収集します。
実験では、VisRAG が取得段階と生成段階の両方で従来の RAG を上回り、従来のテキストベースの RAG パイプラインと比較して 25 ~ 39\% のエンドツーエンドのパフォーマンス向上を達成することが実証されました。
さらなる分析により、VisRAG はトレーニング データの活用に効果的であり、強力な一般化機能を実証し、マルチモダリティ ドキュメントにおける RAG の有望なソリューションとして位置付けられていることが明らかになりました。
コードとデータは https://github.com/openbmb/visrag で入手できます。

要約(オリジナル)

Retrieval-augmented generation (RAG) is an effective technique that enables large language models (LLMs) to utilize external knowledge sources for generation. However, current RAG systems are solely based on text, rendering it impossible to utilize vision information like layout and images that play crucial roles in real-world multi-modality documents. In this paper, we introduce VisRAG, which tackles this issue by establishing a vision-language model (VLM)-based RAG pipeline. In this pipeline, instead of first parsing the document to obtain text, the document is directly embedded using a VLM as an image and then retrieved to enhance the generation of a VLM. Compared to traditional text-based RAG, VisRAG maximizes the retention and utilization of the data information in the original documents, eliminating the information loss introduced during the parsing process. We collect both open-source and synthetic data to train the retriever in VisRAG and explore a variety of generation methods. Experiments demonstrate that VisRAG outperforms traditional RAG in both the retrieval and generation stages, achieving a 25–39\% end-to-end performance gain over traditional text-based RAG pipeline. Further analysis reveals that VisRAG is effective in utilizing training data and demonstrates strong generalization capability, positioning it as a promising solution for RAG on multi-modality documents. Our code and data are available at https://github.com/openbmb/visrag .

arxiv情報

著者 Shi Yu,Chaoyue Tang,Bokai Xu,Junbo Cui,Junhao Ran,Yukun Yan,Zhenghao Liu,Shuo Wang,Xu Han,Zhiyuan Liu,Maosong Sun
発行日 2024-10-14 15:04:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR パーマリンク