On the Influence of Context Size and Model Choice in Retrieval-Augmented Generation Systems

要約

検索された生成(RAG)は、静的な知識への依存を減らし、答えの事実性を改善することにより、大規模な言語モデル(LLM)を強化するアプローチとして浮上しました。
RAGは関連するコンテキストスニペットを取得し、それらに基づいて答えを生成します。
産業採用の増加にもかかわらず、特に提供されたコンテキストの理想的なサイズと、ベースLLMおよび検索方法の選択に関するRAG成分の体系的な調査が不足しています。
堅牢なRAGシステムの開発をガイドするために、さまざまなコンテキストサイズ、BM25、およびセマンティック検索をレトリーバーとして評価し、8つのベースLLMを評価します。
短い答えで通常のぼろきれ評価から離れると、2つのドメインでのより挑戦的な長い形式の質問の回答を探ります。そこでは、良い答えがコンテキスト全体を利用する必要があります。
私たちの調査結果は、最終的なQAパフォーマンスが最大15個のスニペットで着実に改善するが、それを超えて停滞または減少することを示しています。
最後に、百科事典の領域とは異なる汎用LLMSが生物医学的領域で優れていること、および大規模なコーパスにおけるオープンドメインの証拠の検索が困難であることを示します。

要約(オリジナル)

Retrieval-augmented generation (RAG) has emerged as an approach to augment large language models (LLMs) by reducing their reliance on static knowledge and improving answer factuality. RAG retrieves relevant context snippets and generates an answer based on them. Despite its increasing industrial adoption, systematic exploration of RAG components is lacking, particularly regarding the ideal size of provided context, and the choice of base LLM and retrieval method. To help guide development of robust RAG systems, we evaluate various context sizes, BM25 and semantic search as retrievers, and eight base LLMs. Moving away from the usual RAG evaluation with short answers, we explore the more challenging long-form question answering in two domains, where a good answer has to utilize the entire context. Our findings indicate that final QA performance improves steadily with up to 15 snippets but stagnates or declines beyond that. Finally, we show that different general-purpose LLMs excel in the biomedical domain than the encyclopedic one, and that open-domain evidence retrieval in large corpora is challenging.

arxiv情報

著者 Juraj Vladika,Florian Matthes
発行日 2025-02-20 17:34:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク