The Power of Noise: Redefining Retrieval for RAG Systems

要約

検索拡張生成 (RAG) システムは、従来の大規模言語モデル (LLM) よりも大幅に進歩しています。
RAG システムは、情報取得 (IR) フェーズを通じて取得した外部データを組み込むことで生成機能を強化し、事前トレーニングされた知識と限られたコンテキスト ウィンドウに制限される標準 LLM の制限を克服します。
この分野のほとんどの研究は、主に RAG システム内の LLM の生成的な側面に集中しています。
私たちの研究では、IR コンポーネントが RAG システムに与える影響を徹底的かつ批判的に分析することで、このギャップを埋めています。
この論文では、検索する必要がある文書の種類に焦点を当て、効果的な RAG を迅速に作成するために検索者がどのような特性を備えている必要があるかを分析します。
プロンプトに対するドキュメントの関連性、ドキュメントの位置、コンテキストに含まれる番号など、さまざまな要素を評価します。
私たちの調査結果では、特に、無関係なドキュメントを含めることでパフォーマンスが予想外に精度で 30% 以上向上する可能性があり、品質が低下するという当初の想定に反していることが明らかになりました。
これらの発見は、検索と言語生成モデルを統合するという特定の要求に合わせた特殊なアプローチの開発を必要とし、将来の研究への道を切り開くものです。
これらの結果は、検索を言語生成モデルと統合するための特殊な戦略を開発する必要性を強調しており、それによってこの分野の将来の研究の基礎が築かれます。

要約(オリジナル)

Retrieval-Augmented Generation (RAG) systems represent a significant advancement over traditional Large Language Models (LLMs). RAG systems enhance their generation ability by incorporating external data retrieved through an Information Retrieval (IR) phase, overcoming the limitations of standard LLMs, which are restricted to their pre-trained knowledge and limited context window. Most research in this area has predominantly concentrated on the generative aspect of LLMs within RAG systems. Our study fills this gap by thoroughly and critically analyzing the influence of IR components on RAG systems. This paper analyzes which characteristics a retriever should possess for an effective RAG’s prompt formulation, focusing on the type of documents that should be retrieved. We evaluate various elements, such as the relevance of the documents to the prompt, their position, and the number included in the context. Our findings reveal, among other insights, that including irrelevant documents can unexpectedly enhance performance by more than 30% in accuracy, contradicting our initial assumption of diminished quality. These findings call for developing specialized approaches tailored to the specific demands of integrating retrieval with language generation models and pave the way for future research. These results underscore the need for developing specialized strategies to integrate retrieval with language generation models, thereby laying the groundwork for future research in this field.

arxiv情報

著者 Florin Cuconasu,Giovanni Trappolini,Federico Siciliano,Simone Filice,Cesare Campagnano,Yoelle Maarek,Nicola Tonellotto,Fabrizio Silvestri
発行日 2024-01-26 14:14:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク