要約
内部パラメトリック知識が限られていることを考慮して、検索拡張生成 (RAG) は、大規模言語モデル (LLM) の知識範囲を拡張するために広く使用されてきました。
RAG 研究に対する広範な努力にもかかわらず、既存の方法では、LLM は取得された文書の関連性を正確に評価できず、そのため、外部知識 (例えば、取得された文書) の誤解を招く、あるいは誤った利用につながる可能性があります。
この問題に対処するために、このホワイトペーパーでは、オープンドメインの質問応答 (QA) のための RElevance-Aware Retrieval を強化したアプローチである REAR を提案します。
主な動機として、LLM の外部知識の信頼性に関する自己認識を強化し、RAG システムで外部知識を適応的に活用することを目指しています。
特に、取得したドキュメントの関連性を正確に評価する特別に設計された評価モジュールを組み込むことにより、LLM ベースの RAG システム用の新しいアーキテクチャを開発します。
さらに、二粒度関連性融合と耐ノイズトレーニングに基づいた改良されたトレーニング方法を提案します。
アーキテクチャとトレーニングの両方の改善を組み合わせることで、私たちが提案する REAR は、取得したドキュメントの関連性を効果的に認識することで、外部の知識をより効果的に活用できます。
4 つのオープンドメイン QA タスクに関する実験では、REAR がこれまでの多くの競合 RAG アプローチよりも大幅に優れていることが示されています。
コードには https://github.com/RUCAIBox/REAR からアクセスできます。
要約(オリジナル)
Considering the limited internal parametric knowledge, retrieval-augmented generation (RAG) has been widely used to extend the knowledge scope of large language models (LLMs). Despite the extensive efforts on RAG research, in existing methods, LLMs cannot precisely assess the relevance of retrieved documents, thus likely leading to misleading or even incorrect utilization of external knowledge (eg., retrieved documents). To address this issue, in this paper, we propose REAR, a RElevance-Aware Retrieval-augmented approach for open-domain question answering (QA). As the key motivation, we aim to enhance the self-awareness regarding the reliability of external knowledge for LLMs, so as to adaptively utilize external knowledge in RAG systems. Specially, we develop a novel architecture for LLM-based RAG systems, by incorporating a specially designed assessment module that precisely assesses the relevance of retrieved documents. Furthermore, we propose an improved training method based on bi-granularity relevance fusion and noise-resistant training. By combining the improvements in both architecture and training, our proposed REAR can better utilize external knowledge by effectively perceiving the relevance of retrieved documents. Experiments on four open-domain QA tasks show that REAR significantly outperforms previous a number of competitive RAG approaches. Our codes can be accessed at https://github.com/RUCAIBox/REAR.
arxiv情報
著者 | Yuhao Wang,Ruiyang Ren,Junyi Li,Wayne Xin Zhao,Jing Liu,Ji-Rong Wen |
発行日 | 2024-11-21 08:44:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google