要約
内部パラメトリック知識が限られていることを考慮して、検索拡張生成 (RAG) は大規模言語モデル (LLM) の知識範囲を拡張するために広く使用されてきました。
RAG 研究に対する広範な努力にもかかわらず、既存の方法では、LLM は取得された文書の関連性を正確に評価できず、そのため外部知識 (つまり、取得された文書) の誤解を招く、または誤った利用につながる可能性があります。
この問題に対処するために、このホワイトペーパーでは、オープンドメインの質問応答 (QA) のための RElevance-Aware Retrieval を強化したアプローチである REAR を提案します。
主な動機として、RAG システムで外部の知識を適応的に利用できるように、LLM のソース関連性についての自己認識を高めることを目指しています。
特に、取得したドキュメントの関連性を正確に評価する特別に設計されたランクヘッドを組み込むことにより、LLM ベースの RAG システム用の新しいアーキテクチャを開発します。
さらに、二粒度関連性融合と耐ノイズトレーニングに基づいた改良されたトレーニング方法を提案します。
アーキテクチャとトレーニングの両方の改善を組み合わせることで、私たちが提案する REAR は、取得したドキュメントの関連性を効果的に認識することで、外部の知識をより効果的に活用できます。
4 つのオープンドメイン QA タスクに関する実験では、REAR がこれまでの多くの競合 RAG アプローチよりも大幅に優れていることが示されています。
私たちのコードとデータには https://github.com/RUCAIBox/REAR からアクセスできます。
要約(オリジナル)
Considering the limited internal parametric knowledge, retrieval-augmented generation (RAG) has been widely used to extend the knowledge scope of large language models (LLMs). Despite the extensive efforts on RAG research, in existing methods, LLMs cannot precisely assess the relevance of retrieved documents, thus likely leading to misleading or even incorrect utilization of external knowledge (i.e., retrieved documents). To address this issue, in this paper, we propose REAR, a RElevance-Aware Retrieval-augmented approach for open-domain question answering (QA). As the key motivation, we aim to enhance the self-awareness of source relevance for LLMs, so as to adaptively utilize external knowledge in RAG systems. Specially, we develop a new architecture for LLM based RAG system, by incorporating a specially designed rank head that precisely assesses the relevance of retrieved documents. Furthermore, we propose an improved training method based on bi-granularity relevance fusion and noise-resistant training. By combining the improvements in both architecture and training, our proposed REAR can better utilize external knowledge by effectively perceiving the relevance of retrieved documents. Experiments on four open-domain QA tasks show that REAR significantly outperforms previous a number of competitive RAG approaches. Our code and data can be accessed at https://github.com/RUCAIBox/REAR.
arxiv情報
著者 | Yuhao Wang,Ruiyang Ren,Junyi Li,Wayne Xin Zhao,Jing Liu,Ji-Rong Wen |
発行日 | 2024-02-27 13:22:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google