要約
検索された生成(RAG)は、外部データベースを組み込むことにより、幻覚や時代遅れの知識などの大規模な言語モデル(LLM)の重要な制限に対処します。
これらのデータベースは通常、複数のソースを参照して、最新およびさまざまな情報を含みます。
ただし、標準的なRAGメソッドは、マルチソースデータベースの不均一なソースの信頼性を見落とし、関連性のみに基づいてドキュメントを取得することが多く、誤った情報を伝播する傾向があります。
これに対処するために、複数のソースの信頼性を推定し、検索プロセスと集約プロセスの両方にこの情報を組み込む信頼性を認識するRAG(RA-RAG)を提案します。
具体的には、ラベルのない一連のクエリのソースの信頼性と真の回答を繰り返し推定します。
次に、いくつかの信頼できるソースから関連するドキュメントを選択的に取得し、加重多数派の投票を使用してそれらを集計します。ここで、選択的検索により、パフォーマンスを損なうことなくスケーラビリティが保証されます。
また、不均一なソースの信頼性を備えた実際のシナリオを反映するように設計されたベンチマークを導入し、一連のベースラインと比較してRA-RAGの有効性を実証します。
要約(オリジナル)
Retrieval-augmented generation (RAG) addresses key limitations of large language models (LLMs), such as hallucinations and outdated knowledge, by incorporating external databases. These databases typically consult multiple sources to encompass up-to-date and various information. However, standard RAG methods often overlook the heterogeneous source reliability in the multi-source database and retrieve documents solely based on relevance, making them prone to propagating misinformation. To address this, we propose Reliability-Aware RAG (RA-RAG) which estimates the reliability of multiple sources and incorporates this information into both retrieval and aggregation processes. Specifically, it iteratively estimates source reliability and true answers for a set of queries with no labelling. Then, it selectively retrieves relevant documents from a few of reliable sources and aggregates them using weighted majority voting, where the selective retrieval ensures scalability while not compromising the performance. We also introduce a benchmark designed to reflect real-world scenarios with heterogeneous source reliability and demonstrate the effectiveness of RA-RAG compared to a set of baselines.
arxiv情報
著者 | Jeongyeon Hwang,Junyoung Park,Hyejin Park,Dongwoo Kim,Sangdon Park,Jungseul Ok |
発行日 | 2025-06-02 06:34:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google