Multi-Source Knowledge Pruning for Retrieval-Augmented Generation: A Benchmark and Empirical Study

要約

検索拡張生成 (RAG) は、外部知識の統合を通じて大規模言語モデル (LLM) の幻覚を軽減する効果的なアプローチとしてますます認識されています。
数多くの取り組みが行われていますが、ほとんどの研究は単一の種類の外部知識源に焦点を当てています。
ただし、現実世界のアプリケーションでは、ほとんどの状況でさまざまな情報源からの多様な知識が必要になりますが、この領域はあまり調査されていません。
主なジレンマは、複数の知識ソースと関連する問題の事前調査を含む適切なデータセットが不足していることです。
これらの課題に対処するために、私たちは多様で補完的なドメインにわたる構造化知識と非構造化知識を組み合わせたベンチマーク データセットを標準化します。
このデータセットに基づいて、プラグアンドプレイ RAG フレームワークである PruningRAG をさらに開発します。このフレームワークの主な特徴は、関連情報の統合を最適化し、誤解を招くコンテキストを最小限に抑えるために、多粒度のプルーニング戦略を採用することです。
標準化されたデータセットと PruningRAG に基づいて、一連の実験結果と洞察力に富んだ調査結果も報告します。
私たちのデータセットとコードは、RAG コミュニティでの将来の研究を推進することを目的として、\footnote{https://github.com/USTCAGI/PruningRAG} として公開されています。

要約(オリジナル)

Retrieval-augmented generation (RAG) is increasingly recognized as an effective approach for mitigating the hallucination of large language models (LLMs) through the integration of external knowledge. While numerous efforts, most studies focus on a single type of externeal knowledge source. However, in real-world applications, most situations involve diverse knowledge from various sources, yet this area has been less explored. The main dilemma is the lack of a suitable dataset containing multiple knowledge sources and pre-exploration of the associated issues. To address these challenges, we standardize a benchmark dataset that combines structured and unstructured knowledge across diverse and complementary domains. Based on this dataset, we further develop a plug-and-play RAG framework, PruningRAG, whose main characteristic is to employ multi-granularity pruning strategies for optimizing the integration of relevant information and minimizing misleading context. Building upon the standardized dataset and PruningRAG, we also report a series of experimental results, as well as insightful findings. Our dataset and code are publicly available\footnote{https://github.com/USTCAGI/PruningRAG}, with the aim of advancing future research in the RAG community.

arxiv情報

著者 Shuo Yu,Mingyue Cheng,Jiqian Yang,Jie Ouyang,Yucong Luo,Chenyi Lei,Qi Liu,Enhong Chen
発行日 2024-11-27 15:13:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク