A Hybrid RAG System with Comprehensive Enhancement on Complex Reasoning

要約

検索拡張生成 (RAG) は、外部知識ベースを統合することで大規模言語モデル (LLM) の精度を高め、幻覚を軽減できるフレームワークです。
このペーパーでは、検索品質を大幅に向上させ、推論能力を強化し、数値計算能力を洗練する包括的な最適化スイートによって強化されたハイブリッド RAG システムを紹介します。
Web ページ内のテキスト チャンクと表を改良し、幻覚を減らすために属性予測子を追加し、LLM Knowledge Extractor と Knowledge Graph Extractor を実行し、最終的にすべての参考文献を使用して推論戦略を構築しました。
私たちは、Meta CRAG KDD Cup 2024 コンペティションを通じて、CRAG データセットでシステムを評価しました。
ローカル評価とオンライン評価の両方で、当社のシステムが複雑な推論能力を大幅に強化していることが実証されています。
ローカル評価では、ベースラインモデルと比較して精度が大幅に向上し、エラー率が減少し、スコアの顕著な向上を達成しました。
その間、私たちはオンライン評価で優れた結果を達成し、提案されたシステムのパフォーマンスと一般化能力を実証しました。
私たちのシステムのソース コードは \url{https://gitlab.aicrowd.com/shizueyy/crag-new} でリリースされています。

要約(オリジナル)

Retrieval-augmented generation (RAG) is a framework enabling large language models (LLMs) to enhance their accuracy and reduce hallucinations by integrating external knowledge bases. In this paper, we introduce a hybrid RAG system enhanced through a comprehensive suite of optimizations that significantly improve retrieval quality, augment reasoning capabilities, and refine numerical computation ability. We refined the text chunks and tables in web pages, added attribute predictors to reduce hallucinations, conducted LLM Knowledge Extractor and Knowledge Graph Extractor, and finally built a reasoning strategy with all the references. We evaluated our system on the CRAG dataset through the Meta CRAG KDD Cup 2024 Competition. Both the local and online evaluations demonstrate that our system significantly enhances complex reasoning capabilities. In local evaluations, we have significantly improved accuracy and reduced error rates compared to the baseline model, achieving a notable increase in scores. In the meanwhile, we have attained outstanding results in online assessments, demonstrating the performance and generalization capabilities of the proposed system. The source code for our system is released in \url{https://gitlab.aicrowd.com/shizueyy/crag-new}.

arxiv情報

著者 Ye Yuan,Chengwu Liu,Jingyang Yuan,Gongbo Sun,Siqi Li,Ming Zhang
発行日 2024-08-09 15:53:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク