要約
検索補強世代(RAG)は、大規模言語モデル(LLM)が外部の知識ベースを統合することにより、その精度を高め、幻覚を減らすことを可能にするフレームワークである。本論文では、検索品質を大幅に向上させ、推論能力を増強し、数値計算能力を洗練させる、包括的な最適化によって強化されたハイブリッドRAGシステムを紹介する。我々は、ウェブページのテキストチャンクとテーブルを改良し、幻覚を減らすために属性予測子を追加し、LLM知識抽出器と知識グラフ抽出器を実施し、最終的にすべての参考文献で推論戦略を構築した。我々は、Meta CRAG KDD Cup 2024 Competitionを通じて、CRAGデータセット上で我々のシステムを評価した。ローカル評価とオンライン評価の両方において、我々のシステムが複雑な推論能力を大幅に向上させることが実証された。ローカル評価では、ベースラインモデルと比較して、精度を大幅に向上させ、エラー率を減少させ、顕著なスコア増加を達成した。一方、オンライン評価では、提案システムの性能と汎化能力を実証し、卓越した結果を達成した。私たちのシステムのソースコードは \url{https://gitlab.aicrowd.com/shizueyy/crag-new} に公開されています。
要約(オリジナル)
Retrieval-augmented generation (RAG) is a framework enabling large language models (LLMs) to enhance their accuracy and reduce hallucinations by integrating external knowledge bases. In this paper, we introduce a hybrid RAG system enhanced through a comprehensive suite of optimizations that significantly improve retrieval quality, augment reasoning capabilities, and refine numerical computation ability. We refined the text chunks and tables in web pages, added attribute predictors to reduce hallucinations, conducted LLM Knowledge Extractor and Knowledge Graph Extractor, and finally built a reasoning strategy with all the references. We evaluated our system on the CRAG dataset through the Meta CRAG KDD Cup 2024 Competition. Both the local and online evaluations demonstrate that our system significantly enhances complex reasoning capabilities. In local evaluations, we have significantly improved accuracy and reduced error rates compared to the baseline model, achieving a notable increase in scores. In the meanwhile, we have attained outstanding results in online assessments, demonstrating the performance and generalization capabilities of the proposed system. The source code for our system is released in \url{https://gitlab.aicrowd.com/shizueyy/crag-new}.
arxiv情報
著者 | Ye Yuan,Chengwu Liu,Jingyang Yuan,Gongbo Sun,Siqi Li,Ming Zhang |
発行日 | 2024-09-02 10:55:30+00:00 |
arxivサイト | arxiv_id(pdf) |