WeKnow-RAG: An Adaptive Approach for Retrieval-Augmented Generation Integrating Web Search and Knowledge Graphs

要約

大規模言語モデル (LLM) は、適応型インテリジェント エージェントの開発に大きく貢献しており、汎用人工知能 (AGI) を実現する重要な方法として位置付けられています。
ただし、LLM は事実に誤りのある情報を生成する傾向があり、信頼性を損なう「ファントム」コンテンツを生成することが多いため、現実世界のシナリオでの展開には重大な課題が生じます。
外部データベースと情報検索メカニズムを組み合わせて LLM を強化することは効果的な方法です。
上記の課題に対処するために、我々は、Web 検索とナレッジ グラフを「検索拡張生成 (RAG)」システムに統合する WeKnow-RAG と呼ばれる新しいアプローチを提案します。
まず、ナレッジ グラフの構造化表現と高密度ベクトル検索の柔軟性を組み合わせることで、LLM 応答の精度と信頼性が向上します。
WeKnow-RAG は、ドメイン固有のナレッジ グラフを利用してさまざまなクエリやドメインを満たすことで、スパースとデンスな検索方法の両方を使用した多段階 Web ページ検索技術を採用することで、事実情報と複雑な推論タスクのパフォーマンスを向上させます。
私たちのアプローチは、情報検索の効率と正確性のバランスを効果的にとることにより、全体的な検索プロセスを改善します。
最後に、LLM が生成する回答の信頼性を評価するための自己評価メカニズムも統合します。
私たちのアプローチは、幅広いオフライン実験やオンライン提出においてその卓越した有効性を証明しています。

要約(オリジナル)

Large Language Models (LLMs) have greatly contributed to the development of adaptive intelligent agents and are positioned as an important way to achieve Artificial General Intelligence (AGI). However, LLMs are prone to produce factually incorrect information and often produce ‘phantom’ content that undermines their reliability, which poses a serious challenge for their deployment in real-world scenarios. Enhancing LLMs by combining external databases and information retrieval mechanisms is an effective path. To address the above challenges, we propose a new approach called WeKnow-RAG, which integrates Web search and Knowledge Graphs into a ‘Retrieval-Augmented Generation (RAG)’ system. First, the accuracy and reliability of LLM responses are improved by combining the structured representation of Knowledge Graphs with the flexibility of dense vector retrieval. WeKnow-RAG then utilizes domain-specific knowledge graphs to satisfy a variety of queries and domains, thereby improving performance on factual information and complex reasoning tasks by employing multi-stage web page retrieval techniques using both sparse and dense retrieval methods. Our approach effectively balances the efficiency and accuracy of information retrieval, thus improving the overall retrieval process. Finally, we also integrate a self-assessment mechanism for the LLM to evaluate the trustworthiness of the answers it generates. Our approach proves its outstanding effectiveness in a wide range of offline experiments and online submissions.

arxiv情報

著者 Weijian Xie,Xuefeng Liang,Yuhui Liu,Kaihua Ni,Hong Cheng,Zetian Hu
発行日 2024-08-14 15:19:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク