HybridRAG: Integrating Knowledge Graphs and Vector Retrieval Augmented Generation for Efficient Information Extraction

要約

決算報告のトランスクリプトなど、金融アプリケーションで発生する非構造化テキスト データからの複雑な情報の抽出と解釈は、検索拡張生成 (RAG) (VectorRAG と呼ばれる) を使用する現在のベスト プラクティスを使用しても、大規模言語モデル (LLM) に大きな課題をもたらします。
情報検索にベクトル データベースを利用する技術)は、ドメイン固有の用語や文書の複雑な形式などの課題が原因です。
ナレッジ グラフ (KG) ベースの RAG 技術 (GraphRAG と呼ばれる) と VectorRAG 技術の組み合わせに基づく、HybridRAG と呼ばれる新しいアプローチを導入し、財務書類から情報を抽出するための質問応答 (Q&A) システムを強化します。
正確で文脈に即した回答を生成することができます。
Q&A 形式で提供される金融収益通話記録文書のセットに対する実験を使用して、グラウンドトゥルース Q&A の自然なペアのセットを提供することで、ベクトル データベースと KG の両方からコンテキストを取得する HybridRAG が従来の両方のデータベースよりも優れていることを示します。
VectorRAG と GraphRAG は、検索精度と回答生成の観点から、検索段階と生成段階の両方で個別に評価されます。
提案された手法は金融領域を超えた応用が可能です

要約(オリジナル)

Extraction and interpretation of intricate information from unstructured text data arising in financial applications, such as earnings call transcripts, present substantial challenges to large language models (LLMs) even using the current best practices to use Retrieval Augmented Generation (RAG) (referred to as VectorRAG techniques which utilize vector databases for information retrieval) due to challenges such as domain specific terminology and complex formats of the documents. We introduce a novel approach based on a combination, called HybridRAG, of the Knowledge Graphs (KGs) based RAG techniques (called GraphRAG) and VectorRAG techniques to enhance question-answer (Q&A) systems for information extraction from financial documents that is shown to be capable of generating accurate and contextually relevant answers. Using experiments on a set of financial earning call transcripts documents which come in the form of Q&A format, and hence provide a natural set of pairs of ground-truth Q&As, we show that HybridRAG which retrieves context from both vector database and KG outperforms both traditional VectorRAG and GraphRAG individually when evaluated at both the retrieval and generation stages in terms of retrieval accuracy and answer generation. The proposed technique has applications beyond the financial domain

arxiv情報

著者 Bhaskarjit Sarmah,Benika Hall,Rohan Rao,Sunil Patel,Stefano Pasquali,Dhagash Mehta
発行日 2024-08-09 09:07:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, q-fin.ST, stat.AP, stat.ML パーマリンク