SAGE: A Framework of Precise Retrieval for RAG

要約

検索された生成(RAG)は、指定されたコーパス内で質問分配(QA)タスクを実施する際に重要な習熟度を示しています。
それにもかかわらず、QAのRAGの多くの故障インスタンスはまだ存在しています。
これらの障害は、大規模な言語モデル(LLM)の制限にのみ起因するものではありません。
代わりに、2つの制限により、主にLLMSの不正確な情報の検索から生じます。(1)現在のRAGメソッドは、セマンティクスを考慮せずにコーパスをセグメント化し、質問とセグメントの間の相関障害のために関連するコンテキストを見つけることを困難にします。
(2)取得されたコンテキストが少ない不足している重要なコンテキストと、より多くのコンテキストが取得された無関係なコンテキストを取得することとの間にはトレードオフがあります。
この論文では、これらの制限を克服するために、RAGフレームワーク(SAGE)を紹介します。
まず、セマンティクスを考慮せずにセグメンテーションの問題に対処するために、セマンティックセグメンテーションモデルをトレーニングすることを提案します。
このモデルは、コーパスを意味的に完全なチャンクに分割するように訓練されています。
第二に、無関係なものが無視されている間に最も関連性の高いチャンクのみが取得されるようにするために、関連スコアの速度の低下に基づいてチャンクを動的に選択し、より関連性の高い選択につながるチャンク選択アルゴリズムを設計します。
第三に、検索されたチャンクの精度をさらに確保するために、検索されたチャンクが過剰か不足しているかどうかをLLMに評価し、それに応じてコンテキストの量を調整させることを提案します。
実験では、Sageが平均してQAの品質において61.25%を上回ることが示されています。
さらに、ノイズの多いコンテキストを取得することを避けることにより、SageはLLM推論で消費されるトークンのコストを削減し、平均してコスト効率の49.41%の向上を達成します。
さらに、私たちの作品は、ぼろを高めるための貴重な洞察を提供します。

要約(オリジナル)

Retrieval-augmented generation (RAG) has demonstrated significant proficiency in conducting question-answering (QA) tasks within a specified corpus. Nonetheless, numerous failure instances of RAG in QA still exist. These failures are not solely attributable to the limitations of Large Language Models (LLMs); instead, they predominantly arise from the retrieval of inaccurate information for LLMs due to two limitations: (1) Current RAG methods segment the corpus without considering semantics, making it difficult to find relevant context due to impaired correlation between questions and the segments. (2) There is a trade-off between missing essential context with fewer context retrieved and getting irrelevant context with more context retrieved. In this paper, we introduce a RAG framework (SAGE), to overcome these limitations. First, to address the segmentation issue without considering semantics, we propose to train a semantic segmentation model. This model is trained to segment the corpus into semantically complete chunks. Second, to ensure that only the most relevant chunks are retrieved while the irrelevant ones are ignored, we design a chunk selection algorithm to dynamically select chunks based on the decreasing speed of the relevance score, leading to a more relevant selection. Third, to further ensure the precision of the retrieved chunks, we propose letting LLMs assess whether retrieved chunks are excessive or lacking and then adjust the amount of context accordingly. Experiments show that SAGE outperforms baselines by 61.25% in the quality of QA on average. Moreover, by avoiding retrieving noisy context, SAGE lowers the cost of the tokens consumed in LLM inference and achieves a 49.41% enhancement in cost efficiency on average. Additionally, our work offers valuable insights for boosting RAG.

arxiv情報

著者 Jintao Zhang,Guoliang Li,Jinyang Su
発行日 2025-04-30 09:32:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB, cs.IR, cs.LG パーマリンク