Question-Based Retrieval using Atomic Units for Enterprise RAG

要約

エンタープライズ検索拡張生成 (RAG) は、強力な大規模言語モデル (LLM) と、一時的に変化する内部ドキュメントを組み合わせるための、非常に柔軟なフレームワークを提供します。
RAG では、ドキュメントは最初にチャンク化されます。
次に、ユーザー クエリに対して関連するチャンクが取得され、コンテキストとしてシンセサイザー LLM に渡されて、クエリ応答が生成されます。
ただし、不正なチャンクによりシンセサイザー LLM が誤った応答を生成する可能性があるため、取得ステップではパフォーマンスが制限される可能性があります。
この作業では、より正確なチャンク呼び出しのために、標準の高密度検索ステップのゼロショット適応を適用します。
具体的には、チャンクはまずアトミック ステートメントに分解されます。
次に、これらのアトムに対して一連の合成質問が (コンテキストとしてチャンクを使用して) 生成されます。
高密度検索には、ユーザーのクエリに最も近い合成質問のセットと関連するチャンクを見つけることが含まれます。
アトムによる検索はチャンクによる検索よりも高い再現率につながることがわかります。
アトムに対して生成された合成質問を使用した検索では、さらなるパフォーマンスの向上が観察されます。
取得ステップでの高い再現率により、RAG パイプラインを使用したエンタープライズ LLM のパフォーマンスが向上します。

要約(オリジナル)

Enterprise retrieval augmented generation (RAG) offers a highly flexible framework for combining powerful large language models (LLMs) with internal, possibly temporally changing, documents. In RAG, documents are first chunked. Relevant chunks are then retrieved for a user query, which are passed as context to a synthesizer LLM to generate the query response. However, the retrieval step can limit performance, as incorrect chunks can lead the synthesizer LLM to generate a false response. This work applies a zero-shot adaptation of standard dense retrieval steps for more accurate chunk recall. Specifically, a chunk is first decomposed into atomic statements. A set of synthetic questions are then generated on these atoms (with the chunk as the context). Dense retrieval involves finding the closest set of synthetic questions, and associated chunks, to the user query. It is found that retrieval with the atoms leads to higher recall than retrieval with chunks. Further performance gain is observed with retrieval using the synthetic questions generated over the atoms. Higher recall at the retrieval step enables higher performance of the enterprise LLM using the RAG pipeline.

arxiv情報

著者 Vatsal Raina,Mark Gales
発行日 2024-08-30 16:23:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク