FaaF: Facts as a Function for the evaluation of RAG systems

要約

参照ソースからの事実の想起は、検索と生成の両方の品質を直接調べるため、検索拡張生成 (RAG) システムのパフォーマンスを評価するために重要です。
ただし、この評価を確実かつ効率的に実行することは依然として課題です。
最近の研究は、プロンプト言語モデル (LM) 評価者による事実検証に焦点を当てていますが、不完全または不正確な情報が存在する場合、これらの方法は信頼できないことを示しています。
LM の関数呼び出し機能と RAG 事実再現評価のフレームワークを利用した事実検証への新しいアプローチである Facts as a Function (FaaF) を紹介します。
FaaF は、プロンプトベースのアプローチと比較して効率を向上させ、コストを数倍削減しながら、不完全な情報を含むテキスト内のサポートされていない事実を識別する LM の能力を大幅に向上させます。

要約(オリジナル)

Factual recall from a reference source is crucial for evaluating the performance of Retrieval Augmented Generation (RAG) systems, as it directly probes into the quality of both retrieval and generation. However, it still remains a challenge to perform this evaluation reliably and efficiently. Recent work has focused on fact verification via prompting language model (LM) evaluators, however we demonstrate that these methods are unreliable in the presence of incomplete or inaccurate information. We introduce Facts as a Function (FaaF), a new approach to fact verification that utilizes the function calling abilities of LMs and a framework for RAG factual recall evaluation. FaaF substantially improves the ability of LMs to identify unsupported facts in text with incomplete information whilst improving efficiency and lowering cost by several times, compared to prompt-based approaches.

arxiv情報

著者 Vasileios Katranidis,Gabor Barany
発行日 2024-03-06 17:48:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク