FaaF: Facts as a Function for the evaluation of generated text

要約

大規模言語モデル (LM) によって生成されたテキスト内の情報を正確かつ効率的に検証することに対する需要は、かつてないほど高まっていますが、未解決のままです。
最近の取り組みは、LM 評価者を促すことによって、これらのテキストから基本的な事実を抽出して検証することに焦点を当てています。
ただし、不完全または不正確な参照情報に直面した場合、このプロンプト方法は信頼できないことを示します。
LM の関数呼び出し機能を活用したファクト検証タスクへの新しいアプローチである Facts as a Function (FaaF) を紹介します。
FaaF は、テキスト内のサポートされていない事実を識別する LM の能力を大幅に強化すると同時に、プロンプトベースの方法と比較して効率を向上させ、コストを大幅に削減します。
さらに、検索拡張生成(RAG)システムにおける事実想起を評価するためのフレームワークを提案します。これは、困難な条件下でさまざまなLMを使用してプロンプトベースの方法とFaaF方法を比較するために使用されます。

要約(オリジナル)

The demand for accurate and efficient verification of information in texts generated by large language models (LMs) is at an all-time high, but remains unresolved. Recent efforts have focused on extracting and verifying atomic facts from these texts via prompting LM evaluators. However, we demonstrate that this method of prompting is unreliable when faced with incomplete or inaccurate reference information. We introduce Facts as a Function (FaaF), a new approach to the fact verification task that leverages the function-calling capabilities of LMs. FaaF significantly enhances the ability of LMs to identify unsupported facts in texts, while also improving efficiency and significantly lowering costs compared to prompt-based methods. Additionally, we propose a framework for evaluating factual recall in Retrieval Augmented Generation (RAG) systems, which we employ to compare prompt-based and FaaF methods using various LMs under challenging conditions.

arxiv情報

著者 Vasileios Katranidis,Gabor Barany
発行日 2024-04-08 14:49:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク