FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation

要約

大規模言語モデル (LM) によって生成された長文テキストの事実性を評価することは簡単ではありません。その理由は、(1) 世代にはサポートされている情報とサポートされていない情報が混在していることが多く、品質を二者択一で判断するのが不十分であること、(2) 人間の評価が不十分であるためです。
時間とコストがかかります。
このペーパーでは、世代を一連のアトミック ファクトに分割し、信頼できる知識ソースによってサポートされるアトミック ファクトのパーセンテージを計算する新しい評価である FActScore (Factual precision in Atomicity Score) を紹介します。
私たちは、いくつかの最先端の商用 LM (InstructGPT、ChatGPT、検索強化された PerplexityAI) によって生成された人物伝記の FActScore を取得するために広範な人間による評価を実施し、そのような詳細な評価の必要性を実証する新しい分析を報告します。
粒度の細かいスコア (例: ChatGPT は 58% のみを達成)。
人間による評価にはコストがかかるため、検索と強力な言語モデルを使用して 2% 未満のエラー率で FActScore を推定する自動モデルも導入します。
最後に、この自動化されたメトリクスを使用して、人間が評価した場合は 26,000 ドルかかるであろう 13 個の最近の LM の新しいセットから 6,500 世代を評価します。次のようなさまざまな結果が得られます。GPT-4 と ChatGPT は公開モデルよりも事実に近く、ビキューナとアルパカ
は最高の公開モデルの一部です。

要約(オリジナル)

Evaluating the factuality of long-form text generated by large language models (LMs) is non-trivial because (1) generations often contain a mixture of supported and unsupported pieces of information, making binary judgments of quality inadequate, and (2) human evaluation is time-consuming and costly. In this paper, we introduce FActScore (Factual precision in Atomicity Score), a new evaluation that breaks a generation into a series of atomic facts and computes the percentage of atomic facts supported by a reliable knowledge source. We conduct an extensive human evaluation to obtain FActScores of people biographies generated by several state-of-the-art commercial LMs — InstructGPT, ChatGPT, and the retrieval-augmented PerplexityAI — and report new analysis demonstrating the need for such a fine-grained score (e.g., ChatGPT only achieves 58%). Since human evaluation is costly, we also introduce an automated model that estimates FActScore, using retrieval and a strong language model, with less than a 2% error rate. Finally, we use this automated metric to evaluate 6,500 generations from a new set of 13 recent LMs that would have cost $26K if evaluated by humans, with various findings: GPT-4 and ChatGPT are more factual than public models, and Vicuna and Alpaca are some of the best public models.

arxiv情報

著者 Sewon Min,Kalpesh Krishna,Xinxi Lyu,Mike Lewis,Wen-tau Yih,Pang Wei Koh,Mohit Iyyer,Luke Zettlemoyer,Hannaneh Hajishirzi
発行日 2023-05-23 17:06:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク