VERISCORE: Evaluating the factuality of verifiable claims in long-form text generation

要約

FACTSCORE (Min et al., 2023) や SAFE (Wei et al., 2024) など、長文テキストの事実性を評価するための既存の指標は、入力テキストを「アトミッククレーム」に分解し、それぞれをナレッジベースと照合して検証します。
ウィキペディアのように。
これらのメトリクスは、すべての主張が検証可能である (つまり、真または偽であるともっともらしく証明できる) ことを前提としているため、ほとんどの生成タスクには適していません。
私たちは、検証可能なコンテンツと検証不可能なコンテンツの両方を含む多様な長文生成タスクの指標である VERISCORE を使用して、この問題に対処します。
VERISCORE は、クローズド言語モデルまたは微調整されたオープンウェイト言語モデルを使用して効果的に実装でき、人間による評価では、VERISCORE が抽出した主張が、8 つの異なる長文タスクにわたる競合手法からの主張よりも賢明であることが確認されています。
私たちは VERISCORE を使用して、複数の長い形式のタスクにわたって 16 の異なるモデルの世代を評価しました。その結果、GPT-4o が全体的に最もパフォーマンスの高いモデルである一方、Mixtral-8×22 などのオープンウェイト モデルがその差を埋めつつあることがわかりました。
我々は、あるタスク(例えば、伝記の作成)におけるLMのVERISCOREが、別のタスク(例えば、長文QA)におけるそのVERISCOREと必ずしも相関しているわけではないことを示し、事実密度が異なるタスク間で事実性評価を拡張する必要性を強調しています。

要約(オリジナル)

Existing metrics for evaluating the factuality of long-form text, such as FACTSCORE (Min et al., 2023) and SAFE (Wei et al., 2024), decompose an input text into ‘atomic claims’ and verify each against a knowledge base like Wikipedia. These metrics are not suitable for most generation tasks because they assume that every claim is verifiable (i.e., can plausibly be proven true or false). We address this issue with VERISCORE, a metric for diverse long-form generation tasks that contain both verifiable and unverifiable content. VERISCORE can be effectively implemented with either closed or fine-tuned open-weight language models, and human evaluation confirms that VERISCORE’s extracted claims are more sensible than those from competing methods across eight different long-form tasks. We use VERISCORE to evaluate generations from 16 different models across multiple long-form tasks and find that while GPT-4o is the best-performing model overall, open-weight models such as Mixtral-8×22 are closing the gap. We show that an LM’s VERISCORE on one task (e.g., biography generation) does not necessarily correlate to its VERISCORE on a different task (e.g., long-form QA), highlighting the need for expanding factuality evaluation across tasks with varying fact density.

arxiv情報

著者 Yixiao Song,Yekyung Kim,Mohit Iyyer
発行日 2024-06-27 15:43:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク