Verify with Caution: The Pitfalls of Relying on Imperfect Factuality Metrics

要約

大規模な言語モデルの改善により、自然言語生成出力の信頼できる評価者として役立つことができるという楽観主義が増えています。
このペーパーでは、要約、検索された高級世代、および質問回答のために、11のデータセットのコレクションに関する5つの最先端の事実性指標を徹底的に再評価することにより、この楽観主義に挑戦します。
これらの評価者は互いに矛盾しており、しばしばシステムレベルのパフォーマンスを不安定にしていることがわかります。どちらもさまざまな落とし穴につながる可能性があります。
さらに、これらのメトリックは、ソースドキュメントの遠く離れた部分を利用する非常に言い換えられた出力と出力に対するバイアスを示すことを示します。
これらの事実性メトリックのユーザーに、慎重に進め、進行前にこれらのメトリックの信頼性を手動で検証するよう促します。

要約(オリジナル)

Improvements in large language models have led to increasing optimism that they can serve as reliable evaluators of natural language generation outputs. In this paper, we challenge this optimism by thoroughly re-evaluating five state-of-the-art factuality metrics on a collection of 11 datasets for summarization, retrieval-augmented generation, and question answering. We find that these evaluators are inconsistent with each other and often misestimate system-level performance, both of which can lead to a variety of pitfalls. We further show that these metrics exhibit biases against highly paraphrased outputs and outputs that draw upon faraway parts of the source documents. We urge users of these factuality metrics to proceed with caution and manually validate the reliability of these metrics in their domain of interest before proceeding.

arxiv情報

著者 Ameya Godbole,Robin Jia
発行日 2025-01-30 18:13:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク