Do Automatic Factuality Metrics Measure Factuality? A Critical Evaluation

要約

最新の LLM は、ROUGE などの要約の品質を評価するための従来の自動化された指標が飽和状態になっているところまで、可読性の高い抽象的な要約を生成できるようになりました。
ただし、LLM は依然として、要約に不要なコンテンツ、つまりソースと矛盾する情報やサポートされていない情報を導入することがあります。
これらのしばしば微妙な「幻覚」の発生を自動的に測定することは、困難であることが判明しています。
これにより、生成された要約とそのソースに対する事実の一貫性を測定することを目的としたさまざまな指標の開発が促進されました。
しかし、これらのアプローチは、その目的を測定しているのでしょうか?
この作業では、自動事実性メトリクスをストレス テストします。
具体的には、要約テキストの表面的な属性が「事実性」を予測するのに十分であるかどうか、またその程度を調査し、そのような浅い特徴のみを使用する(教師あり)モデルがSOTA事実性スコアリング手法と合理的に競合できることを発見しました。
次に、事実性指標が一貫性のない要約の事実修正にどのように反応するかを評価したところ、意味のある改善を示したものはほんのわずかであることがわかりました。
対照的に、一部の指標は、無害で事実に基づかない編集に対してより敏感です。
これらの洞察に動機付けられて、私たちは、(ほとんどの)自動事実性指標を「ゲーム」できること、つまり、生成された要約に無害な文章を追加することによって「事実性」スコアを確実につり上げることができることを示します。総合すると、私たちの結果は程度についての疑問を引き起こします
既存の自動化された事実性メトリクスに依存すべきものと、「事実性メトリクス」で正確に何を測定したいのかです。

要約(オリジナル)

Modern LLMs can now produce highly readable abstractive summaries, to the point where traditional automated metrics for evaluating summary quality, such as ROUGE, have become saturated. However, LLMs still sometimes introduce unwanted content into summaries, i.e., information inconsistent with or unsupported by their source. Measuring the occurrence of these often subtle “hallucinations” automatically has proved to be challenging. This in turn has motivated development of a variety of metrics intended to measure the factual consistency of generated summaries against their source. But are these approaches measuring what they purport to do? In this work, we stress-test automatic factuality metrics. Specifically, we investigate whether and to what degree superficial attributes of summary texts suffice to predict “factuality”, finding that a (supervised) model using only such shallow features is reasonably competitive with SOTA factuality scoring methods. We then evaluate how factuality metrics respond to factual corrections in inconsistent summaries and find that only a few show meaningful improvements. In contrast, some metrics are more sensitive to benign, non-factual edits. Motivated by these insights, we show that one can “game” (most) automatic factuality metrics, i.e., reliably inflate “factuality” scores by appending innocuous sentences to generated summaries.Taken together, our results raise questions about the degree to which we should rely on existing automated factuality metrics and what exactly we want “factuality metrics” to measure.

arxiv情報

著者 Sanjana Ramprasad,Byron C. Wallace
発行日 2024-11-26 16:38:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク