要約
テキスト要約の最近の進歩、特に大規模言語モデル (LLM) の出現により、目覚ましいパフォーマンスが示されています。
ただし、自動生成される要約のかなりの数に幻覚などの事実矛盾が見られるため、注目すべき課題が依然として残っています。
この問題に対応して、要約の一貫性を評価するためのさまざまなアプローチが登場しています。
しかし、これらの新しく導入されたメトリクスは、特に LLM ベースのメトリクスの場合、解釈可能性の欠如、短い文書の要約 (ニュース記事など) に焦点を当てていること、計算の非実用性など、いくつかの制限に直面しています。
これらの欠点に対処するために、より解釈可能で効率的な事実指向の指標である、自然言語推論とクレーム抽出 (FENICE) に基づく要約の事実性評価を提案します。
FENICE は、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる基本的な事実のセットとの間の NLI ベースの調整を活用します。
私たちの指標は、事実性評価の事実上のベンチマークである AGGREFACT に関する新たな最先端技術を確立します。
さらに、人間による長文要約の注釈プロセスを実行することで、評価をより困難な設定に拡張します。
要約(オリジナル)
Recent advancements in text summarization, particularly with the advent of Large Language Models (LLMs), have shown remarkable performance. However, a notable challenge persists as a substantial number of automatically-generated summaries exhibit factual inconsistencies, such as hallucinations. In response to this issue, various approaches for the evaluation of consistency for summarization have emerged. Yet, these newly-introduced metrics face several limitations, including lack of interpretability, focus on short document summaries (e.g., news articles), and computational impracticality, especially for LLM-based metrics. To address these shortcomings, we propose Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction (FENICE), a more interpretable and efficient factuality-oriented metric. FENICE leverages an NLI-based alignment between information in the source document and a set of atomic facts, referred to as claims, extracted from the summary. Our metric sets a new state of the art on AGGREFACT, the de-facto benchmark for factuality evaluation. Moreover, we extend our evaluation to a more challenging setting by conducting a human annotation process of long-form summarization.
arxiv情報
著者 | Alessandro Scirè,Karim Ghonim,Roberto Navigli |
発行日 | 2024-03-26 13:14:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google