Just ClozE! A Novel Framework for Evaluating the Factual Consistency Faster in Abstractive Summarization

要約

近年、抽象的な要約における事実の整合性の問題が大きく注目されており、要約と文書との間の事実の整合性を評価することが重要かつ緊急の課題となっている。
現在の評価指標のほとんどは、質問応答 (QA) タスクまたは自然言語推論 (NLI) タスクから採用されています。
ただし、QA ベースのメトリックの適用は実際には非常に時間がかかり、NLI ベースのメトリックは解釈可能性に欠けます。
この論文では、ClozE と呼ばれる cloze ベースの評価フレームワークを提案し、cloze ベースの指標の大きな可能性を示します。
NLI レベルの推論の速度を維持しながら、QA から強力な解釈可能性を継承しています。
私たちは、人間が注釈を付けた 6 つのデータセットとメタ評価ベンチマーク GO FIGURE での実験を通じて、ClozE が解釈可能性とパフォーマンスを維持しながら、QA ベースの指標と比較して評価時間をほぼ 96% 短縮できることを実証しました (Gabriel et al., 2021)。
最後に、実際の ClozE の 3 つの重要な側面について説明します。これは、他の指標と比較して ClozE の全体的なパフォーマンスが優れていることを示しています。

要約(オリジナル)

The issue of factual consistency in abstractive summarization has received extensive attention in recent years, and the evaluation of factual consistency between summary and document has become an important and urgent task. Most of the current evaluation metrics are adopted from the question answering (QA) or natural language inference (NLI) task. However, the application of QA-based metrics is extremely time-consuming in practice while NLI-based metrics are lack of interpretability. In this paper, we propose a cloze-based evaluation framework called ClozE and show the great potential of the cloze-based metric. It inherits strong interpretability from QA, while maintaining the speed of NLI- level reasoning. We demonstrate that ClozE can reduce the evaluation time by nearly 96% relative to QA-based metrics while retaining their interpretability and performance through experiments on six human-annotated datasets and a meta-evaluation benchmark GO FIGURE (Gabriel et al., 2021). Finally, we discuss three important facets of ClozE in practice, which further shows better overall performance of ClozE compared to other metrics.

arxiv情報

著者 Yiyang Li,Lei Li,Marina Litvak,Natalia Vanetik,Dingxin Hu,Yuze Li,Yanquan Zhou
発行日 2023-11-28 10:38:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク