要約
要約器の品質を評価することは重要な課題である。そこで我々は、タスクの結果を保持しつつ、下流のタスクに有用な要約を生成する能力に基づいて要約器を評価する、新しいタスク指向の評価アプローチを提案する。我々は、これらのタスクの結果として生じるエラー確率と、原文と生成された要約との間の相互情報との間に直接的な関係を理論的に確立する。このメトリックの実用的な実装として$texttt{COSMIC}$を導入し、人間の判断に基づくメトリックとの強い相関と、下流タスクのパフォーマンスを予測する有効性を実証する。texttt{BERTScore}$や$texttt{ROUGE}$のような確立されたメトリクスとの比較分析により、$texttt{COSMIC}$の競争力を強調する。
要約(オリジナル)
Assessing the quality of summarizers poses significant challenges. In response, we propose a novel task-oriented evaluation approach that assesses summarizers based on their capacity to produce summaries that are useful for downstream tasks, while preserving task outcomes. We theoretically establish a direct relationship between the resulting error probability of these tasks and the mutual information between source texts and generated summaries. We introduce $\texttt{COSMIC}$ as a practical implementation of this metric, demonstrating its strong correlation with human judgment-based metrics and its effectiveness in predicting downstream task performance. Comparative analyses against established metrics like $\texttt{BERTScore}$ and $\texttt{ROUGE}$ highlight the competitive performance of $\texttt{COSMIC}$.
arxiv情報
著者 | Maxime Darrin,Philippe Formont,Jackie Chi Kit Cheung,Pablo Piantanida |
発行日 | 2024-03-01 15:29:52+00:00 |
arxivサイト | arxiv_id(pdf) |