要約
サマライザの品質を評価することは、大きな課題を引き起こします。
これに応えて、タスクの結果を維持しながら、下流のタスクに役立つ要約を生成する能力に基づいてサマライザーを評価する、新しいタスク指向の評価アプローチを提案します。
私たちは理論的に、これらのタスクの結果として生じるエラー確率と、ソーステキストと生成された要約の間の相互情報との間に直接的な関係を確立します。
この指標の実際的な実装として $\texttt{COSMIC}$ を紹介し、人間の判断に基づく指標との強い相関関係と、下流のタスクのパフォーマンスの予測におけるその有効性を実証します。
$\texttt{BERTScore}$ や $\texttt{ROUGE}$ などの確立された指標との比較分析により、$\texttt{COSMIC}$ の競争力のあるパフォーマンスが強調されます。
要約(オリジナル)
Assessing the quality of summarizers poses significant challenges. In response, we propose a novel task-oriented evaluation approach that assesses summarizers based on their capacity to produce summaries that are useful for downstream tasks, while preserving task outcomes. We theoretically establish a direct relationship between the resulting error probability of these tasks and the mutual information between source texts and generated summaries. We introduce $\texttt{COSMIC}$ as a practical implementation of this metric, demonstrating its strong correlation with human judgment-based metrics and its effectiveness in predicting downstream task performance. Comparative analyses against established metrics like $\texttt{BERTScore}$ and $\texttt{ROUGE}$ highlight the competitive performance of $\texttt{COSMIC}$.
arxiv情報
著者 | Maxime Darrin,Philippe Formont,Jackie Chi Kit Cheung,Pablo Piantanida |
発行日 | 2024-08-14 14:06:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google