要約
タスクの多面的かつ主観的な性質により、要約システムの信頼性の高い自動評価は困難です。
これは特に人間による評価が少ない英語以外の言語に当てはまります。
本研究では、多言語・多面的な要約評価を行うためのデータセット「SEAHORSE」を紹介します。
SEAHORSE は、理解度、反復、文法、帰属、主なアイデア、簡潔さという 6 つの品質側面に沿った人による評価を含む 96,000 件の要約で構成されており、6 つの言語、9 つのシステム、4 つのデータセットをカバーしています。
その規模と範囲の結果として、SEAHORSE は、学習されたメトリクスを評価するためのベンチマークとしてだけでなく、そのようなメトリクスをトレーニングするための大規模なリソースとしても機能します。
SEAHORSE でトレーニングされたメトリクスが、ドメイン外メタ評価ベンチマーク TRUE (Honovich et al., 2022) および mFACE (Aharoni et al., 2022) で優れたパフォーマンスを達成することを示します。
今後の多言語・多面的な要約評価の研究のためにSEAHORSEを公開します。
要約(オリジナル)
Reliable automatic evaluation of summarization systems is challenging due to the multifaceted and subjective nature of the task. This is especially the case for languages other than English, where human evaluations are scarce. In this work, we introduce SEAHORSE, a dataset for multilingual, multifaceted summarization evaluation. SEAHORSE consists of 96K summaries with human ratings along 6 quality dimensions: comprehensibility, repetition, grammar, attribution, main ideas, and conciseness, covering 6 languages, 9 systems and 4 datasets. As a result of its size and scope, SEAHORSE can serve both as a benchmark to evaluate learnt metrics, as well as a large-scale resource for training such metrics. We show that metrics trained with SEAHORSE achieve strong performance on the out-of-domain meta-evaluation benchmarks TRUE (Honovich et al., 2022) and mFACE (Aharoni et al., 2022). We make SEAHORSE publicly available for future research on multilingual and multifaceted summarization evaluation.
arxiv情報
著者 | Elizabeth Clark,Shruti Rijhwani,Sebastian Gehrmann,Joshua Maynez,Roee Aharoni,Vitaly Nikolaev,Thibault Sellam,Aditya Siddhant,Dipanjan Das,Ankur P. Parikh |
発行日 | 2023-05-22 16:25:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google