要約
抽出的要約タスクの評価には非常によく使われているが、ROUGEメトリクスは意味的認識の欠如と要約者のランキング品質に対する無知を長い間批判されてきた。ランクと意味を意識したSem-nCGと呼ばれるゲインベースの自動化指標を提案することで、これらの問題に対処した先行研究のおかげである。しかし、Sem-nCGはモデルが生成した要約に存在する冗長性の量を考慮せず、現在のところ複数の参照要約を用いた評価をサポートしていない。残念ながら、これら2つの制限を同時に解決することは容易ではない。そこで本稿では、冗長性を考慮したSem-nCGメトリックを提案し、この新しいメトリックを使用して、複数の参照に対するモデル要約を評価できることを示す。また、広範な実験を通して、元のメトリックに冗長性を組み込む様々な方法を探る。実験の結果、冗長性を考慮した新しいメトリクスは、単一参照シナリオと複数参照シナリオの両方において、元のSem-nCGメトリクスよりも人間の判断と高い相関を示すことが実証された。
要約(オリジナル)
While very popular for evaluating extractive summarization task, the ROUGE metric has long been criticized for its lack of semantic awareness and its ignorance about the ranking quality of the summarizer. Thanks to previous research that has addressed these issues by proposing a gain-based automated metric called Sem-nCG, which is both rank and semantic aware. However, Sem-nCG does not consider the amount of redundancy present in a model-generated summary and currently does not support evaluation with multiple reference summaries. Unfortunately, addressing both these limitations simultaneously is not trivial. Therefore, in this paper, we propose a redundancy-aware Sem-nCG metric and demonstrate how this new metric can be used to evaluate model summaries against multiple references. We also explore different ways of incorporating redundancy into the original metric through extensive experiments. Experimental results demonstrate that the new redundancy-aware metric exhibits a higher correlation with human judgments than the original Sem-nCG metric for both single and multiple reference scenarios.
arxiv情報
著者 | Mousumi Akter,Shubhra Kanti Karmaker Santu |
発行日 | 2023-08-04 11:47:19+00:00 |
arxivサイト | arxiv_id(pdf) |