CASPR: Automated Evaluation Metric for Contrastive Summarization

要約

一連のソース レビューからエンティティ (ホテル、電話など) に関する比較意見を要約すること (対比要約と呼ばれることがよくあります) は、ユーザーの意思決定に大幅に役立ちます。
ただし、人間の評価に頼らずに出力サマリーのコントラストを確実に測定することは未解決の問題のままです。
これまでの研究では、意味を保持する語彙の変化に対する感度を考慮しないコントラストを測定するために、トークンの重複に基づくメトリクスである識別スコアを提案しました。
この研究では、一対の要約間のコントラストをより適切に測定するための自動評価指標 CASPR を提案します。
私たちの指標は、自然言語推論 (NLI) タスクを利用して、レビューを単一クレームの文に分割し、それらの間の NLI スコアを慎重に集計して概要レベルのスコアを算出することでコントラストを測定する、シンプルで軽量な方法に基づいています。
CASPR を特徴スコア、および BERTScore に基づくシンプルかつ強力なベースラインと比較します。
以前のデータセット CoCoTRIP での結果は、CASPR がベースラインと比較して要約ペアのコントラストをより確実に捕捉できることを示しています。

要約(オリジナル)

Summarizing comparative opinions about entities (e.g., hotels, phones) from a set of source reviews, often referred to as contrastive summarization, can considerably aid users in decision making. However, reliably measuring the contrastiveness of the output summaries without relying on human evaluations remains an open problem. Prior work has proposed token-overlap based metrics, Distinctiveness Score, to measure contrast which does not take into account the sensitivity to meaning-preserving lexical variations. In this work, we propose an automated evaluation metric CASPR to better measure contrast between a pair of summaries. Our metric is based on a simple and light-weight method that leverages natural language inference (NLI) task to measure contrast by segmenting reviews into single-claim sentences and carefully aggregating NLI scores between them to come up with a summary-level score. We compare CASPR with Distinctiveness Score and a simple yet powerful baseline based on BERTScore. Our results on a prior dataset CoCoTRIP demonstrate that CASPR can more reliably capture the contrastiveness of the summary pairs compared to the baselines.

arxiv情報

著者 Nirupan Ananthamurugan,Dat Duong,Philip George,Ankita Gupta,Sandeep Tata,Beliz Gunel
発行日 2024-04-23 23:27:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク