OpinSummEval: Revisiting Automated Evaluation for Opinion Summarization

要約

意見の要約は、側面や感情に重点を置くという点で、他のタイプの要約タスクとは一線を画します。
ROUGE のような特定の自動評価方法が人気を集めていますが、意見の要約の品質を評価するための尺度としては信頼性が低いことがわかっています。
この論文では、人間の判断と 14 の意見要約モデルからの出力で構成されるデータセットである OpinSummEval を紹介します。
さらに、24 の自動指標と人間の評価との相関関係を 4 つの次元にわたって調査します。
私たちの調査結果は、ニューラル ネットワークに基づくメトリクスが一般に非ニューラル ネットワークに基づくメトリクスよりも優れていることを示しています。
ただし、BART や GPT-3/3.5 などの強力なバックボーンに基づいて構築された指標であっても、すべての側面にわたって一貫して良好な相関関係があるわけではなく、意見を要約するための自動評価方法の進歩の必要性が浮き彫りになっています。
コードとデータは https://github.com/A-Chicharito-S/OpinSummEval/tree/main で公開されています。

要約(オリジナル)

Opinion summarization sets itself apart from other types of summarization tasks due to its distinctive focus on aspects and sentiments. Although certain automated evaluation methods like ROUGE have gained popularity, we have found them to be unreliable measures for assessing the quality of opinion summaries. In this paper, we present OpinSummEval, a dataset comprising human judgments and outputs from 14 opinion summarization models. We further explore the correlation between 24 automatic metrics and human ratings across four dimensions. Our findings indicate that metrics based on neural networks generally outperform non-neural ones. However, even metrics built on powerful backbones, such as BART and GPT-3/3.5, do not consistently correlate well across all dimensions, highlighting the need for advancements in automated evaluation methods for opinion summarization. The code and data are publicly available at https://github.com/A-Chicharito-S/OpinSummEval/tree/main.

arxiv情報

著者 Yuchen Shen,Xiaojun Wan
発行日 2023-10-27 13:09:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク