GUMSum: Multi-Genre Data and Evaluation for English Abstractive Summarization

要約

事前トレーニングされた言語モデルによる自動要約は、驚くほど流暢な結果をもたらしましたが、「幻覚」が発生しやすく、ニュース以外のジャンルではパフォーマンスが低下し、正確には要約ではない出力が発生します。
ACL 2023 の「リアリティ チェック」テーマをターゲットとして、抽象的な要約を評価するための 12 の書き言葉および話し言葉のジャンルにおける英語の要約の小さいながらも注意深く作成されたデータセットである GUMSum を紹介します。
要約は非常に制約があり、代替可能性、事実性、忠実さに焦点を当てています。
私たちはガイドラインを提示し、人間の合意と最近のシステム出力に関する主観的な判断を評価し、一般領域の未調整のアプローチ、微調整されたアプローチ、およびプロンプトベースのアプローチを人間のパフォーマンスと比較します。
結果は、GPT3 が優れたスコアを達成している一方で、ジャンルによって品質にばらつきがあり、依然として人間のパフォーマンスには及ばないことを示しています。
人間の判断は、監視された要約、指示された要約、および人間が作成した要約におけるさまざまな種類のエラーを明らかにし、優れた要約を作成する際の課題を明らかにします。

要約(オリジナル)

Automatic summarization with pre-trained language models has led to impressively fluent results, but is prone to ‘hallucinations’, low performance on non-news genres, and outputs which are not exactly summaries. Targeting ACL 2023’s ‘Reality Check’ theme, we present GUMSum, a small but carefully crafted dataset of English summaries in 12 written and spoken genres for evaluation of abstractive summarization. Summaries are highly constrained, focusing on substitutive potential, factuality, and faithfulness. We present guidelines and evaluate human agreement as well as subjective judgments on recent system outputs, comparing general-domain untuned approaches, a fine-tuned one, and a prompt-based approach, to human performance. Results show that while GPT3 achieves impressive scores, it still underperforms humans, with varying quality across genres. Human judgments reveal different types of errors in supervised, prompted, and human-generated summaries, shedding light on the challenges of producing a good summary.

arxiv情報

著者 Yang Janet Liu,Amir Zeldes
発行日 2023-06-20 03:21:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク