Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization

要約

大規模言語モデル (LLM) は、標準の汎用要約ベンチマークではすでに優れたパフォーマンスを達成できていますが、より複雑な要約タスク設定でのパフォーマンスはあまり研究されていません。
したがって、モデル入力がソース記事と、目的の要約特性に対する自然言語要件の両方で構成される、命令制御可能なテキスト要約に関して LLM のベンチマークを行います。
この目的を達成するために、このタスク設定用の評価専用データセットを厳選し、5 つの LLM ベースのシステムの人による評価を実施して、制御可能な要約における指示追従機能を評価します。
次に、4 つの異なる評価プロトコルと 11 の LLM を使用して、このタスクの LLM ベースの自動評価をベンチマークし、結果として 40 の評価方法が得られます。
私たちの調査では、LLM にとって命令制御可能なテキストの要約が依然として困難な課題であることが明らかになりました。その理由は、(1) 評価されたすべての LLM は依然として要約に事実およびその他のタイプの誤りを犯しているためです。
(2) LLM ベースの評価方法は、要約候補の品質を判断する際に人間のアノテーターと強力に一致することはできません。
(3) LLM が異なると、概要の生成および評価機能に大きなパフォーマンスの差が見られます。
この方向での将来の研究を促進するために、収集したベンチマーク InstruSum を一般公開します。

要約(オリジナル)

While large language models (LLMs) can already achieve strong performance on standard generic summarization benchmarks, their performance on more complex summarization task settings is less studied. Therefore, we benchmark LLMs on instruction controllable text summarization, where the model input consists of both a source article and a natural language requirement for desired summary characteristics. To this end, we curate an evaluation-only dataset for this task setting and conduct human evaluations of five LLM-based systems to assess their instruction-following capabilities in controllable summarization. We then benchmark LLM-based automatic evaluation for this task with 4 different evaluation protocols and 11 LLMs, resulting in 40 evaluation methods. Our study reveals that instruction controllable text summarization remains a challenging task for LLMs, since (1) all LLMs evaluated still make factual and other types of errors in their summaries; (2) no LLM-based evaluation methods can achieve a strong alignment with human annotators when judging the quality of candidate summaries; (3) different LLMs show large performance gaps in summary generation and evaluation capabilities. We make our collected benchmark InstruSum publicly available to facilitate future research in this direction.

arxiv情報

著者 Yixin Liu,Alexander R. Fabbri,Jiawen Chen,Yilun Zhao,Simeng Han,Shafiq Joty,Pengfei Liu,Dragomir Radev,Chien-Sheng Wu,Arman Cohan
発行日 2024-07-12 17:35:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク