要約
大規模言語モデル (LLM) は要約をどの程度うまく生成できますか?
新しいデータセットを開発し、人による評価実験を実施して、5 つの異なる要約タスクにわたって LLM のゼロショット生成能力を評価します。
私たちの調査結果は、人間の評価者の間では、人間が書いた要約や微調整されたモデルによって生成された要約よりも、LLM によって生成された要約を明らかに好んでいることを示しています。
具体的には、LLM によって生成された要約は事実との一貫性が高く、外因性幻覚の発生が少なくなります。
要約タスクにおける LLM の満足のいくパフォーマンス (参考要約のベンチマークをも上回っている) により、テキスト要約の分野における従来の作業のほとんどは、LLM の時代にはもはや必要ではないと考えられます。
ただし、より高品質で信頼性の高い評価方法を備えた新しいデータセットの作成など、検討する価値のある方向性がまだいくつかあることを私たちは認識しています。
要約(オリジナル)
How well can large language models (LLMs) generate summaries? We develop new datasets and conduct human evaluation experiments to evaluate the zero-shot generation capability of LLMs across five distinct summarization tasks. Our findings indicate a clear preference among human evaluators for LLM-generated summaries over human-written summaries and summaries generated by fine-tuned models. Specifically, LLM-generated summaries exhibit better factual consistency and fewer instances of extrinsic hallucinations. Due to the satisfactory performance of LLMs in summarization tasks (even surpassing the benchmark of reference summaries), we believe that most conventional works in the field of text summarization are no longer necessary in the era of LLMs. However, we recognize that there are still some directions worth exploring, such as the creation of novel datasets with higher quality and more reliable evaluation methods.
arxiv情報
著者 | Xiao Pu,Mingqi Gao,Xiaojun Wan |
発行日 | 2023-09-18 08:13:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google