Exploring the Limits of ChatGPT for Query or Aspect-based Text Summarization


テキストの要約は、数十年にわたって自然言語処理 (NLP) における重要な問題でした。
GPT3 や ChatGPT などの大規模言語モデル (LLM) の出現により、最近、これらのモデルをテキスト要約タスクに使用することに大きな関心が寄せられています。
最近の研究 \cite{goyal2022news, zhang2023benchmarking} では、LLM で生成されたニュースの要約が既に人間と同等であることを示しています。
ただし、アスペクトやクエリベースの集計などのより実用的なアプリケーションでの LLM のパフォーマンスは十分に調査されていません。
このギャップを埋めるために、広く使用されている 4 つのベンチマーク データセットで ChatGPT のパフォーマンスの評価を実施しました。これには、Reddit の投稿、ニュース記事、対話会議、およびストーリーからのさまざまな要約が含まれます。
私たちの実験では、ChatGPT のパフォーマンスが Rouge スコアの点で従来の微調整方法に匹敵することが明らかになりました。
さらに、ChatGPT によって生成された要約と人間の参照の間のいくつかのユニークな違いを強調し、さまざまなテキスト要約タスクに対する ChatGPT の超能力に関する貴重な洞察を提供します。
私たちの調査結果は、この分野の新しい方向性を求めており、広範な人間による評価を通じて、ChatGPT によって生成された要約の特性を体系的に調べるために、さらなる研究を行う予定です。


Text summarization has been a crucial problem in natural language processing (NLP) for several decades. It aims to condense lengthy documents into shorter versions while retaining the most critical information. Various methods have been proposed for text summarization, including extractive and abstractive summarization. The emergence of large language models (LLMs) like GPT3 and ChatGPT has recently created significant interest in using these models for text summarization tasks. Recent studies \cite{goyal2022news, zhang2023benchmarking} have shown that LLMs-generated news summaries are already on par with humans. However, the performance of LLMs for more practical applications like aspect or query-based summaries is underexplored. To fill this gap, we conducted an evaluation of ChatGPT’s performance on four widely used benchmark datasets, encompassing diverse summaries from Reddit posts, news articles, dialogue meetings, and stories. Our experiments reveal that ChatGPT’s performance is comparable to traditional fine-tuning methods in terms of Rouge scores. Moreover, we highlight some unique differences between ChatGPT-generated summaries and human references, providing valuable insights into the superpower of ChatGPT for diverse text summarization tasks. Our findings call for new directions in this area, and we plan to conduct further research to systematically examine the characteristics of ChatGPT-generated summaries through extensive human evaluation.


著者 Xianjun Yang,Yan Li,Xinlu Zhang,Haifeng Chen,Wei Cheng
発行日 2023-02-16 04:41:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク