Evaluating and Detecting ChatGPT’s Responses on Abstractive Summarization

要約

大規模言語モデル (LLM) は、さまざまなタスクで優れたパフォーマンスを発揮するため、大きな注目を集めています。
OpenAI によって開発された ChatGPT は、言語モデル ファミリに最近追加されたもので、人間のようなテキスト生成機能があるため、一部の人からは破壊的テクノロジと呼ばれています。
インターネット上の多くの事例が ChatGPT の長所と短所を評価していますが、体系的な研究はほんのわずかしか存在しません。
ChatGPT に関する体系的な研究の文献に貢献するために、私たちは自動化されたメトリクスと盲検化された人間のレビューアを用いて、抽象的な要約に関する ChatGPT のパフォーマンスを評価します。
また、ChatGPT で生成された概要を検出するための自動テキスト分類器も構築します。
テキスト分類アルゴリズムは実際の概要と生成された概要を区別できるが、人間は実際の概要と ChatGPT によって生成された概要を区別できないことがわかりました。

要約(オリジナル)

Large Language Models (LLMs) have gathered significant attention due to their impressive performance on a variety of tasks. ChatGPT, developed by OpenAI, is a recent addition to the family of language models and is being called a disruptive technology by a few, owing to its human-like text-generation capabilities. Although, many anecdotal examples across the internet have evaluated ChatGPT’s strength and weakness, only a few systematic research studies exist. To contribute to the body of literature of systematic research on ChatGPT, we evaluate the performance of ChatGPT on Abstractive Summarization by the means of automated metrics and blinded human reviewers. We also build automatic text classifiers to detect ChatGPT generated summaries. We found that while text classification algorithms can distinguish between real and generated summaries, humans are unable to distinguish between real summaries and those produced by ChatGPT.

arxiv情報

著者 Mayank Soni,Vincent Wade
発行日 2023-05-29 15:58:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク