要約
タイトル:
– ChatGPTによる抽象的な要約と実際の要約を、盲検レビュアーとテキスト分類アルゴリズムを通じて比較する
要約:
– 大規模言語モデル(LLM)は、あらゆるタスクで印象的なパフォーマンスを発揮することから注目を集めています。OpenAIが開発したChatGPTは、言語モデルの家族の最近の追加であり、人間のようなテキスト生成能力を持つことから、一部の人々によって破壊的な技術と呼ばれています。インターネット上での多くのエピソード的な例がChatGPTの強みと弱みを評価していますが、体系的な研究はほとんど存在しません。ChatGPTに関する体系的な研究の文献に貢献するために、私たちは自動化された指標と盲検の人間評価を用いて、ChatGPTが抽象的要約におけるパフォーマンスを評価しました。また、ChatGPTが生成した要約を検出する自動テキスト分類器も構築しました。テキスト分類アルゴリズムは、実際の要約と生成された要約を区別できますが、人間は実際の要約とChatGPTによって生成された要約を区別することができませんでした。
要点:
– LLMは印象的なパフォーマンスを発揮することから注目を集めている
– ChatGPTは言語モデルの家族の最近の追加であり、人間のようなテキスト生成能力を持つことから、破壊的な技術と呼ばれている
– ChatGPTに関する体系的な研究の文献に貢献するため、ChatGPTが抽象的要約におけるパフォーマンスを評価した
– 自動化された指標と盲検の人間評価を用いて、ChatGPTが抽象的要約におけるパフォーマンスを評価した
– ChatGPTが生成した要約を検出する自動テキスト分類器も構築した
– テキスト分類アルゴリズムは、実際の要約と生成された要約を区別できる
– しかし、人間は実際の要約とChatGPTによって生成された要約を区別することができない
要約(オリジナル)
Large Language Models (LLMs) have gathered significant attention due to their impressive performance on a variety of tasks. ChatGPT, developed by OpenAI, is a recent addition to the family of language models and is being called a disruptive technology by a few, owing to its human-like text-generation capabilities. Although, many anecdotal examples across the internet have evaluated ChatGPT’s strength and weakness, only a few systematic research studies exist. To contribute to the body of literature of systematic research on ChatGPT, we evaluate the performance of ChatGPT on Abstractive Summarization by the means of automated metrics and blinded human reviewers. We also build automatic text classifiers to detect ChatGPT generated summaries. We found that while text classification algorithms can distinguish between real and generated summaries, humans are unable to distinguish between real summaries and those produced by ChatGPT.
arxiv情報
著者 | Mayank Soni,Vincent Wade |
発行日 | 2023-03-30 18:28:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI