要約
ChatGPT (OpenAI、2022) などの生成言語モデルの機能と広範なアクセシビリティの最近の進歩は、人間のような流暢なテキストを生成することによってさまざまな利点をもたらしましたが、人間言語モデルと大規模言語モデル (LLM) を区別するタスクは、
生成されたテキストが重大な問題として浮上しています。
これらのモデルは、人間が作成したように見える人工テキストを生成することで、人を欺く可能性があります。
この問題は、テキストの完全性を確保することが最も重要である法律、教育、科学などの分野で特に重要です。
この調査は、人間が生成したテキストと ChatGPT を区別するために採用されている現在のアプローチの概要を提供します。
ChatGPT で生成されたテキストを検出するために構築されたさまざまなデータセット、利用されたさまざまな方法、人間のテキストと ChatGPT で生成されたテキストの特性に対してどのような定性分析が実行されたかについて説明し、最後に私たちの調査結果を一般的な洞察にまとめます。
要約(オリジナル)
While recent advancements in the capabilities and widespread accessibility of generative language models, such as ChatGPT (OpenAI, 2022), have brought about various benefits by generating fluent human-like text, the task of distinguishing between human- and large language model (LLM) generated text has emerged as a crucial problem. These models can potentially deceive by generating artificial text that appears to be human-generated. This issue is particularly significant in domains such as law, education, and science, where ensuring the integrity of text is of the utmost importance. This survey provides an overview of the current approaches employed to differentiate between texts generated by humans and ChatGPT. We present an account of the different datasets constructed for detecting ChatGPT-generated text, the various methods utilized, what qualitative analyses into the characteristics of human versus ChatGPT-generated text have been performed, and finally, summarize our findings into general insights
arxiv情報
著者 | Mahdi Dhaini,Wessel Poelman,Ege Erdogan |
発行日 | 2023-09-14 13:05:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google