The Science of Detecting LLM-Generated Texts

要約

大規模言語モデル (LLM) の出現により、LLM で生成された非常に洗練された、人間が書いたテキストとほとんど見分けがつかないテキストが作成されるようになりました。
しかし、これはまた、誤った情報の拡散や教育システムの混乱を引き起こすなど、そのようなテキストの潜在的な誤用についての懸念を引き起こしました.
多くの検出アプローチが提案されていますが、成果と課題の包括的な理解はまだ不足しています。
この調査は、既存の LLM 生成テキスト検出技術の概要を提供し、言語生成モデルの制御と規制を強化することを目的としています。
さらに、LLM で生成されたテキスト検出の分野で進歩を促進するために、包括的な評価指標の開発やオープンソースの LLM によってもたらされる脅威など、将来の研究のための重要な考慮事項を強調します。

要約(オリジナル)

The emergence of large language models (LLMs) has resulted in the production of LLM-generated texts that is highly sophisticated and almost indistinguishable from texts written by humans. However, this has also sparked concerns about the potential misuse of such texts, such as spreading misinformation and causing disruptions in the education system. Although many detection approaches have been proposed, a comprehensive understanding of the achievements and challenges is still lacking. This survey aims to provide an overview of existing LLM-generated text detection techniques and enhance the control and regulation of language generation models. Furthermore, we emphasize crucial considerations for future research, including the development of comprehensive evaluation metrics and the threat posed by open-source LLMs, to drive progress in the area of LLM-generated text detection.

arxiv情報

著者 Ruixiang Tang,Yu-Neng Chuang,Xia Hu
発行日 2023-03-20 08:59:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク