要約
大規模な言語モデル(LLM)は、人間でさえ、テキストが別の人間によって生成されたのか、それともコンピューターによって生成されたのかを識別するのが困難であるという点まで進んでいます。
ただし、テキストが人間または人工知能(AI)によって生成されたかどうかを知ることは、その信頼性を判断するために重要であり、詐欺や学問的不正の検出、誤った情報と政治的宣伝の拡大との闘いなど、多くのドメインにアプリケーションを持っています。
したがって、AIに生成されたテキスト(AIGT)検出のタスクは非常に挑戦的であり、非常に重要です。
この調査では、透かし、統計的および文体分析、機械学習分類など、AIGT検出に対する最先端のアプローチを要約します。
また、このタスクの既存のデータセットに関する情報も提供します。
調査結果を統合すると、「検出可能な」AIGTテキストがさまざまなシナリオの下でどのようにあるかを判断するために組み合わせる顕著な要因についての洞察を提供し、この重要な技術的および社会的課題に向けて将来の仕事のために実用的な推奨事項を作成することを目指しています。
要約(オリジナル)
Large language models (LLMs) have advanced to a point that even humans have difficulty discerning whether a text was generated by another human, or by a computer. However, knowing whether a text was produced by human or artificial intelligence (AI) is important to determining its trustworthiness, and has applications in many domains including detecting fraud and academic dishonesty, as well as combating the spread of misinformation and political propaganda. The task of AI-generated text (AIGT) detection is therefore both very challenging, and highly critical. In this survey, we summarize state-of-the art approaches to AIGT detection, including watermarking, statistical and stylistic analysis, and machine learning classification. We also provide information about existing datasets for this task. Synthesizing the research findings, we aim to provide insight into the salient factors that combine to determine how ‘detectable’ AIGT text is under different scenarios, and to make practical recommendations for future work towards this significant technical and societal challenge.
arxiv情報
著者 | Kathleen C. Fraser,Hillary Dawkins,Svetlana Kiritchenko |
発行日 | 2025-04-14 17:42:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google