要約
生成事前トレーニング済みトランスフォーマー大規模言語モデルの最近の進歩により、学術環境における人工知能 (AI) によって生成されたコンテンツの不当な使用の潜在的なリスクが強調され、そのようなコンテンツを検出するソリューションを探す取り組みが強化されています。
この論文では、人工知能が生成したテキストの検出ツールの一般的な機能を検証し、精度とエラー タイプの分析に基づいて評価します。
具体的には、この研究は、既存の検出ツールが人間が書いたテキストとChatGPTで生成されたテキストを確実に区別できるかどうか、また機械翻訳やコンテンツ難読化技術がAIで生成されたテキストの検出に影響を与えるかどうかといった研究上の疑問に答えることを目指している。
この研究では、学術現場で広く使用されている 12 の公的に入手可能なツールと 2 つの商用システム (Turnitin と PlagiarismCheck) を対象としています。
研究者らは、利用可能な検出ツールは正確でも信頼性もなく、AI が生成したテキストの検出ではなく、出力を人間が書いたものとして分類することに主な偏りがあると結論付けています。
さらに、コンテンツ難読化技術はツールのパフォーマンスを大幅に低下させます。
この研究はいくつかの重要な貢献をしています。
まず、この分野における最新の同様の科学的および非科学的な取り組みをまとめています。
第 2 に、厳密な調査手法、オリジナルのドキュメント セット、および広範なツールに基づいて、これまでに実施された最も包括的なテストの 1 つの結果が示されています。
3 番目に、学術現場で AI が生成したテキストの検出ツールを使用する場合の影響と欠点について説明します。
要約(オリジナル)
Recent advances in generative pre-trained transformer large language models have emphasised the potential risks of unfair use of artificial intelligence (AI) generated content in an academic environment and intensified efforts in searching for solutions to detect such content. The paper examines the general functionality of detection tools for artificial intelligence generated text and evaluates them based on accuracy and error type analysis. Specifically, the study seeks to answer research questions about whether existing detection tools can reliably differentiate between human-written text and ChatGPT-generated text, and whether machine translation and content obfuscation techniques affect the detection of AI-generated text. The research covers 12 publicly available tools and two commercial systems (Turnitin and PlagiarismCheck) that are widely used in the academic setting. The researchers conclude that the available detection tools are neither accurate nor reliable and have a main bias towards classifying the output as human-written rather than detecting AI-generated text. Furthermore, content obfuscation techniques significantly worsen the performance of tools. The study makes several significant contributions. First, it summarises up-to-date similar scientific and non-scientific efforts in the field. Second, it presents the result of one of the most comprehensive tests conducted so far, based on a rigorous research methodology, an original document set, and a broad coverage of tools. Third, it discusses the implications and drawbacks of using detection tools for AI-generated text in academic settings.
arxiv情報
著者 | Debora Weber-Wulff,Alla Anohina-Naumeca,Sonja Bjelobaba,Tomáš Foltýnek,Jean Guerrero-Dib,Olumide Popoola,Petr Šigut,Lorna Waddington |
発行日 | 2023-07-10 16:14:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google