On the Possibilities of AI-Generated Text Detection

要約

タイトル:AI生成テキストの検出の可能性について

要約:
– 本研究は、大規模言語モデル(LLMs)によって生成されたテキストと人間によって生成されたテキストを識別することの重要性を取り上げる。
– しかし、この違いを識別することが可能かどうかは、研究コミュニティで議論されてきた問題である。
– 本論文では、人工知能によって生成されたテキストを検出することがほとんど常に可能であることを示す証拠を提供する。
– この観察は、情報理論の標準的な結果に従うものであり、機械生成されたテキストが人間のテキストに似ていくほど、検出するためにはより多くのサンプルが必要であることに依存する。
– 機械生成されたテキストの検出のために必要なサンプル複雑度の正確な界を導出し、検出に複数のサンプルを必要とするより複雑な検出器の設計につながる追加の課題がある。
– 実験結果は、AI生成テキストの検出は大半のシナリオで達成可能であることを示し、この分野での継続的な研究の重要性を強調する。

要約(オリジナル)

Our work focuses on the challenge of detecting outputs generated by Large Language Models (LLMs) from those generated by humans. The ability to distinguish between the two is of utmost importance in numerous applications. However, the possibility and impossibility of such discernment have been subjects of debate within the community. Therefore, a central question is whether we can detect AI-generated text and, if so, when. In this work, we provide evidence that it should almost always be possible to detect the AI-generated text unless the distributions of human and machine generated texts are exactly the same over the entire support. This observation follows from the standard results in information theory and relies on the fact that if the machine text is becoming more like a human, we need more samples to detect it. We derive a precise sample complexity bound of AI-generated text detection, which tells how many samples are needed to detect. This gives rise to additional challenges of designing more complicated detectors that take in n samples to detect than just one, which is the scope of future research on this topic. Our empirical evaluations support our claim about the existence of better detectors demonstrating that AI-Generated text detection should be achievable in the majority of scenarios. Our results emphasize the importance of continued research in this area

arxiv情報

著者 Souradip Chakraborty,Amrit Singh Bedi,Sicheng Zhu,Bang An,Dinesh Manocha,Furong Huang
発行日 2023-04-10 17:47:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク