DNA-GPT: Divergent N-Gram Analysis for Training-Free Detection of GPT-Generated Text

要約

大規模言語モデル (LLM) は、機械生成テキストの流暢さと多様性を著しく強化しました。
ただし、この進歩は、特定のテキストの出所を検出する際に大きな課題ももたらしており、検出方法に関する現在の研究は、LLM の急速な進化に遅れをとっています。
従来のトレーニングベースの方法では、特に新しい領域に適応する場合、柔軟性に限界があり、説明力に欠けることがよくあります。
このギャップに対処するために、我々は、発散 N グラム分析 (DNA-GPT) と呼ばれる、トレーニング不要の新しい検出戦略を提案します。
与えられたテキストを最初に途中で切り詰め、次にその前の部分のみを LLM への入力として使用して、新しい残りの部分を再生成します。
ブラックボックスでのNグラム分析またはホワイトボックスでの確率発散を通じて元の部分と新しく残った部分の間の差異を分析することにより、機械が生成したテキストの分布と人間が書いたテキストの分布との間の重大な不一致を明らかにします。
私たちは、text-davinci-003、GPT-3.5-turbo、GPT-4 などの OpenAI の最先端 LLM や、GPT-NeoX-20B や LLaMa-13B などのオープンソース モデルについて広範な実験を実施しました。
結果は、私たちのゼロショットアプローチが、英語 4 つとドイツ語 1 つのデータセット上で人間が生成したテキストと GPT が生成したテキストを区別する際に最先端のパフォーマンスを発揮し、数百万のテキストでトレーニングされた OpenAI 独自の分類器を上回るパフォーマンスを示していることを示しています。
さらに、私たちの方法は、私たちの主張を裏付ける合理的な説明と証拠を提供します。これは、説明可能な検出のユニークな特徴です。
私たちの方法は、改訂されたテキスト攻撃に対しても堅牢であり、さらにモデル ソーシングも解決できます。
コードは https://github.com/Xianjun-Yang/DNA-GPT で入手できます。

要約(オリジナル)

Large language models (LLMs) have notably enhanced the fluency and diversity of machine-generated text. However, this progress also presents a significant challenge in detecting the origin of a given text, and current research on detection methods lags behind the rapid evolution of LLMs. Conventional training-based methods have limitations in flexibility, particularly when adapting to new domains, and they often lack explanatory power. To address this gap, we propose a novel training-free detection strategy called Divergent N-Gram Analysis (DNA-GPT). Given a text, we first truncate it in the middle and then use only the preceding portion as input to the LLMs to regenerate the new remaining parts. By analyzing the differences between the original and new remaining parts through N-gram analysis in black-box or probability divergence in white-box, we unveil significant discrepancies between the distribution of machine-generated text and the distribution of human-written text. We conducted extensive experiments on the most advanced LLMs from OpenAI, including text-davinci-003, GPT-3.5-turbo, and GPT-4, as well as open-source models such as GPT-NeoX-20B and LLaMa-13B. Results show that our zero-shot approach exhibits state-of-the-art performance in distinguishing between human and GPT-generated text on four English and one German dataset, outperforming OpenAI’s own classifier, which is trained on millions of text. Additionally, our methods provide reasonable explanations and evidence to support our claim, which is a unique feature of explainable detection. Our method is also robust under the revised text attack and can additionally solve model sourcing. Codes are available at https://github.com/Xianjun-Yang/DNA-GPT.

arxiv情報

著者 Xianjun Yang,Wei Cheng,Yue Wu,Linda Petzold,William Yang Wang,Haifeng Chen
発行日 2023-10-04 16:36:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク