The Impact of Prompts on Zero-Shot Detection of AI-Generated Text

要約

近年、大規模言語モデル (LLM) の開発が大幅に進歩しました。
その実用的な用途は現在広く普及していますが、フェイクニュースの生成や盗作などの悪用の可能性が大きな懸念を引き起こしています。
この問題に対処するために、特定のテキストが人間によって生成されたものであるか、AI によって生成されたものかを評価する検出器が開発されました。
とりわけ、ゼロショット検出器は、追加のトレーニング データを必要とせず、多くの場合尤度ベースの効果的なアプローチとして際立っています。
チャットベースのアプリケーションでは、ユーザーは通常、プロンプトを入力し、AI が生成したテキストを利用します。
ただし、ゼロショット検出器は通常、これらのテキストを個別に分析し、元のプロンプトの影響を無視します。
このアプローチでは、テキスト生成フェーズと検出フェーズの間で尤度評価に不一致が生じる可能性があると考えられます。
これまでのところ、プロンプトの有無がゼロショット検出器の検出精度にどのような影響を与えるかについては未検証のギャップが残っています。
この論文では、AI が生成したテキストの検出精度に対するプロンプトの影響を実証的に分析するための評価フレームワークを紹介します。
プロンプトを活用するホワイトボックス検出と、プロンプト情報なしで動作するブラックボックス検出の両方を使用して、さまざまなゼロショット検出器を評価します。
私たちの実験では、プロンプトが検出精度に大きく影響することが明らかになりました。
注目すべきことに、プロンプトを使用しないブラックボックス検出と比較して、プロンプトを使用するホワイトボックス手法では、テストしたすべてのゼロショット検出器で AUC が少なくとも 0.1 ドル増加することが実証されています。
コードは \url{https://github.com/kaito25atagich/Detector} から入手できます。

要約(オリジナル)

In recent years, there have been significant advancements in the development of Large Language Models (LLMs). While their practical applications are now widespread, their potential for misuse, such as generating fake news and committing plagiarism, has posed significant concerns. To address this issue, detectors have been developed to evaluate whether a given text is human-generated or AI-generated. Among others, zero-shot detectors stand out as effective approaches that do not require additional training data and are often likelihood-based. In chat-based applications, users commonly input prompts and utilize the AI-generated texts. However, zero-shot detectors typically analyze these texts in isolation, neglecting the impact of the original prompts. It is conceivable that this approach may lead to a discrepancy in likelihood assessments between the text generation phase and the detection phase. So far, there remains an unverified gap concerning how the presence or absence of prompts impacts detection accuracy for zero-shot detectors. In this paper, we introduce an evaluative framework to empirically analyze the impact of prompts on the detection accuracy of AI-generated text. We assess various zero-shot detectors using both white-box detection, which leverages the prompt, and black-box detection, which operates without prompt information. Our experiments reveal the significant influence of prompts on detection accuracy. Remarkably, compared with black-box detection without prompts, the white-box methods using prompts demonstrate an increase in AUC of at least $0.1$ across all zero-shot detectors tested. Code is available: \url{https://github.com/kaito25atugich/Detector}.

arxiv情報

著者 Kaito Taguchi,Yujie Gu,Kouichi Sakurai
発行日 2024-03-29 11:33:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク