Ten Words Only Still Help: Improving Black-Box AI-Generated Text Detection via Proxy-Guided Efficient Re-Sampling

要約

大規模言語モデル (LLM) の適用が急速に増加するにつれ、その悪用はフェイク ニュース、学術的不正、情報汚染などの多くの望ましくない社会問題を引き起こしています。
このため、AI 生成テキスト (AIGT) の検出が非常に重要になります。
既存の手法の中で、ホワイトボックス手法は一般にパフォーマンスと汎用性の点でブラックボックス手法より優れていますが、LLM の内部状態へのアクセスが必要であり、ブラックボックス設定には適用できません。
この論文では、ブラックボックス設定下で AIGT 検出を向上させるために、複数の再サンプリングを介して擬似ホワイトボックス特徴として単語生成確率を推定することを提案します。
具体的には、ブラックボックス AIGT 検出で複数のリサンプリングを実行するために、代表的な単語の小さなサブセット (たとえば、10 単語) を選択する、プロキシガイドによる効率的なリサンプリング方法である POGER を設計します。
人間と 7 つの LLM からのテキストを含むデータセットの実験では、POGER がブラック ボックス、部分的なホワイト ボックス、および配布外の設定の下でマクロ F1 のすべてのベースラインを上回り、既存の対応物よりも低い再サンプリング コストを維持することが示されました。

要約(オリジナル)

With the rapidly increasing application of large language models (LLMs), their abuse has caused many undesirable societal problems such as fake news, academic dishonesty, and information pollution. This makes AI-generated text (AIGT) detection of great importance. Among existing methods, white-box methods are generally superior to black-box methods in terms of performance and generalizability, but they require access to LLMs’ internal states and are not applicable to black-box settings. In this paper, we propose to estimate word generation probabilities as pseudo white-box features via multiple re-sampling to help improve AIGT detection under the black-box setting. Specifically, we design POGER, a proxy-guided efficient re-sampling method, which selects a small subset of representative words (e.g., 10 words) for performing multiple re-sampling in black-box AIGT detection. Experiments on datasets containing texts from humans and seven LLMs show that POGER outperforms all baselines in macro F1 under black-box, partial white-box, and out-of-distribution settings and maintains lower re-sampling costs than its existing counterparts.

arxiv情報

著者 Yuhui Shi,Qiang Sheng,Juan Cao,Hao Mi,Beizhe Hu,Danding Wang
発行日 2024-02-14 14:32:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク