Efficient Detection of LLM-generated Texts with a Bayesian Surrogate Model

要約

機械生成テキスト、特に大規模言語モデル (LLM) からのテキストの検出は、その誤用による深刻な社会問題を防ぐために非常に重要です。
一部の方法では、特定のデータセットで専用の検出器をトレーニングしますが、目に見えないテスト データへの一般化には不十分であり、他のゼロショット方法では、次善のパフォーマンスが得られることがよくあります。
最近の DetectGPT は有望な検出パフォーマンスを示していますが、単一の候補を検出するには数百の摂動を含むソース LLM をクエリする必要があるため、重大な非効率の問題に悩まされています。
この文書は、このギャップを埋めることを目的としています。
具体的には、ベイジアンサロゲートモデルを組み込むことを提案します。これにより、ベイジアン不確実性に基づいて典型的なサンプルを選択し、典型的なサンプルから他のサンプルにスコアを補間して、クエリ効率を向上させることができます。
経験的な結果は、私たちの方法が低いクエリ予算の下で既存のアプローチよりも大幅に優れていることを示しています。
特に、LLaMA ファミリ モデルによって生成されたテキストを検出する場合、わずか 2 ~ 3 個のクエリを使用する私たちの方法は、200 個のクエリを使用する DetectGPT よりも優れたパフォーマンスを発揮できます。

要約(オリジナル)

The detection of machine-generated text, especially from large language models (LLMs), is crucial in preventing serious social problems resulting from their misuse. Some methods train dedicated detectors on specific datasets but fall short in generalizing to unseen test data, while other zero-shot ones often yield suboptimal performance. Although the recent DetectGPT has shown promising detection performance, it suffers from significant inefficiency issues, as detecting a single candidate requires querying the source LLM with hundreds of its perturbations. This paper aims to bridge this gap. Concretely, we propose to incorporate a Bayesian surrogate model, which allows us to select typical samples based on Bayesian uncertainty and interpolate scores from typical samples to other samples, to improve query efficiency. Empirical results demonstrate that our method significantly outperforms existing approaches under a low query budget. Notably, when detecting the text generated by LLaMA family models, our method with just 2 or 3 queries can outperform DetectGPT with 200 queries.

arxiv情報

著者 Yibo Miao,Hongcheng Gao,Hao Zhang,Zhijie Deng
発行日 2024-05-28 16:10:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク