ToBlend: Token-Level Blending With an Ensemble of LLMs to Attack AI-Generated Text Detection

要約

言い換えや単語の切り替えなどの高度な敵対的戦略に対する AI コンテンツ検出モデルの堅牢性は、自然言語生成 (NLG) アプリケーションにおける懸念が高まっています。
この研究では、複数セットの候補生成大規模言語モデル (LLM) を利用することで、現在の AI コンテンツ検出アプローチの堅牢性に挑戦する、新しいトークンレベルのアンサンブル テキスト生成方法である ToBlend を提案します。
候補 LLM セットからランダムにトークンをサンプリングすることにより、ToBlend がほとんどの主流の AI コンテンツ検出方法のパフォーマンスを大幅に低下させることがわかりました。
経験豊富な人間の専門家からの注釈に基づいて、さまざまな ToBlend 設定で生成されたテキストの品質を評価します。
私たちは、ToBlend で生成されたテキストをより正確に区別するために、微調整された Llama3.1 モデルを提案しました。
私たちの発見は、私たちが提案するテキスト生成アプローチが、検出モデルを欺き、改善する上で大きな可能性があることを強調しています。
私たちのデータセット、コード、アノテーションはオープンソースです。

要約(オリジナル)

The robustness of AI-content detection models against sophisticated adversarial strategies, such as paraphrasing or word switching, is a rising concern in natural language generation (NLG) applications. This study proposes ToBlend, a novel token-level ensemble text generation method to challenge the robustness of current AI-content detection approaches by utilizing multiple sets of candidate generative large language models (LLMs). By randomly sampling token(s) from candidate LLMs sets, we find ToBlend significantly drops the performance of most mainstream AI-content detection methods. We evaluate the text quality produced under different ToBlend settings based on annotations from experienced human experts. We proposed a fine-tuned Llama3.1 model to distinguish the ToBlend generated text more accurately. Our findings underscore our proposed text generation approach’s great potential in deceiving and improving detection models. Our datasets, codes, and annotations are open-sourced.

arxiv情報

著者 Fan Huang,Haewoon Kwak,Jisun An
発行日 2024-10-16 15:40:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク