RADAR: Robust AI-Text Detection via Adversarial Learning

要約

大規模言語モデル (LLM) の最近の進歩と、ChatGPT のようなアプリケーションの人気の高まりにより、人間とマシンの間で高品質のテキストを生成する境界があいまいになりました。
しかし、私たちのテクノロジーと社会に予想される革命的な変化に加えて、LLM で生成されたテキスト (AI テキスト) と人間が生成したテキストを区別することが難しいため、偽のコンテンツの生成、盗用、
無実の作家に対する冤罪。
既存の研究では、現在の AI テキスト検出器が LLM ベースの言い換えに対して堅牢ではないことが示されていますが、この論文は、敵対的学習を通じて堅牢な AI テキスト検出器を共同でトレーニングする RADAR と呼ばれる新しいフレームワークを提案することで、このギャップを埋めることを目的としています。
RADAR は、言い換え者と検出者の敵対的トレーニングに基づいています。
パラフレーサーの目標は、AI テキスト検出を回避するために現実的なコンテンツを生成することです。
RADAR は検出器からのフィードバックを使用してパラフレーザを更新し、その逆も同様です。
4 つのデータセットにわたって 8 つの異なる LLM (Pythia、Dolly 2.0、Palmyra、Camel、GPT-J、Dolly 1.0、LLaMA、および Vicuna) で評価した実験結果では、特に言い換えが含まれる場合、RADAR が既存の AI テキスト検出方法よりも大幅に優れていることが示されました。
場所。
また、命令調整された LLM から他の LLM への RADAR の強力な移行可能性を特定し、GPT-3.5-Turbo を介して向上した RADAR の機能を評価します。

要約(オリジナル)

Recent advances in large language models (LLMs) and the intensifying popularity of ChatGPT-like applications have blurred the boundary of high-quality text generation between humans and machines. However, in addition to the anticipated revolutionary changes to our technology and society, the difficulty of distinguishing LLM-generated texts (AI-text) from human-generated texts poses new challenges of misuse and fairness, such as fake content generation, plagiarism, and false accusations of innocent writers. While existing works show that current AI-text detectors are not robust to LLM-based paraphrasing, this paper aims to bridge this gap by proposing a new framework called RADAR, which jointly trains a robust AI-text detector via adversarial learning. RADAR is based on adversarial training of a paraphraser and a detector. The paraphraser’s goal is to generate realistic content to evade AI-text detection. RADAR uses the feedback from the detector to update the paraphraser, and vice versa. Evaluated with 8 different LLMs (Pythia, Dolly 2.0, Palmyra, Camel, GPT-J, Dolly 1.0, LLaMA, and Vicuna) across 4 datasets, experimental results show that RADAR significantly outperforms existing AI-text detection methods, especially when paraphrasing is in place. We also identify the strong transferability of RADAR from instruction-tuned LLMs to other LLMs, and evaluate the improved capability of RADAR via GPT-3.5-Turbo.

arxiv情報

著者 Xiaomeng Hu,Pin-Yu Chen,Tsung-Yi Ho
発行日 2023-10-24 16:31:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク