要約
悪意のあるユースケース (偽のコンテンツの作成や学術的な盗作など) に対する大規模な言語モデルの展開を検出するために、透かしや統計上の不正を介して AI によって生成されたテキストを識別するためのいくつかのアプローチが最近提案されています。
これらの検出アルゴリズムは、AI によって生成されたテキストの言い換えに対してどの程度堅牢ですか?
これらの検出器のストレス テストを行うために、最初にパラフレーズを言い換えることができる 11B パラメータの言い換え生成モデル (DIPPER) をトレーニングし、必要に応じて周囲のテキスト (ユーザー作成のプロンプトなど) をコンテキストとして活用します。
DIPPER はまた、スカラー ノブを使用して、語彙の多様性と言い換えの並べ替えの量を制御します。
3 つの大きな言語モデル (GPT3.5-davinci-003 を含む) によって生成されたテキストの言い換えは、DIPPER を使用して、透かし、GPTZero、DetectGPT、OpenAI のテキスト分類子など、いくつかの検出器をうまく回避します。
たとえば、DIPPER は、入力セマンティクスを大幅に変更することなく、DetectGPT の検出精度を 70.3% から 4.6% (一定の誤検出率 1%) に落とします。
言い換え攻撃に対する AI 生成テキスト検出の堅牢性を高めるために、意味的に類似した世代の取得に依存し、言語モデル API プロバイダーによって維持される必要がある単純な防御を導入します。
候補テキストが与えられると、アルゴリズムは API によって以前に生成されたシーケンスのデータベースを検索し、特定のしきい値内で候補テキストに一致するシーケンスを探します。
微調整された T5-XXL モデルからの 1,500 万世代のデータベースを使用して防御を経験的に検証し、さまざまな設定で言い換えられた世代の 80% から 97% を検出できることを発見しましたが、人間が書いたシーケンスの 1% のみを AI として分類します。
-生成されます。
今後の研究のために、コード、モデル、データをオープンソース化します。
要約(オリジナル)
To detect the deployment of large language models for malicious use cases (e.g., fake content creation or academic plagiarism), several approaches have recently been proposed for identifying AI-generated text via watermarks or statistical irregularities. How robust are these detection algorithms to paraphrases of AI-generated text? To stress test these detectors, we first train an 11B parameter paraphrase generation model (DIPPER) that can paraphrase paragraphs, optionally leveraging surrounding text (e.g., user-written prompts) as context. DIPPER also uses scalar knobs to control the amount of lexical diversity and reordering in the paraphrases. Paraphrasing text generated by three large language models (including GPT3.5-davinci-003) with DIPPER successfully evades several detectors, including watermarking, GPTZero, DetectGPT, and OpenAI’s text classifier. For example, DIPPER drops the detection accuracy of DetectGPT from 70.3% to 4.6% (at a constant false positive rate of 1%), without appreciably modifying the input semantics. To increase the robustness of AI-generated text detection to paraphrase attacks, we introduce a simple defense that relies on retrieving semantically-similar generations and must be maintained by a language model API provider. Given a candidate text, our algorithm searches a database of sequences previously generated by the API, looking for sequences that match the candidate text within a certain threshold. We empirically verify our defense using a database of 15M generations from a fine-tuned T5-XXL model and find that it can detect 80% to 97% of paraphrased generations across different settings, while only classifying 1% of human-written sequences as AI-generated. We will open source our code, model and data for future research.
arxiv情報
著者 | Kalpesh Krishna,Yixiao Song,Marzena Karpinska,John Wieting,Mohit Iyyer |
発行日 | 2023-03-23 16:29:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google