要約
大規模言語モデル (LLM) は、人間レベルの流暢なテキスト生成を実現しているため、人間が書いたテキストと LLM が生成したテキストを区別することが困難になっています。
これにより、LLM の悪用のリスクが増大しており、LLM で生成されたテキストを識別する検出器の開発が必要になります。
ただし、既存の検出器は、LLM で生成されたテキストを単に言い換えることによって検出精度を低下させます。
さらに、学生が宿題 (エッセイなど) を書くために LLM を使用し、これらの検出器を回避する方法をすぐに学ぶ場合など、現実の状況におけるこれらの検出器の有効性は調査されていません。
この論文では、検出器と攻撃者の両方が互いの出力を考慮し、これを学生の作文の領域に適用できるようにすることで、LLM 生成テキスト検出器の堅牢性を向上させる新しいフレームワークである OUTFOX を提案します。
私たちのフレームワークでは、攻撃者は検出器の予測ラベルをコンテキスト内学習の例として使用し、検出が困難なエッセイを敵対的に生成します。
一方、検出器は、強力な攻撃者からのエッセイを検出する方法を学習するためのコンテキスト学習の例として、敵対的に生成されたエッセイを使用します。
私たちの実験では、攻撃者からコンテキスト内で学習した提案された検出器が、攻撃されたデータセットの検出パフォーマンスを最大 +41.3 ポイント F1 スコア向上させることが示されました。
一方、私たちが提案する攻撃者は、言い換え手法と比較して、検出器のパフォーマンスを最大 -57.0 ポイントの F1 スコアで大幅に低下させる可能性があります。
要約(オリジナル)
Large Language Models (LLMs) have achieved human-level fluency in text generation, making it difficult to distinguish between human-written and LLM-generated texts. This poses a growing risk of misuse of LLMs and demands the development of detectors to identify LLM-generated texts. However, existing detectors degrade detection accuracy by simply paraphrasing LLM-generated texts. Furthermore, the effectiveness of these detectors in real-life situations, such as when students use LLMs for writing homework assignments (e.g., essays) and quickly learn how to evade these detectors, has not been explored. In this paper, we propose OUTFOX, a novel framework that improves the robustness of LLM-generated-text detectors by allowing both the detector and the attacker to consider each other’s output and apply this to the domain of student essays. In our framework, the attacker uses the detector’s prediction labels as examples for in-context learning and adversarially generates essays that are harder to detect. While the detector uses the adversarially generated essays as examples for in-context learning to learn to detect essays from a strong attacker. Our experiments show that our proposed detector learned in-context from the attacker improves the detection performance on the attacked dataset by up to +41.3 point F1-score. While our proposed attacker can drastically degrade the performance of the detector by up to -57.0 point F1-score compared to the paraphrasing method.
arxiv情報
著者 | Ryuto Koike,Masahiro Kaneko,Naoaki Okazaki |
発行日 | 2023-07-21 17:40:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google