Efficient Black-Box Adversarial Attacks on Neural Text Detectors

要約

ニューラルテキスト検出器は、与えられたテキストが言語モデルによって生成されたのか、それとも人間によって書かれたのかを検出するために学習されたモデルである。本論文では、GPT-3.5によって生成されたテキストを、人間にとっては怪しくないか気づかないが、ニューラルテキスト検出器にとっては誤分類を引き起こすような改変を行うための、3つのシンプルでリソース効率の良い戦略(パラメータ調整、プロンプトエンジニアリング、文字レベルの変異)を調査する。その結果、特にパラメータ調整と文字レベルの変異が効果的な戦略であることが示された。

要約(オリジナル)

Neural text detectors are models trained to detect whether a given text was generated by a language model or written by a human. In this paper, we investigate three simple and resource-efficient strategies (parameter tweaking, prompt engineering, and character-level mutations) to alter texts generated by GPT-3.5 that are unsuspicious or unnoticeable for humans but cause misclassification by neural text detectors. The results show that especially parameter tweaking and character-level mutations are effective strategies.

arxiv情報

著者 Vitalii Fishchuk,Daniel Braun
発行日 2023-11-03 12:29:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク