要約
大規模言語モデル(LLM)は、様々なタスクにおいて卓越した流暢性を示してきた。しかし、偽情報の流布など、非倫理的な用途への応用が懸念されている。近年の研究により、多くのLLM検出手法が提案されているが、その頑健性と信頼性は依然として不明である。本稿では、既存のLLM検出器に対する文法エラーのないブラックボックス攻撃であるRAFTを紹介する。これまでの言語モデルに対する攻撃とは対照的に、本手法は、元のテキストの品質を保ちつつ、単語レベルでのLLM埋め込み値の移植性を利用する。我々は補助的な埋め込みを利用して、ターゲット検出器に対して貪欲に摂動する候補単語を選択する。実験により、我々の攻撃は、様々なドメインの全ての検出器を最大99%まで効果的に妨害し、ソースモデル間で移植可能であることが明らかになった。人手による評価では、我々の攻撃は現実的であり、人間が書いた元のテキストと区別できないことが示されました。また、RAFTによって生成された例を使用して、敵対的にロバストな検出器を訓練できることも示しています。我々の研究は、現在のLLM検出器が敵対的にロバストではないことを示しており、よりレジリエントな検出メカニズムが緊急に必要であることを強調している。
要約(オリジナル)
Large language models (LLMs) have exhibited remarkable fluency across various tasks. However, their unethical applications, such as disseminating disinformation, have become a growing concern. Although recent works have proposed a number of LLM detection methods, their robustness and reliability remain unclear. In this paper, we present RAFT: a grammar error-free black-box attack against existing LLM detectors. In contrast to previous attacks for language models, our method exploits the transferability of LLM embeddings at the word-level while preserving the original text quality. We leverage an auxiliary embedding to greedily select candidate words to perturb against the target detector. Experiments reveal that our attack effectively compromises all detectors in the study across various domains by up to 99%, and are transferable across source models. Manual human evaluation studies show our attacks are realistic and indistinguishable from original human-written text. We also show that examples generated by RAFT can be used to train adversarially robust detectors. Our work shows that current LLM detectors are not adversarially robust, underscoring the urgent need for more resilient detection mechanisms.
arxiv情報
著者 | James Wang,Ran Li,Junfeng Yang,Chengzhi Mao |
発行日 | 2024-10-04 17:59:00+00:00 |
arxivサイト | arxiv_id(pdf) |