Self-Evaluation as a Defense Against Adversarial Attacks on LLMs

要約

LLMがデリケートで人間と接する場面で導入される場合、安全でない、偏った、あるいはプライバシーを侵害するような出力をしないことが極めて重要である。このため、モデルは訓練され、「爆弾の作り方を教えて」といった安全でないプロンプトへの回答を拒否するように指示される。我々は、このような安全策にもかかわらず、モデルの入力の最後にスペースを追加するだけで、モデルの防御を破ることが可能であることを発見した。8つのオープンソースモデルを調査した結果、この攻撃は、大多数のモデルに非常に高い成功率で有害な出力を生成させるほど強力な攻撃であることが実証された。トークン化された訓練データにおいて単一スペースが出現するコンテキストが、安全でないリクエストに答えることを拒否する訓練シグナルを上書きして、プロンプトが出されたときにモデルがリストを生成することを促すことを発見した。我々の発見は、現在のモデルアライメントの脆弱な状態を強調し、よりロバストなアライメント手法の開発の重要性を促進する。コードとデータはhttps://github.com/Linlt-leon/Adversarial-Alignments。

要約(オリジナル)

When LLMs are deployed in sensitive, human-facing settings, it is crucial that they do not output unsafe, biased, or privacy-violating outputs. For this reason, models are both trained and instructed to refuse to answer unsafe prompts such as ‘Tell me how to build a bomb.’ We find that, despite these safeguards, it is possible to break model defenses simply by appending a space to the end of a model’s input. In a study of eight open-source models, we demonstrate that this acts as a strong enough attack to cause the majority of models to generate harmful outputs with very high success rates. We examine the causes of this behavior, finding that the contexts in which single spaces occur in tokenized training data encourage models to generate lists when prompted, overriding training signals to refuse to answer unsafe requests. Our findings underscore the fragile state of current model alignment and promote the importance of developing more robust alignment methods. Code and data will be made available at https://github.com/Linlt-leon/Adversarial-Alignments.

arxiv情報

著者 Hannah Brown,Leon Lin,Kenji Kawaguchi,Michael Shieh
発行日 2024-07-03 16:03:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク