要約
AI の調整が進歩したにもかかわらず、言語モデル (LM) は依然として敵対的攻撃や脱獄に対して脆弱であり、敵対者が入力プロンプトを変更して有害な動作を誘発します。
いくつかの防御策が提案されていますが、それらは狭い脅威モデルに焦点を当てており、効果的、普遍的、実用的であるべきであると私たちが主張する強力な防御には達していません。
これを達成するために、脱獄攻撃から LM を防御するための最初の敵対的目標と、勾配ベースのトークン最適化を使用して無害な出力を強制するアルゴリズムである堅牢なプロンプト最適化 (RPO) を提案します。
これにより、簡単にアクセスできるサフィックスが得られ、最適化中に見られたジェイルブレイクと未知の保留されたジェイルブレイクの両方に対する堅牢性が大幅に向上し、20 回のジェイルブレイク全体で Starling-7B に対する攻撃成功率が 84% から 8.66% に減少しました。
さらに、RPO は通常の LM の使用にわずかな影響を与え、適応型攻撃では成功し、ブラックボックス モデルに移行する可能性があり、GPT-4 に対する最強の攻撃の成功率が 92% から 6% に低下することがわかりました。
要約(オリジナル)
Despite advances in AI alignment, language models (LM) remain vulnerable to adversarial attacks or jailbreaking, in which adversaries modify input prompts to induce harmful behavior. While some defenses have been proposed, they focus on narrow threat models and fall short of a strong defense, which we posit should be effective, universal, and practical. To achieve this, we propose the first adversarial objective for defending LMs against jailbreaking attacks and an algorithm, robust prompt optimization (RPO), that uses gradient-based token optimization to enforce harmless outputs. This results in an easily accessible suffix that significantly improves robustness to both jailbreaks seen during optimization and unknown, held-out jailbreaks, reducing the attack success rate on Starling-7B from 84% to 8.66% across 20 jailbreaks. In addition, we find that RPO has a minor effect on normal LM use, is successful under adaptive attacks, and can transfer to black-box models, reducing the success rate of the strongest attack on GPT-4 from 92% to 6%.
arxiv情報
著者 | Andy Zhou,Bo Li,Haohan Wang |
発行日 | 2024-01-30 18:56:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google