要約
大規模言語モデル (LLM) を人間の価値観に合わせる努力にもかかわらず、GPT、Llama、Claude、PaLM などの広く使用されている LLM は、敵がターゲットの LLM を騙して不快なコンテンツを生成する脱獄攻撃の影響を受けやすくなっています。
この脆弱性に対処するために、LLM に対するジェイルブレイク攻撃を軽減するために設計された最初のアルゴリズムである SmoothLLM を提案します。
敵対者によって生成されたプロンプトはキャラクターレベルの変更に対して脆弱であるという発見に基づいて、私たちの防御はまず特定の入力プロンプトの複数のコピーをランダムに撹乱し、次に対応する予測を集約して敵対的な入力を検出します。
SmoothLLM は、多数の人気のある LLM に対する攻撃の成功率を 1 パーセント ポイント未満に低下させ、不必要な保守主義を回避し、攻撃の軽減に関する証明可能な保証を認めます。
さらに、当社の防御は既存の攻撃に比べて使用するクエリが大幅に少なく、あらゆる LLM と互換性があります。
要約(オリジナル)
Despite efforts to align large language models (LLMs) with human values, widely-used LLMs such as GPT, Llama, Claude, and PaLM are susceptible to jailbreaking attacks, wherein an adversary fools a targeted LLM into generating objectionable content. To address this vulnerability, we propose SmoothLLM, the first algorithm designed to mitigate jailbreaking attacks on LLMs. Based on our finding that adversarially-generated prompts are brittle to character-level changes, our defense first randomly perturbs multiple copies of a given input prompt, and then aggregates the corresponding predictions to detect adversarial inputs. SmoothLLM reduces the attack success rate on numerous popular LLMs to below one percentage point, avoids unnecessary conservatism, and admits provable guarantees on attack mitigation. Moreover, our defense uses exponentially fewer queries than existing attacks and is compatible with any LLM.
arxiv情報
著者 | Alexander Robey,Eric Wong,Hamed Hassani,George J. Pappas |
発行日 | 2023-10-05 17:01:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google