要約
大規模言語モデル (LLM) を人間の価値観に合わせるのは、特に複雑でステルスなジェイルブレイク攻撃に直面した場合、大きな課題となります。
この研究では、シンプルだが非常に効果的な防御戦略、つまり意図分析 ($\mathbb{IA}$) を紹介します。
この背後にある原則は、LLM 本来の自己修正を引き起こし、1) 本質的な意図の分析、2) ポリシーに沿った対応という 2 段階のプロセスを通じて能力を向上させることです。
特に、$\mathbb{IA}$ は推論のみのメソッドであるため、LLM の有用性を損なうことなく LLM の安全性を高めることができます。
ChatGLM、LLaMA2、Vicuna、MPT、DeepSeek、GPT-3.5 にわたるさまざまなジェイルブレイク ベンチマークに関する広範な実験により、$\mathbb{IA}$ が応答の有害性を一貫して大幅に軽減し (攻撃成功率は平均 -53.1%)、維持できることが示されました。
一般的な有用性。
心強いことに、$\mathbb{IA}$ の助けにより、Vicuna-7B は攻撃成功率の点で GPT-3.5 よりも優れています。
さらなる分析により、私たちの方法がどのように機能するかについていくつかの洞察が得られます。
再現性を高めるために、コードとスクリプトを https://github.com/alphadl/SafeLLM_with_IntentionAnaracy でリリースします。
要約(オリジナル)
Aligning large language models (LLMs) with human values, particularly in the face of complex and stealthy jailbreak attacks, presents a formidable challenge. In this study, we present a simple yet highly effective defense strategy, i.e., Intention Analysis ($\mathbb{IA}$). The principle behind this is to trigger LLMs’ inherent self-correct and improve ability through a two-stage process: 1) essential intention analysis, and 2) policy-aligned response. Notably, $\mathbb{IA}$ is an inference-only method, thus could enhance the safety of LLMs without compromising their helpfulness. Extensive experiments on varying jailbreak benchmarks across ChatGLM, LLaMA2, Vicuna, MPT, DeepSeek, and GPT-3.5 show that $\mathbb{IA}$ could consistently and significantly reduce the harmfulness in responses (averagely -53.1% attack success rate) and maintain the general helpfulness. Encouragingly, with the help of our $\mathbb{IA}$, Vicuna-7B even outperforms GPT-3.5 in terms of attack success rate. Further analyses present some insights into how our method works. To facilitate reproducibility, we release our code and scripts at: https://github.com/alphadl/SafeLLM_with_IntentionAnalysis.
arxiv情報
著者 | Yuqi Zhang,Liang Ding,Lefei Zhang,Dacheng Tao |
発行日 | 2024-04-29 16:40:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google