Intention Analysis Prompting Makes Large Language Models A Good Jailbreak Defender

要約

大規模言語モデル (LLM) を人間の価値観に合わせるのは、特にステルスで複雑な脱獄に直面した場合に、非常に困難な課題となります。
この研究では、シンプルだが非常に効果的な防御戦略、つまり意図分析プロンプティング (IAPrompt) を紹介します。
背後にある原則は、LLM 本来の自己修正を引き起こし、1) 本質的な意図の分析、2) ポリシーに沿った対応の 2 段階のプロセスを通じて能力を向上させることです。
特に、IAPrompt は推論のみのメソッドであるため、LLM の有用性を損なうことなく LLM の安全性を高めることができます。
Vicuna、ChatGLM、MPT、DeepSeek、および GPT-3.5 にわたる SAP200 および DAN ベンチマークに関する広範な実験により、IAPrompt が応答における有害性を一貫して大幅に軽減し (攻撃成功率は平均 -46.5%)、一般的な有用性を維持できることが示されました。
さらなる分析により、私たちの方法がどのように機能するかについていくつかの洞察が得られます。
再現性を高めるために、コードとスクリプトを https://github.com/alphadl/SafeLLM_with_IntentionAnaracy でリリースします。

要約(オリジナル)

Aligning large language models (LLMs) with human values, particularly in the face of stealthy and complex jailbreaks, presents a formidable challenge. In this study, we present a simple yet highly effective defense strategy, i.e., Intention Analysis Prompting (IAPrompt). The principle behind is to trigger LLMs’ inherent self-correct and improve ability through a two-stage process: 1) essential intention analysis, and 2) policy-aligned response. Notably, IAPrompt is an inference-only method, thus could enhance the safety of LLMs without compromising their helpfulness. Extensive experiments on SAP200 and DAN benchmarks across Vicuna, ChatGLM, MPT, DeepSeek, and GPT-3.5 show that IAPrompt could consistently and significantly reduce the harmfulness in response (averagely -46.5% attack success rate) and maintain the general helpfulness. Further analyses present some insights into how our method works. To facilitate reproducibility, We release our code and scripts at: https://github.com/alphadl/SafeLLM_with_IntentionAnalysis

arxiv情報

著者 Yuqi Zhang,Liang Ding,Lefei Zhang,Dacheng Tao
発行日 2024-01-12 13:15:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク