要約
さまざまなアプリケーションで目覚ましい成功を収めているにもかかわらず、大規模言語モデル (LLM) は、安全ガードレールを無効にする敵対的な脱獄に対して脆弱です。
ただし、ジェイルブレイクに関するこれまでの研究は通常、総当たりの最適化や高い計算コストの外挿に頼っており、実用的または効果的ではない可能性があります。
この論文では、権威ある人物から命令されれば、個人は他人に危害を加えることができるというミルグラムの実験に触発され、ディープインセプションと呼ばれる軽量な方法を開示します。この方法は、LLM に簡単に催眠術をかけて脱獄者にし、その悪用を解除することができます。
リスク。
具体的には、DeepInception は LLM の擬人化機能を活用して、動作する新しいネストされたシーンを構築します。これにより、通常のシナリオで使用制御を回避する適応的な方法が実現され、さらに直接的なジェイルブレイクの可能性が提供されます。
経験的に、私たちはその有効性を示すために包括的な実験を実施します。
当社の DeepInception は、以前の同等の脱獄成功率を達成し、その後のインタラクションで継続的な脱獄を実現できます。これにより、Falcon、Vicuna、Llama-2、GPT-3.5 などのオープン/クローズドソース LLM の両方で自己喪失という重大な弱点が明らかになります。
/4/4V。
私たちの調査は、人々が LLM の安全面にもっと注意を払い、悪用のリスクに対する防御を強化する必要があることを訴えています。
コードは https://github.com/tmlr-group/DeepInception で公開されています。
要約(オリジナル)
Despite remarkable success in various applications, large language models (LLMs) are vulnerable to adversarial jailbreaks that make the safety guardrails void. However, previous studies for jailbreaks usually resort to brute-force optimization or extrapolations of a high computation cost, which might not be practical or effective. In this paper, inspired by the Milgram experiment that individuals can harm another person if they are told to do so by an authoritative figure, we disclose a lightweight method, termed as DeepInception, which can easily hypnotize LLM to be a jailbreaker and unlock its misusing risks. Specifically, DeepInception leverages the personification ability of LLM to construct a novel nested scene to behave, which realizes an adaptive way to escape the usage control in a normal scenario and provides the possibility for further direct jailbreaks. Empirically, we conduct comprehensive experiments to show its efficacy. Our DeepInception can achieve competitive jailbreak success rates with previous counterparts and realize a continuous jailbreak in subsequent interactions, which reveals the critical weakness of self-losing on both open/closed-source LLMs like Falcon, Vicuna, Llama-2, and GPT-3.5/4/4V. Our investigation appeals that people should pay more attention to the safety aspects of LLMs and a stronger defense against their misuse risks. The code is publicly available at: https://github.com/tmlr-group/DeepInception.
arxiv情報
著者 | Xuan Li,Zhanke Zhou,Jianing Zhu,Jiangchao Yao,Tongliang Liu,Bo Han |
発行日 | 2023-11-06 15:29:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google