Analyzing the Inherent Response Tendency of LLMs: Real-World Instructions-Driven Jailbreak

要約

大規模言語モデル (LLM) の安全メカニズムを改善するために、広範な作業が行われてきました。
ただし、特定のシナリオでは、LLM は悪意のある命令に直面したときに依然として有害な応答を生成します。これは「ジェイルブレイク攻撃」と呼ばれる現象です。
私たちの研究では、新しい脱獄攻撃方法 (\textbf{RADIAL}) を導入します。これは 2 つのステップで構成されます。 1) 固有の応答傾向分析: 現実世界の指示に反応する LLM の固有の肯定および拒否傾向を分析します。
2) 現実世界の命令による脱獄: 分析に基づいて、いくつかの現実世界の命令を戦略的に選択し、それらに悪意のある命令を埋め込むことで、LLM が有害な応答を生成する可能性を増幅します。
3 つのオープンソース人間調整 LLM 上で、私たちの方法は中国語と英語の両方の悪意のある命令に対して優れたジェイルブレイク攻撃パフォーマンスを達成しました。
さらに、詳細なアブレーション実験を指導し、当社の中核となるアイデア「固有の反応傾向分析」の有効性を検証しました。
私たちの調査では、その後の対話ラウンドでより詳細な有害な反応を引き起こすよう誘導されるLLMの脆弱性も明らかになりました。

要約(オリジナル)

Extensive work has been devoted to improving the safety mechanism of Large Language Models (LLMs). However, in specific scenarios, LLMs still generate harmful responses when faced with malicious instructions, a phenomenon referred to as ‘Jailbreak Attack’. In our research, we introduce a novel jailbreak attack method (\textbf{RADIAL}), which consists of two steps: 1) Inherent Response Tendency Analysis: we analyze the inherent affirmation and rejection tendency of LLMs to react to real-world instructions. 2) Real-World Instructions-Driven Jailbreak: based on our analysis, we strategically choose several real-world instructions and embed malicious instructions into them to amplify the LLM’s potential to generate harmful responses. On three open-source human-aligned LLMs, our method achieves excellent jailbreak attack performance for both Chinese and English malicious instructions. Besides, we guided detailed ablation experiments and verified the effectiveness of our core idea ‘Inherent Response Tendency Analysis’. Our exploration also exposes the vulnerability of LLMs to being induced into generating more detailed harmful responses in subsequent rounds of dialogue.

arxiv情報

著者 Yanrui Du,Sendong Zhao,Ming Ma,Yuhan Chen,Bing Qin
発行日 2023-12-07 08:29:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク