要約
広範な安全整合の取り組みにもかかわらず、大規模な言語モデル(LLM)は、有害な行動を引き出す脱獄攻撃に対して脆弱なままです。
既存の研究は主に技術的な専門知識を必要とする攻撃方法に焦点を当てていますが、2つの重要な質問は未把握のままです。
(2)安全脆弱性は、より一般的で単純な人間の相互作用に存在しますか?
この論文では、LLM応答が実用的で有益なものである場合に有害なアクションを最も効果的に促進することを実証します – 多段階の多言語的相互作用で簡単に誘発される2つの属性。
この洞察を使用して、LLM応答がどれほど効果的に有害なアクションを可能にし、簡単なマルチステップの多言語攻撃フレームワークを簡単に発言できるかを測定する脱獄メトリックであるHarmscoreを提案します。
特に、Speakを簡単に直接リクエストと脱獄ベースラインに組み込むことにより、4つの安全ベンチマークにわたってオープンソースと独自のLLMの両方で、攻撃成功率が0.319、Harmscoreの0.426の平均絶対的な増加が見られます。
私たちの仕事は、重要でありながら見落とされがちな脆弱性を明らかにしています。悪意のあるユーザーは、有害な意図のために一般的な相互作用パターンを簡単に活用できます。
要約(オリジナル)
Despite extensive safety alignment efforts, large language models (LLMs) remain vulnerable to jailbreak attacks that elicit harmful behavior. While existing studies predominantly focus on attack methods that require technical expertise, two critical questions remain underexplored: (1) Are jailbroken responses truly useful in enabling average users to carry out harmful actions? (2) Do safety vulnerabilities exist in more common, simple human-LLM interactions? In this paper, we demonstrate that LLM responses most effectively facilitate harmful actions when they are both actionable and informative–two attributes easily elicited in multi-step, multilingual interactions. Using this insight, we propose HarmScore, a jailbreak metric that measures how effectively an LLM response enables harmful actions, and Speak Easy, a simple multi-step, multilingual attack framework. Notably, by incorporating Speak Easy into direct request and jailbreak baselines, we see an average absolute increase of 0.319 in Attack Success Rate and 0.426 in HarmScore in both open-source and proprietary LLMs across four safety benchmarks. Our work reveals a critical yet often overlooked vulnerability: Malicious users can easily exploit common interaction patterns for harmful intentions.
arxiv情報
著者 | Yik Siu Chan,Narutatsu Ri,Yuxin Xiao,Marzyeh Ghassemi |
発行日 | 2025-02-06 18:59:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google