COLD-Attack: Jailbreaking LLMs with Stealthiness and Controllability

要約

大規模言語モデル (LLM) での脱獄は、最近ますます注目を集めています。
LLM の安全性を包括的に評価するには、文脈の一貫性や感情/文体のバリエーションなど、さまざまな属性を持つ脱獄を考慮することが不可欠です。そのため、制御可能な脱獄、つまり LLM 攻撃の制御を強制する方法を研究することは有益です。
この論文では、制御可能な攻撃生成問題を正式に定式化し、この問題と自然言語処理のよく研究されているトピックである制御可能なテキスト生成との間の新しい関係を構築します。
この関係に基づいて、制御可能なテキスト生成における最先端の高効率アルゴリズムであるランジュバン ダイナミクスによるエネルギーベースの制約付きデコーディング (COLD) を採用し、検索を統合して自動化する COLD- Attack フレームワークを導入します。
流暢さ、ステルス性、センチメント、左右の一貫性などのさまざまな制御要件の下での敵対的な LLM 攻撃を分析します。
COLD- Attack によって可能になる制御性は、流暢なサフィックス攻撃を生成する標準的な設定をカバーするだけでなく、最小限の言い換えでユーザー クエリを敵対的に修正したり、ステルスな攻撃を挿入したりするなど、新しい制御可能な攻撃設定にも対処できる、多様な新しいジェイルブレイク シナリオにつながります。
左右の一貫性のある文脈での攻撃。
さまざまな LLM (Llama-2、Mistral、Vicuna、Guanaco、GPT-3.5) に関する広範な実験により、COLD- Attack の幅広い適用性、強力な制御性、高い成功率、および攻撃の伝達性が示されています。
私たちのコードは https://github.com/Yu-Fangxu/COLD- Attack で入手できます。

要約(オリジナル)

Jailbreaks on Large language models (LLMs) have recently received increasing attention. For a comprehensive assessment of LLM safety, it is essential to consider jailbreaks with diverse attributes, such as contextual coherence and sentiment/stylistic variations, and hence it is beneficial to study controllable jailbreaking, i.e. how to enforce control on LLM attacks. In this paper, we formally formulate the controllable attack generation problem, and build a novel connection between this problem and controllable text generation, a well-explored topic of natural language processing. Based on this connection, we adapt the Energy-based Constrained Decoding with Langevin Dynamics (COLD), a state-of-the-art, highly efficient algorithm in controllable text generation, and introduce the COLD-Attack framework which unifies and automates the search of adversarial LLM attacks under a variety of control requirements such as fluency, stealthiness, sentiment, and left-right-coherence. The controllability enabled by COLD-Attack leads to diverse new jailbreak scenarios which not only cover the standard setting of generating fluent suffix attacks, but also allow us to address new controllable attack settings such as revising a user query adversarially with minimal paraphrasing, and inserting stealthy attacks in context with left-right-coherence. Our extensive experiments on various LLMs (Llama-2, Mistral, Vicuna, Guanaco, GPT-3.5) show COLD-Attack’s broad applicability, strong controllability, high success rate, and attack transferability. Our code is available at https://github.com/Yu-Fangxu/COLD-Attack.

arxiv情報

著者 Xingang Guo,Fangxu Yu,Huan Zhang,Lianhui Qin,Bin Hu
発行日 2024-02-13 18:58:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク