PrisonBreak: Jailbreaking Large Language Models with Fewer Than Twenty-Five Targeted Bit-flips

要約

モデルパラメーターのターゲットを絞ったビットワイズ腐敗を通じてジェイルブレイクを誘発する商業規模の(人間に合わせた)言語モデルに対する新しいクラスの攻撃を導入します。
私たちの敵は、すべての場合に25ビットフリップで25未満のビットフリップを持つ10億パラメーターの言語モデルを脱獄することができます。
迅速な脱獄とは異なり、攻撃は実行時にこれらのモデルをメモリに「無修正」にし、入力変更なしで有害な応答を生成できるようにします。
攻撃アルゴリズムは、ターゲットビットを効率的に識別してフリップし、以前の方法よりも最大20 $ \ Times $の計算効率を提供します。
これにより、数十億のパラメーターを備えた言語モデルにとって実用的になります。
ソフトウェア誘導障害注入であるRowhammer(RH)を使用して、攻撃のエンドツーエンドの搾取を示します。
私たちの作業では、異なるRH脆弱性を持つDDR4およびLPDDR4Xデバイスからの56のDRAM RHプロファイルを調べます。
私たちの攻撃は、以前のビットフリップ攻撃の影響を受けたものと同様のシステムでの脱獄を確実に誘発できることを示しています。
さらに、私たちのアプローチは、非常にRHセクチャーシステムに対しても効果的なままです(たとえば、以前にテストしたシステムよりも安全な46 $ \ Times $)。
私たちの分析では、次のことがさらに明らかになりました。(1)トレーニング後のアラインメントが少ないモデルでは、脱獄のビットフリップが少なくなります。
(2)値投影層などの特定のモデルコンポーネントは、他のモデルよりもかなり脆弱です。
(3)私たちの方法は、既存の脱獄と機械的に異なります。
私たちの調査結果は、言語モデルのエコシステムに対する差し迫った実用的な脅威を強調し、これらのモデルをビットフリップ攻撃から保護するための研究の必要性を強調しています。

要約(オリジナル)

We introduce a new class of attacks on commercial-scale (human-aligned) language models that induce jailbreaking through targeted bitwise corruptions in model parameters. Our adversary can jailbreak billion-parameter language models with fewer than 25 bit-flips in all cases$-$and as few as 5 in some$-$using up to 40$\times$ less bit-flips than existing attacks on computer vision models at least 100$\times$ smaller. Unlike prompt-based jailbreaks, our attack renders these models in memory ‘uncensored’ at runtime, allowing them to generate harmful responses without any input modifications. Our attack algorithm efficiently identifies target bits to flip, offering up to 20$\times$ more computational efficiency than previous methods. This makes it practical for language models with billions of parameters. We show an end-to-end exploitation of our attack using software-induced fault injection, Rowhammer (RH). Our work examines 56 DRAM RH profiles from DDR4 and LPDDR4X devices with different RH vulnerabilities. We show that our attack can reliably induce jailbreaking in systems similar to those affected by prior bit-flip attacks. Moreover, our approach remains effective even against highly RH-secure systems (e.g., 46$\times$ more secure than previously tested systems). Our analyses further reveal that: (1) models with less post-training alignment require fewer bit flips to jailbreak; (2) certain model components, such as value projection layers, are substantially more vulnerable than others; and (3) our method is mechanistically different than existing jailbreaks. Our findings highlight a pressing, practical threat to the language model ecosystem and underscore the need for research to protect these models from bit-flip attacks.

arxiv情報

著者 Zachary Coalson,Jeonghyun Woo,Yu Sun,Shiyang Chen,Lishan Yang,Prashant Nair,Bo Fang,Sanghyun Hong
発行日 2025-06-10 16:58:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク