要約
最近の潜在空間モニタリング技術は、LLM 攻撃に対する防御として有望であることが示されています。
これらの防御機能は、有害なアクティベーションが望ましくないアクションにつながる前に検出しようとするスキャナーとして機能します。
これにより、モデルは目立たない潜在状態を介して有害な動作を実行できるのか?という疑問が生じます。
ここでは、そのような難読化されたアクティベーションを研究します。
私たちは、スパース オートエンコーダー、表現プローブ、潜在 OOD 検出などの最先端の潜在空間防御がすべて、難読化されたアクティベーションに対して脆弱であることを示します。
たとえば、有害性を分類するように訓練されたプローブに対して、私たちの攻撃は、多くの場合、90% の脱獄率を維持しながら、再現率を 100% から 0% に下げることができます。
ただし、難読化には限界があります。複雑なタスク (SQL コードの作成) では、難読化によってモデルのパフォーマンスが低下することがわかりました。
まとめると、私たちの結果は、神経の活性化が非常に順応性があることを示しています。多くの場合、ネットワークの動作を維持しながら、さまざまな方法で活性化パターンを再構築することができます。
これは潜在的な宇宙防衛に根本的な課題をもたらします。
要約(オリジナル)
Recent latent-space monitoring techniques have shown promise as defenses against LLM attacks. These defenses act as scanners that seek to detect harmful activations before they lead to undesirable actions. This prompts the question: Can models execute harmful behavior via inconspicuous latent states? Here, we study such obfuscated activations. We show that state-of-the-art latent-space defenses — including sparse autoencoders, representation probing, and latent OOD detection — are all vulnerable to obfuscated activations. For example, against probes trained to classify harmfulness, our attacks can often reduce recall from 100% to 0% while retaining a 90% jailbreaking rate. However, obfuscation has limits: we find that on a complex task (writing SQL code), obfuscation reduces model performance. Together, our results demonstrate that neural activations are highly malleable: we can reshape activation patterns in a variety of ways, often while preserving a network’s behavior. This poses a fundamental challenge to latent-space defenses.
arxiv情報
著者 | Luke Bailey,Alex Serrano,Abhay Sheshadri,Mikhail Seleznyov,Jordan Taylor,Erik Jenner,Jacob Hilton,Stephen Casper,Carlos Guestrin,Scott Emmons |
発行日 | 2024-12-12 18:49:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google