要約
現在のLLM安全防御は、拒否を回避する悪意のある目標が良性サブタスクに分解される分解攻撃で失敗します。
課題は、既存の浅い安全性アライメント手法にあります。彼らは、即時のプロンプトでの害を検出するだけであり、長距離の意図について推論しないでください。
したがって、より高い粒度で会話を観察する外部モニターを追加することを提案します。
監視分解攻撃の研究を容易にするために、質問、テキストから画像、エージェントタスクなど、これまでで最大かつ最も多様なデータセットをキュレートします。
Frontier LLMSでそれらをテストしてデータセットを検証し、GPT-4oで平均して87%の攻撃成功率を示します。
これは、分解攻撃が広く効果的であることを確認します。
さらに、ランダムなタスクを分解されたサブタスクに注入して、悪意をさらに難読化できることがわかります。
リアルタイムで防御するために、各サブタスクを累積的に評価する軽量シーケンシャル監視フレームワークを提案します。
慎重に迅速に設計された軽量モニターが93%の防衛成功率を達成し、O3 Miniのようなモニターとしての推論モデルを破ることを示します。
さらに、ランダムなタスクインジェクションに対して堅牢なままであり、コストを90%、レイテンシを50%削減します。
私たちの調査結果は、軽量のシーケンシャルモニターが分解攻撃の緩和に非常に効果的であり、展開において実行可能であることを示唆しています。
要約(オリジナル)
Current LLM safety defenses fail under decomposition attacks, where a malicious goal is decomposed into benign subtasks that circumvent refusals. The challenge lies in the existing shallow safety alignment techniques: they only detect harm in the immediate prompt and do not reason about long-range intent, leaving them blind to malicious intent that emerges over a sequence of seemingly benign instructions. We therefore propose adding an external monitor that observes the conversation at a higher granularity. To facilitate our study of monitoring decomposition attacks, we curate the largest and most diverse dataset to date, including question-answering, text-to-image, and agentic tasks. We verify our datasets by testing them on frontier LLMs and show an 87% attack success rate on average on GPT-4o. This confirms that decomposition attack is broadly effective. Additionally, we find that random tasks can be injected into the decomposed subtasks to further obfuscate malicious intents. To defend in real time, we propose a lightweight sequential monitoring framework that cumulatively evaluates each subtask. We show that a carefully prompt engineered lightweight monitor achieves a 93% defense success rate, beating reasoning models like o3 mini as a monitor. Moreover, it remains robust against random task injection and cuts cost by 90% and latency by 50%. Our findings suggest that lightweight sequential monitors are highly effective in mitigating decomposition attacks and are viable in deployment.
arxiv情報
著者 | Chen Yueh-Han,Nitish Joshi,Yulin Chen,Maksym Andriushchenko,Rico Angell,He He |
発行日 | 2025-06-12 17:50:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google