要約
具体化されたAIシステムは、LLMが計画モジュールとして統合されているため、急速に進化しており、複雑な命令を実行可能なポリシーに変換します。
ただし、LLMは脱獄攻撃に対して脆弱であり、悪意のあるコンテンツを生成できます。
このペーパーでは、従来のLLM脱獄攻撃をEAIシステムに適用する背後にある実現可能性と理論的根拠を調査します。
3つの質問に答えることを目指しています。(1)従来のLLM脱獄攻撃はEAIシステムに適用されますか?
(2)そうでない場合、どのような課題が生じますか?
(3)EAIの脱獄攻撃に対してどのように防御できますか?
この目的のために、最初に、新しく構築されたデータセット、つまり有害なRLBenchを使用して、既存のLLMベースのEAIシステムを測定します。
私たちの研究は、従来のLLM脱獄攻撃がEAIシステムに直接適用されないことを確認し、2つのユニークな課題を特定しています。
第一に、有害なテキストは必ずしも有害なポリシーを構成するものではありません。
第二に、有害なポリシーを生成できる場合でも、潜在的なリスクを制限するEAIシステムによって必ずしも実行可能ではありません。
より包括的なセキュリティ分析を促進するために、EAIシステムに対して有害で実行可能なポリシーを誘導するために敵対的な接尾辞を最適化する新しいレッドチーム化フレームワークであるPOEXを改良および導入します。
POEXの設計は、EAIシステム内の安全性検出を回避しながら、ポリシーの実行を成功させるために、敵対的な制約、ポリシー評価者、および接尾辞の最適化を採用しています。
有害なRLLBenchを使用した現実世界のロボットアームとシミュレーターの実験は、有効性を示しており、モデル間の深刻な安全性の脆弱性と高い転送可能性を強調しています。
最後に、迅速なベースとモデルベースの防御を提案し、EAIシステムでの攻撃の緩和と安全性の認知度の向上において85%の成功率を達成します。
私たちの調査結果は、重要なアプリケーションでのEAIの安全な展開を確保するための堅牢なセキュリティ対策の緊急の必要性を強調しています。
要約(オリジナル)
Embodied AI systems are rapidly evolving due to the integration of LLMs as planning modules, which transform complex instructions into executable policies. However, LLMs are vulnerable to jailbreak attacks, which can generate malicious content. This paper investigates the feasibility and rationale behind applying traditional LLM jailbreak attacks to EAI systems. We aim to answer three questions: (1) Do traditional LLM jailbreak attacks apply to EAI systems? (2) What challenges arise if they do not? and (3) How can we defend against EAI jailbreak attacks? To this end, we first measure existing LLM-based EAI systems using a newly constructed dataset, i.e., the Harmful-RLbench. Our study confirms that traditional LLM jailbreak attacks are not directly applicable to EAI systems and identifies two unique challenges. First, the harmful text does not necessarily constitute harmful policies. Second, even if harmful policies can be generated, they are not necessarily executable by the EAI systems, which limits the potential risk. To facilitate a more comprehensive security analysis, we refine and introduce POEX, a novel red teaming framework that optimizes adversarial suffixes to induce harmful yet executable policies against EAI systems. The design of POEX employs adversarial constraints, policy evaluators, and suffix optimization to ensure successful policy execution while evading safety detection inside an EAI system. Experiments on the real-world robotic arm and simulator using Harmful-RLbench demonstrate the efficacy, highlighting severe safety vulnerabilities and high transferability across models. Finally, we propose prompt-based and model-based defenses, achieving an 85% success rate in mitigating attacks and enhancing safety awareness in EAI systems. Our findings underscore the urgent need for robust security measures to ensure the safe deployment of EAI in critical applications.
arxiv情報
著者 | Xuancun Lu,Zhengxian Huang,Xinfeng Li,Xiaoyu ji,Wenyuan Xu |
発行日 | 2025-02-10 08:13:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google