POEX: Policy Executable Embodied AI Jailbreak Attacks

要約

大規模言語モデル (LLM) を身体型人工知能 (Embodied AI) システムの計画モジュールに統合することで、複雑なユーザー命令を実行可能なポリシーに変換する機能が大幅に強化されました。
このペーパーでは、従来の LLM ジェイルブレイク攻撃が、Embedded AI のコンテキストでどのように動作するかを解明しました。
私たちは、ジェイルブレイク攻撃に対する組み込み型 AI システムの LLM ベースの計画モジュールの包括的な安全性分析を実施しました。
慎重に作成された Harmful-RLbench を使用して、従来のジェイルブレイク攻撃下で 20 のオープンソースおよび独自の LLM にアクセスし、AI コンテキストを具体化するために以前のジェイルブレイク技術を採用する際の 2 つの重要な課題を強調しました。(1) LLM によって出力される有害なテキストは、必ずしも
(2) たとえ有害なポリシーを生成できたとしても、それが実際に実行可能であることを保証する必要があります。
これらの課題を克服するために、私たちは Policy Executable (POEX) ジェイルブレイク攻撃を提案します。この攻撃では、有害な命令と最適化されたサフィックスが LLM ベースの計画モジュールに挿入され、シミュレートされた環境と物理的な環境の両方で、埋め込まれた AI が有害なアクションを実行するようになります。
私たちのアプローチには、検出を回避するために敵対的なサフィックスを制限し、有害なポリシーの実行可能性を向上させるためにポリシー評価を微調整することが含まれます。
私たちは、ロボット アームを組み込んだ AI プラットフォームとシミュレーターの両方で広範な実験を実施し、Harmful-RLbench からの 136 の有害な命令に対する攻撃とポリシーの成功率を検証しました。
私たちの調査結果では、モデル間で転送される POEX の機能など、LLM ベースの計画モジュールの重大な安全上の脆弱性が明らかになりました。
最後に、これらの脆弱性に対処し、現実世界の環境での組み込み型 AI の安全な展開を確保するために、安全性を制約したプロンプト、計画前後のチェックなどの緩和戦略を提案します。

要約(オリジナル)

The integration of large language models (LLMs) into the planning module of Embodied Artificial Intelligence (Embodied AI) systems has greatly enhanced their ability to translate complex user instructions into executable policies. In this paper, we demystified how traditional LLM jailbreak attacks behave in the Embodied AI context. We conducted a comprehensive safety analysis of the LLM-based planning module of embodied AI systems against jailbreak attacks. Using the carefully crafted Harmful-RLbench, we accessed 20 open-source and proprietary LLMs under traditional jailbreak attacks, and highlighted two key challenges when adopting the prior jailbreak techniques to embodied AI contexts: (1) The harmful text output by LLMs does not necessarily induce harmful policies in Embodied AI context, and (2) even we can generate harmful policies, we have to guarantee they are executable in practice. To overcome those challenges, we propose Policy Executable (POEX) jailbreak attacks, where harmful instructions and optimized suffixes are injected into LLM-based planning modules, leading embodied AI to perform harmful actions in both simulated and physical environments. Our approach involves constraining adversarial suffixes to evade detection and fine-tuning a policy evaluater to improve the executability of harmful policies. We conducted extensive experiments on both a robotic arm embodied AI platform and simulators, to validate the attack and policy success rates on 136 harmful instructions from Harmful-RLbench. Our findings expose serious safety vulnerabilities in LLM-based planning modules, including the ability of POEX to be transferred across models. Finally, we propose mitigation strategies, such as safety-constrained prompts, pre- and post-planning checks, to address these vulnerabilities and ensure the safe deployment of embodied AI in real-world settings.

arxiv情報

著者 Xuancun Lu,Zhengxian Huang,Xinfeng Li,Xiaoyu ji,Wenyuan Xu
発行日 2024-12-21 13:58:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.RO パーマリンク