Jailbreaking LLM-Controlled Robots

要約

最近の大規模言語モデル (LLM) の導入により、操作、移動、自動運転車などのさまざまな領域で状況に応じた推論と直感的な人間とロボットの相互作用が可能になり、ロボット工学の分野に革命が起こりました。
LLM をスタンドアロンのテクノロジーとして見ると、脱獄攻撃に対して脆弱であることが知られています。この攻撃では、悪意のあるプロンプターが LLM の安全ガードレールをバイパスして有害なテキストを引き出します。
ロボット工学に LLM を導入するリスクを評価するために、この論文では、LLM 制御ロボットをジェイルブレイクするために設計された最初のアルゴリズムである RoboPAIR を紹介します。
LLM チャットボットに対する既存のテキスト攻撃とは異なり、RoboPAIR は LLM 制御のロボットから有害な物理的動作を引き出します。この現象は、次の 3 つのシナリオで実験的に実証されています。 (i) ホワイトボックス設定。攻撃者は NVIDIA Dolphins の自己アクセスに完全にアクセスできます。
LLM の駆動、(ii) 攻撃者が GPT-4o プランナーを備えた Clearpath Robotics Jackal UGV ロボットへの部分的なアクセス権を持つグレーボックス設定、および (iii) 攻撃者がクエリ アクセスのみを持つブラックボックス設定
GPT-3.5統合Unitree Robotics Go2ロボット犬に。
各シナリオおよび有害なロボット動作の 3 つの新しいデータセット全体で、RoboPAIR といくつかの静的ベースラインがジェイルブレイクを迅速かつ効果的に発見し、多くの場合 100% の攻撃成功率を達成することを実証しました。
私たちの結果は、ジェイルブレイクされたロボットが現実世界で物理的な損傷を引き起こす可能性があるという明確な可能性を考慮すると、ジェイルブレイクされた LLM のリスクがテキスト生成をはるかに超えて広がっていることを初めて明らかにしました。
実際、Unitree Go2 での私たちの結果は、導入された商用ロボット システムの脱獄に初めて成功したことを表しています。
この新たな脆弱性に対処することは、ロボット工学における LLM の安全な展開を確保するために重要です。
追加のメディアは https://robopair.org で入手できます。

要約(オリジナル)

The recent introduction of large language models (LLMs) has revolutionized the field of robotics by enabling contextual reasoning and intuitive human-robot interaction in domains as varied as manipulation, locomotion, and self-driving vehicles. When viewed as a stand-alone technology, LLMs are known to be vulnerable to jailbreaking attacks, wherein malicious prompters elicit harmful text by bypassing LLM safety guardrails. To assess the risks of deploying LLMs in robotics, in this paper, we introduce RoboPAIR, the first algorithm designed to jailbreak LLM-controlled robots. Unlike existing, textual attacks on LLM chatbots, RoboPAIR elicits harmful physical actions from LLM-controlled robots, a phenomenon we experimentally demonstrate in three scenarios: (i) a white-box setting, wherein the attacker has full access to the NVIDIA Dolphins self-driving LLM, (ii) a gray-box setting, wherein the attacker has partial access to a Clearpath Robotics Jackal UGV robot equipped with a GPT-4o planner, and (iii) a black-box setting, wherein the attacker has only query access to the GPT-3.5-integrated Unitree Robotics Go2 robot dog. In each scenario and across three new datasets of harmful robotic actions, we demonstrate that RoboPAIR, as well as several static baselines, finds jailbreaks quickly and effectively, often achieving 100% attack success rates. Our results reveal, for the first time, that the risks of jailbroken LLMs extend far beyond text generation, given the distinct possibility that jailbroken robots could cause physical damage in the real world. Indeed, our results on the Unitree Go2 represent the first successful jailbreak of a deployed commercial robotic system. Addressing this emerging vulnerability is critical for ensuring the safe deployment of LLMs in robotics. Additional media is available at: https://robopair.org

arxiv情報

著者 Alexander Robey,Zachary Ravichandran,Vijay Kumar,Hamed Hassani,George J. Pappas
発行日 2024-10-17 15:55:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク