要約
体現型AIは、AIが物理的実体に組み込まれ、周囲の環境を知覚し、相互作用することを可能にするシステムを表す。強力な言語理解能力を示すラージ・ランゲージ・モデル(LLM)は、高度なタスク・プランニングを容易にすることで、体現型AIに広く採用されている。しかしながら、安全性に関する重大な問題は見過ごされたままである。すなわち、これらの具現化されたLLMが有害な行動を犯す可能性はあるのだろうか?これに対して、我々はBadRobotを紹介する。BadRobotは、典型的な音声ベースのユーザーとシステムのインタラクションを通じて、具現化LLMに安全性と倫理的制約に違反させることを目的とした新しい攻撃パラダイムである。具体的には、(i)ロボットシステム内でのLLMの操作、(ii)言語出力と物理的動作の不整合、(iii)世界知識の欠陥による意図しない危険行動、の3つの脆弱性を悪用してこの種の攻撃を実現する。さらに、BadRobotの攻撃性能を評価するために、様々な悪意のある物理的行動クエリのベンチマークを構築する。このベンチマークに基づき、既存の著名な具現化LLMフレームワーク(例えば、Voxposer、Code as Policies、ProgPrompt)に対する広範な実験により、我々のBadRobotの有効性を実証する。警告この論文には、AIが生成した有害な言語と攻撃的な行動が含まれています。
要約(オリジナル)
Embodied AI represents systems where AI is integrated into physical entities, enabling them to perceive and interact with their surroundings. Large Language Model (LLM), which exhibits powerful language understanding abilities, has been extensively employed in embodied AI by facilitating sophisticated task planning. However, a critical safety issue remains overlooked: could these embodied LLMs perpetrate harmful behaviors? In response, we introduce BadRobot, a novel attack paradigm aiming to make embodied LLMs violate safety and ethical constraints through typical voice-based user-system interactions. Specifically, three vulnerabilities are exploited to achieve this type of attack: (i) manipulation of LLMs within robotic systems, (ii) misalignment between linguistic outputs and physical actions, and (iii) unintentional hazardous behaviors caused by world knowledge’s flaws. Furthermore, we construct a benchmark of various malicious physical action queries to evaluate BadRobot’s attack performance. Based on this benchmark, extensive experiments against existing prominent embodied LLM frameworks (e.g., Voxposer, Code as Policies, and ProgPrompt) demonstrate the effectiveness of our BadRobot. Warning: This paper contains harmful AI-generated language and aggressive actions.
arxiv情報
著者 | Hangtao Zhang,Chenyu Zhu,Xianlong Wang,Ziqi Zhou,Changgan Yin,Minghui Li,Lulu Xue,Yichen Wang,Shengshan Hu,Aishan Liu,Peijin Guo,Leo Yu Zhang |
発行日 | 2024-10-03 14:31:39+00:00 |
arxivサイト | arxiv_id(pdf) |