SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents

要約

大規模言語モデル (LLM) の統合により、身体化エージェントは自然言語で複雑な命令を実行する強力な機能を備え、身体化ロボットの展開の可能性への道が開かれます。
ただし、予見できる問題は、これらの肉体化されたエージェントがいくつかの危険なタスクを完璧に実行することもでき、現実世界に損害を引き起こす可能性があるということです。
この問題を研究するために、私たちは SafeAgentBench を紹介します。これは、組み込まれた LLM エージェントの安全性を意識したタスク計画のための新しいベンチマークです。
SafeAgentBench には次のものが含まれます。(1) 10 の潜在的な危険と 3 つのタスク タイプをカバーする 750 のタスクを含む新しいデータセット。
(2) SafeAgentEnv は、低レベルのコントローラーを備えたユニバーサルな組み込み環境であり、8 つの最先端のベースラインに対する 17 の高レベルのアクションによるマルチエージェントの実行をサポートします。
(3) 実行と意味の両方の観点からの信頼できる評価方法。
実験結果によると、最もパフォーマンスの高いベースラインでは、安全なタスクの成功率は 69% ですが、危険なタスクの拒否率はわずか 5% であり、重大な安全上のリスクが示されています。
詳細とコードは、https://github.com/shengyin1224/SafeAgentBench で入手できます。

要約(オリジナル)

With the integration of large language models (LLMs), embodied agents have strong capabilities to execute complicated instructions in natural language, paving a way for the potential deployment of embodied robots. However, a foreseeable issue is that those embodied agents can also flawlessly execute some hazardous tasks, potentially causing damages in real world. To study this issue, we present SafeAgentBench — a new benchmark for safety-aware task planning of embodied LLM agents. SafeAgentBench includes: (1) a new dataset with 750 tasks, covering 10 potential hazards and 3 task types; (2) SafeAgentEnv, a universal embodied environment with a low-level controller, supporting multi-agent execution with 17 high-level actions for 8 state-of-the-art baselines; and (3) reliable evaluation methods from both execution and semantic perspectives. Experimental results show that the best-performing baseline gets 69% success rate for safe tasks, but only 5% rejection rate for hazardous tasks, indicating significant safety risks. More details and codes are available at https://github.com/shengyin1224/SafeAgentBench.

arxiv情報

著者 Sheng Yin,Xianghe Pang,Yuanzhuo Ding,Menglan Chen,Yutong Bi,Yichen Xiong,Wenhao Huang,Zhen Xiang,Jing Shao,Siheng Chen
発行日 2024-12-17 18:55:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.RO パーマリンク