要約
大規模言語モデル (LLM) の統合により、身体化エージェントは自然言語で複雑な命令を実行する強力な機能を備え、身体化ロボットの展開の可能性への道が開かれます。
ただし、予見できる問題は、これらの肉体化されたエージェントがいくつかの危険なタスクを完璧に実行することもでき、現実世界に損害を引き起こす可能性があるということです。
この問題を研究するために、私たちは SafeAgentBench を紹介します。これは、組み込まれた LLM エージェントの安全性を意識したタスク計画のための新しいベンチマークです。
SafeAgentBench には次のものが含まれます。(1) 10 の潜在的な危険と 3 つのタスク タイプをカバーする 750 のタスクを含む新しいデータセット。
(2) SafeAgentEnv は、低レベルのコントローラーを備えたユニバーサルな組み込み環境であり、8 つの最先端のベースラインに対する 17 の高レベルのアクションによるマルチエージェントの実行をサポートします。
(3) 実行と意味の両方の観点からの信頼できる評価方法。
実験結果によると、最もパフォーマンスの高いベースラインでは、安全なタスクの成功率は 69% ですが、危険なタスクの拒否率はわずか 5% であり、重大な安全上のリスクが示されています。
詳細とコードは、https://github.com/shengyin1224/SafeAgentBench で入手できます。
要約(オリジナル)
With the integration of large language models (LLMs), embodied agents have strong capabilities to execute complicated instructions in natural language, paving a way for the potential deployment of embodied robots. However, a foreseeable issue is that those embodied agents can also flawlessly execute some hazardous tasks, potentially causing damages in real world. To study this issue, we present SafeAgentBench — a new benchmark for safety-aware task planning of embodied LLM agents. SafeAgentBench includes: (1) a new dataset with 750 tasks, covering 10 potential hazards and 3 task types; (2) SafeAgentEnv, a universal embodied environment with a low-level controller, supporting multi-agent execution with 17 high-level actions for 8 state-of-the-art baselines; and (3) reliable evaluation methods from both execution and semantic perspectives. Experimental results show that the best-performing baseline gets 69% success rate for safe tasks, but only 5% rejection rate for hazardous tasks, indicating significant safety risks. More details and codes are available at https://github.com/shengyin1224/SafeAgentBench.
arxiv情報
著者 | Sheng Yin,Xianghe Pang,Yuanzhuo Ding,Menglan Chen,Yutong Bi,Yichen Xiong,Wenhao Huang,Zhen Xiang,Jing Shao,Siheng Chen |
発行日 | 2024-12-17 18:55:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google