要約
大規模な言語モデル(LLMS)の統合により、具体化されたエージェントはシーン情報を処理し、自然言語の複雑な指示を計画し、具体化されたロボットの潜在的な展開への道を開く強力な機能を備えています。
しかし、予見可能な問題は、これらの具体化されたエージェントがいくつかの危険なタスクを完璧に実行し、現実世界で損害を引き起こす可能性があることです。
この問題を研究するために、具体化されたLLMエージェントの安全性を認識するタスク計画のための新しいベンチマークであるSafeAgentBenchを提示します。
SafeAgentBenchには、次のものが含まれます。(1)750のタスクを備えた新しいデータセット、10の潜在的な危険と3つのタスクタイプをカバーします。
(2)SafeAntenVは、低レベルのコントローラーを備えた普遍的な具体化された環境であり、8つの最先端のベースラインに対して17の高レベルアクションでマルチエージェント実行をサポートします。
(3)実行とセマンティックの両方の視点からの信頼できる評価方法。
実験結果は、異なる設計フレームワークに基づくエージェントがタスクの成功率に大きな違いを示すが、全体的な安全性の認識は弱いままであることを示しています。
最も安全に配慮したベースラインは、詳細な危険タスクに対して10 \%の拒否率のみを達成します。
さらに、エージェントを駆動するLLMを単純に交換しても、安全性の認識の顕著な改善につながることはありません。
詳細とコードは、https://github.com/shengyin1224/safeagentbenchで入手できます。
要約(オリジナル)
With the integration of large language models (LLMs), embodied agents have strong capabilities to process the scene information and plan complicated instructions in natural language, paving the way for the potential deployment of embodied robots. However, a foreseeable issue is that those embodied agents can also flawlessly execute some hazardous tasks, potentially causing damages in the real world. To study this issue, we present SafeAgentBench-a new benchmark for safety-aware task planning of embodied LLM agents. SafeAgentBench includes: (1) a new dataset with 750 tasks, covering 10 potential hazards and 3 task types; (2) SafeAgentEnv, a universal embodied environment with a low-level controller, supporting multi-agent execution with 17 high-level actions for 8 state-of-the-art baselines; and (3) reliable evaluation methods from both execution and semantic perspectives. Experimental results show that, although agents based on different design frameworks exhibit substantial differences in task success rates, their overall safety awareness remains weak. The most safety-conscious baseline achieves only a 10\% rejection rate for detailed hazardous tasks. Moreover, simply replacing the LLM driving the agent does not lead to notable improvements in safety awareness. More details and code are available at https://github.com/shengyin1224/SafeAgentBench.
arxiv情報
著者 | Sheng Yin,Xianghe Pang,Yuanzhuo Ding,Menglan Chen,Yutong Bi,Yichen Xiong,Wenhao Huang,Zhen Xiang,Jing Shao,Siheng Chen |
発行日 | 2025-02-25 09:20:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google