要約
大規模な言語モデル(LLM)の統合により、具体化されたエージェントは、複雑な自然言語の指示を理解して計画するための強力な能力を持っています。
しかし、予見可能な問題は、これらの具体化されたエージェントがいくつかの危険なタスクを完璧に実行し、現実世界で損害を引き起こす可能性があることです。
既存のベンチマークは、主に重大な安全リスクを見落とし、計画パフォーマンスのみに焦点を当てており、LLMSの安全認識を非対話的画像テキストデータのみで評価します。
このギャップに対処するために、SafeAgentbenchを提示します。これは、インタラクティブシミュレーション環境で具体化されたLLMエージェントの安全性を認識するタスク計画のための最初のベンチマークです。
SafeAgentBenchには、次のものが含まれます。(1)750のタスクの実行可能ファイル、多様な、および高品質のデータセットが含まれ、10の潜在的なハザードと3つのタスクタイプをカバーするために厳密にキュレーションされています。
(2)SafeAntenVは、低レベルのコントローラーを備えた普遍的な具体化された環境であり、8つの最先端のベースラインに対して17の高レベルアクションでマルチエージェント実行をサポートします。
(3)実行とセマンティックの両方の視点からの信頼できる評価方法。
実験結果は、異なる設計フレームワークに基づくエージェントがタスクの成功率に大きな違いを示すが、全体的な安全性の認識は弱いままであることを示しています。
最も安全に配慮したベースラインは、詳細な危険タスクに対して10 \%の拒否率のみを達成します。
さらに、エージェントを駆動するLLMを単純に交換しても、安全性の認識の顕著な改善につながることはありません。
詳細とコードは、https://github.com/shengyin1224/safeagentbenchで入手できます。
要約(オリジナル)
With the integration of large language models (LLMs), embodied agents have strong capabilities to understand and plan complicated natural language instructions. However, a foreseeable issue is that those embodied agents can also flawlessly execute some hazardous tasks, potentially causing damages in the real world. Existing benchmarks predominantly overlook critical safety risks, focusing solely on planning performance, while a few evaluate LLMs’ safety awareness only on non-interactive image-text data. To address this gap, we present SafeAgentBench-the first benchmark for safety-aware task planning of embodied LLM agents in interactive simulation environments. SafeAgentBench includes: (1) an executable, diverse, and high-quality dataset of 750 tasks, rigorously curated to cover 10 potential hazards and 3 task types; (2) SafeAgentEnv, a universal embodied environment with a low-level controller, supporting multi-agent execution with 17 high-level actions for 8 state-of-the-art baselines; and (3) reliable evaluation methods from both execution and semantic perspectives. Experimental results show that, although agents based on different design frameworks exhibit substantial differences in task success rates, their overall safety awareness remains weak. The most safety-conscious baseline achieves only a 10\% rejection rate for detailed hazardous tasks. Moreover, simply replacing the LLM driving the agent does not lead to notable improvements in safety awareness. More details and code are available at https://github.com/shengyin1224/SafeAgentBench.
arxiv情報
著者 | Sheng Yin,Xianghe Pang,Yuanzhuo Ding,Menglan Chen,Yutong Bi,Yichen Xiong,Wenhao Huang,Zhen Xiang,Jing Shao,Siheng Chen |
発行日 | 2025-03-10 12:13:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google