TrustAgent: Towards Safe and Trustworthy LLM-based Agents through Agent Constitution

要約

LLMベースのエージェントの出現は大きな注目を集めているが、その信頼性はまだ十分に研究されていない分野である。エージェントは物理環境と直接相互作用するため、その信頼性と安全性は非常に重要である。本論文では、LLMベースのエージェントにおける信頼性の安全性を向上させるための初期調査として、エージェント構成に基づくエージェントフレームワークであるTrustAgentを紹介する。このフレームワークは3つの戦略から構成される。すなわち、計画生成前に安全知識をモデルに注入する事前計画戦略、計画生成中に安全性を強化する計画中戦略、計画後の検査によって安全性を確保する計画後戦略である。実験的分析を通じて、これらのアプローチが、潜在的な危険を特定し予防することによって、LLMエージェントの安全性を効果的に高めることができることを実証する。さらに、安全性と有用性、モデルの推論能力と安全エージェントとしての有効性の間の複雑な関係を探求する。本論文は、LLMベースのエージェントの性能を向上させるだけでなく、人間中心の環境への責任ある統合を確実にするために、安全意識と信頼性をLLMベースのエージェントの設計と配備に統合することの必要性を強調している。データとコードはhttps://github.com/agiresearch/TrustAgent。

要約(オリジナル)

The emergence of LLM-based agents has garnered considerable attention, yet their trustworthiness remains an under-explored area. As agents can directly interact with the physical environment, their reliability and safety is critical. This paper presents an Agent-Constitution-based agent framework, TrustAgent, an initial investigation into improving the safety dimension of trustworthiness in LLM-based agents. This framework consists of threefold strategies: pre-planning strategy which injects safety knowledge to the model prior to plan generation, in-planning strategy which bolsters safety during plan generation, and post-planning strategy which ensures safety by post-planning inspection. Through experimental analysis, we demonstrate how these approaches can effectively elevate an LLM agent’s safety by identifying and preventing potential dangers. Furthermore, we explore the intricate relationships between safety and helpfulness, and between the model’s reasoning ability and its efficacy as a safe agent. This paper underscores the imperative of integrating safety awareness and trustworthiness into the design and deployment of LLM-based agents, not only to enhance their performance but also to ensure their responsible integration into human-centric environments. Data and code are available at https://github.com/agiresearch/TrustAgent.

arxiv情報

著者 Wenyue Hua,Xianjun Yang,Zelong Li,Cheng Wei,Yongfeng Zhang
発行日 2024-02-02 17:26:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MA パーマリンク