Athena: Safe Autonomous Agents with Verbal Contrastive Learning

要約

新しい機能により、大規模言語モデル (LLM) は、さまざまなタスクを実行し、自律性の度合いを高めながら意思決定を行うための言語ベースのエージェントとして利用されています。
これらの自律エージェントは、高レベルの命令を理解し、環境と対話し、利用可能なツールの選択を使用して複雑なタスクを実行できます。
エージェントの能力が拡大するにつれて、エージェントの安全性と信頼性を確保することがより重要になります。
この研究では、言語対比学習の概念を活用する Athena フレームワークを導入します。このフレームワークでは、過去の安全な軌跡と安全でない軌跡がコンテキスト内 (対比) 例として使用され、与えられたタスクを遂行しながらエージェントを安全に導くことができます。
このフレームワークには、あらゆる段階で危険な行動を防ぐようにエージェントを導くための批判メカニズムも組み込まれています。
さらに、LLM ベースのエージェントの安全推論能力に関する既存のベンチマークが不足しているため、安全性評価ベンチマークを提供するために、8 カテゴリにわたる 180 のシナリオを含む 80 のツールキットのセットを厳選しました。
クローズドソースとオープンソースの LLM の両方を使った私たちの実験評価では、口頭での対比学習とインタラクションレベルの批評が安全率を大幅に向上させることが示されています。

要約(オリジナル)

Due to emergent capabilities, large language models (LLMs) have been utilized as language-based agents to perform a variety of tasks and make decisions with an increasing degree of autonomy. These autonomous agents can understand high-level instructions, interact with their environments, and execute complex tasks using a selection of tools available to them. As the capabilities of the agents expand, ensuring their safety and trustworthiness becomes more imperative. In this study, we introduce the Athena framework which leverages the concept of verbal contrastive learning where past safe and unsafe trajectories are used as in-context (contrastive) examples to guide the agent towards safety while fulfilling a given task. The framework also incorporates a critiquing mechanism to guide the agent to prevent risky actions at every step. Furthermore, due to the lack of existing benchmarks on the safety reasoning ability of LLM-based agents, we curate a set of 80 toolkits across 8 categories with 180 scenarios to provide a safety evaluation benchmark. Our experimental evaluation, with both closed- and open-source LLMs, indicates verbal contrastive learning and interaction-level critiquing improve the safety rate significantly.

arxiv情報

著者 Tanmana Sadhu,Ali Pesaranghader,Yanan Chen,Dong Hoon Yi
発行日 2024-08-20 17:21:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.MA パーマリンク