InferAct: Inferring Safe Actions for LLM-Based Agents Through Preemptive Evaluation and Human Feedback

要約

LLM ベースのエージェントを実際のアプリケーションに導入するための重要な要件は、危険な間違いや取り返しのつかない間違いに対する堅牢性です。
しかし、既存の研究では、LLM エージェントによって実行される推論軌跡の先制的評価に焦点が当てられていないため、安全で信頼性の高い操作を確保する上でギャップが生じています。
より良い解決策を探るため、この文書では、LLM の心の理論機能を活用して、重要なアクション (自動オンライン取引や Web ショッピングでの「今すぐ購入」など) が実行される前に潜在的なエラーを積極的に検出する新しいアプローチである InferAct を紹介します。

InferAct は人間のフィードバックを統合して、取り返しのつかないリスクを防ぎ、アクター エージェントの意思決定プロセスを強化することもできます。
広く使用されている 3 つのタスクに関する実験により、InferAct の有効性が実証されました。
提案されたソリューションは、重要な意思決定を伴うさまざまな環境に安全に導入できる LLM エージェントの開発に対する新しいアプローチと具体的な貢献を示しています。

要約(オリジナル)

A crucial requirement for deploying LLM-based agents in real-life applications is robustness against risky or irreversible mistakes. However, existing research lacks a focus on the preemptive evaluation of reasoning trajectories performed by LLM agents, leading to a gap in ensuring safe and reliable operations. To explore better solutions, this paper introduces InferAct, a novel approach that leverages the Theory-of-Mind capability of LLMs to proactively detect potential errors before critical actions are executed (e.g., ‘buy-now’ in automatic online trading or web shopping). InferAct is also capable of integrating human feedback to prevent irreversible risks and enhance the actor agent’s decision-making process. Experiments on three widely used tasks demonstrate the effectiveness of InferAct. The proposed solution presents a novel approach and concrete contributions toward developing LLM agents that can be safely deployed in different environments involving critical decision-making.

arxiv情報

著者 Haishuo Fang,Xiaodan Zhu,Iryna Gurevych
発行日 2024-07-16 15:24:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク