Rational Decision-Making Agent with Internalized Utility Judgment

要約

大規模言語モデル (LLM) は目覚ましい進歩を示しており、従来の NLP アプリケーションを超えて複雑な複数ステップの意思決定タスクを実行できるエージェントに LLM を開発するための多大な努力が集まっています。
LLM ベースの意思決定に対する既存のアプローチは、主に、意思決定プロセスを導くために手動で設計された外部パフォーマンス指標に基づいて構築されています。
ただし、以前のように外部パフォーマンス指標に依存することは、現実のシナリオでは問題があり、そのような事前指標が利用できないか、欠陥があるか、さらには誤りである可能性があります。
真の自律的な意思決定のためには、エージェントがその後の経験から合理性を開発し、独立して意思決定を行うことが不可欠です。
合理性の発達の中心となるのは、各決定に数値的な効用を割り当てることができる、内面化された効用判断の構築です。
この論文では、エクスペリエンス探索とユーティリティ学習を含む反復フレームワークを通じて合理性の開発を促進する RadAgent (Rational Decision-Making Agent) を提案します。
このフレームワーク内で、Elo ベースのユーティリティ構築は、個々の意思決定ステップに Elo スコアを割り当て、ペアごとの比較によってユーティリティを判断するように考案されています。
したがって、これらの Elo スコアは、最適な結果を導き出すための意思決定プロセスをガイドします。
ToolBench データセットの実験結果は、RadAgent がベースラインよりも優れていることを示しており、さまざまなタスクで合格率が 10% 以上向上しました。
高品質のソリューションを提供し、コスト (ChatGPT API 呼び出し) を削減し、その有効性と効率性を強調します。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable advancements and have attracted significant efforts to develop LLMs into agents capable of executing intricate multi-step decision-making tasks beyond traditional NLP applications. Existing approaches to LLM-based decision-making predominantly build upon the manually-designed external performance metrics to guide the decision-making process. However, reliance on the external performance metrics as prior is problematic in real-world scenarios, where such prior may be unavailable, flawed, or even erroneous. For genuine autonomous decision making, it is imperative for the agent to develop its rationality from its posterior experiences to judge decisions independently. Central to the development of rationality is the construction of an internalized utility judgment, capable of assigning numerical utilities to each decision. This paper proposes RadAgent (Rational Decision-Making Agent), which fosters the development of its rationality through an iterative framework involving Experience Exploration and Utility Learning. Within this framework, Elo-based Utility Construction is devised to assign Elo scores to individual decision steps to judge their utilities via pairwise comparisons. Consequently, these Elo scores guide the decision-making process to derive optimal outcomes. Experimental results on the ToolBench dataset demonstrate RadAgent’s superiority over baselines, achieving over 10% improvement in Pass Rate on diverse tasks. It offers higher-quality solutions and reduces costs (ChatGPT API calls), highlighting its effectiveness and efficiency.

arxiv情報

著者 Yining Ye,Xin Cong,Shizuo Tian,Yujia Qin,Chong Liu,Yankai Lin,Zhiyuan Liu,Maosong Sun
発行日 2024-01-17 13:09:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク