Scaling Autonomous Agents via Automatic Reward Modeling And Planning

要約

大規模な言語モデル(LLM)は、さまざまなテキストジェネレーションタスクにわたって顕著な機能を実証しています。
ただし、LLMは、オンラインショッピング、科学的推論、数学的問題解決など、マルチステップの意思決定と環境フィードバックを必要とする問題と依然として闘っています。
純粋なテキストデータとは異なり、大規模な意思決定データを収集することは困難です。
さらに、多くの強力なLLMはAPIを通じてのみアクセスでき、コストと複雑さのためにエージェントタスクの微調整を妨げます。
LLMエージェントの制限に対処するために、人間の注釈なしで環境から報酬モデルを自動的に学習できるフレームワークを提案します。
このモデルは、LLMエージェントのアクション軌跡を評価し、タスク計画にヒューリスティックを提供するために使用できます。
具体的には、私たちのアプローチでは、1つのLLMベースのエージェントを使用して環境をランダムにナビゲートし、多様なアクション軌跡を生成します。
その後、別のLLMが活用され、タスクの意図を割り当て、各軌道の正しい応答とともに否定的な応答を合成します。
これらのトリプレット(タスク意図、肯定的な応答、否定的な応答)は、アクションの軌跡を採点できる報酬モデルを最適化するためのトレーニングデータとして利用されます。
フレームワークの有効性と一般化可能性は、さまざまなエージェントベンチマークで行われた評価を通じて実証されています。
結論として、提案されたフレームワークは、LLMエージェントの意思決定能力を強化する際の大きな進歩を表しています。
報酬モデルの学習を自動化することにより、データ不足とAPIの制限の課題を克服し、複雑でインタラクティブな環境でのLLMの適用に潜在的に革命をもたらす可能性があります。
この研究は、マルチステップの意思決定を必要とする幅広い現実世界の問題に取り組むことができる、より洗練されたAIエージェントへの道を開きます。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable capabilities across a range of text-generation tasks. However, LLMs still struggle with problems requiring multi-step decision-making and environmental feedback, such as online shopping, scientific reasoning, and mathematical problem-solving. Unlike pure text data, collecting large-scale decision-making data is challenging. Moreover, many powerful LLMs are only accessible through APIs, which hinders their fine-tuning for agent tasks due to cost and complexity. To address LLM agents’ limitations, we propose a framework that can automatically learn a reward model from the environment without human annotations. This model can be used to evaluate the action trajectories of LLM agents and provide heuristics for task planning. Specifically, our approach involves employing one LLM-based agent to navigate an environment randomly, generating diverse action trajectories. Subsequently, a separate LLM is leveraged to assign a task intent and synthesize a negative response alongside the correct response for each trajectory. These triplets (task intent, positive response, and negative response) are then utilized as training data to optimize a reward model capable of scoring action trajectories. The effectiveness and generalizability of our framework are demonstrated through evaluations conducted on different agent benchmarks. In conclusion, our proposed framework represents a significant advancement in enhancing LLM agents’ decision-making capabilities. By automating the learning of reward models, we overcome the challenges of data scarcity and API limitations, potentially revolutionizing the application of LLMs in complex and interactive environments. This research paves the way for more sophisticated AI agents capable of tackling a wide range of real-world problems requiring multi-step decision-making.

arxiv情報

著者 Zhenfang Chen,Delin Chen,Rui Sun,Wenjun Liu,Chuang Gan
発行日 2025-02-17 18:49:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク