Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization

要約

大規模言語モデルは、さまざまなタスクに対して堅牢な問題解決能力を示します。
ただし、ほとんどの LLM ベースのエージェントは、対話を通じて学習および進化できるエージェントではなく、高度なプロンプトエンジニアリングを備えた特定のタスクソルバーとして設計されています。
これらのタスクソルバーは、タスクルールを通知し、LLM の動作を規制するために手動で作成したプロンプトを必要とするため、本質的に、大規模なインタラクティブゲームなどの複雑な動的シナリオに対処することができません。
これを考慮して、私たちは Agent-Pro を提案します。これは、インタラクティブなエクスペリエンスから豊富な専門知識を学習し、その行動ポリシーを段階的に向上させることができる、ポリシーレベルの反映と最適化を備えた LLM ベースのエージェントです。
具体的には、政策展開のための動的な信念の生成と反映のプロセスが含まれます。
Agent-Pro はアクションレベルの反映ではなく、過去の軌跡と信念を繰り返し反映し、より良いポリシーに向けて不合理な信念を微調整します。
さらに、ポリシーの最適化には深さ優先検索が採用されており、ポリシーの効果を継続的に強化します。
Agent-Pro は、ブラックジャックとテキサスホールデムの 2 つのゲームにわたって評価され、バニラ LLM および特殊なモデルを上回っています。
私たちの結果は、Agent-Pro が複雑で動的なシーンで学習および進化できることを示しており、これは多数の LLM ベースのアプリケーションにも利益をもたらします。

要約(オリジナル)

Large Language Models exhibit robust problem-solving capabilities for diverse tasks. However, most LLM-based agents are designed as specific task solvers with sophisticated prompt engineering, rather than agents capable of learning and evolving through interactions. These task solvers necessitate manually crafted prompts to inform task rules and regulate LLM behaviors, inherently incapacitating to address complex dynamic scenarios e.g., large interactive games. In light of this, we propose Agent-Pro: an LLM-based Agent with Policy-level Reflection and Optimization that can learn a wealth of expertise from interactive experiences and progressively elevate its behavioral policy. Specifically, it involves a dynamic belief generation and reflection process for policy evolution. Rather than action-level reflection, Agent-Pro iteratively reflects on past trajectories and beliefs, fine-tuning its irrational beliefs for a better policy. Moreover, a depth-first search is employed for policy optimization, ensuring continual enhancement in policy payoffs. Agent-Pro is evaluated across two games: Blackjack and Texas Hold’em, outperforming vanilla LLM and specialized models. Our results show Agent-Pro can learn and evolve in complex and dynamic scenes, which also benefits numerous LLM-based applications.

arxiv情報

著者	Wenqi Zhang,Ke Tang,Hai Wu,Mengna Wang,Yongliang Shen,Guiyang Hou,Zeqi Tan,Peng Li,Yueting Zhuang,Weiming Lu
発行日	2024-03-27 17:34:57+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー