From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning

要約

大規模言語モデル (LLM) の優れた機能により、LLM はさまざまな自律エージェント システムの重要なコンポーネントになります。
従来の手法は微調整を行わずに LLM の固有の知識に依存していましたが、最近のアプローチは強化学習戦略に移行し、環境やツールを使用して複雑な対話型タスクを解決するエージェントの能力をさらに強化しています。
ただし、これまでのアプローチは、既存のデータセットが各マルチステップ推論チェーンに対して最終的なスカラー報酬のみを提供するという、スパース報酬の問題によって制約を受けており、ポリシー学習の非効率性や非効率性を招く可能性があります。
このペーパーでは、段階的な報酬を利用してエージェントの強化学習プロセスを最適化する StepAgent を紹介します。
初心者から専門家への理論の精神を継承し、最初に専門家とエージェントのアクションを比較して、きめの細かい最適化のための中間報酬を自動的に生成します。
さらに、エージェントの反映とポリシー調整を促進するために、暗黙的報酬および逆強化学習手法を提案します。
さらなる理論分析により、エージェントのアクション分布が複数のトレーニング サイクルにわたってエキスパートのアクション分布に収束する可能性があることが実証されています。
さまざまなデータセットにわたる実験結果は、StepAgent が既存のベースライン手法を上回るパフォーマンスを示していることを示しています。

要約(オリジナル)

The outstanding capabilities of large language models (LLMs) render them a crucial component in various autonomous agent systems. While traditional methods depend on the inherent knowledge of LLMs without fine-tuning, more recent approaches have shifted toward the reinforcement learning strategy to further enhance agents’ ability to solve complex interactive tasks with environments and tools. However, previous approaches are constrained by the sparse reward issue, where existing datasets solely provide a final scalar reward for each multi-step reasoning chain, potentially leading to ineffectiveness and inefficiency in policy learning. In this paper, we introduce StepAgent, which utilizes step-wise reward to optimize the agent’s reinforcement learning process. Inheriting the spirit of novice-to-expert theory, we first compare the actions of the expert and the agent to automatically generate intermediate rewards for fine-grained optimization. Additionally, we propose implicit-reward and inverse reinforcement learning techniques to facilitate agent reflection and policy adjustment. Further theoretical analysis demonstrates that the action distribution of the agent can converge toward the expert action distribution over multiple training cycles. Experimental results across various datasets indicate that StepAgent outperforms existing baseline methods.

arxiv情報

著者 Zhirui Deng,Zhicheng Dou,Yutao Zhu,Ji-Rong Wen,Ruibin Xiong,Mang Wang,Weipeng Chen
発行日 2024-12-09 09:20:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.RO パーマリンク