Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement

要約

大規模な言語モデル エージェントは、さまざまな複雑な対話型タスクにわたって優れたパフォーマンスを発揮しました。
最近のアプローチでは、エージェントのパフォーマンスを向上させるためにエキスパートの軌道による調整が利用されていますが、主に結果の報酬に焦点を当てているため、プロセス監視信号の欠如によりエラーや次善のアクションが発生する可能性があります。
このペーパーでは、エージェントのトレーニングを強化するための詳細なステップバイステップのガイダンスを提供する、反復的なステップレベルのプロセス改善 (IPR) フレームワークを紹介します。
具体的には、モンテカルロ法を採用してステップレベルの報酬を推定します。
各反復中に、エージェントはエキスパートの軌跡に沿って探索し、新しいアクションを生成します。
これらのアクションは、ステップレベルの報酬を使用して、エキスパートの軌跡の対応するステップに対して評価されます。
このような比較は不一致を特定するのに役立ち、エージェントのトレーニング データとして機能する対照的なアクションのペアが生成されます。
3 つの複雑なエージェント タスクに関する実験では、私たちのフレームワークがさまざまな強力なベースラインよりも優れていることが実証されました。
さらに、私たちの分析結果は、行動効率の向上における IPR の有効性と、多様なモデルへの適用可能性を強調しています。

要約(オリジナル)

Large language model agents have exhibited exceptional performance across a range of complex interactive tasks. Recent approaches have utilized tuning with expert trajectories to enhance agent performance, yet they primarily concentrate on outcome rewards, which may lead to errors or suboptimal actions due to the absence of process supervision signals. In this paper, we introduce the Iterative step-level Process Refinement (IPR) framework, which provides detailed step-by-step guidance to enhance agent training. Specifically, we adopt the Monte Carlo method to estimate step-level rewards. During each iteration, the agent explores along the expert trajectory and generates new actions. These actions are then evaluated against the corresponding step of expert trajectory using step-level rewards. Such comparison helps identify discrepancies, yielding contrastive action pairs that serve as training data for the agent. Our experiments on three complex agent tasks demonstrate that our framework outperforms a variety of strong baselines. Moreover, our analytical findings highlight the effectiveness of IPR in augmenting action efficiency and its applicability to diverse models.

arxiv情報

著者 Weimin Xiong,Yifan Song,Xiutian Zhao,Wenhao Wu,Xun Wang,Ke Wang,Cheng Li,Wei Peng,Sujian Li
発行日 2024-09-24 10:01:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク