要約
大規模な言語モデル(LLM)ベースのエージェントは、環境と動的に対話することにより、複雑なタスクに取り組むことに有望を示しています。
既存の作業は、主に、探索的軌跡サンプリングを通じて、専門家のデモンストレーションまたは好みの学習からの動作のクローニングに焦点を当てています。
ただし、これらの方法はしばしば、長期のタスクに対処するのに苦労しています。このタスクでは、最適ではないアクションが段階的に蓄積し、エージェントが正しいタスクの軌跡から逸脱します。
これに対処するために、タイムリーなキャリブレーションの重要性と、トレーニングエージェントのキャリブレーション軌道を自動的に構築する必要性を強調します。
LLMエージェントラーニングの新しいフレームワークであるステップレベルの軌道キャリブレーション(STECA)を提案します。
具体的には、STECAは、探索中のステップレベルの報酬比較を通じて、最適ではないアクションを特定します。
LLM駆動型反射を使用して較正された軌道を構築し、エージェントが改善された意思決定プロセスから学習できるようにします。
最終的に、強化されたトレーニングのために成功した軌跡でこれらの較正された軌跡を活用します。
広範な実験は、STECAが既存の方法を大幅に上回ることを示しています。
さらなる分析により、タイムリーなキャリブレーションにより、エージェントは堅牢性を高めてタスクを完了することができることを強調しています。
コードとデータは、https://github.com/wanghanlinhenry/stecaで入手できます。
要約(オリジナル)
Large language model (LLM)-based agents have shown promise in tackling complex tasks by interacting dynamically with the environment. Existing work primarily focuses on behavior cloning from expert demonstrations or preference learning through exploratory trajectory sampling. However, these methods often struggle to address long-horizon tasks, where suboptimal actions accumulate step by step, causing agents to deviate from correct task trajectories. To address this, we highlight the importance of timely calibration and the need to automatically construct calibration trajectories for training agents. We propose Step-Level Trajectory Calibration (STeCa), a novel framework for LLM agent learning. Specifically, STeCa identifies suboptimal actions through a step-level reward comparison during exploration. It constructs calibrated trajectories using LLM-driven reflection, enabling agents to learn from improved decision-making processes. We finally leverage these calibrated trajectories with successful trajectories for reinforced training. Extensive experiments demonstrate that STeCa significantly outperforms existing methods. Further analysis highlights that timely calibration enables agents to complete tasks with greater robustness. Our code and data are available at https://github.com/WangHanLinHenry/STeCa.
arxiv情報
著者 | Hanlin Wang,Jian Wang,Chak Tou Leong,Wenjie Li |
発行日 | 2025-05-29 16:13:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google