Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking

要約

環境を知覚し、目標を達成するための行動をとる自律エージェントは、大規模な言語モデル(LLM)の進歩でますます実行可能になりました。
ただし、現在の強力なエージェントは、GPT-4のようなクローズドソースLLMと組み合わせた洗練されたプロンプトエンジニアリングに依存することがよくあります。
教師モデルからの専門家の軌跡を使用してオープンソースLLMをトレーニングすると、エージェント機能がいくつかの改善がもたらされましたが、このアプローチは、パフォーマンスのプラトーおよびエラー伝播などの制限に依然として直面しています。
これらの課題を軽減するために、LLMベースのエージェントトレーニングを改善するための新しい方法であるStepを提案します。
エラーステップの反射と補正を含む自己反射軌道を合成し、教師モデルから学習するLLMエージェントの有効性を高め、自己反映と修正が可能なエージェントになることができます。
また、LLMが誤ったまたは最適ではないステップを内面化するのを防ぐ部分的なマスキング戦略を紹介します。
実験は、この方法が、Alfworld、Webshop、Sciworldの3つの代表的なタスクにわたってエージェントのパフォーマンスを改善することを示しています。
オープンソースモデルLlama2-7B-chatの場合、教師モデルとしてQWEN1.5-110B-chatで構築された自己反射軌道を使用して訓練された場合、専門家の軌跡のみでトレーニングされたエージェントと比較して、より少ないトレーニングデータで包括的な改善を達成します。

要約(オリジナル)

Autonomous agents, which perceive environments and take actions to achieve goals, have become increasingly feasible with the advancements in large language models (LLMs). However, current powerful agents often depend on sophisticated prompt engineering combined with closed-source LLMs like GPT-4. Although training open-source LLMs using expert trajectories from teacher models has yielded some improvements in agent capabilities, this approach still faces limitations such as performance plateauing and error propagation. To mitigate these challenges, we propose STeP, a novel method for improving LLM-based agent training. We synthesize self-reflected trajectories that include reflections and corrections of error steps, which enhance the effectiveness of LLM agents in learning from teacher models, enabling them to become agents capable of self-reflecting and correcting. We also introduce partial masking strategy that prevents the LLM from internalizing incorrect or suboptimal steps. Experiments demonstrate that our method improves agent performance across three representative tasks: ALFWorld, WebShop, and SciWorld. For the open-source model LLaMA2-7B-Chat, when trained using self-reflected trajectories constructed with Qwen1.5-110B-Chat as the teacher model, it achieves comprehensive improvements with less training data compared to agents trained exclusively on expert trajectories.

arxiv情報

著者 Yihan Chen,Benfeng Xu,Xiaorui Wang,Yongdong Zhang,Zhendong Mao
発行日 2025-05-26 14:11:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク