Exploring Expert Failures Improves LLM Agent Tuning

要約

大規模な言語モデル(LLM)は、エージェントとして大きな可能性を示しており、複数回の推論と相互作用を必要とするタスクに優れています。
拒絶サンプリング微調整(RFT)は、エージェントとしてLLMSを微調整するための効果的な方法として浮上しています。最初に、成功した自己生成の軌跡を繰り返し微調整することにより、専門家で生成された成功した軌跡を模倣し、エージェントスキルをさらに向上させます。
ただし、専門家(GPT-4など)は主により単純なサブタスクとRFTが本質的に単純なシナリオを支持するため、多くの複雑なサブタスクが未解決のままであり、分散型(OOD)のままであり続けます。
これらの挑戦的なサブタスクを調査すると、以前に失敗した専門家の軌跡が、多くの場合、エージェントの探査効率と重要なスキルの獲得を大幅に改善できる貴重なガイダンス、たとえば計画や重要なアクションを提供できることを発見しました。
これらの観察に動機付けられて、私たちは、故障した専門家の軌跡から有益な行動を特定し、それらをトレーニングデータセットに統合するために、専門家の障害(EEF)を探索することを提案します。
潜在的に有害な行動は、モデル学習プロセスの汚染を防ぐために細心の注意を払って除外されます。
EEFは、専門家の失敗における有益な行動を活用することにより、以前に解決できなかったサブタスクを正常に解決し、エージェントのチューニングパフォーマンスを向上させます。
驚くべきことに、私たちのアプローチは、WebShopで62 \%の勝利を達成し、RFT(53。6\%)とGPT-4(35。6\%)を上回り、私たちの知る限り、WebShopで0.81のスコアを超えて81を超える最初の方法として新しい最先端を設定しました。

要約(オリジナル)

Large Language Models (LLMs) have shown tremendous potential as agents, excelling at tasks that require multiple rounds of reasoning and interactions. Rejection Sampling Fine-Tuning (RFT) has emerged as an effective method for finetuning LLMs as agents: it first imitates expert-generated successful trajectories and further improves agentic skills through iterative fine-tuning on successful, self-generated trajectories. However, since the expert (e.g., GPT-4) succeeds primarily on simpler subtasks and RFT inherently favors simpler scenarios, many complex subtasks remain unsolved and persistently out-of-distribution (OOD). Upon investigating these challenging subtasks, we discovered that previously failed expert trajectories can often provide valuable guidance, e.g., plans and key actions, that can significantly improve agent exploration efficiency and acquisition of critical skills. Motivated by these observations, we propose Exploring Expert Failures (EEF), which identifies beneficial actions from failed expert trajectories and integrates them into the training dataset. Potentially harmful actions are meticulously excluded to prevent contamination of the model learning process. By leveraging the beneficial actions in expert failures, EEF successfully solves some previously unsolvable subtasks and improves agent tuning performance. Remarkably, our approach achieved a 62\% win rate in WebShop, outperforming RFT (53. 6\%) and GPT-4 (35. 6\%), and to the best of our knowledge, setting a new state-of-the-art as the first method to surpass a score of 0.81 in WebShop and exceed 81 in SciWorld.

arxiv情報

著者 Li-Cheng Lan,Andrew Bai,Minhao Cheng,Ruochen Wang,Cho-Jui Hsieh,Tianyi Zhou
発行日 2025-04-17 17:53:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク