AgentRM: Enhancing Agent Generalization with Reward Modeling

要約

既存のLLMベースのエージェントは、開催されたタスクで強力なパフォーマンスを達成していますが、目に見えないタスクに対する一般化可能性は依然として不十分です。
したがって、いくつかの最近の作業は、一般化を改善するためのより多様なタスクでポリシーモデルを微調整することに焦点を当てています。
この作業では、ポリシーモデルをガイドするための報酬モデルを微調整することは、ポリシーモデルを直接微調整するよりも堅牢であることがわかります。
この発見に基づいて、効果的なテスト時間検索のためにポリシーモデルを導くために、一般化可能な報酬モデルであるAgentRMを提案します。
We comprehensively investigate three approaches to construct the reward model, including explicit reward modeling, implicit reward modeling and LLM-as-a-judge.
次に、agentRMを使用して、Best-of-nサンプリングとステップレベルのビーム検索で回答生成をガイドします。
4種類の9つのエージェントタスクでは、AgentRMは平均して基本ポリシーモデルを$ 8.8 $ポイント増強し、上位の一般エージェントを$ 4.0 $で上回ります。
さらに、Llama-3-70Bのポリシーモデルでは、弱くて強力な一般化を示しており、12.6ドルの改善をもたらします。
専門性に関しては、AgentRMは、Finetuned Policy Modelを高め、3つの保有タスクでTOP専門エージェントを$ 11.4 $で上回ることもできます。
さらなる分析により、テスト時間スケーリングの有効性が確認されます。
この分野での研究を促進するために、コードがリリースされます。

要約(オリジナル)

Existing LLM-based agents have achieved strong performance on held-in tasks, but their generalizability to unseen tasks remains poor. Hence, some recent work focus on fine-tuning the policy model with more diverse tasks to improve the generalizability. In this work, we find that finetuning a reward model to guide the policy model is more robust than directly finetuning the policy model. Based on this finding, we propose AgentRM, a generalizable reward model, to guide the policy model for effective test-time search. We comprehensively investigate three approaches to construct the reward model, including explicit reward modeling, implicit reward modeling and LLM-as-a-judge. We then use AgentRM to guide the answer generation with Best-of-N sampling and step-level beam search. On four types of nine agent tasks, AgentRM enhances the base policy model by $8.8$ points on average, surpassing the top general agent by $4.0$. Moreover, it demonstrates weak-to-strong generalization, yielding greater improvement of $12.6$ on LLaMA-3-70B policy model. As for the specializability, AgentRM can also boost a finetuned policy model and outperform the top specialized agent by $11.4$ on three held-in tasks. Further analysis verifies its effectiveness in test-time scaling. Codes will be released to facilitate the research in this area.

arxiv情報

著者 Yu Xia,Jingru Fan,Weize Chen,Siyu Yan,Xin Cong,Zhong Zhang,Yaxi Lu,Yankai Lin,Zhiyuan Liu,Maosong Sun
発行日 2025-02-25 17:58:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク