Process Reward Models for LLM Agents: Practical Framework and Directions

要約

LLMエージェントをトレーニングするためのシンプルでスケーラブルなフレームワークであるエージェントプロセス報酬モデル(AgentPRM)を紹介し、相互作用を通じて継続的に改善します。
AgentPRMは、モンテカルロロールアウトを使用して報酬目標を計算し、ポリシーを最適化するために、軽量の俳優criticパラダイムに従います。
既存のRLHFパイプラインを最小限に抑える必要があり、大規模に統合しやすくします。
AgentPrmを超えて、inversePrmを提案します。これは、明示的な結果監督なしでプロセスの報酬をデモンストレーションから直接学習します。
また、探査、プロセス報酬の形成、モデル予測の推論など、重要な課題と機会を探ります。
AlfWorldベンチマークで評価し、AgentPRMとInversePRMでトレーニングされた小さな3Bモデルが強力なGPT-4Oベースラインよりも優れていることを示し、テスト時間スケーリング、報酬ハッキングなどを分析します。
私たちのコードは、https://github.com/sanjibanc/agent_prmで入手できます。

要約(オリジナル)

We introduce Agent Process Reward Models (AgentPRM), a simple and scalable framework for training LLM agents to continually improve through interactions. AgentPRM follows a lightweight actor-critic paradigm, using Monte Carlo rollouts to compute reward targets and optimize policies. It requires minimal modifications to existing RLHF pipelines, making it easy to integrate at scale. Beyond AgentPRM, we propose InversePRM, which learns process rewards directly from demonstrations without explicit outcome supervision. We also explore key challenges and opportunities, including exploration, process reward shaping, and model-predictive reasoning. We evaluate on ALFWorld benchmark, show that small 3B models trained with AgentPRM and InversePRM outperform strong GPT-4o baselines, and analyze test-time scaling, reward hacking, and more. Our code is available at: https://github.com/sanjibanc/agent_prm.

arxiv情報

著者 Sanjiban Choudhury
発行日 2025-02-14 17:34:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク