Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection

要約

AIエージェントはさまざまなタスクで顕著なパフォーマンスを示していますが、複雑なマルチモーダルアプリケーション、構造化された生成、戦略的計画に苦労しています。
解決剤のタスクは通常、モデルパラメーターを制御せずにブラックボックスAPIアクセスに依存しているため、標準の微調整による改善は非現実的です。
Best-of-n(bon)サンプリングなどの推論時間方法は、パフォーマンスを改善するためのシンプルで効果的な代替手段を提供します。
ただし、Bonには反復フィードバック統合メカニズムがありません。
したがって、反復的な洗練と動的候補の評価と検証者が導く選択を組み合わせた反復剤デコード(IAD)を提案します。
IADは、フィードバックがどのように設計および統合され、報酬スコアから最大信号を抽出するように最適化されているかが異なります。
IADが一貫してベースラインを上回るSketch2Code、Text2SQL、およびWebShopの主要なメトリックにわたるベースラインの詳細な比較を実施し、Sketch2CodeとText2SQLで3-6%の絶対的な利益を達成し(LLMジャッジを使用している場合となし)、複数のメトリック全体のWebShopで8-10%のゲインを達成します。
IADの利益の原因をよりよく理解するために、確率的サンプリングからの適応フィードバックの効果を解くために制御された実験を実行し、IADの改善は、単に多様性をサンプリングするのではなく、検証剤誘導の改良によって促進されていることがわかります。
また、IADとBonの両方が、最適な検証剤に導かれた場合、計算が増加した場合に推論時間スケーリングを展示することを示しています。
私たちの分析は、効果的な推論時間最適化における検証剤の品質の重要な役割を強調し、スケーリング動作に対するノイズとスパースの報酬の影響を調べます。
一緒に、これらの調査結果は、効果的な推論時間最適化のトレードオフと原則に関する重要な洞察を提供します。

要約(オリジナル)

While AI agents have shown remarkable performance at various tasks, they still struggle with complex multi-modal applications, structured generation and strategic planning. Improvements via standard fine-tuning is often impractical, as solving agentic tasks usually relies on black box API access without control over model parameters. Inference-time methods such as Best-of-N (BON) sampling offer a simple yet effective alternative to improve performance. However, BON lacks iterative feedback integration mechanism. Hence, we propose Iterative Agent Decoding (IAD) which combines iterative refinement with dynamic candidate evaluation and selection guided by a verifier. IAD differs in how feedback is designed and integrated, specifically optimized to extract maximal signal from reward scores. We conduct a detailed comparison of baselines across key metrics on Sketch2Code, Text2SQL, and Webshop where IAD consistently outperforms baselines, achieving 3–6% absolute gains on Sketch2Code and Text2SQL (with and without LLM judges) and 8–10% gains on Webshop across multiple metrics. To better understand the source of IAD’s gains, we perform controlled experiments to disentangle the effect of adaptive feedback from stochastic sampling, and find that IAD’s improvements are primarily driven by verifier-guided refinement, not merely sampling diversity. We also show that both IAD and BON exhibit inference-time scaling with increased compute when guided by an optimal verifier. Our analysis highlights the critical role of verifier quality in effective inference-time optimization and examines the impact of noisy and sparse rewards on scaling behavior. Together, these findings offer key insights into the trade-offs and principles of effective inference-time optimization.

arxiv情報

著者 Souradip Chakraborty,Mohammadreza Pourreza,Ruoxi Sun,Yiwen Song,Nino Scherrer,Jindong Gu,Furong Huang,Amrit Singh Bedi,Ahmad Beirami,Hamid Palangi,Tomas Pfister
発行日 2025-04-02 17:40:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク