DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal

要約

大規模な言語モデル(LLM)は、自動化を可能にすることにより、自然言語処理、データ分析、ソフトウェア開発など、さまざまなドメインに革命をもたらしました。
ソフトウェアエンジニアリングでは、LLM駆動のコーディングエージェントは、複雑な開発タスクを自動化し、デバッグを支援し、生産性を向上させる可能性があるため、大きな注目を集めています。
ただし、既存のアプローチは、多くの場合、最適下の意思決定に苦労しており、広範な手動介入または非効率的な計算スケーリング戦略のいずれかを必要とします。
コーディングエージェントのパフォーマンスを向上させるために、コードエージェントの新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DAR)を提示します。
従来のエージェントは、線形軌道に従うか、スケーリングコンピューティングのためのランダムサンプリングに依存していますが、私たちのアプローチは、そのポイントからの前の試みの軌跡と実行フィードバックの履歴を考慮して、特定の重要な決定ポイントで軌跡を分岐することにより機能します。
SWE-Bench Lite Benchmarkでのアプローチを評価し、このスケーリング戦略がClaude 3.5 Sonnet V2で55%のパス@Kスコアを達成することを実証しています。
私たちのフレームワークは、47%のパス@1レートを達成し、最先端(SOTA)のオープンソースフレームワークを上回ります。

要約(オリジナル)

Large Language Models (LLMs) have revolutionized various domains, including natural language processing, data analysis, and software development, by enabling automation. In software engineering, LLM-powered coding agents have garnered significant attention due to their potential to automate complex development tasks, assist in debugging, and enhance productivity. However, existing approaches often struggle with sub-optimal decision-making, requiring either extensive manual intervention or inefficient compute scaling strategies. To improve coding agent performance, we present Dynamic Action Re-Sampling (DARS), a novel inference time compute scaling approach for coding agents, that is faster and more effective at recovering from sub-optimal decisions compared to baselines. While traditional agents either follow linear trajectories or rely on random sampling for scaling compute, our approach DARS works by branching out a trajectory at certain key decision points by taking an alternative action given the history of the trajectory and execution feedback of the previous attempt from that point. We evaluate our approach on SWE-Bench Lite benchmark, demonstrating that this scaling strategy achieves a pass@k score of 55% with Claude 3.5 Sonnet V2. Our framework achieves a pass@1 rate of 47%, outperforming state-of-the-art (SOTA) open-source frameworks.

arxiv情報

著者 Vaibhav Aggarwal,Ojasv Kamal,Abhinav Japesh,Zhijing Jin,Bernhard Schölkopf
発行日 2025-03-18 14:02:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク