PatchPilot: A Stable and Cost-Efficient Agentic Patching Framework

要約

最近の研究では、大規模な言語モデル(LLMS)と非MLツールを組み合わせたさまざまなパッチングエージェントを構築し、最先端の(SOTA)ソフトウェアパッチングベンチマークであるSWEベンチで有望な結果を達成しています。
パッチングワークフローの決定方法に基づいて、既存のパッチングエージェントは、計画のためにLLMSに依存するエージェントベースの計画方法、および事前定義されたワークフローに従う人間ベースの計画方法に分類できます。
高レベルでは、エージェントベースの計画方法は高いパッチングパフォーマンスを実現しますが、高コストと安定性が限られています。
一方、人間ベースの計画方法はより安定して効率的ですが、パッチのパフォーマンスを損なう重要なワークフロー制限があります。
この論文では、パッチの有効性、安定性、および費用効率のバランスをとるエージェントパッチャーであるPatchPilotを提案します。
PatchPilotは、複製、ローカリゼーション、生成、検証、および改良(洗練がPatchPilotに固有の場合)の5つのコンポーネントを備えた新しい人間ベースの計画ワークフローを提案しています。
各コンポーネントに斬新でカスタマイズされたデザインを紹介して、それらの有効性と効率を最適化します。
SWEベンチベンチマークでの広範な実験を通じて、PatchPilotは既存のオープンソース方法よりも優れたパフォーマンスを示し、低コスト(インスタンスあたり1ドル未満)を維持し、安定性を高めます。
また、各コンポーネントの重要な設計を検証するために、詳細なアブレーション研究も実施します。

要約(オリジナル)

Recent research builds various patching agents that combine large language models (LLMs) with non-ML tools and achieve promising results on the state-of-the-art (SOTA) software patching benchmark, SWE-Bench. Based on how to determine the patching workflows, existing patching agents can be categorized as agent-based planning methods, which rely on LLMs for planning, and human-based planning methods, which follow a pre-defined workflow. At a high level, agent-based planning methods achieve high patching performance but with a high cost and limited stability. Human-based planning methods, on the other hand, are more stable and efficient but have key workflow limitations that compromise their patching performance. In this paper, we propose PatchPilot, an agentic patcher that strikes a balance between patching efficacy, stability, and cost-efficiency. PatchPilot proposes a novel human-based planning workflow with five components: reproduction, localization, generation, validation, and refinement (where refinement is unique to PatchPilot). We introduce novel and customized designs to each component to optimize their effectiveness and efficiency. Through extensive experiments on the SWE-Bench benchmarks, PatchPilot shows a superior performance than existing open-source methods while maintaining low cost (less than 1$ per instance) and ensuring higher stability. We also conduct a detailed ablation study to validate the key designs in each component.

arxiv情報

著者 Hongwei Li,Yuheng Tang,Shiqi Wang,Wenbo Guo
発行日 2025-02-04 22:30:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.RO パーマリンク