要約
GitHubの問題解決タスクのために大規模なデータセットを構築することは、大規模な言語モデル(LLM)のソフトウェアエンジニアリング機能のトレーニングと評価の両方に重要です。
ただし、このようなベンチマークを作成するための従来のプロセスは、特に評価環境のセットアップ、テストの結果の採点、およびタスクインスタンスの検証の段階で、挑戦的で労働集約的であることで有名です。
この論文では、これらの課題に対処するために設計された自動化されたパイプラインであるSWEファクトリーを提案します。
これらの問題に取り組むために、パイプラインは3つのコア自動化されたコンポーネントを統合します。
まず、評価環境構造を自動化するマルチエージェントシステムであるSwe-Builderを紹介します。これは、共同の反復ループで機能し、環境メモリプールを活用して効率を高めるために環境メモリプールを活用します。
第二に、手動でカスタムパーサーを書く必要性を排除する標準化された出口コードベースのグレーディング方法を導入します。
最後に、これらの信頼できる出口コード信号を使用して、Fail2Pass検証プロセスを自動化します。
4つのプログラミング言語にわたる671の問題に関する実験は、パイプラインが有効なタスクインスタンスを効果的に構築できることを示しています。
たとえば、GPT-4.1-MINIでは、SWEビルダーがインスタンスあたり0.045ドルで269の有効なインスタンスを構築しますが、Gemini-2.5-Flashでは、インスタンスあたり0.024ドルの最低コストで同等のパフォーマンスを達成します。
また、出口コードベースのグレーディングは、手動検査と比較して100%の精度を達成し、自動化されたFail2Pass検証が0.92の精度と1.00のリコールに達することを実証します。
自動化されたパイプラインが、トレーニングと評価の両方のために、大規模で高品質のGitHub発行解決データセットのコレクションを加速することを願っています。
コードとデータセットはhttps://github.com/deepsoftwareanalytics/swefactoryでリリースされます。
要約(オリジナル)
Constructing large-scale datasets for the GitHub issue resolution task is crucial for both training and evaluating the software engineering capabilities of Large Language Models (LLMs). However, the traditional process for creating such benchmarks is notoriously challenging and labor-intensive, particularly in the stages of setting up evaluation environments, grading test outcomes, and validating task instances. In this paper, we propose SWE-Factory, an automated pipeline designed to address these challenges. To tackle these issues, our pipeline integrates three core automated components. First, we introduce SWE-Builder, a multi-agent system that automates evaluation environment construction, which employs four specialized agents that work in a collaborative, iterative loop and leverages an environment memory pool to enhance efficiency. Second, we introduce a standardized, exit-code-based grading method that eliminates the need for manually writing custom parsers. Finally, we automate the fail2pass validation process using these reliable exit code signals. Experiments on 671 issues across four programming languages show that our pipeline can effectively construct valid task instances; for example, with GPT-4.1-mini, our SWE-Builder constructs 269 valid instances at $0.045 per instance, while with Gemini-2.5-flash, it achieves comparable performance at the lowest cost of $0.024 per instance. We also demonstrate that our exit-code-based grading achieves 100% accuracy compared to manual inspection, and our automated fail2pass validation reaches a precision of 0.92 and a recall of 1.00. We hope our automated pipeline will accelerate the collection of large-scale, high-quality GitHub issue resolution datasets for both training and evaluation. Our code and datasets are released at https://github.com/DeepSoftwareAnalytics/swe-factory.
arxiv情報
著者 | Lianghong Guo,Yanlin Wang,Caihua Li,Pengyu Yang,Jiachi Chen,Wei Tao,Yingtian Zou,Duyu Tang,Zibin Zheng |
発行日 | 2025-06-12 17:54:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google