SWE-Dev: Evaluating and Training Autonomous Feature-Driven Software Development

要約

大規模な言語モデル(LLM)は、多様なソフトウェアエンジニアリングタスクに強い能力を示しています。
コードの完了、バグの修正、およびドキュメント生成。
ただし、大規模な既存のコードベースの新しい機能の開発を伴う非常に一般的な現実世界のタスクである機能駆動型開発(FDD)は、採用されていないままです。
したがって、実際の特徴開発タスクで自律的なコーディングシステムを評価およびトレーニングするために設計された最初の大規模なデータセット(14,000のトレーニングと500のテストサンプルを備えた)であるSWE-DEVを紹介します。
検証可能で多様なトレーニングを確保するために、SWE-DEVはすべてのインスタンスに実行可能な環境とその開発者が執筆した実行可能ユニットテストをユニークに提供します。
このコレクションは、監視付き微調整(SFT)の高品質データを提供するだけでなく、実行可能な単体テストから正確な報酬信号を提供することにより、強化学習(RL)を可能にします。
17のチャットボットLLMS、10の推論モデル、および10のマルチエージェントシステム(MAS)をカバーするSWE-DEVに関する広範な評価は、FDDが現在のAIにとって非常に挑戦的なフロンティアであることを明らかにしています(たとえば、Claude-3.7-Sonnetは、ハードテスト分割で22.45 \%パス@3を達成します)。
重要なことに、SWE-DEVがモデル改善の効果的なプラットフォームとして機能することを実証します。トレーニングセットでの微調整により、\ textIT {hard}のGPT-4oに匹敵する7bモデルが可能になり、高品質のトレーニングデータの値を強調します。
コードはここで入手できます\ href {https://github.com/justlittlewhite/swe-dev} {https://github.com/justlittlewhite/swe-dev}。

要約(オリジナル)

Large Language Models (LLMs) have shown strong capability in diverse software engineering tasks, e.g. code completion, bug fixing, and document generation. However, feature-driven development (FDD), a highly prevalent real-world task that involves developing new functionalities for large, existing codebases, remains underexplored. We therefore introduce SWE-Dev, the first large-scale dataset (with 14,000 training and 500 test samples) designed to evaluate and train autonomous coding systems on real-world feature development tasks. To ensure verifiable and diverse training, SWE-Dev uniquely provides all instances with a runnable environment and its developer-authored executable unit tests. This collection not only provides high-quality data for Supervised Fine-Tuning (SFT), but also enables Reinforcement Learning (RL) by delivering accurate reward signals from executable unit tests. Our extensive evaluations on SWE-Dev, covering 17 chatbot LLMs, 10 reasoning models, and 10 Multi-Agent Systems (MAS), reveal that FDD is a profoundly challenging frontier for current AI (e.g., Claude-3.7-Sonnet achieves only 22.45\% Pass@3 on the hard test split). Crucially, we demonstrate that SWE-Dev serves as an effective platform for model improvement: fine-tuning on training set enabled a 7B model comparable to GPT-4o on \textit{hard} split, underscoring the value of its high-quality training data. Code is available here \href{https://github.com/justLittleWhite/SWE-Dev}{https://github.com/justLittleWhite/SWE-Dev}.

arxiv情報

著者 Yaxin Du,Yuzhu Cai,Yifan Zhou,Cheng Wang,Yu Qian,Xianghe Pang,Qian Liu,Yue Hu,Siheng Chen
発行日 2025-05-22 17:51:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE パーマリンク