要約
テスト駆動型開発(TDD)に基づいた新しいデータ合成フレームワークである** Swe-Flow **を紹介します。
既存のソフトウェアエンジニアリングデータとは異なり、人間がサビされた問題に依存すると、** swe-flow **は、本質的に高レベルの要件をカプセル化するユニットテストから直接的な開発ステップを自動的に導きます。
** swe-flow **のコアは、機能相互作用を正確にキャプチャし、構造化された段階的な*開発スケジュール*の生成を可能にするランタイム依存性グラフ(RDG)の構築です。
各ステップで、** swe-flow **は、部分的なコードベース、対応する単位テスト、および必要なコード変更を生成し、完全に検証可能なTDDタスクをもたらします。
このアプローチにより、実際のGitHubプロジェクトから16,061のトレーニングインスタンスと2,020のテストインスタンスを生成し、** swe-flow-val **ベンチマークを作成しました。
私たちの実験は、このデータセットの微調整オープンモデルがTDDベースのコーディングのパフォーマンスを大幅に改善することを示しています。
さらなる調査を容易にするために、[github](https://github.com/hambaobao/swe-flow)ですべてのコード、データセット、モデル、およびDocker画像をリリースします。
要約(オリジナル)
We introduce **SWE-Flow**, a novel data synthesis framework grounded in Test-Driven Development (TDD). Unlike existing software engineering data that rely on human-submitted issues, **SWE-Flow** automatically infers incremental development steps directly from unit tests, which inherently encapsulate high-level requirements. The core of **SWE-Flow** is the construction of a Runtime Dependency Graph (RDG), which precisely captures function interactions, enabling the generation of a structured, step-by-step *development schedule*. At each step, **SWE-Flow** produces a partial codebase, the corresponding unit tests, and the necessary code modifications, resulting in fully verifiable TDD tasks. With this approach, we generated 16,061 training instances and 2,020 test instances from real-world GitHub projects, creating the **SWE-Flow-Eval** benchmark. Our experiments show that fine-tuning open model on this dataset significantly improves performance in TDD-based coding. To facilitate further research, we release all code, datasets, models, and Docker images at [Github](https://github.com/Hambaobao/SWE-Flow).
arxiv情報
著者 | Lei Zhang,Jiaxi Yang,Min Yang,Jian Yang,Mouxiang Chen,Jiajun Zhang,Zeyu Cui,Binyuan Hui,Junyang Lin |
発行日 | 2025-06-11 03:30:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google