Training Software Engineering Agents and Verifiers with SWE-Gym


実世界のソフトウェア エンジニアリング (SWE) エージェントをトレーニングするための最初の環境である SWE-Gym を紹介します。
SWE-Gym には 2,438 個の実世界の Python タスク インスタンスが含まれており、それぞれのインスタンスは、実行可能なランタイム環境、単体テスト、および自然言語で指定されたタスクを備えたコードベースで構成されています。
当社は SWE-Gym を使用して言語モデル ベースの SWE エージェントをトレーニングし、人気のある SWE-Bench Verified および Lite テスト セットで解決率の絶対的な最大 19% の向上を達成しました。
また、SWE-Gym からサンプリングされたエージェントの軌跡でトレーニングされた検証者による推論時間のスケーリングも実験します。
微調整された SWE エージェントと組み合わせると、SWE-Bench Verified および Lite でそれぞれ 32.0% と 26.0% を達成し、オープンウェイト SWE エージェントの新しい最先端を反映しています。


We present SWE-Gym, the first environment for training real-world software engineering (SWE) agents. SWE-Gym contains 2,438 real-world Python task instances, each comprising a codebase with an executable runtime environment, unit tests, and a task specified in natural language. We use SWE-Gym to train language model based SWE agents , achieving up to 19% absolute gains in resolve rate on the popular SWE-Bench Verified and Lite test sets. We also experiment with inference-time scaling through verifiers trained on agent trajectories sampled from SWE-Gym. When combined with our fine-tuned SWE agents, we achieve 32.0% and 26.0% on SWE-Bench Verified and Lite, respectively, reflecting a new state-of-the-art for open-weight SWE agents. To facilitate further research, we publicly release SWE-Gym, models, and agent trajectories.


著者 Jiayi Pan,Xingyao Wang,Graham Neubig,Navdeep Jaitly,Heng Ji,Alane Suhr,Yizhe Zhang
発行日 2024-12-30 18:15:39+00:00
arxivサイト arxiv_id(pdf)

