CodeMonkeys: Scaling Test-Time Compute for Software Engineering

要約

スケーリングテスト時間計算は、LLM機能を改善するための有望な軸です。
ただし、テスト時間計算はさまざまな方法でスケーリングでき、さまざまなアプローチを効果的に組み合わせることで、研究の積極的な領域が依然として存在します。
ここでは、SWEベンチデータセットから実際のGitHubの問題を解決するという文脈でこの問題を調査します。
CodeMonkeysという名前のシステムを使用すると、ドラフト編集とともにテストスクリプトを共同で生成および実行することにより、モデルがコードベースを繰り返し編集できます。
これらのマルチターン軌跡の多くをすべての問題に対してサンプリングして、候補者の編集のコレクションを生成します。
このアプローチにより、問題ごとの軌道の数を増やすことにより、軌道ごとの反復数と「並列」テスト時間計算の数を増やすことにより、「シリアル」テスト時間計算をスケーリングできます。
並列スケーリングを使用すると、複数のダウンストリームサンプルにわたって上昇コストを償却でき、LLMにすべてのファイルを読み取らせる簡単な方法を使用して、関連するコードベースコンテキストを識別できます。
候補の編集を選択するために、モデル生成テストを使用して投票を組み合わせて、選択専用の最終的なマルチターン軌道を組み合わせます。
全体として、CodeMonkeysは、約2300 USDの予算を使用して検証されたSWEベンチからの問題の57.4%を解決します。
選択方法は、さまざまなソースの候補者を組み合わせるためにも使用できます。
既存のトップベンチ検証済みの提出から編集のアンサンブルを選択すると、66.2%のスコアが得られ、アンサンブルの最高のメンバーよりも優れています。
https://scalingintelligence.stanford.edu/pubs/codemonkeysでコードとデータを完全にリリースします。

要約(オリジナル)

Scaling test-time compute is a promising axis for improving LLM capabilities. However, test-time compute can be scaled in a variety of ways, and effectively combining different approaches remains an active area of research. Here, we explore this problem in the context of solving real-world GitHub issues from the SWE-bench dataset. Our system, named CodeMonkeys, allows models to iteratively edit a codebase by jointly generating and running a testing script alongside their draft edit. We sample many of these multi-turn trajectories for every issue to generate a collection of candidate edits. This approach lets us scale ‘serial’ test-time compute by increasing the number of iterations per trajectory and ‘parallel’ test-time compute by increasing the number of trajectories per problem. With parallel scaling, we can amortize up-front costs across multiple downstream samples, allowing us to identify relevant codebase context using the simple method of letting an LLM read every file. In order to select between candidate edits, we combine voting using model-generated tests with a final multi-turn trajectory dedicated to selection. Overall, CodeMonkeys resolves 57.4% of issues from SWE-bench Verified using a budget of approximately 2300 USD. Our selection method can also be used to combine candidates from different sources. Selecting over an ensemble of edits from existing top SWE-bench Verified submissions obtains a score of 66.2% and outperforms the best member of the ensemble on its own. We fully release our code and data at https://scalingintelligence.stanford.edu/pubs/codemonkeys.

arxiv情報

著者 Ryan Ehrlich,Bradley Brown,Jordan Juravsky,Ronald Clark,Christopher Ré,Azalia Mirhoseini
発行日 2025-01-24 18:58:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク