SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution

要約

最近のDeepSeek-R1リリースは、大規模な言語モデル(LLMS)の一般的な推論能力を高める上で、強化学習(RL)の計り知れない可能性を実証しています。
DeepSeek-R1およびその他のフォローアップ作業は、主にRLを競争力のあるコーディングと数学の問題に適用することに焦点を当てていますが、このホワイトペーパーでは、RLベースのLLM推論の最初のアプローチであるSWE-RLを実世界のソフトウェアエンジニアリングに導入します。
SWE-RLは、軽量のルールベースの報酬を活用して(例:グラウンドトゥルースとLLM生成ソリューションの間の類似性スコア)、LLMが大規模なオープンソースソフトウェア進化データから学習することにより、開発者の推論プロセスとソリューションを自律的に回復できるようにすることができます –
コードスナップショット、コードの変更、問題やプル要求などのイベントなど、ソフトウェアのライフサイクル全体の記録。
Llama 3の上で訓練された結果として、結果として得られる推論モデルであるLlama3-Swe-RL-70Bは、SWE-Bench検証の41.0%の解決率を達成します。
私たちの知る限り、これはこれまでの中規模(<100b)LLMについて報告されている最高のパフォーマンスであり、GPT-4oのような主要な独自のLLMに匹敵します。 驚くべきことに、ソフトウェアの進化データのみでRLを実行しているにもかかわらず、LLAMA3-SWE-RLは、一般化された推論スキルでも登場しています。 たとえば、5つのドメイン外のタスク、つまり、機能コーディング、ライブラリの使用、コード推論、数学、および一般的な言語理解の結果が改善されていますが、監督された財政ベースラインは平均してパフォーマンスの低下につながります。 全体として、SWE-RLは、大規模なソフトウェアエンジニアリングデータの強化学習を通じて、LLMSの推論機能を改善するための新しい方向性を開きます。

要約(オリジナル)

The recent DeepSeek-R1 release has demonstrated the immense potential of reinforcement learning (RL) in enhancing the general reasoning capabilities of large language models (LLMs). While DeepSeek-R1 and other follow-up work primarily focus on applying RL to competitive coding and math problems, this paper introduces SWE-RL, the first approach to scale RL-based LLM reasoning for real-world software engineering. Leveraging a lightweight rule-based reward (e.g., the similarity score between ground-truth and LLM-generated solutions), SWE-RL enables LLMs to autonomously recover a developer’s reasoning processes and solutions by learning from extensive open-source software evolution data — the record of a software’s entire lifecycle, including its code snapshots, code changes, and events such as issues and pull requests. Trained on top of Llama 3, our resulting reasoning model, Llama3-SWE-RL-70B, achieves a 41.0% solve rate on SWE-bench Verified — a human-verified collection of real-world GitHub issues. To our knowledge, this is the best performance reported for medium-sized (<100B) LLMs to date, even comparable to leading proprietary LLMs like GPT-4o. Surprisingly, despite performing RL solely on software evolution data, Llama3-SWE-RL has even emerged with generalized reasoning skills. For example, it shows improved results on five out-of-domain tasks, namely, function coding, library use, code reasoning, mathematics, and general language understanding, whereas a supervised-finetuning baseline even leads to performance degradation on average. Overall, SWE-RL opens up a new direction to improve the reasoning capabilities of LLMs through reinforcement learning on massive software engineering data.

arxiv情報

著者 Yuxiang Wei,Olivier Duchenne,Jade Copet,Quentin Carbonneaux,Lingming Zhang,Daniel Fried,Gabriel Synnaeve,Rishabh Singh,Sida I. Wang
発行日 2025-02-25 18:45:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE パーマリンク