要約
最近のDeepSeek-R1リリースは、大規模な言語モデル(LLMS)の一般的な推論能力を高める上で、強化学習(RL)の計り知れない可能性を実証しています。
DeepSeek-R1およびその他のフォローアップ作業は、主にRLを競争力のあるコーディングと数学の問題に適用することに焦点を当てていますが、このホワイトペーパーでは、RLベースのLLM推論の最初のアプローチであるSWE-RLを実世界のソフトウェアエンジニアリングに導入します。
SWE-RLは、軽量のルールベースの報酬を活用して(例:グラウンドトゥルースとLLM生成ソリューションの間の類似性スコア)、LLMが大規模なオープンソースソフトウェア進化データから学習することにより、開発者の推論プロセスとソリューションを自律的に回復できるようにすることができます –
コードスナップショット、コードの変更、問題やプル要求などのイベントなど、ソフトウェアのライフサイクル全体の記録。
Llama 3の上で訓練された結果として、結果として得られる推論モデルであるLlama3-Swe-RL-70Bは、SWE-Bench検証の41.0%の解決率を達成します。
私たちの知る限り、これはこれまでの中規模(<100b)LLMについて報告されている最高のパフォーマンスであり、GPT-4oのような主要な独自のLLMに匹敵します。
驚くべきことに、ソフトウェアの進化データのみでRLを実行しているにもかかわらず、LLAMA3-SWE-RLは、一般化された推論スキルでも登場しています。
たとえば、5つのドメイン外のタスク、つまり、機能コーディング、ライブラリの使用、コード推論、数学、および一般的な言語理解の結果が改善されていますが、監督された財政ベースラインは平均してパフォーマンスの低下につながります。
全体として、SWE-RLは、大規模なソフトウェアエンジニアリングデータの強化学習を通じて、LLMSの推論機能を改善するための新しい方向性を開きます。
要約(オリジナル)
The recent DeepSeek-R1 release has demonstrated the immense potential of reinforcement learning (RL) in enhancing the general reasoning capabilities of large language models (LLMs). While DeepSeek-R1 and other follow-up work primarily focus on applying RL to competitive coding and math problems, this paper introduces SWE-RL, the first approach to scale RL-based LLM reasoning for real-world software engineering. Leveraging a lightweight rule-based reward (e.g., the similarity score between ground-truth and LLM-generated solutions), SWE-RL enables LLMs to autonomously recover a developer’s reasoning processes and solutions by learning from extensive open-source software evolution data — the record of a software’s entire lifecycle, including its code snapshots, code changes, and events such as issues and pull requests. Trained on top of Llama 3, our resulting reasoning model, Llama3-SWE-RL-70B, achieves a 41.0% solve rate on SWE-bench Verified — a human-verified collection of real-world GitHub issues. To our knowledge, this is the best performance reported for medium-sized (<100B) LLMs to date, even comparable to leading proprietary LLMs like GPT-4o. Surprisingly, despite performing RL solely on software evolution data, Llama3-SWE-RL has even emerged with generalized reasoning skills. For example, it shows improved results on five out-of-domain tasks, namely, function coding, library use, code reasoning, mathematics, and general language understanding, whereas a supervised-finetuning baseline even leads to performance degradation on average. Overall, SWE-RL opens up a new direction to improve the reasoning capabilities of LLMs through reinforcement learning on massive software engineering data.
arxiv情報
著者 | Yuxiang Wei,Olivier Duchenne,Jade Copet,Quentin Carbonneaux,Lingming Zhang,Daniel Fried,Gabriel Synnaeve,Rishabh Singh,Sida I. Wang |
発行日 | 2025-02-25 18:45:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google