要約
主流の問題解決フレームワークは主に商業モデルに依存しており、高コストとプライバシーの懸念につながります。
問題を解決するための既存のトレーニングアプローチは、貧弱な一般化との闘争を解決し、オープンソース開発リソースを完全に活用できません。
LLMSの問題解決能力を強化するための新しいトレーニングアプローチである、サブタスク指向の強化微調整(Sorft)を提案します。
ファイルのローカリゼーション、関数のローカリゼーション、ラインローカリゼーション、およびコード編集生成など、構造化されたサブタスクへの解決の問題を分解します。
Sorftは、2つのトレーニング段階で構成されています:(1)拒絶反応サンプリングされた監視された微調整された思考の連鎖(COT)データは、LLMを微調整する前に地上虚偽を使用してフィルタリングされ、(2)PPOを地上真実ベースの報酬とレバレッジするルールベースの補強学習。
SWEベンチ検証済みおよびSWEベンチライトの魔術訓練モデルを評価し、オープンソースモデルで最先端の(SOTA)性能を達成します(たとえば、SORFT-QWEN-7Bで検証されたSWEベンチの21.4%の問題を解決します)。
実験結果は、魔術が問題解決パフォーマンスを大幅に向上させ、モデルの一般化を改善し、商業モデルに代わる費用効率の高い代替を提供することを示しています。
要約(オリジナル)
Mainstream issue-resolving frameworks predominantly rely on commercial models, leading to high costs and privacy concerns. Existing training approaches for issue resolving struggle with poor generalization and fail to fully leverage open-source development resources. We propose Subtask-oriented Reinforced Fine-Tuning (SoRFT), a novel training approach to enhance the issue resolving capability of LLMs. We decomposes issue resolving into structured subtasks: file localization, function localization, line localization, and code edit generation. SoRFT consists of two training stages: (1) rejection-sampled supervised fine-tuning, Chain of Thought (CoT) data is filtered using ground-truth before fine-tuning the LLM, and (2) rule-based reinforcement learning, which leverages PPO with ground-truth based rewards. We evaluate the SoRFT-trained model on SWE-Bench Verified and SWE-Bench Lite, achieving state-of-the-art (SOTA) performance among open-source models (e.g., resolve 21.4% issues on SWE-Bench Verified with SoRFT-Qwen-7B). The experimental results demonstrate that SoRFT significantly enhances issue-resolving performance, improves model generalization, and provides a cost-efficient alternative to commercial models.
arxiv情報
著者 | Zexiong Ma,Chao Peng,Pengfei Gao,Xiangxin Meng,Yanzhen Zou,Bing Xie |
発行日 | 2025-02-27 14:19:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google