要約
大規模な言語モデル(LLM)は、さまざまな複雑なタスクで顕著な習熟度を示しています。
LLMSの重要なアプリケーションの1つは、特にユーザーが報告した問題に基づいてコードを修正することにより、GitHubの実際のタスクを解決することです。
ただし、現在の多くのアプローチは独自のLLMに依存しており、再現性、アクセシビリティ、および透明性を制限しています。
ソフトウェアエンジニアリングの問題に対処するためのLLMSの重要なコンポーネントと、その機能を効果的に強化する方法は不明のままです。
これらの課題に対処するために、GitHubの問題を効果的かつ効率的に解決するように設計された新しいオープンソースフレームワークであるSWE-Fixerを紹介します。
SWE-Fixerは、コードファイル取得モジュールとコード編集モジュールの2つの重要なモジュールで構成されています。
検索モジュールは、BM25を使用して軽量モデルを使用して、粗からファインへのファイル検索を実現します。
その後、コード編集モジュールは他のモデルを使用して、識別されたファイルのパッチを生成します。
公開されているデータセットの欠如を軽減するために、110K Githubの問題を含む広範なデータセットをコンパイルし、対応するパッチとSWE-Fixerの2つのモデルを個別にトレーニングします。
SWEベンチライトと検証されたベンチマークでのアプローチを評価し、22.0%と30.2%のスコアでオープンソースモデル間で競争力のあるパフォーマンスを達成しました。
さらに、SWE-Fixerは、PASS_TO_PASS(P2P)フィルタリングを使用して、最先端のパフォーマンス(Liteで24.7%、検証で32.8%)に達します。
さらに、私たちのアプローチでは、インスタンスごとに2つのモデル呼び出しのみが必要であり、既存の方法よりもはるかに効率的になります。
これらの結果は、実際のコード固定シナリオにおけるSWE-Fixerの有効性を強調しています。
モデル、データセット、およびコードをhttps://github.com/internlm/swe-fixerで公開します。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated remarkable proficiency across a variety of complex tasks. One significant application of LLMs is in tackling software engineering challenges, particularly in resolving real-world tasks on GitHub by fixing code based on the issues reported by the users. However, many current approaches rely on proprietary LLMs, which limits reproducibility, accessibility, and transparency. The critical components of LLMs for addressing software engineering issues and how their capabilities can be effectively enhanced remain unclear. To address these challenges, we introduce SWE-Fixer, a novel open-source framework designed to effectively and efficiently resolve GitHub issues. SWE-Fixer comprises two essential modules: a code file retrieval module and a code editing module. The retrieval module employs BM25 along with a lightweight model to achieve coarse-to-fine file retrieval. Subsequently, the code editing module utilizes the other model to generate patches for the identified files. To mitigate the lack of publicly available datasets, we compile an extensive dataset that includes 110K GitHub issues along with their corresponding patches and train the two models of SWE-Fixer separately. We assess our approach on the SWE-Bench Lite and Verified benchmarks, achieving competitive performance among open-source models with scores of 22.0% and 30.2%. Furthermore, SWE-Fixer reaches state-of-the-art performance (24.7% on Lite and 32.8% on Verified) with PASS_TO_PASS (P2P) filtering. Additionally, our approach requires only two model calls per instance, making it significantly more efficient than existing methods. These results highlight the effectiveness of SWE-Fixer in real-world code-fixing scenarios. We will make our model, dataset, and code publicly available at https://github.com/InternLM/SWE-Fixer.
arxiv情報
著者 | Chengxing Xie,Bowen Li,Chang Gao,He Du,Wai Lam,Difan Zou,Kai Chen |
発行日 | 2025-05-07 04:06:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google