要約
大規模言語モデル (LLM) は、さまざまな複雑なタスクにわたって顕著な熟練度を示しています。
LLM の重要な用途の 1 つは、ソフトウェア エンジニアリングの課題に取り組むこと、特にユーザーから報告された問題に基づいてコードを修正することで GitHub 上の現実世界のタスクを解決することです。
ただし、現在のアプローチの多くは独自の LLM に依存しているため、再現性、アクセシビリティ、透明性が制限されています。
ソフトウェアエンジニアリングの問題に対処するための LLM の重要なコンポーネントと、その機能を効果的に強化する方法は依然として不明です。
これらの課題に対処するために、GitHub の問題を効果的かつ効率的に解決するように設計された新しいオープンソース LLM である SWE-Fixer を紹介します。
SWE-Fixer は、コード ファイル取得モジュールとコード編集モジュールという 2 つの重要なモジュールで構成されています。
取得モジュールは、BM25 と軽量 LLM モデルを採用して、大まかなファイル取得から細かいファイル取得までを実現します。
その後、コード編集モジュールは他の LLM モデルを利用して、識別されたファイルのパッチを生成します。
次に、公開されているデータセットの不足を軽減するために、110,000 件の GitHub の問題とそれに対応するパッチを含む広範なデータセットをコンパイルし、SWE-Fixer の 2 つのモジュールを個別にトレーニングします。
SWE-Bench Lite および Verified ベンチマークでアプローチを評価し、オープンソース モデルの中でそれぞれ 23.3% と 30.2% のスコアで最先端のパフォーマンスを達成しました。
これらの結果は、私たちのアプローチの有効性を強調しています。
モデル、データセット、コードは https://github.com/InternLM/SWE-Fixer で公開します。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated remarkable proficiency across a variety of complex tasks. One significant application of LLMs is in tackling software engineering challenges, particularly in resolving real-world tasks on GitHub by fixing code based on the issues reported by the users. However, many current approaches rely on proprietary LLMs, which limits reproducibility, accessibility, and transparency. The critical components of LLMs for addressing software engineering issues and how their capabilities can be effectively enhanced remain unclear. To address these challenges, we introduce SWE-Fixer, a novel open-source LLM designed to effectively and efficiently resolve GitHub issues. SWE-Fixer comprises two essential modules: a code file retrieval module and a code editing module. The retrieval module employs BM25 along with a lightweight LLM model to achieve coarse-to-fine file retrieval. Subsequently, the code editing module utilizes the other LLM model to generate patches for the identified files. Then, to mitigate the lack of publicly available datasets, we compile an extensive dataset that includes 110K GitHub issues along with their corresponding patches, and train the two modules of SWE-Fixer separately. We assess our approach on the SWE-Bench Lite and Verified benchmarks, achieving state-of-the-art performance among open-source models with scores of 23.3% and 30.2%, respectively. These outcomes highlight the efficacy of our approach. We will make our model, dataset, and code publicly available at https://github.com/InternLM/SWE-Fixer.
arxiv情報
著者 | Chengxing Xie,Bowen Li,Chang Gao,He Du,Wai Lam,Difan Zou,Kai Chen |
発行日 | 2025-01-09 07:54:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google