RES-Q: Evaluating Code-Editing Large Language Model Systems at the Repository Scale

要約

大規模言語モデル (LLM) の命令追従機能により、大規模なコード リポジトリの編集などの複雑なタスクにアプローチできる LLM ベースのシステムのクラスが育成されました。
プロンプトの変更に応じた LLM の動作は感度が高く予測不可能であるため、これらのシステムの将来の反復を推進するには堅牢な評価ツールが必要です。
我々は、$\textbf{R}$epository $\textbf{E}$diting $\textbf{S}$ystems を評価するための自然言語命令ベースのベンチマークである RES-Q を提案します。これは、実際のリポジトリ編集タスクから派生した 100 個のリポジトリ編集タスクで構成されています。
GitHub がコミットします。
編集命令とコード リポジトリが与えられると、RES-Q は情報を収集し、命令で設定された基準を満たす編集を構築する LLM システムの能力を評価します。
この方法で LLM を評価することで、従来のベンチマークの問題が解決され、モデルの能力のより総合的な評価が得られると私たちは主張します。
当社では、言語エージェント開発ソフトウェアである Qurrent OS 上に構築されたリポジトリ編集システムの言語エージェントとして、さまざまな最先端の LLM を評価しています。
HumanEval では 1% pass@1 のパフォーマンス差があるにもかかわらず、Claude Sonnet 3.5 は RES-Q では 12% pass@1 で GPT-4o を上回っています。これは、従来のベンチマークが飽和に近づく中、モデルの機能を差別化する RES-Q の能力を示しています。
さらに、トークンの効率、既存のベンチマークとのパフォーマンスの関係、クローズドソースとオープンソースの LLM 間の興味深い差異を調査します。
コードとデータセットは https://github.com/Qurrent-AI/RES-Q で入手できます。

要約(オリジナル)

The instruction-following ability of Large Language Models (LLMs) has cultivated a class of LLM-based systems capable of approaching complex tasks such as making edits to large code repositories. Due to the high sensitivity and unpredictability of LLM behavior in response to changes in prompting, robust evaluation tools are needed to drive future iteration of these systems. We propose RES-Q, a natural language instruction-based benchmark for evaluating $\textbf{R}$epository $\textbf{E}$diting $\textbf{S}$ystems, which consists of 100 repository editing tasks derived from real GitHub commits. Given an edit instruction and a code repository, RES-Q evaluates an LLM system’s ability to gather information and construct an edit that satisfies the criteria set by the instruction. We argue that evaluating LLMs in this way addresses issues with traditional benchmarks and provides a more holistic assessment of a model’s abilities. We evaluate various state-of-the-art LLMs as language agents in a repository-editing system built on Qurrent OS, our language agent development software. Despite their 1% pass@1 performance difference on HumanEval, we find Claude Sonnet 3.5 outperforms GPT-4o by 12% pass@1 on RES-Q, indicating RES-Q’s capacity to differentiate model capability as traditional benchmarks approach saturation. We further investigate token efficiency, performance relationships with existing benchmarks, and interesting disparities between closed and open-source LLMs. Code and dataset are available at https://github.com/Qurrent-AI/RES-Q.

arxiv情報

著者 Beck LaBash,August Rosedale,Alex Reents,Colin Wiel
発行日 2024-06-24 17:08:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク