要約
大規模な言語モデル(LLM)の最近の進歩により、研究者はソフトウェアエンジニアリングドメインの実用的なリポジトリレベルのタスクに焦点を当てることができました。
この作業では、ソフトウェアリポジトリと環境のセットアップで作業を自動化するための基礎タスク、つまりシステム上のリポジトリ固有の開発環境を構成するタスクを検討します。
環境のセットアップに関する既存の研究では、革新的なエージェント戦略が導入されていますが、その評価は、実際に遭遇したすべての構成の課題をキャプチャしない可能性のある小さなデータセットに基づいていることがよくあります。
このギャップに対処するために、包括的な環境セットアップベンチマークEnvenchを紹介します。
329のPythonと665 JVMベースの(Java、Kotlin)リポジトリが含まれ、単純な決定論的スクリプトで完全に構成できるプロジェクトを除き、本物の構成の課題を提示するリポジトリに焦点を当てています。
モデルチューニングのためのさらなるベンチマーク拡張機能と使用を可能にするために、2つの自動メトリックを実装します。Pythonの不足しているインポートの静的分析チェックとJVM言語のコンパイルチェック。
単純なゼロショットベースラインと2つのエージェントワークフローを含む3つの環境セットアップアプローチを評価することにより、ベンチマークの適用性を実証し、2つの強力なLLMバックボーン、GPT-4OとGPT-4O-MINIでテストします。
最良のアプローチは、Pythonの6.69%のリポジトリとJVMの29.47%のリポジトリを正常に構成することに成功しており、Envenchは現在のアプローチに挑戦し続けていることを示唆しています。
当社のベンチマークスイートは、https://github.com/jetbrains-research/envbenchで公開されています。
データセットと実験の軌跡は、https://jb.gg/envbenchで入手できます。
要約(オリジナル)
Recent advances in Large Language Models (LLMs) have enabled researchers to focus on practical repository-level tasks in software engineering domain. In this work, we consider a cornerstone task for automating work with software repositories-environment setup, i.e., a task of configuring a repository-specific development environment on a system. Existing studies on environment setup introduce innovative agentic strategies, but their evaluation is often based on small datasets that may not capture the full range of configuration challenges encountered in practice. To address this gap, we introduce a comprehensive environment setup benchmark EnvBench. It encompasses 329 Python and 665 JVM-based (Java, Kotlin) repositories, with a focus on repositories that present genuine configuration challenges, excluding projects that can be fully configured by simple deterministic scripts. To enable further benchmark extension and usage for model tuning, we implement two automatic metrics: a static analysis check for missing imports in Python and a compilation check for JVM languages. We demonstrate the applicability of our benchmark by evaluating three environment setup approaches, including a simple zero-shot baseline and two agentic workflows, that we test with two powerful LLM backbones, GPT-4o and GPT-4o-mini. The best approach manages to successfully configure 6.69% repositories for Python and 29.47% repositories for JVM, suggesting that EnvBench remains challenging for current approaches. Our benchmark suite is publicly available at https://github.com/JetBrains-Research/EnvBench. The dataset and experiment trajectories are available at https://jb.gg/envbench.
arxiv情報
著者 | Aleksandra Eliseeva,Alexander Kovrigin,Ilia Kholkin,Egor Bogomolov,Yaroslav Zharov |
発行日 | 2025-03-18 17:19:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google