要約
GitHub の問題解決はソフトウェア エンジニアリングにおける重要なタスクであり、最近産業界と学術界の両方で大きな注目を集めています。
このタスクの中で、大規模言語モデル (LLM) の問題解決能力を評価するために SWE ベンチがリリースされましたが、これまでのところ Python バージョンのみに焦点を当てています。
ただし、業界では強い需要があるため、より多くのプログラミング言語をサポートすることも重要です。
多言語サポートに向けた最初のステップとして、SWE-bench-java と呼ばれる SWE-bench の Java バージョンを開発しました。
私たちは、対応する Docker ベースの評価環境およびリーダーボードとともにデータセットを一般公開しました。これらは今後数か月間継続的に維持および更新される予定です。
SWE-bench-java の信頼性を検証するために、古典的なメソッド SWE-agent を実装し、その上でいくつかの強力な LLM をテストします。
周知のとおり、高品質の多言語ベンチマークの開発には時間と労力がかかります。そのため、反復と改良を加速し、完全に自動化されたプログラミングへの道を開くために、プル リクエストやコラボレーションを通じた貢献を歓迎します。
要約(オリジナル)
GitHub issue resolving is a critical task in software engineering, recently gaining significant attention in both industry and academia. Within this task, SWE-bench has been released to evaluate issue resolving capabilities of large language models (LLMs), but has so far only focused on Python version. However, supporting more programming languages is also important, as there is a strong demand in industry. As a first step toward multilingual support, we have developed a Java version of SWE-bench, called SWE-bench-java. We have publicly released the dataset, along with the corresponding Docker-based evaluation environment and leaderboard, which will be continuously maintained and updated in the coming months. To verify the reliability of SWE-bench-java, we implement a classic method SWE-agent and test several powerful LLMs on it. As is well known, developing a high-quality multi-lingual benchmark is time-consuming and labor-intensive, so we welcome contributions through pull requests or collaboration to accelerate its iteration and refinement, paving the way for fully automated programming.
arxiv情報
著者 | Daoguang Zan,Zhirong Huang,Ailun Yu,Shaoxin Lin,Yifan Shi,Wei Liu,Dong Chen,Zongshuai Qi,Hao Yu,Lei Yu,Dezhi Ran,Muhan Zeng,Bo Shen,Pan Bian,Guangtai Liang,Bei Guan,Pengjie Huang,Tao Xie,Yongji Wang,Qianxiang Wang |
発行日 | 2024-08-26 15:30:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google