要約
コード大規模な言語モデル(Codellms)とエージェントは、従来のソフトウェアエンジニアリング方法と格付けされた複雑なソフトウェアエンジニアリングタスクに取り組むことに大きな期待を示しており、Codellmsとエージェントはより強力な能力を提供し、自然とコードの両方で入力と出力を柔軟に処理できます。
ベンチマークは、Codellmsとエージェントの機能を評価し、開発と展開を導く上で重要な役割を果たします。
しかし、その重要性の高まりにもかかわらず、Codellmsとエージェントのベンチマークの包括的なレビューが残っています。
このギャップを埋めるために、このペーパーでは、Codellmsとエージェントの既存のベンチマークの包括的なレビューを提供し、461の関連する論文から181のベンチマークを研究および分析し、ソフトウェア開発ライフサイクル(SDLC)のさまざまなフェーズをカバーします。
私たちの調査結果は、現在のベンチマークのカバレッジにおける顕著な不均衡を明らかにし、SDLCのソフトウェア開発フェーズに約60%焦点を合わせていますが、要件エンジニアリングとソフトウェアの設計フェーズは、それぞれ5%と3%のみで最小限の注目を集めています。
さらに、Pythonは、レビューされたベンチマーク全体で支配的なプログラミング言語として登場します。
最後に、このペーパーでは、現在の研究の課題を強調し、将来の方向性を提案し、Codellmsとエージェントの理論的能力と現実世界のシナリオでの適用の間のギャップを狭めることを目指しています。
要約(オリジナル)
Code large language models (CodeLLMs) and agents have shown great promise in tackling complex software engineering tasks.Compared to traditional software engineering methods, CodeLLMs and agents offer stronger abilities, and can flexibly process inputs and outputs in both natural and code. Benchmarking plays a crucial role in evaluating the capabilities of CodeLLMs and agents, guiding their development and deployment. However, despite their growing significance, there remains a lack of comprehensive reviews of benchmarks for CodeLLMs and agents. To bridge this gap, this paper provides a comprehensive review of existing benchmarks for CodeLLMs and agents, studying and analyzing 181 benchmarks from 461 relevant papers, covering the different phases of the software development life cycle (SDLC). Our findings reveal a notable imbalance in the coverage of current benchmarks, with approximately 60% focused on the software development phase in SDLC, while requirements engineering and software design phases receive minimal attention at only 5% and 3%, respectively. Additionally, Python emerges as the dominant programming language across the reviewed benchmarks. Finally, this paper highlights the challenges of current research and proposes future directions, aiming to narrow the gap between the theoretical capabilities of CodeLLMs and agents and their application in real-world scenarios.
arxiv情報
著者 | Kaixin Wang,Tianlin Li,Xiaoyu Zhang,Chong Wang,Weisong Sun,Yang Liu,Bin Shi |
発行日 | 2025-05-08 14:27:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google