Top General Performance = Top Domain Performance? DomainCodeBench: A Multi-domain Code Generation Benchmark

要約

大規模な言語モデル(LLMS)の急速な進歩により、LLMSのコード生成能力を調査するために広範な研究が行われました。
ただし、既存の取り組みは主に一般的なドメインタスクに焦点を当てており、現実世界のアプリケーションドメインでのLLMSのコード生成パフォーマンスを不足しています。
これは重要な疑問を提起します。モデルの一般的なドメインコーディング能力は、特殊なドメインでの能力を確実に表すことができますか?
このペーパーでは、12のソフトウェアアプリケーションドメインと15のプログラミング言語でLLMを体系的に評価するように設計されたマルチドメインコード生成ベンチマークであるDomainCodeBenchを紹介します。
DomainCodeBenchには、ドメイン固有の課題のカバレッジを確保するために、グラウンドトゥルース、ヒトが注目したドキュストリング、および細粒の依存関係情報を備えた2,400の手動検証されたタスクが含まれています。
具体的には、最初にトピックマイニングごとに最も人気のあるアプリケーションドメインを特定します。
次に、各ドメインで一般的に使用されるフレームワークとプラットフォームに基づいて、コーディングタスクをキュレートします。
10の主流LLMを使用して、DomainCodebenchでの広範な実験を通じていくつかの発見を得ます。
(1)パフォーマンス分離:実験では、最高の一般的なドメインモデルが特定のアプリケーションドメインで一貫して優れていないことが明らかになりました。
(2)ドメイン固有の弱点:LLMは、ドメインの知識のギャップとサードパーティライブラリの誤用のためにしばしば失敗します。
(3)コンテキストの強化:ドメイン固有の知識でプロンプトを増やすとパフォーマンスが約38.17%向上し、パフォーマンスの最適化のための実用的な洞察を提供することが示されます。
ベンチマーク、ソースコード、実験結果を含む当社の複製パッケージは、https://github.com/deepsoftwareanalytics/domaincodebenchで入手できます。

要約(オリジナル)

With the rapid advancement of large language models (LLMs), extensive research has been conducted to investigate the code generation capabilities of LLMs. However, existing efforts primarily focus on general-domain tasks, leaving LLMs’ code generation performance in real-world application domains underexplored. This raises a critical question: can a model’s general-domain coding ability reliably represent its ability in specialized domains? In this paper, we introduce DomainCodeBench, a multi-domain code generation benchmark designed to systematically evaluate LLMs across 12 software application domains and 15 programming languages. DomainCodeBench contains 2,400 manually verified tasks with ground truth, human-annotated docstrings, and fine-grained dependency information to ensure more coverage of domain-specific challenges. Specifically, we first identify the most popular application domains by topic mining. Then, we curate coding tasks based on commonly used frameworks and platforms in each domain. We obtain several findings through extensive experiments on DomainCodeBench with ten mainstream LLMs. (1) Performance decoupling: experiments reveal that top general-domain models do not consistently excel in specific application domains; (2) Domain-specific weaknesses: LLMs often fail due to domain knowledge gaps and third-party library misusage; (3) Contextual enhancement: we show that augmenting prompts with domain-specific knowledge improves performance by around 38.17%, providing actionable insights for performance optimization. Our replication package, including the benchmark, source code, and experimental results, is available at https://github.com/DeepSoftwareAnalytics/DomainCodeBench.

arxiv情報

著者 Dewu Zheng,Yanlin Wang,Ensheng Shi,Xilin Liu,Yuchi Ma,Hongyu Zhang,Zibin Zheng
発行日 2025-03-17 17:58:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE パーマリンク