CoSQA+: Pioneering the Multi-Choice Code Search Benchmark with Test-Driven Agents

要約

セマンティックコード検索、特定の自然言語クエリに一致するコードの取得は、ソフトウェアエンジニアリングの生産性を向上させるための重要なタスクです。
既存のコード検索データセットは制限に直面しています。これらは、機能的検証ではなくセマンティック理解を通じて主にコードを評価する人間のアノテーターに依存しており、潜在的な不正確さとスケーラビリティの問題につながります。
さらに、現在の評価メトリックは、多くの場合、コード検索のマルチ選択性を見落としています。
このペーパーでは、COSQA+を紹介し、COSQAの高品質のクエリを複数の適切なコードとペアリングします。
複数のモデルベースの候補選択と、新しいテスト駆動型エージェントアノテーションシステムを備えた自動パイプラインを開発します。
単一の大手言語モデル(LLM)アノテーターとPythonの専門家アノテーター(テストベースの検証なし)の中で、エージェントはテストベースの検証を活用し、96.4%の最高精度を達成します。
大規模な実験を通じて、COSQA+はCOSQAよりも優れた品質を実証しています。
COSQA+展示でトレーニングされたモデルは、パフォーマンスを向上させます。
https://github.com/deepsoftwareanalytics/cosqa_plusでコードとデータを提供します。

要約(オリジナル)

Semantic code search, retrieving code that matches a given natural language query, is an important task to improve productivity in software engineering. Existing code search datasets face limitations: they rely on human annotators who assess code primarily through semantic understanding rather than functional verification, leading to potential inaccuracies and scalability issues. Additionally, current evaluation metrics often overlook the multi-choice nature of code search. This paper introduces CoSQA+, pairing high-quality queries from CoSQA with multiple suitable codes. We develop an automated pipeline featuring multiple model-based candidate selections and the novel test-driven agent annotation system. Among a single Large Language Model (LLM) annotator and Python expert annotators (without test-based verification), agents leverage test-based verification and achieve the highest accuracy of 96.4%. Through extensive experiments, CoSQA+ has demonstrated superior quality over CoSQA. Models trained on CoSQA+ exhibit improved performance. We provide the code and data at https://github.com/DeepSoftwareAnalytics/CoSQA_Plus.

arxiv情報

著者 Jing Gong,Yanghui Wu,Linxi Liang,Jiachi Chen,Mingwei Liu,Yanlin Wang,Zibin Zheng
発行日 2025-02-19 17:12:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.SE, D.2.3 パーマリンク