要約
大規模な言語モデルは、コード生成を含むさまざまなプログラミングタスクを解決する機能を示しています。
通常、LLMSのパフォーマンスは、数千行のコードの小規模または中規模のコンテキストウィンドウを持つベンチマークで測定されます。
同時に、実際のソフトウェアプロジェクトでは、リポジトリは数百万のLocに及ぶことがあります。
このペーパーでは、長いコンテキストコード生成ベンチマーク(Yabloco)に貢献することにより、このギャップを閉じます。
ベンチマークには、数千の関数を備えた4つの大規模なリポジトリから選択された215関数のテストセットが特徴でした。
データセットには、関数のメタデータ、さまざまなレベルの依存関係、ドキュメント、関数本体、および各リポジトリのグラフのコールグラフのコンテキストが含まれていました。
このペーパーでは、貢献の3つの重要な側面を紹介します。
まず、ベンチマークは、以前のベンチマークでカバーされていない2つの言語であるCおよびC ++の大規模なリポジトリの関数体生成を目的としています。
第二に、ベンチマークには200k〜2,000k locの大きなリポジトリが含まれています。
第三に、ターゲットメトリックの効率的な計算のためのスケーラブルな評価パイプラインと、生成されたコードの視覚分析のためのツールを提供します。
全体として、これらの3つの側面により、CおよびC ++の大規模なリポジトリでコード生成を評価できます。
要約(オリジナル)
Large Language Models demonstrate the ability to solve various programming tasks, including code generation. Typically, the performance of LLMs is measured on benchmarks with small or medium-sized context windows of thousands of lines of code. At the same time, in real-world software projects, repositories can span up to millions of LoC. This paper closes this gap by contributing to the long context code generation benchmark (YABLoCo). The benchmark featured a test set of 215 functions selected from four large repositories with thousands of functions. The dataset contained metadata of functions, contexts of the functions with different levels of dependencies, docstrings, functions bodies, and call graphs for each repository. This paper presents three key aspects of the contribution. First, the benchmark aims at function body generation in large repositories in C and C++, two languages not covered by previous benchmarks. Second, the benchmark contains large repositories from 200K to 2,000K LoC. Third, we contribute a scalable evaluation pipeline for efficient computing of the target metrics and a tool for visual analysis of generated code. Overall, these three aspects allow for evaluating code generation in large repositories in C and C++.
arxiv情報
著者 | Aidar Valeev,Roman Garaev,Vadim Lomshakov,Irina Piontkovskaya,Vladimir Ivanov,Israel Adewuyi |
発行日 | 2025-05-07 13:42:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google