要約
最先端の大規模な言語モデル(LLMS)は、印象的なコード生成機能を実証していますが、コードレビューに対処するためのソースコードを改訂し、実際の使用を妨げるなどの実世界のソフトウェアエンジニアリングタスクに苦労しています。
コードレビューのコメントは、多くの場合、暗黙的で曖昧で口語的であり、コードと人間の意図の両方を把握するためにモデルが必要です。
この課題では、技術的なコンテキストと会話の両方のコンテキストを橋渡しする大規模な言語モデルの能力を評価する必要があります。
既存の作業では、これらのコメントを解決するために自動コード洗練(ACR)タスクを採用していますが、現在の評価方法は不足しており、モデルの障害に関する限られた洞察を提供し、データ汚染のトレーニングを受けやすいテキストマッチングメトリックに依存しています。
これらの制限に対処するために、モデル能力の細かい評価を実施し、データ汚染のリスクを軽減できる新しい評価ベンチマーク$ \ textbf {codereviewqa} $を導入します。
codereviewqaでは、コード洗練の生成タスクを$ \ textbf {3つの本質的な推論手順} $:$ \ textit {change type承認} $(ctr)、$ \ textit {cand} $(cl)、および$ \ textIt {solution dolution識別} $(si)に分解します。
各ステップは、さまざまな難易度レベルを持つ複数選択の質問として再定式化され、モデル能力の正確な評価を可能にしながら、データ汚染のリスクを軽減します。
当社の包括的な評価は、最近、$ \ textBf {900手動でキュレーションされた高品質の例で、9つのプログラミング言語にわたって大規模な言語モデルをリリースしました。
私たちの結果は、CodereViewQAがコードレビューの理解に特定のモデルの弱点を公開できることを示しています。
要約(オリジナル)
State-of-the-art large language models (LLMs) have demonstrated impressive code generation capabilities but struggle with real-world software engineering tasks, such as revising source code to address code reviews, hindering their practical use. Code review comments are often implicit, ambiguous, and colloquial, requiring models to grasp both code and human intent. This challenge calls for evaluating large language models’ ability to bridge both technical and conversational contexts. While existing work has employed the automated code refinement (ACR) task to resolve these comments, current evaluation methods fall short, relying on text matching metrics that provide limited insight into model failures and remain susceptible to training data contamination. To address these limitations, we introduce a novel evaluation benchmark, $\textbf{CodeReviewQA}$ that enables us to conduct fine-grained assessment of model capabilities and mitigate data contamination risks. In CodeReviewQA, we decompose the generation task of code refinement into $\textbf{three essential reasoning steps}$: $\textit{change type recognition}$ (CTR), $\textit{change localisation}$ (CL), and $\textit{solution identification}$ (SI). Each step is reformulated as multiple-choice questions with varied difficulty levels, enabling precise assessment of model capabilities, while mitigating data contamination risks. Our comprehensive evaluation spans 72 recently released large language models on $\textbf{900 manually curated, high-quality examples}$ across nine programming languages. Our results show that CodeReviewQA is able to expose specific model weaknesses in code review comprehension, disentangled from their generative automated code refinement results.
arxiv情報
著者 | Hong Yi Lin,Chunhua Liu,Haoyu Gao,Patanamon Thongtanunam,Christoph Treude |
発行日 | 2025-03-20 14:07:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google