DeepCRCEval: Revisiting the Evaluation of Code Review Comment Generation

要約

コード レビューはソフトウェア開発において不可欠ですが要求の厳しい側面であり、レビュー コメントの自動化に大きな関心が集まっています。
これらのコメントに対する従来の評価方法は、主にテキストの類似性に基づいており、2 つの大きな課題に直面しています。1 つは、オープンソース プロジェクトにおける人間が作成したコメントの信頼性が一貫していないこと、もう 1 つはコードの品質向上や欠陥の検出などの目的とテキストの類似性との相関が弱いことです。
この研究では、事前の調査と開発者へのインタビューから得られた新しい基準セットを使用して、ベンチマークのコメントを実証的に分析します。
次に、同様に既存の方法論の評価を再検討します。
当社の評価フレームワークである DeepCRCEval は、人間の評価者と大規模言語モデル (LLM) を統合し、設定された基準に基づいて現在の技術を包括的に再評価します。
さらに、LLM の数ショット学習機能を活用してターゲット指向の比較を行う、革新的で効率的なベースライン LLM-Reviewer も導入します。
私たちの調査では、テキスト類似性メトリクスの限界が浮き彫りになり、自動化に適した高品質のベンチマーク コメントは 10% 未満であることがわかりました。
対照的に、DeepCRCEval は高品質のコメントと低品質のコメントを効果的に区別し、より信頼性の高い評価メカニズムであることが証明されています。
LLM エバリュエーターを DeepCRCEval に組み込むことで効率が大幅に向上し、時間とコストがそれぞれ 88.78% と 90.32% 削減されます。
さらに、LLM-Reviewer は、コメント生成においてタスクの実際のターゲットに焦点を当てるという大きな可能性を示しています。

要約(オリジナル)

Code review is a vital but demanding aspect of software development, generating significant interest in automating review comments. Traditional evaluation methods for these comments, primarily based on text similarity, face two major challenges: inconsistent reliability of human-authored comments in open-source projects and the weak correlation of text similarity with objectives like enhancing code quality and detecting defects. This study empirically analyzes benchmark comments using a novel set of criteria informed by prior research and developer interviews. We then similarly revisit the evaluation of existing methodologies. Our evaluation framework, DeepCRCEval, integrates human evaluators and Large Language Models (LLMs) for a comprehensive reassessment of current techniques based on the criteria set. Besides, we also introduce an innovative and efficient baseline, LLM-Reviewer, leveraging the few-shot learning capabilities of LLMs for a target-oriented comparison. Our research highlights the limitations of text similarity metrics, finding that less than 10% of benchmark comments are high quality for automation. In contrast, DeepCRCEval effectively distinguishes between high and low-quality comments, proving to be a more reliable evaluation mechanism. Incorporating LLM evaluators into DeepCRCEval significantly boosts efficiency, reducing time and cost by 88.78% and 90.32%, respectively. Furthermore, LLM-Reviewer demonstrates significant potential of focusing task real targets in comment generation.

arxiv情報

著者 Junyi Lu,Xiaojia Li,Zihan Hua,Lei Yu,Shiqi Cheng,Li Yang,Fengjun Zhang,Chun Zuo
発行日 2024-12-24 08:53:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SE パーマリンク