要約
コードレビューは、ソフトウェアエンジニアリングの重要な慣行であり、品質とコラボレーションを確保しています。
ただし、Industrial Merge Request(MR)ワークフローは、多くの場合、標準化されたレビュープロセスから逸脱しており、多くのMRSは非レビューの目的(ドラフト、リベース、または依存関係の更新など)にサービスを提供しています。
これらのケースと逸脱し、それらを無視することを無視することは分析をバイアスし、レビュー分析のためにMLモデルを損なうと仮定します。
MRSの37.02%で発生する7つの偏差カテゴリを特定し、少数の学習検出方法(91%の精度)を提案します。
偏差を除外することにより、MLモデルはレビュー完了時間を予測して、53.33%の症例(最大2.25倍)でパフォーマンスを改善し、機能の重要性(全体で47%、60%のトップ*k*)の有意な変化を示します。
私たちの貢献には、(1)MR逸脱の分類法、(2)AI駆動型検出アプローチ、および(3)MLベースのレビュー分析への影響の経験的証拠が含まれます。
この仕事は、実務家がレビューの取り組みを最適化し、信頼できる洞察を確保するのを支援します。
要約(オリジナル)
Code review is a key practice in software engineering, ensuring quality and collaboration. However, industrial Merge Request (MR) workflows often deviate from standardized review processes, with many MRs serving non-review purposes (e.g., drafts, rebases, or dependency updates). We term these cases deviations and hypothesize that ignoring them biases analytics and undermines ML models for review analysis. We identify seven deviation categories, occurring in 37.02% of MRs, and propose a few-shot learning detection method (91% accuracy). By excluding deviations, ML models predicting review completion time improve performance in 53.33% of cases (up to 2.25x) and exhibit significant shifts in feature importance (47% overall, 60% top-*k*). Our contributions include: (1) a taxonomy of MR deviations, (2) an AI-driven detection approach, and (3) empirical evidence of their impact on ML-based review analytics. This work aids practitioners in optimizing review efforts and ensuring reliable insights.
arxiv情報
著者 | Samah Kansab,Francis Bordeleau,Ali Tizghadam |
発行日 | 2025-06-11 01:21:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google