要約
コードレビューは、ソフトウェア開発における重要であるが、しばしば複雑で、主観的で時間のかかるアクティビティです。
過去数十年にわたって、このプロセスを自動化するために多大な努力が払われてきました。
初期のアプローチは、コードの問題を検出するためにルールベースのメカニズムを適用する知識ベースのシステム(KBS)に焦点を当てており、正確なフィードバックを提供しますが、複雑でコンテキスト依存のケースに苦しんでいます。
より最近の作業は、コードレビューのために事前に訓練された言語モデルの微調整にシフトし、より広範な問題のカバレッジを可能にしますが、多くの場合、正確な犠牲を払っています。
この論文では、KBSと学習ベースのシステム(LBS)の強度を組み合わせて、高品質で包括的なコードレビューを生成するハイブリッドアプローチを提案します。
私たちの方法は、言語モデルパイプラインの3つの異なる段階で知識を統合します:データ準備中(データの増強トレーニング、DAT)、推論(検索能力生成、RAG)、および推論後(出力の素朴な連結、NCO)。
実世界のデータセットで微調整されたスタンドアロンKBSとLBSに対する組み合わせ戦略を経験的に評価します。
私たちの結果は、これらのハイブリッド戦略がレビューコメントの関連性、完全性、および全体的な品質を高め、ルールベースのツールとディープラーニングモデルの間のギャップを効果的に埋めることを示しています。
要約(オリジナル)
Code review is a crucial but often complex, subjective, and time-consuming activity in software development. Over the past decades, significant efforts have been made to automate this process. Early approaches focused on knowledge-based systems (KBS) that apply rule-based mechanisms to detect code issues, providing precise feedback but struggling with complex, context-dependent cases. More recent work has shifted toward fine-tuning pre-trained language models for code review, enabling broader issue coverage but often at the expense of precision. In this paper, we propose a hybrid approach that combines the strengths of KBS and learning-based systems (LBS) to generate high-quality, comprehensive code reviews. Our method integrates knowledge at three distinct stages of the language model pipeline: during data preparation (Data-Augmented Training, DAT), at inference (Retrieval-Augmented Generation, RAG), and after inference (Naive Concatenation of Outputs, NCO). We empirically evaluate our combination strategies against standalone KBS and LBS fine-tuned on a real-world dataset. Our results show that these hybrid strategies enhance the relevance, completeness, and overall quality of review comments, effectively bridging the gap between rule-based tools and deep learning models.
arxiv情報
著者 | Imen Jaoua,Oussama Ben Sghaier,Houari Sahraoui |
発行日 | 2025-02-10 16:29:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google