A study on the impact of pre-trained model on Just-In-Time defect prediction

要約

ジャストインタイム (JIT) 欠陥予測タスクを実行するこれまでの研究者は、主に個々の事前トレーニング モデルのパフォーマンスに焦点を当てており、バックボーンとしてのさまざまな事前トレーニング モデル間の関係を調査していませんでした。
この研究では、RoBERTaJIT、CodeBERTJIT、BARTJIT、PLBARTJIT、GPT2JIT、および CodeGPTJIT の 6 つのモデルを構築し、それぞれがバックボーンとして個別の事前トレーニング済みモデルを備えています。
これらのモデル間の違いと関連性を体系的に調査します。
具体的には、コミット コードとコミット メッセージを入力として使用した場合のモデルのパフォーマンス、およびトレーニング効率とこれら 6 つのモデル間のモデル分布の関係を調査します。
さらに、アブレーション実験を実施して、入力に対する各モデルの感度を調査します。
さらに、ゼロショットおよび少数ショットのシナリオでモデルがどのように動作するかを調査します。
私たちの調査結果は、異なるバックボーンに基づく各モデルが改善を示しており、バックボーンの事前トレーニング モデルが類似している場合、消費する必要があるトレーニング リソースがより近くになることを示しています。
また、コミット コードが欠陥検出に重要な役割を果たしており、さまざまな事前トレーニング済みモデルが、ショット数が少ないシナリオでバランスのとれたデータセットを使用することでより優れた欠陥検出能力を示していることも観察されています。
これらの結果は、事前トレーニングされたモデルを使用して JIT 欠陥予測タスクを最適化するための新しい洞察を提供し、そのようなモデルを構築する際にさらに注意が必要な要素を浮き彫りにします。
さらに、CodeGPTJIT と GPT2JIT は、それぞれ 2000 のトレーニング サンプルの下で 2 つのデータセットで DeepJIT や CC2Vec よりも優れたパフォーマンスを達成しました。
これらの発見は、JIT 欠陥予測タスク、特にトレーニング データが限られているシナリオにおける、トランスベースの事前トレーニング済みモデルの有効性を強調しています。

要約(オリジナル)

Previous researchers conducting Just-In-Time (JIT) defect prediction tasks have primarily focused on the performance of individual pre-trained models, without exploring the relationship between different pre-trained models as backbones. In this study, we build six models: RoBERTaJIT, CodeBERTJIT, BARTJIT, PLBARTJIT, GPT2JIT, and CodeGPTJIT, each with a distinct pre-trained model as its backbone. We systematically explore the differences and connections between these models. Specifically, we investigate the performance of the models when using Commit code and Commit message as inputs, as well as the relationship between training efficiency and model distribution among these six models. Additionally, we conduct an ablation experiment to explore the sensitivity of each model to inputs. Furthermore, we investigate how the models perform in zero-shot and few-shot scenarios. Our findings indicate that each model based on different backbones shows improvements, and when the backbone’s pre-training model is similar, the training resources that need to be consumed are much more closer. We also observe that Commit code plays a significant role in defect detection, and different pre-trained models demonstrate better defect detection ability with a balanced dataset under few-shot scenarios. These results provide new insights for optimizing JIT defect prediction tasks using pre-trained models and highlight the factors that require more attention when constructing such models. Additionally, CodeGPTJIT and GPT2JIT achieved better performance than DeepJIT and CC2Vec on the two datasets respectively under 2000 training samples. These findings emphasize the effectiveness of transformer-based pre-trained models in JIT defect prediction tasks, especially in scenarios with limited training data.

arxiv情報

著者 Yuxiang Guo,Xiaopeng Gao,Zhenyu Zhang,W. K. Chan,Bo Jiang
発行日 2023-09-05 15:34:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE パーマリンク