Aligning Programming Language and Natural Language: Exploring Design Choices in Multi-Modal Transformer-Based Embedding for Bug Localization

要約

バグのローカリゼーションとは、自然言語であるバグ レポートを使用して、プログラミング言語で作成され、ソフトウェアの予期せぬ動作の原因となるソース コード ファイルを識別することを指します。
バグのローカリゼーションには労働集約的なため、ソフトウェア開発者を支援するためにバグ ローカリゼーション モデルが採用されています。
ソース コード ファイルとバグ レポートのドメインの違いにより、深層学習モデルに基づく最新のバグ ローカリゼーション システムは、バグ レポートとソース コード ファイルを共有ベクトル空間に投影する埋め込み技術に大きく依存しています。
エンベディングの作成にはいくつかの設計上の選択が必要ですが、これらの選択がエンベディングの品質とバグ位置特定モデルのパフォーマンスに与える影響は、現在の研究ではまだ説明されていません。
このギャップに対処するために、私たちの研究では 14 の異なる埋め込みモデルを評価し、さまざまな設計選択の影響についての洞察を得ました。
その後、これらの埋め込みモデルを利用してバグ位置特定モデルを開発し、これらの選択が位置特定モデルのパフォーマンスに及ぼす影響を評価しました。
私たちの調査結果は、事前トレーニング戦略が埋め込みの品質に大きな影響を与えることを示しています。
さらに、埋め込みモデルとデータの馴染みがバグ位置特定モデルのパフォーマンスに顕著な影響を与えることも発見しました。
特に、トレーニング データとテスト データが異なるプロジェクトから収集された場合、バグ位置特定モデルのパフォーマンスは大幅な変動を示します。

要約(オリジナル)

Bug localization refers to the identification of source code files which is in a programming language and also responsible for the unexpected behavior of software using the bug report, which is a natural language. As bug localization is labor-intensive, bug localization models are employed to assist software developers. Due to the domain difference between source code files and bug reports, modern bug-localization systems, based on deep learning models, rely heavily on embedding techniques that project bug reports and source code files into a shared vector space. The creation of an embedding involves several design choices, but the impact of these choices on the quality of embedding and the performance of bug localization models remains unexplained in current research. To address this gap, our study evaluated 14 distinct embedding models to gain insights into the effects of various design choices. Subsequently, we developed bug localization models utilizing these embedding models to assess the influence of these choices on the performance of the localization models. Our findings indicate that the pre-training strategies significantly affect the quality of the embedding. Moreover, we discovered that the familiarity of the embedding models with the data has a notable impact on the bug localization model’s performance. Notably, when the training and testing data are collected from different projects, the performance of the bug localization models exhibits substantial fluctuations.

arxiv情報

著者 Partha Chakraborty,Venkatraman Arumugam,Meiyappan Nagappan
発行日 2024-06-25 15:01:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SE, I.2 パーマリンク