A Comparative Study of Text Embedding Models for Semantic Text Similarity in Bug Reports

要約

バグレポートは、ソフトウェア開発において不可欠な要素であり、ソフトウェアシステムの一貫した機能を確保するためには、バグを迅速に特定し、解決することが極めて重要です。既存のデータベースから類似バグ報告を検索することは、バグ解決に必要な時間と労力を削減するのに役立つ。本稿では、類似スコアに基づき類似バグ報告を検索するための意味的テキスト類似手法の有効性を比較した。TF-IDF(Baseline)、FastText、Gensim、BERT、ADAなどの埋め込みモデルを検討した。様々なソフトウェアプロジェクトのバグ報告を含むSoftware Defects Dataを用いて、これらのモデルの性能を評価した。我々の実験結果は、BERTが想起に関して他のモデルを概ね上回ったことを示し、ADA、Gensim、FastText、TFIDFがそれに続いた。我々の研究は、類似のバグ報告を検索するための異なる埋め込み方法の有効性に関する洞察を提供し、このタスクに適切なものを選択することの影響を強調する。我々のコードはGitHubで公開されている。

要約(オリジナル)

Bug reports are an essential aspect of software development, and it is crucial to identify and resolve them quickly to ensure the consistent functioning of software systems. Retrieving similar bug reports from an existing database can help reduce the time and effort required to resolve bugs. In this paper, we compared the effectiveness of semantic textual similarity methods for retrieving similar bug reports based on a similarity score. We explored several embedding models such as TF-IDF (Baseline), FastText, Gensim, BERT, and ADA. We used the Software Defects Data containing bug reports for various software projects to evaluate the performance of these models. Our experimental results showed that BERT generally outperformed the rest of the models regarding recall, followed by ADA, Gensim, FastText, and TFIDF. Our study provides insights into the effectiveness of different embedding methods for retrieving similar bug reports and highlights the impact of selecting the appropriate one for this task. Our code is available on GitHub.

arxiv情報

著者 Avinash Patil,Kihwan Han,Aryan Jadon
発行日 2023-11-30 23:43:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG, cs.SE パーマリンク