Data Quality Antipatterns for Software Analytics

要約

背景: ソフトウェア分析、特にソフトウェア欠陥予測 (SDP) などの機械学習 (ML) アプリケーションではデータ品質が不可欠です。
ソフトウェア エンジニアリングでは ML が広く使用されているにもかかわらず、データ品質のアンチパターンがこれらのモデルに及ぼす影響は依然として十分に解明されていません。
目的: この研究では、ML 固有のデータ品質アンチパターンの分類を開発し、ソフトウェア分析モデルのパフォーマンスと解釈に対するそれらの影響を評価します。
方法: 文献レビューを通じて、ML 固有のデータ品質アンチパターンの 8 つのタイプと 14 のサブタイプを特定しました。
SDP データにおけるこれらのアンチパターンの蔓延を判断するための実験 (RQ1)、クリーニング順序がモデルのパフォーマンスにどのような影響を与えるかを評価する (RQ2)、パフォーマンスに対するアンチパターンの除去の影響を評価する (RQ3)、および
異なるアンチパターン (RQ4)。
結果: SDP ケーススタディでは、9 つ​​のアンチパターンを特定しました。
これらの 90% 以上が行レベルと列レベルの両方で重複しており、クリーニングの優先順位付けが複雑になり、過剰なデータ削除の危険性がありました。
クリーニングの順序は ML モデルのパフォーマンスに大きく影響し、ニューラル ネットワークはロジスティック回帰のような単純なモデルよりもクリーニング順序の変更に対する耐性が高くなります。
テール分布やクラスの重複などのアンチパターンは、他のアンチパターンがクリーンアップされた場合、パフォーマンス メトリックとの統計的に有意な相関関係を示します。
さまざまなアンチパターンを使用して構築されたモデルは、解釈結果に中程度の一貫性を示しました。
結論: さまざまなアンチパターンのクリーニング順序は、ML モデルのパフォーマンスに影響します。
5 つのアンチパターンは、他のアンチパターンがクリーン化された場合、モデルのパフォーマンスと統計的に有意な相関関係があります。
さらに、モデルの解釈は、さまざまなデータ品質のアンチパターンによって中程度の影響を受けます。

要約(オリジナル)

Background: Data quality is vital in software analytics, particularly for machine learning (ML) applications like software defect prediction (SDP). Despite the widespread use of ML in software engineering, the effect of data quality antipatterns on these models remains underexplored. Objective: This study develops a taxonomy of ML-specific data quality antipatterns and assesses their impact on software analytics models’ performance and interpretation. Methods: We identified eight types and 14 sub-types of ML-specific data quality antipatterns through a literature review. We conducted experiments to determine the prevalence of these antipatterns in SDP data (RQ1), assess how cleaning order affects model performance (RQ2), evaluate the impact of antipattern removal on performance (RQ3), and examine the consistency of interpretation from models built with different antipatterns (RQ4). Results: In our SDP case study, we identified nine antipatterns. Over 90% of these overlapped at both row and column levels, complicating cleaning prioritization and risking excessive data removal. The order of cleaning significantly impacts ML model performance, with neural networks being more resilient to cleaning order changes than simpler models like logistic regression. Antipatterns such as Tailed Distributions and Class Overlap show a statistically significant correlation with performance metrics when other antipatterns are cleaned. Models built with different antipatterns showed moderate consistency in interpretation results. Conclusion: The cleaning order of different antipatterns impacts ML model performance. Five antipatterns have a statistically significant correlation with model performance when others are cleaned. Additionally, model interpretation is moderately affected by different data quality antipatterns.

arxiv情報

著者 Aaditya Bhatia,Dayi Lin,Gopi Krishnan Rajbahadur,Bram Adams,Ahmed E. Hassan
発行日 2024-08-22 17:21:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE パーマリンク