A Novel Metric for Measuring Data Quality in Classification Applications (extended version)

要約

データ品質は、優れた学習モデルを構築および最適化するための重要な要素です。
データ品質を特徴づけようとする多くの試みにもかかわらず、厳密な形式化と入手可能な観察結果からの品質の効率的な測定が依然として必要とされています。
実際、トレーニングとテストのプロセスを明確に理解していないと、モデルの本質的なパフォーマンスを評価するのは困難です。
さらに、機械学習に特有のデータ品質を測定できるツールもまだ不足しています。
このホワイトペーパーでは、データ品質を測定するための新しい指標を紹介し、説明します。
このメトリクスは、分類パフォーマンスとデータの劣化との相関関係に基づいています。
提案された方法には、モデルに依存しないという大きな利点があります。
さらに、各基準の解釈と評価レベルの例も示します。
我々は、集中的な数値実験によって提案された指標の有用性を確認し、制御された解釈可能な品質を備えたいくつかの例示的なケースを詳しく説明します。

要約(オリジナル)

Data quality is a key element for building and optimizing good learning models. Despite many attempts to characterize data quality, there is still a need for rigorous formalization and an efficient measure of the quality from available observations. Indeed, without a clear understanding of the training and testing processes, it is hard to evaluate the intrinsic performance of a model. Besides, tools allowing to measure data quality specific to machine learning are still lacking. In this paper, we introduce and explain a novel metric to measure data quality. This metric is based on the correlated evolution between the classification performance and the deterioration of data. The proposed method has the major advantage of being model-independent. Furthermore, we provide an interpretation of each criterion and examples of assessment levels. We confirm the utility of the proposed metric with intensive numerical experiments and detail some illustrative cases with controlled and interpretable qualities.

arxiv情報

著者 Jouseau Roxane,Salva Sébastien,Samir Chafik
発行日 2023-12-13 11:20:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク