要約
機械学習モデルとビジネス インテリジェンス システムのパフォーマンスを最大化するには、高品質のデータを確保することが最も重要です。
ただし、データ収集時のノイズ、レコードの欠落、データ生成の制限、交絡変数などのデータ品質の課題により、これらのシステムの潜在的なパフォーマンスが大幅に制約されます。
この研究では、これらの課題に対処するために設計された、アーキテクチャに依存しないアルゴリズムである勾配誘導仮説 (GGH) を提案します。
GGH は、データ内の個別の、おそらく矛盾するパターンの代用として、仮説に基づく勾配を分析します。
このフレームワークには、機械学習トレーニングにおける追加のステップが必要で、そこでは勾配をバックプロパゲーションに含めたり除外したりできます。
このようにして、欠落データやノイズの多いデータは、両方の課題を同じ重要な問題、つまり誤った情報の伝播の側面として認識する統合ソリューションを通じて対処されます。
GGH の実験的検証は、実際のオープンソース データセットを使用して実施され、最大 98.5% の欠落率を持つレコードがシミュレートされます。
最先端の代入手法を使用した比較解析により、GGH によって達成されるモデルのパフォーマンスが大幅に向上することが実証されました。
特に、希少性が非常に高い状況では、GGH が唯一の実行可能な解決策であることが判明しました。
さらに、GGH のノイズ検出機能は、シミュレートされたノイズをデータセットに導入し、ノイズの多いデータをフィルターで除去した後に強化されたモデルのパフォーマンスを観察することによって実証されます。
この研究では、さまざまなアプリケーションでデータ品質とモデルのパフォーマンスを向上させるための有望なソリューションとして GGH を示しています。
要約(オリジナル)
Ensuring high-quality data is paramount for maximizing the performance of machine learning models and business intelligence systems. However, challenges in data quality, including noise in data capture, missing records, limited data production, and confounding variables, significantly constrain the potential performance of these systems. In this study, we propose an architecture-agnostic algorithm, Gradient Guided Hypotheses (GGH), designed to address these challenges. GGH analyses gradients from hypotheses as a proxy of distinct and possibly contradictory patterns in the data. This framework entails an additional step in machine learning training, where gradients can be included or excluded from backpropagation. In this manner, missing and noisy data are addressed through a unified solution that perceives both challenges as facets of the same overarching issue: the propagation of erroneous information. Experimental validation of GGH is conducted using real-world open-source datasets, where records with missing rates of up to 98.5% are simulated. Comparative analysis with state-of-the-art imputation methods demonstrates a substantial improvement in model performance achieved by GGH. Specifically in very high scarcity regimes, GGH was found to be the only viable solution. Additionally, GGH’s noise detection capabilities are showcased by introducing simulated noise into the datasets and observing enhanced model performance after filtering out the noisy data. This study presents GGH as a promising solution for improving data quality and model performance in various applications.
arxiv情報
著者 | Paulo Neves,Joerg K. Wegner,Philippe Schwaller |
発行日 | 2024-05-29 15:51:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google