Statistically Testing Training Data for Unwanted Error Patterns using Rule-Oriented Regression

要約

データからトレーニングされた人工知能モデルは、基礎となるデータと同じくらい良いものです。
機械学習モデルの出力まで伝播するデータのトレーニングにおけるバイアスは、十分に文書化され、よく理解されている現象ですが、これらの望ましくない効果を防ぐための機械はあまり発達していません。
バイアス認識サンプリングの使用など、収集中にデータがクリーンになるようにする努力は、データを制御するエンティティがAIを訓練する場合に最も効果的です。
データが既に利用可能な場合、データが既に操作されているかどうか、つまり「中毒」であるかどうかをどのように確認します。
これは、(ジャスト)近似精度または効率を改善することと根本的に異なる課題であり、欠陥のトレーニングデータをテストし、その後の機械学習モデルのトレーニング(あらゆる種類の)の信頼できる基礎を確立する方法を提供します。
データから生成されたファジールールを使用してデータを近似するという適切に研究された問題とは異なり、私たちの方法は、テストするデータを見る前に、ルールの以前の定義にかかっています。
したがって、提案された方法はまた、隠されたエラーパターンを発見する可能性があり、これも大きな影響を与える可能性があります。
私たちのアプローチは、「テスト条件」をあらゆるブール条件にして、データのパターンを説明することにより、従来の統計テストの能力を拡張します。
この方法は、ファジー推論を回帰モデルに入れ、2つの最大限を得るために、回帰からの統計的特性と診断を備えたファジーロジックからの説明可能性、そして最後に「小さなデータ」にも適用されるため、深い学習方法のように大きなデータセットを必要としません。
デモと実験のためのオープンソースの実装を提供します。

要約(オリジナル)

Artificial intelligence models trained from data can only be as good as the underlying data is. Biases in training data propagating through to the output of a machine learning model are a well-documented and well-understood phenomenon, but the machinery to prevent these undesired effects is much less developed. Efforts to ensure data is clean during collection, such as using bias-aware sampling, are most effective when the entity controlling data collection also trains the AI. In cases where the data is already available, how do we find out if the data was already manipulated, i.e., “poisoned”, so that an undesired behavior would be trained into a machine learning model? This is a challenge fundamentally different to (just) improving approximation accuracy or efficiency, and we provide a method to test training data for flaws, to establish a trustworthy ground-truth for a subsequent training of machine learning models (of any kind). Unlike the well-studied problem of approximating data using fuzzy rules that are generated from the data, our method hinges on a prior definition of rules to happen before seeing the data to be tested. Therefore, the proposed method can also discover hidden error patterns, which may also have substantial influence. Our approach extends the abilities of conventional statistical testing by letting the “test-condition” be any Boolean condition to describe a pattern in the data, whose presence we wish to determine. The method puts fuzzy inference into a regression model, to get the best of the two: explainability from fuzzy logic with statistical properties and diagnostics from the regression, and finally also being applicable to “small data”, hence not requiring large datasets as deep learning methods do. We provide an open source implementation for demonstration and experiments.

arxiv情報

著者 Stefan Rass,Martin Dallinger
発行日 2025-04-01 13:34:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 68M25, cs.AI, cs.LG, secondary パーマリンク