Adversarial Learning for Feature Shift Detection and Correction

要約

データ シフトは現実世界の多くのアプリケーションに存在する現象であり、シフトを検出しようとする方法は複数ありますが、そのようなシフトを引き起こす特徴を特定して修正するタスクについては詳しく研究されていません。
機能の変化は、一部のセンサーが誤動作しているマルチセンサー データや、生物医学、金融、調査データなどの表形式および構造化データなど、多くのデータセットで発生する可能性があり、標準化やデータ処理パイプラインの欠陥により誤った機能が発生する可能性があります。
この研究では、敵対的学習の原理の使用を検討します。この学習では、2 つの分布を区別するように訓練された複数の識別器からの情報が、破損した特徴の検出と修正の両方に使用され、データセット間の分布のシフトを除去します。
私たちは、ランダム フォレストや勾配ブースティング ツリーなどの主流の教師あり分類器を、単純な反復ヒューリスティックと組み合わせることで、特徴のシフトを局所的に特定して修正し、現在の統計およびニューラル ネットワーク ベースの手法を上回るパフォーマンスを発揮できることを示します。
コードは https://github.com/AI-sandbox/DataFix で入手できます。

要約(オリジナル)

Data shift is a phenomenon present in many real-world applications, and while there are multiple methods attempting to detect shifts, the task of localizing and correcting the features originating such shifts has not been studied in depth. Feature shifts can occur in many datasets, including in multi-sensor data, where some sensors are malfunctioning, or in tabular and structured data, including biomedical, financial, and survey data, where faulty standardization and data processing pipelines can lead to erroneous features. In this work, we explore using the principles of adversarial learning, where the information from several discriminators trained to distinguish between two distributions is used to both detect the corrupted features and fix them in order to remove the distribution shift between datasets. We show that mainstream supervised classifiers, such as random forest or gradient boosting trees, combined with simple iterative heuristics, can localize and correct feature shifts, outperforming current statistical and neural network-based techniques. The code is available at https://github.com/AI-sandbox/DataFix.

arxiv情報

著者 Miriam Barrabes,Daniel Mas Montserrat,Margarita Geleta,Xavier Giro-i-Nieto,Alexander G. Ioannidis
発行日 2023-12-07 18:58:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.AP, stat.ML パーマリンク