A Domain-Region Based Evaluation of ML Performance Robustness to Covariate Shift



– 一般的な機械学習手法では、トレーニングフェーズとテストフェーズにおける入力データ分布が同じであることを前提としている。
– しかし、実際の現場ではこの静止が満たされない場合が多く、入力の分布が異なることがあり、展開時の予期しないモデルの性能低下につながる。
– トレーニングデータとテストデータの入力に差異があるが、入力-出力関係が不変の場合に生じる問題を、共変量シフトと呼ぶ。
– 本論文では、共変量シフトが存在する状況下で、一般的な機械学習モデルのパフォーマンスを実験的に評価した。
– さらに、入力データの確率密度関数のドメインを分解し、領域ごとに分類器のパフォーマンスを評価する領域ベースの評価を行った。
– 2次元分類問題において、分布の変化をシミュレーションし、その後高次元の実験を実施した。
– 実験分析に基づき、2次元ケースではランダムフォレストアルゴリズムが最も頑健な分類器であり、精度とF1スコアの低下率が最も低く、0.1%から2.08%の範囲内にあることがわかった。
– さらに、結果は、高次元の実験では、モデルの性能が主に分類関数の複雑さに影響を受け、多くの場合、25%以上の低下率が生じることを示唆している。
– また、モデルはトレーニングサンプルの入力空間領域の密度が高い領域に対して高いバイアスを示していることがわかった。


Most machine learning methods assume that the input data distribution is the same in the training and testing phases. However, in practice, this stationarity is usually not met and the distribution of inputs differs, leading to unexpected performance of the learned model in deployment. The issue in which the training and test data inputs follow different probability distributions while the input-output relationship remains unchanged is referred to as covariate shift. In this paper, the performance of conventional machine learning models was experimentally evaluated in the presence of covariate shift. Furthermore, a region-based evaluation was performed by decomposing the domain of probability density function of the input data to assess the classifier’s performance per domain region. Distributional changes were simulated in a two-dimensional classification problem. Subsequently, a higher four-dimensional experiments were conducted. Based on the experimental analysis, the Random Forests algorithm is the most robust classifier in the two-dimensional case, showing the lowest degradation rate for accuracy and F1-score metrics, with a range between 0.1% and 2.08%. Moreover, the results reveal that in higher-dimensional experiments, the performance of the models is predominantly influenced by the complexity of the classification function, leading to degradation rates exceeding 25% in most cases. It is also concluded that the models exhibit high bias towards the region with high density in the input space domain of the training samples.


著者 Firas Bayram,Bestoun S. Ahmed
発行日 2023-04-18 09:40:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク