要約
機械学習と統計手法を表形式データに適用する場合、特徴前処理は引き続き重要な役割を果たします。
この論文では、特徴の前処理ステップとしてカーネル密度積分変換の使用を提案します。
私たちのアプローチは、線形最小最大スケーリングと分位数変換という 2 つの主要な特徴前処理方法を限定的なケースとして包含します。
ハイパーパラメータ調整を行わずに、カーネル密度積分変換をどちらかの方法の単純なドロップイン置換として使用でき、それぞれの弱点から保護できることを示します。
あるいは、単一の連続ハイパーパラメータを調整すると、これらの方法の両方を上回るパフォーマンスが得られることがよくあります。
最後に、カーネル密度変換が統計データ分析、特に相関分析と単変量クラスタリングに有益に適用できることを示します。
要約(オリジナル)
Feature preprocessing continues to play a critical role when applying machine learning and statistical methods to tabular data. In this paper, we propose the use of the kernel density integral transformation as a feature preprocessing step. Our approach subsumes the two leading feature preprocessing methods as limiting cases: linear min-max scaling and quantile transformation. We demonstrate that, without hyperparameter tuning, the kernel density integral transformation can be used as a simple drop-in replacement for either method, offering protection from the weaknesses of each. Alternatively, with tuning of a single continuous hyperparameter, we frequently outperform both of these methods. Finally, we show that the kernel density transformation can be profitably applied to statistical data analysis, particularly in correlation analysis and univariate clustering.
arxiv情報
著者 | Calvin McCarter |
発行日 | 2023-10-19 15:49:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google