要約
表形式データは現実世界の機械学習アプリケーションで普及しており、表形式データの教師あり学習のための新しいモデルが頻繁に提案されています。
モデルのパフォーマンスを評価する比較研究は通常、過度に標準化されたデータ前処理を備えたモデル中心の評価セットアップで構成されます。
この論文では、現実世界のモデリング パイプラインではデータセット固有の前処理と特徴量エンジニアリングが必要になることが多いため、このようなモデル中心の評価には偏りがあることを示しています。
そこで、データ中心の評価フレームワークを提案します。
Kaggle コンペティションから関連する 10 個のデータセットを選択し、各データセットに対して専門家レベルの前処理パイプラインを実装します。
さまざまな前処理パイプラインとハイパーパラメーター最適化 (HPO) 方式を使用して実験を実施し、モデル選択、HPO、特徴エンジニアリング、テスト時間の適応の影響を定量化します。
私たちの主な発見は次のとおりです。 1. データセット固有の特徴量エンジニアリングの後、モデルのランキングが大幅に変化し、パフォーマンスの差が減少し、モデル選択の重要性が減少します。
2. 最近のモデルは、目に見えて進歩しているにもかかわらず、依然として手動の特徴量エンジニアリングから大きな恩恵を受けています。
これは、ツリーベースのモデルとニューラル ネットワークの両方に当てはまります。
3. 表形式のデータは一般に静的であると考えられていますが、サンプルは時間の経過とともに収集されることが多く、静的であると思われるデータであっても分布の変化に適応することが重要な場合があります。
これらの洞察は、表形式データには特徴量エンジニアリングが必要であり、多くの場合時間的特性を示すことを認識し、研究努力がデータ中心の視点に向けられるべきであることを示唆しています。
私たちのフレームワークは https://github.com/atschalz/dc_tabeval から入手できます。
要約(オリジナル)
Tabular data is prevalent in real-world machine learning applications, and new models for supervised learning of tabular data are frequently proposed. Comparative studies assessing the performance of models typically consist of model-centric evaluation setups with overly standardized data preprocessing. This paper demonstrates that such model-centric evaluations are biased, as real-world modeling pipelines often require dataset-specific preprocessing and feature engineering. Therefore, we propose a data-centric evaluation framework. We select 10 relevant datasets from Kaggle competitions and implement expert-level preprocessing pipelines for each dataset. We conduct experiments with different preprocessing pipelines and hyperparameter optimization (HPO) regimes to quantify the impact of model selection, HPO, feature engineering, and test-time adaptation. Our main findings are: 1. After dataset-specific feature engineering, model rankings change considerably, performance differences decrease, and the importance of model selection reduces. 2. Recent models, despite their measurable progress, still significantly benefit from manual feature engineering. This holds true for both tree-based models and neural networks. 3. While tabular data is typically considered static, samples are often collected over time, and adapting to distribution shifts can be important even in supposedly static data. These insights suggest that research efforts should be directed toward a data-centric perspective, acknowledging that tabular data requires feature engineering and often exhibits temporal characteristics. Our framework is available under: https://github.com/atschalz/dc_tabeval.
arxiv情報
著者 | Andrej Tschalzev,Sascha Marton,Stefan Lüdtke,Christian Bartelt,Heiner Stuckenschmidt |
発行日 | 2024-12-18 16:07:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google