TabReD: Analyzing Pitfalls and Filling the Gaps in Tabular Deep Learning Benchmarks

要約

機械学習研究の進歩により、現実世界のアプリケーションの進歩が促進されます。
この進歩を確実に行うためには、新しい手法が学術ベンチマークで成功を収めてから実際に導入されるまでの過程にある潜在的な落とし穴を理解することが重要です。
この研究では、既存の表形式のベンチマークを分析し、文献の評価に通常使用されるデータセットでは過小評価されている、典型的な産業アプリケーションにおける表形式データの 2 つの共通の特徴を発見します。
まず、実際の展開シナリオでは、データの分布は時間の経過とともに変化することがよくあります。
この分布のドリフトを考慮するには、時間ベースのトレーニング/テスト分割を評価に使用する必要があります。
ただし、一般的な表形式のデータセットには、そのような評価を可能にするタイムスタンプ メタデータが欠けていることがよくあります。
第 2 に、運用環境のデータセットのか​​なりの部分は、広範なデータ取得と特徴エンジニアリング パイプラインから生じています。
これは、学術データセットと比較した、予測的特徴、非有益な特徴、および相関関係のある特徴の絶対数および相対数に影響を与える可能性があります。
この研究では、表形式ディープラーニングにおける最近の研究の進歩が、これらの過小評価されている状況にどのように影響するかを理解することを目的としています。
この目的を達成するために、8 つの業界グレードの表形式データセットのコレクションである TabReD を導入します。
私たちは TabReD で多数の表形式 ML モデルと手法を再評価します。
現在のベンチマークで一般的なランダム分割での評価と比較して、時間ベースのデータ分割での評価が異なる方法のランキングにつながることを示します。
さらに、単純な MLP のようなアーキテクチャと GBDT は TabReD データセットで最良の結果を示しますが、他の方法は新しい設定ではあまり効果的ではありません。

要約(オリジナル)

Advances in machine learning research drive progress in real-world applications. To ensure this progress, it is important to understand the potential pitfalls on the way from a novel method’s success on academic benchmarks to its practical deployment. In this work, we analyze existing tabular benchmarks and find two common characteristics of tabular data in typical industrial applications that are underrepresented in the datasets usually used for evaluation in the literature. First, in real-world deployment scenarios, distribution of data often changes over time. To account for this distribution drift, time-based train/test splits should be used in evaluation. However, popular tabular datasets often lack timestamp metadata to enable such evaluation. Second, a considerable portion of datasets in production settings stem from extensive data acquisition and feature engineering pipelines. This can have an impact on the absolute and relative number of predictive, uninformative, and correlated features compared to academic datasets. In this work, we aim to understand how recent research advances in tabular deep learning transfer to these underrepresented conditions. To this end, we introduce TabReD — a collection of eight industry-grade tabular datasets. We reassess a large number of tabular ML models and techniques on TabReD. We demonstrate that evaluation on time-based data splits leads to different methods ranking, compared to evaluation on random splits, which are common in current benchmarks. Furthermore, simple MLP-like architectures and GBDT show the best results on the TabReD datasets, while other methods are less effective in the new setting.

arxiv情報

著者 Ivan Rubachev,Nikolay Kartashev,Yury Gorishniy,Artem Babenko
発行日 2024-10-24 17:54:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク