Is Deep Learning finally better than Decision Trees on Tabular Data?

要約

表形式データは、多くの実際のアプリケーションでの汎用性と使いやすさのために、遍在するデータモダリティです。
表形式データの分類タスクを処理するための主なヒューリスティックは、深い学習モデルの優位性がまだ実証されていないため、古典的な機械学習技術に依存しています。
これは、新しい深い学習パラダイムが古典的なアプローチを上回ることができるかどうかという問題を提起します。
表形式データに関する最近の研究は、このドメインのニューラルネットワークの限界に関するユニークな視点を提供し、さまざまなデータセットにわたるスケーラビリティと堅牢性の観点から、勾配ブースト決定ツリー(GBDT)の優位性を強調しています。
ただし、新しい基礎モデルは、品質に関して徹底的に評価されていないか、表形式分類のための既存の方法と比較してかなり評価されていません。
私たちの研究では、基礎となる学習パラダイムに基づいて、最先端の10のニューラルモデルを分類し、特にメタ学習された基礎モデルが小さなデータレジームでGBDTを上回ることを示しています。
データセット固有のニューラルネットワークは一般にLLMベースの表形式分類器よりも優れていますが、それらは、より高い計算需要を犠牲にして、最高のパフォーマンスを示すAutomlライブラリによって超えられています。

要約(オリジナル)

Tabular data is a ubiquitous data modality due to its versatility and ease of use in many real-world applications. The predominant heuristics for handling classification tasks on tabular data rely on classical machine learning techniques, as the superiority of deep learning models has not yet been demonstrated. This raises the question of whether new deep learning paradigms can surpass classical approaches. Recent studies on tabular data offer a unique perspective on the limitations of neural networks in this domain and highlight the superiority of gradient boosted decision trees (GBDTs) in terms of scalability and robustness across various datasets. However, novel foundation models have not been thoroughly assessed regarding quality or fairly compared to existing methods for tabular classification. Our study categorizes ten state-of-the-art neural models based on their underlying learning paradigm, demonstrating specifically that meta-learned foundation models outperform GBDTs in small data regimes. Although dataset-specific neural networks generally outperform LLM-based tabular classifiers, they are surpassed by an AutoML library which exhibits the best performance but at the cost of higher computational demands.

arxiv情報

著者 Guri Zabërgja,Arlind Kadra,Christian M. M. Frey,Josif Grabocka
発行日 2025-02-14 14:37:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク