要約
タイトル:Neural NetsはTabular DataでいつBoosted Treesを上回るか?
要約:
– Tabular dataは、機械学習で最も一般的に使用されるデータの1つです。
– 近年のNNの進歩にもかかわらず、NNが一般的にGradient Boosted Decision Trees (GBDTs)よりも優れているかどうかについて議論が行われています。
– この論文では、176のデータセットで19のアルゴリズムを比較し、GBDTsとNNsのパフォーマンス差が無視できるほど小さいか、軽微なハイパーパラメーター調整がGBDTsよりも重要であることがわかりました。
– また、965のメタフィーチャーを分析して、どの特性がNNsまたはGBDTsのパフォーマンスを向上させるかを調べました。たとえば、GBDTsは、偏った特徴分布や重尾の特徴分布、その他の不規則性に強いことがわかりました。
– これらの知見は、実践者が彼らのデータセットでトップパフォーマンスに到達するために、ニューラルネットを実行する必要があるかどうかを決定するためのガイドとして役立ちます。
要約(オリジナル)
Tabular data is one of the most commonly used types of data in machine learning. Despite recent advances in neural nets (NNs) for tabular data, there is still an active discussion on whether or not NNs generally outperform gradient-boosted decision trees (GBDTs) on tabular data, with several recent works arguing either that GBDTs consistently outperform NNs on tabular data, or vice versa. In this work, we take a step back and ask, ‘does it matter?’ We conduct the largest tabular data analysis to date, by comparing 19 algorithms across 176 datasets, and we find that the ‘NN vs. GBDT’ debate is overemphasized: for a surprisingly high number of datasets, either the performance difference between GBDTs and NNs is negligible, or light hyperparameter tuning on a GBDT is more important than selecting the best algorithm. Next, we analyze 965 metafeatures to determine what properties of a dataset make NNs or GBDTs better-suited to perform well. For example, we find that GBDTs are much better than NNs at handling skewed feature distributions, heavy-tailed feature distributions, and other forms of dataset irregularities. Our insights act as a guide for practitioners to decide whether or not they need to run a neural net to reach top performance on their dataset. Our codebase and all raw results are available at https://github.com/naszilla/tabzilla.
arxiv情報
| 著者 | Duncan McElfresh,Sujay Khandagale,Jonathan Valverde,Vishak Prasad C,Ganesh Ramakrishnan,Micah Goldblum,Colin White |
| 発行日 | 2023-05-04 17:04:41+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI