Modern Neighborhood Components Analysis: A Deep Tabular Baseline Two Decades Later


様々な領域におけるディープラーニングの成功の高まりは、ディープモデルが従来のツリーベースの手法と比較して有望な結果を示している、表形式データへのディープラーニングの適用に関する調査を促している。本稿では、2004年に導入された古典的な表形式予測手法であり、インスタンス間の意味的類似性を捉える線形射影を学習するように設計されたNeighborhood Component Analysis(NCA)を再検討する。我々は、学習目標の調整やディープラーニングアーキテクチャの統合など、わずかな修正によってNCAの性能が大幅に向上し、最新のディープ表モデルを凌駕できることを発見した。さらに、我々の提案するModernNCAの効率と予測精度の両方を向上させる確率的近傍サンプリング戦略(学習時には近傍のサブセットのみをサンプリングし、推論時には近傍全体を利用する)を導入する。広範な実験により、我々のModernNCAが、様々な表データセットの分類と回帰タスクの両方において、最先端の結果を達成し、木ベースと他の深層表モデルの両方を凌駕することを実証する。


The growing success of deep learning in various domains has prompted investigations into its application to tabular data, where deep models have shown promising results compared to traditional tree-based methods. In this paper, we revisit Neighborhood Component Analysis (NCA), a classic tabular prediction method introduced in 2004, designed to learn a linear projection that captures semantic similarities between instances. We find that minor modifications, such as adjustments to the learning objectives and the integration of deep learning architectures, significantly enhance NCA’s performance, enabling it to surpass most modern deep tabular models. Additionally, we introduce a stochastic neighbor sampling strategy that improves both the efficiency and predictive accuracy of our proposed ModernNCA — sampling only a subset of neighbors during training, while utilizing the entire neighborhood during inference. Extensive experiments demonstrate that our ModernNCA achieves state-of-the-art results in both classification and regression tasks across various tabular datasets, outperforming both tree-based and other deep tabular models, while also reducing training time and model size.


著者 Han-Jia Ye,Huai-Hong Yin,De-Chuan Zhan
発行日 2024-07-03 16:38:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.LG パーマリンク