要約
表形式データの分析は、伝統的に、カテゴリと数値の混合特徴を備えた習熟度で知られている勾配強化された決定ツリー(GBDT)によって支配されてきました。
しかし、最近の深い学習革新はこの支配に挑戦しています。
このホワイトペーパーでは、表形式データの自己回帰状態空間モデルの使用を調査し、そのパフォーマンスを確立されたベンチマークモデルと比較します。
さらに、さまざまなプーリング戦略、特徴相互作用メカニズム、双方向処理技術を含むこれらのモデルのさまざまな適応を検討して、表形式データの有効性を理解します。
私たちの調査結果は、特徴をシーケンスとして解釈し、それらを処理し、構造化された状態空間層を介したそれらの相互作用がパフォーマンスの大幅な改善につながる可能性があることを示しています。
この研究では、表形式のデータ分析における自己回帰モデルの汎用性を強調し、この伝統的に挑戦的な分野で深い学習能力を大幅に高めることができる有望な代替手段として配置します。
ソースコードは、https://github.com/basf/mamba-tabularで入手できます。
要約(オリジナル)
The analysis of tabular data has traditionally been dominated by gradient-boosted decision trees (GBDTs), known for their proficiency with mixed categorical and numerical features. However, recent deep learning innovations are challenging this dominance. This paper investigates the use of autoregressive state-space models for tabular data and compares their performance against established benchmark models. Additionally, we explore various adaptations of these models, including different pooling strategies, feature interaction mechanisms, and bi-directional processing techniques to understand their effectiveness for tabular data. Our findings indicate that interpreting features as a sequence and processing them and their interactions through structured state-space layers can lead to significant performance improvement. This research underscores the versatility of autoregressive models in tabular data analysis, positioning them as a promising alternative that could substantially enhance deep learning capabilities in this traditionally challenging area. The source code is available at https://github.com/basf/mamba-tabular.
arxiv情報
著者 | Anton Frederik Thielmann,Manish Kumar,Christoph Weisser,Arik Reuter,Benjamin Säfken,Soheila Samiee |
発行日 | 2025-03-25 17:27:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google