要約
表形式のデータセットは本質的に不均一であり、事前に訓練された基礎モデルを開発するための重要な課題をもたらします。
最近導入された変圧器ベースの表形式の前データ装置Network V2(TABPFN V2)は、複数の表形式データセットで前例のないコンテキスト内学習精度を達成し、表形式の基礎モデルの極めて進歩を示しています。
この論文では、300を超えるデータセットでTabpfn V2を包括的に評価し、小規模から中規模のタスクに関する例外的な一般化機能を確認します。
私たちの分析では、ランダム化された特徴トークンがTABPFN V2の成功の重要な要素として特定されています。これらは、不均一なデータセットを固定次元表現に統一し、より効果的なトレーニングと推論を可能にします。
TABPFN V2の予測をさらに理解するために、休暇1対折りためアプローチを提案し、TABPFN V2を特徴抽出器に変換し、データ分布を簡素化して精度を高める機能を明らかにします。
最後に、高次元、大規模、および多くのカテゴリタスクのTABPFN V2の制限に対処するために、考え方のプロンプトに触発され、スケーラブルな推論を可能にする分割統治メカニズムを導入します。
TABPFN V2の成功の背後にあるメカニズムを明らかにし、適用可能性を拡大するための戦略を導入することにより、この研究は表形式の基礎モデルの未来に関する重要な洞察を提供します。
要約(オリジナル)
Tabular datasets are inherently heterogeneous, posing significant challenges for developing pre-trained foundation models. The recently introduced transformer-based Tabular Prior-data Fitted Network v2 (TabPFN v2) achieves unprecedented in-context learning accuracy across multiple tabular datasets, marking a pivotal advancement in tabular foundation models. In this paper, we comprehensively evaluate TabPFN v2 on over 300 datasets, confirming its exceptional generalization capabilities on small- to medium-scale tasks. Our analysis identifies randomized feature tokens as a key factor behind TabPFN v2’s success, as they unify heterogeneous datasets into a fixed-dimensional representation, enabling more effective training and inference. To further understand TabPFN v2’s predictions, we propose a leave-one-fold-out approach, transforming TabPFN v2 into a feature extractor and revealing its capability to simplify data distributions and boost accuracy. Lastly, to address TabPFN v2’s limitations in high-dimensional, large-scale, and many-category tasks, we introduce a divide-and-conquer mechanism inspired by Chain-of-Thought prompting, enabling scalable inference. By uncovering the mechanisms behind TabPFN v2’s success and introducing strategies to expand its applicability, this study provides key insights into the future of tabular foundation models.
arxiv情報
著者 | Han-Jia Ye,Si-Yang Liu,Wei-Lun Chao |
発行日 | 2025-02-24 17:38:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google