要約
TabPFNは、表形式データに対する有望な文脈内学習モデルとして登場し、ラベル付き訓練例からテストサンプルのラベルを直接予測することができる。TabPFNは、特に小規模な分類タスクにおいて、競争力のある性能を示している。しかし、その有効性にもかかわらず、TabPFNは、高次元特徴の取り扱い、下流データセットとの整合性、より大規模なデータセットへの拡張性など、いくつかの領域でさらなる改良が必要である。本論文では、TabPFNの既存の変種を再検討し、ほとんどのアプローチがバイアスか分散のどちらかを減らすことに焦点を当て、多くの場合、推論オーバーヘッドを増加させながら、もう一方に対処する必要性を無視することを観察する。このギャップを埋めるために、我々はBeta(Bagging and Encoder-based Fine-tuning for TabPFN Adaptation)という、バイアスと分散の両方を最小化するように設計された、新規かつ効果的な手法を提案する。バイアスを低減するために、軽量エンコーダを導入し、下流タスクと事前に訓練されたTabPFNとの整合を良くする。軽量な方法でエンコーダの数を増やすことで、ベータは分散を緩和し、それによってモデルの性能をさらに向上させる。さらに、ブートストラップサンプリングを採用することで、推論時の計算効率を維持しつつ、データの摂動がモデルに与える影響をさらに低減する。我々のアプローチは、TabPFNが高次元データを扱い、より大きなデータセットに拡張する能力を強化する。200以上のベンチマーク分類データセットでの実験結果は、Betaが最先端の手法を凌駕するか、あるいはそれに匹敵することを示している。
要約(オリジナル)
TabPFN has emerged as a promising in-context learning model for tabular data, capable of directly predicting the labels of test samples given labeled training examples. It has demonstrated competitive performance, particularly on small-scale classification tasks. However, despite its effectiveness, TabPFN still requires further refinement in several areas, including handling high-dimensional features, aligning with downstream datasets, and scaling to larger datasets. In this paper, we revisit existing variants of TabPFN and observe that most approaches focus either on reducing bias or variance, often neglecting the need to address the other side, while also increasing inference overhead. To fill this gap, we propose Beta (Bagging and Encoder-based Fine-tuning for TabPFN Adaptation), a novel and effective method designed to minimize both bias and variance. To reduce bias, we introduce a lightweight encoder to better align downstream tasks with the pre-trained TabPFN. By increasing the number of encoders in a lightweight manner, Beta mitigate variance, thereby further improving the model’s performance. Additionally, bootstrapped sampling is employed to further reduce the impact of data perturbations on the model, all while maintaining computational efficiency during inference. Our approach enhances TabPFN’s ability to handle high-dimensional data and scale to larger datasets. Experimental results on over 200 benchmark classification datasets demonstrate that Beta either outperforms or matches state-of-the-art methods.
arxiv情報
著者 | Si-Yang Liu,Han-Jia Ye |
発行日 | 2025-02-04 17:49:44+00:00 |
arxivサイト | arxiv_id(pdf) |