要約
Hollmann et al。
(Nature 637(2025)319-326)最近、TABPFNが導入されました。TABPFNは、表形式データの回帰と分類のための変圧器ベースのディープ学習モデルであり、「最大10,000サンプルのデータセット上のすべての以前のメソッドを、トレーニング時間を大幅に短くして、最大10,000サンプルのすべての方法を上回る」と主張しています。
さらに、「データ生成、密度推定、学習再利用可能な埋め込み、微調整」をサポートできるため、TABPFNと呼ばれています。
これらのステートメントが十分にサポートされている場合、TABPFNは、幅広い統計タスクで既存のモデリングアプローチに取って代わる可能性がある可能性があり、大規模な言語モデルの出現から始まった人工知能の他の分野で同様の革命を反映しています。
この論文では、統計視聴者のためにTABPFNがどのように機能するかについての調整された説明を提供します。
また、TABPFNの「基礎モデル」機能のより多くの証拠を提供します。TABPFNのすぐに使えるアプリケーションが、半監視パラメーター推定、共変量シフト下での予測、および異種治療効果の推定のための特殊な最先端の方法を大幅に上回ることを示しています。
さらに、TABPFNがスパース回帰でラッソを上回り、分類における堅牢性効率のトレードオフを破ることができることを示します。
すべての実験は、https://github.com/qinglong-tian/tabpfn_study(https://github.com/qinglong-tian/tabpfn_study)に提供されるコードを使用して再現できます。
要約(オリジナル)
Hollmann et al. (Nature 637 (2025) 319-326) recently introduced TabPFN, a transformer-based deep learning model for regression and classification on tabular data, which they claim ‘outperforms all previous methods on datasets with up to 10,000 samples by a wide margin, using substantially less training time.’ Furthermore, they have called TabPFN a ‘foundation model’ for tabular data, as it can support ‘data generation, density estimation, learning reusable embeddings and fine-tuning’. If these statements are well-supported, TabPFN may have the potential to supersede existing modeling approaches on a wide range of statistical tasks, mirroring a similar revolution in other areas of artificial intelligence that began with the advent of large language models. In this paper, we provide a tailored explanation of how TabPFN works for a statistics audience, by emphasizing its interpretation as approximate Bayesian inference. We also provide more evidence of TabPFN’s ‘foundation model’ capabilities: We show that an out-of-the-box application of TabPFN vastly outperforms specialized state-of-the-art methods for semi-supervised parameter estimation, prediction under covariate shift, and heterogeneous treatment effect estimation. We further show that TabPFN can outperform LASSO at sparse regression and can break a robustness-efficiency trade-off in classification. All experiments can be reproduced using the code provided at https://github.com/qinglong-tian/tabpfn_study (https://github.com/qinglong-tian/tabpfn_study).
arxiv情報
著者 | Qiong Zhang,Yan Shuo Tan,Qinglong Tian,Pengfei Li |
発行日 | 2025-05-26 13:55:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google