要約
表形式の分類は従来、最初からのトレーニングに依存していましたが、事前データ適合ネットワーク (PFN) と呼ばれる最近の画期的な進歩により、このアプローチに挑戦が生まれました。
大規模な言語モデルと同様に、PFN は事前トレーニングとコンテキスト内学習を利用して、単一の前方パスで新しいタスクで優れたパフォーマンスを達成します。
ただし、現在の PFN には、広範な採用を妨げる制限があります。
特に、TabPFN は小さな表形式のデータセットで非常に優れたパフォーマンスを実現しますが、1000 を超えるサイズのデータセットを予測するように設計されていません。この作業では、これらの制限を克服し、コンテキストの最適化によって PFN のパフォーマンスを大幅に向上させます。
大規模なデータセットをより小さな学習済みコンテキストに圧縮する、PFN 向けのパラメーター効率の高い微調整戦略である TuneTables を紹介します。
私たちは 98 のデータセットにわたる 19 のアルゴリズムで広範な実験を行った結果、TuneTables が平均して最高のパフォーマンスを達成し、TabPFN のパラメーターの 5% 未満を最適化しながら、CatBoost などのブーストされたツリーを上回っていることがわかりました。
さらに、TuneTables が解釈可能性ツールとして使用でき、公平性の目標を最適化することでバイアスを軽減するためにも使用できることを示します。
コードと生の結果は https://github.com/penfever/TuneTables でオープンソース化されています。
要約(オリジナル)
While tabular classification has traditionally relied on from-scratch training, a recent breakthrough called prior-data fitted networks (PFNs) challenges this approach. Similar to large language models, PFNs make use of pretraining and in-context learning to achieve strong performance on new tasks in a single forward pass. However, current PFNs have limitations that prohibit their widespread adoption. Notably, TabPFN achieves very strong performance on small tabular datasets but is not designed to make predictions for datasets of size larger than 1000. In this work, we overcome these limitations and substantially improve the performance of PFNs via context optimization. We introduce TuneTables, a parameter-efficient fine-tuning strategy for PFNs that compresses large datasets into a smaller learned context. We conduct extensive experiments on 19 algorithms over 98 datasets and find that TuneTables achieves the best performance on average, outperforming boosted trees such as CatBoost, while optimizing fewer than 5% of TabPFN’s parameters. Furthermore, we show that TuneTables can be used as an interpretability tool and can even be used to mitigate biases by optimizing a fairness objective. We open-source our code and raw results at https://github.com/penfever/TuneTables.
arxiv情報
著者 | Benjamin Feuer,Robin Tibor Schirrmeister,Valeriia Cherepanova,Chinmay Hegde,Frank Hutter,Micah Goldblum,Niv Cohen,Colin White |
発行日 | 2024-10-21 16:48:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google