XTab: Cross-table Pretraining for Tabular Transformers

要約

タイトル: XTab:クロステーブルTransformerのためのクロステーブル事前学習

要約:
– コンピュータビジョンや自然言語処理における自己教示学習の成功は、表形式のデータに対する事前学習手法の開発を促した
– しかし、多くの既存の表形式の自己教示学習モデルは、複数のデータテーブル間の情報を活用できず、新しい表に対しても一般化できないという問題があった
– 本研究では、異なるドメインのデータセットに対してクロステーブルのTransformerに対する事前学習を行うXTabフレームワークを提案している
– テーブル間で列の種類や数量が一貫していないという課題に対しては、独立した特徴量抽出器を利用し、共有コンポーネントを事前学習するためにフェデレーテッド学習を使用することで対応している
– OpenML-AutoML Benchmark(AMLB)からの84の表形式予測タスクでテストした結果、XTabは(1)複数の表形式Transformerの一般性、学習速度、および性能を一貫して向上させ、(2)XTabを介してFT-Transformerを事前学習することで、回帰、バイナリ、および多クラス分類などのタスクで他の最先端の表形式ディープラーニングモデルよりも優れたパフォーマンスを実現している

要約(オリジナル)

The success of self-supervised learning in computer vision and natural language processing has motivated pretraining methods on tabular data. However, most existing tabular self-supervised learning models fail to leverage information across multiple data tables and cannot generalize to new tables. In this work, we introduce XTab, a framework for cross-table pretraining of tabular transformers on datasets from various domains. We address the challenge of inconsistent column types and quantities among tables by utilizing independent featurizers and using federated learning to pretrain the shared component. Tested on 84 tabular prediction tasks from the OpenML-AutoML Benchmark (AMLB), we show that (1) XTab consistently boosts the generalizability, learning speed, and performance of multiple tabular transformers, (2) by pretraining FT-Transformer via XTab, we achieve superior performance than other state-of-the-art tabular deep learning models on various tasks such as regression, binary, and multiclass classification.

arxiv情報

著者 Bingzhao Zhu,Xingjian Shi,Nick Erickson,Mu Li,George Karypis,Mahsa Shoaran
発行日 2023-05-10 12:17:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク