TabRet: Pre-training Transformer-based Tabular Models for Unseen Columns

要約

タイトル:未知の列に対する事前学習を行ったTransformerベースの表モデルのTabRet

要約:
– TabRetは、表形式のデータのためのTransformerベースのモデルである。
– TabRetは、事前学習時には見たことのない列にも対応することができる。
– TabRetは事前学習後に、マスクされた自己符号化損失に基づいて特徴の埋め込みを調整する「retokenizing」と呼ばれる追加の学習ステップを持つ。
– TabRetは、公共の健康調査の大規模なコレクションで事前学習し、医療分類タスクで微調整して、4つのデータセットで最高のAUC性能を達成した。
– 精度向上には、retokenizingと事前学習中の列のランダムシャッフルの増強が貢献した。
– コードは https://github.com/pfnet-research/tabret で利用可能である。

要約(オリジナル)

We present \emph{TabRet}, a pre-trainable Transformer-based model for tabular data. TabRet is designed to work on a downstream task that contains columns not seen in pre-training. Unlike other methods, TabRet has an extra learning step before fine-tuning called \emph{retokenizing}, which calibrates feature embeddings based on the masked autoencoding loss. In experiments, we pre-trained TabRet with a large collection of public health surveys and fine-tuned it on classification tasks in healthcare, and TabRet achieved the best AUC performance on four datasets. In addition, an ablation study shows retokenizing and random shuffle augmentation of columns during pre-training contributed to performance gains. The code is available at https://github.com/pfnet-research/tabret .

arxiv情報

著者 Soma Onishi,Kenta Oono,Kohei Hayashi
発行日 2023-04-08 10:57:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク