TabRet: Pre-training Transformer-based Tabular Models for Unseen Columns

要約

タイトル:TabRet:未知の列のための事前学習Transformerベースの表モデル

要約:

– TabRetは、表形式のデータのための事前学習可能なTransformerベースのモデルである。
– TabRetは、事前学習で見たことのない列を含む下流のタスクに適している。
– TabRetには、ファインチューニングの前に、マスクオートエンコーディング損失に基づいて特徴埋め込みを校正する「リトークナイジング」という追加の学習ステップがある。
– 実験では、公共衛生調査の大規模なコレクションでTabRetを事前学習し、医療分類タスクでFine-tuningしたところ、TabRetは4つのデータセットで最高のAUCパフォーマンスを達成した。
– さらに、削除試験は、リトークナイジングと事前学習中の列のランダムシャッフルの増強がパフォーマンス向上に寄与したことを示している。
– コードはhttps://github.com/pfnet-research/tabretで入手可能。

要約(オリジナル)

We present \emph{TabRet}, a pre-trainable Transformer-based model for tabular data. TabRet is designed to work on a downstream task that contains columns not seen in pre-training. Unlike other methods, TabRet has an extra learning step before fine-tuning called \emph{retokenizing}, which calibrates feature embeddings based on the masked autoencoding loss. In experiments, we pre-trained TabRet with a large collection of public health surveys and fine-tuned it on classification tasks in healthcare, and TabRet achieved the best AUC performance on four datasets. In addition, an ablation study shows retokenizing and random shuffle augmentation of columns during pre-training contributed to performance gains. The code is available at https://github.com/pfnet-research/tabret .

arxiv情報

著者 Soma Onishi,Kenta Oono,Kohei Hayashi
発行日 2023-04-16 03:42:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク