要約
深い表形式表現学習モデルのスケーリングの可能性を分析するために、テーブル固有のトークナイザーと共有の Transformer バックボーンを利用して、表形式データとクロステーブル表現学習に特化した新しい Transformer ベースのアーキテクチャを導入します。
私たちのトレーニング アプローチには、自己教師付きマスクセル回復目標による欠損値補完を介してトレーニングされた、単一テーブル モデルとクロステーブル モデルの両方が含まれます。
私たちのメソッドのスケーリング動作を理解するために、約 $10^4$ から $10^7$ パラメーターの範囲のさまざまなサイズのモデルをトレーニングします。
これらのモデルは、76 の多様なデータセットから取得された 1 億 3,500 万のトレーニング トークンで構成される、慎重に厳選された事前トレーニング データセットでトレーニングされます。
厳選されたベンチマーク データセットのセットに対して線形プローブを使用して事前トレーニング済みモデルを評価し、その結果を従来のベースラインと比較することで、単一テーブルとクロステーブルの両方の事前トレーニング設定でアーキテクチャのスケーリングを評価します。
要約(オリジナル)
To analyze the scaling potential of deep tabular representation learning models, we introduce a novel Transformer-based architecture specifically tailored to tabular data and cross-table representation learning by utilizing table-specific tokenizers and a shared Transformer backbone. Our training approach encompasses both single-table and cross-table models, trained via missing value imputation through a self-supervised masked cell recovery objective. To understand the scaling behavior of our method, we train models of varying sizes, ranging from approximately $10^4$ to $10^7$ parameters. These models are trained on a carefully curated pretraining dataset, consisting of 135M training tokens sourced from 76 diverse datasets. We assess the scaling of our architecture in both single-table and cross-table pretraining setups by evaluating the pretrained models using linear probing on a curated set of benchmark datasets and comparing the results with conventional baselines.
arxiv情報
著者 | Maximilian Schambach,Dominique Paul,Johannes S. Otterbach |
発行日 | 2023-09-29 15:48:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google