TabSTAR: A Foundation Tabular Model With Semantically Target-Aware Representations

要約

ディープラーニングは多くのドメインで顕著な成功を収めていますが、歴史的に表形式の学習タスクではパフォーマンスが低く、勾配ブーストツリー(GBDT)によって支配されています。
ただし、最近の進歩は、特にデータにフリーテキストが含まれている場合、実際の知識を活用し、多様なデータセット全体で一般化することができる表形式の基礎モデルの道を開いています。
言語モデルの能力を表形式のタスクに組み込むことが調査されていますが、ほとんどの既存の方法は静的なターゲットに依存しないテキスト表現を利用して、有効性を制限します。
Tabstar:Semanticaltage-Aware表現を持つ基礎表形式モデルを紹介します。
TabStarは、テキスト機能を備えた表形式データの転送学習を可能にするように設計されており、データセット固有のパラメーターがないアーキテクチャがあります。
事前に防止されたテキストエンコーダーを解除し、入力ターゲットトークンとして使用します。これにより、モデルはタスク固有の埋め込みを学習するために必要なコンテキストを提供します。
Tabstarは、テキスト機能を備えた分類タスクの既知のベンチマーク全体で中型および大規模データセットの両方で最先端のパフォーマンスを実現し、その事前削除段階はデータセットの数にスケーリング法則を示し、さらなるパフォーマンスの改善のための経路を提供します。

要約(オリジナル)

While deep learning has achieved remarkable success across many domains, it has historically underperformed on tabular learning tasks, which remain dominated by gradient boosting decision trees (GBDTs). However, recent advancements are paving the way for Tabular Foundation Models, which can leverage real-world knowledge and generalize across diverse datasets, particularly when the data contains free-text. Although incorporating language model capabilities into tabular tasks has been explored, most existing methods utilize static, target-agnostic textual representations, limiting their effectiveness. We introduce TabSTAR: a Foundation Tabular Model with Semantically Target-Aware Representations. TabSTAR is designed to enable transfer learning on tabular data with textual features, with an architecture free of dataset-specific parameters. It unfreezes a pretrained text encoder and takes as input target tokens, which provide the model with the context needed to learn task-specific embeddings. TabSTAR achieves state-of-the-art performance for both medium- and large-sized datasets across known benchmarks of classification tasks with text features, and its pretraining phase exhibits scaling laws in the number of datasets, offering a pathway for further performance improvements.

arxiv情報

著者 Alan Arazi,Eilam Shapira,Roi Reichart
発行日 2025-05-23 17:34:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク