UniTabE: Pretraining a Unified Tabular Encoder for Heterogeneous Tabular Data

要約

自然言語処理 (NLP) の最近の進歩により、事前トレーニングされたモデルの画期的な効果が実証され、さまざまなタスクにわたって印象的な結果がもたらされました。
この研究では、事前トレーニング手法の能力を表形式データに拡張することを目指しています。表形式データは、これまで見落とされてきましたが、さまざまなタスクに固有のテーブル スキーマが大量にあるために本質的に困難な領域です。
この研究の基礎となる主な研究課題は、異種テーブル構造への適応、表形式データの汎用事前トレーニング プロトコルの確立、学習した知識のタスク間での一般化性と伝達可能性、多様な下流アプリケーションへの適応、および増分列の組み込みを中心に展開します。
時間とともに。
これらの課題に対応して、特定のテーブル構造による制約を受けずに、均一な方法でテーブルを処理するように設計された先駆的な手法である UniTabE を導入します。
UniTabE の中核となる概念は、TabUnit と呼ばれるモジュールを使用して各基本テーブル要素を表すことに依存しています。
続いて、Transformer エンコーダーを使用して表現を改良します。
さらに、私たちのモデルは、自由形式のプロンプトを利用することで、事前トレーニングと微調整を容易にするように設計されています。
事前トレーニング フェーズを実装するために、Kaggle プラットフォームから細心の注意を払って収集した、約 130 億のサンプルで構成される広大な表形式のデータセットを厳選しました。
私たちの方法論の有効性を検証するために、無数のシナリオの下で厳密な実験テストと分析が実行されました。
実験結果は、多数のベンチマーク データセットにわたるいくつかのベースライン モデルに対する UniTabE の優れたパフォーマンスを示しています。
したがって、これは、表形式データのセマンティック表現を大幅に強化する UniTabE の潜在力を強調し、それによって表形式データ分析の分野で大きな進歩を遂げることになります。

要約(オリジナル)

Recent advancements in Natural Language Processing (NLP) have witnessed the groundbreaking impact of pretrained models, yielding impressive outcomes across various tasks. This study seeks to extend the power of pretraining methodologies to tabular data, a domain traditionally overlooked, yet inherently challenging due to the plethora of table schemas intrinsic to different tasks. The primary research questions underpinning this work revolve around the adaptation to heterogeneous table structures, the establishment of a universal pretraining protocol for tabular data, the generalizability and transferability of learned knowledge across tasks, the adaptation to diverse downstream applications, and the incorporation of incremental columns over time. In response to these challenges, we introduce UniTabE, a pioneering method designed to process tables in a uniform manner, devoid of constraints imposed by specific table structures. UniTabE’s core concept relies on representing each basic table element with a module, termed TabUnit. This is subsequently followed by a Transformer encoder to refine the representation. Moreover, our model is designed to facilitate pretraining and finetuning through the utilization of free-form prompts. In order to implement the pretraining phase, we curated an expansive tabular dataset comprising approximately 13 billion samples, meticulously gathered from the Kaggle platform. Rigorous experimental testing and analyses were performed under a myriad of scenarios to validate the effectiveness of our methodology. The experimental results demonstrate UniTabE’s superior performance against several baseline models across a multitude of benchmark datasets. This, therefore, underscores UniTabE’s potential to significantly enhance the semantic representation of tabular data, thereby marking a significant stride in the field of tabular data analysis.

arxiv情報

著者 Yazheng Yang,Yuqi Wang,Guang Liu,Ledell Wu,Qi Liu
発行日 2023-07-18 13:28:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク