Retrieval-Based Transformer for Table Augmentation

要約

データの準備 (データ ラングリングとも呼ばれます) は、分析を実行したり機械学習モデルを構築したりする際に、最も費用と時間がかかる手順の 1 つと考えられています。
データの準備には通常、データ レイクなどの複雑で異種の、多くの場合大規模なデータ ソースからのデータの収集と結合が含まれます。
このペーパーでは、エンドユーザーの労力を軽減するために、自動データラングリングに対する新しいアプローチを紹介します。
データ アナリストは、表形式データの形式でデータ レイクからの動的なビューを構築します。
私たちは、行/列の追加やデータの代入などのテーブル拡張タスクに対処することを目指しています。
テーブルのコーパスが与えられた場合、検索拡張自己訓練トランスフォーマー モデルを提案します。
私たちの自己学習戦略は、コーパスからテーブルをランダムにアブレーションし、部分テーブルを入力として与えられた元の値またはヘッダーを再構築するために検索ベースのモデルをトレーニングすることで構成されます。
この戦略を採用して、最初にテーブル部分をベクトルにエンコードする高密度ニューラル検索モデルをトレーニングし、次にテーブル拡張タスクを実行するようにエンドツーエンド モデルをトレーニングします。
テーブル拡張の標準ベンチマークである EntiTables でテストするとともに、さらなる研究を進めるための新しいベンチマークである WebTables を導入します。
私たちのモデルは、教師あり統計手法と現在の最先端の変圧器ベースのモデルの両方を一貫して大幅に上回っています。

要約(オリジナル)

Data preparation, also called data wrangling, is considered one of the most expensive and time-consuming steps when performing analytics or building machine learning models. Preparing data typically involves collecting and merging data from complex heterogeneous, and often large-scale data sources, such as data lakes. In this paper, we introduce a novel approach toward automatic data wrangling in an attempt to alleviate the effort of end-users, e.g. data analysts, in structuring dynamic views from data lakes in the form of tabular data. We aim to address table augmentation tasks, including row/column population and data imputation. Given a corpus of tables, we propose a retrieval augmented self-trained transformer model. Our self-learning strategy consists in randomly ablating tables from the corpus and training the retrieval-based model to reconstruct the original values or headers given the partial tables as input. We adopt this strategy to first train the dense neural retrieval model encoding table-parts to vectors, and then the end-to-end model trained to perform table augmentation tasks. We test on EntiTables, the standard benchmark for table augmentation, as well as introduce a new benchmark to advance further research: WebTables. Our model consistently and substantially outperforms both supervised statistical methods and the current state-of-the-art transformer-based models.

arxiv情報

著者 Michael Glass,Xueqing Wu,Ankita Rajaram Naik,Gaetano Rossiello,Alfio Gliozzo
発行日 2023-06-20 18:51:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DB, cs.IR パーマリンク