DeepJoin: Joinable Table Discovery with Pre-trained Language Models

要約

データ分析タスクのデータ強化に役立つため、結合可能テーブルの検出はデータ レイク管理における重要な操作になっています。
既存のアプローチは、統合ビューを作成するためにテーブルを結合する最も一般的な方法である等結合、またはスペルミスや異なる形式を許容してより多くの結合結果を提供するセマンティック結合をターゲットとしています。
これらは、実行時間がクエリ列とターゲット テーブル リポジトリのサイズに線形である正確なソリューションか、精度に欠ける近似ソリューションのいずれかです。
この論文では、正確かつ効率的に結合可能なテーブルを検出するための深層学習モデルである Deepjoin を提案します。
私たちのソリューションは、事前トレーニングされた言語モデル (PLM) を採用し、等価結合とセマンティック結合の両方に対応する 1 つのフレームワークとして設計された埋め込みベースの検索です。
列の内容をテキスト シーケンスに変換するための一連のコンテキスト化オプションを提案します。
PLM はシーケンスを読み取り、列がベクトル空間で互いに近い場合に結合可能であることが期待されるように、列をベクトルに埋め込むように微調整されます。
PLM の出力は長さが固定されているため、後続の検索手順は列サイズに依存しません。
最先端の近似最近傍検索アルゴリズムを使用すると、検索時間はリポジトリ サイズの対数になります。
モデルをトレーニングするには、トレーニング データの準備とデータ拡張の手法を考案します。
実際のデータセットでの実験は、コーパスの小さなサブセットでトレーニングすることにより、Deepjoin が大規模なデータセットに一般化し、その精度が他の近似解を常に上回ることを示しています。
Deepjoin は、専門家によるラベルを使用して評価すると、セマンティック結合の正確なソリューションよりもさらに正確です。
さらに、GPU を搭載すると、Deepjoin は既存のソリューションよりも最大 2 桁高速になります。

要約(オリジナル)

Due to the usefulness in data enrichment for data analysis tasks, joinable table discovery has become an important operation in data lake management. Existing approaches target equi-joins, the most common way of combining tables for creating a unified view, or semantic joins, which tolerate misspellings and different formats to deliver more join results. They are either exact solutions whose running time is linear in the sizes of query column and target table repository or approximate solutions lacking precision. In this paper, we propose Deepjoin, a deep learning model for accurate and efficient joinable table discovery. Our solution is an embedding-based retrieval, which employs a pre-trained language model (PLM) and is designed as one framework serving both equi- and semantic joins. We propose a set of contextualization options to transform column contents to a text sequence. The PLM reads the sequence and is fine-tuned to embed columns to vectors such that columns are expected to be joinable if they are close to each other in the vector space. Since the output of the PLM is fixed in length, the subsequent search procedure becomes independent of the column size. With a state-of-the-art approximate nearest neighbor search algorithm, the search time is logarithmic in the repository size. To train the model, we devise the techniques for preparing training data as well as data augmentation. The experiments on real datasets demonstrate that by training on a small subset of a corpus, Deepjoin generalizes to large datasets and its precision consistently outperforms other approximate solutions’. Deepjoin is even more accurate than an exact solution to semantic joins when evaluated with labels from experts. Moreover, when equipped with a GPU, Deepjoin is up to two orders of magnitude faster than existing solutions.

arxiv情報

著者 Yuyang Dong,Chuan Xiao,Takuma Nozawa,Masafumi Enomoto,Masafumi Oyamada
発行日 2023-06-23 14:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB, cs.LG パーマリンク