Can Deep Neural Networks Predict Data Correlations from Column Names?

要約

最近の出版物では、データベース スキーマ要素に対して自然言語分析を使用して、チューニングとプロファイリングの取り組みをガイドすることが提案されています。
根底にある仮説は、最先端の言語処理手法、いわゆる言語モデルはスキーマ テキストからデータ プロパティに関する情報を抽出できるというものです。
この論文では、データ相関分析のコンテキストでその仮説を検証します。言語モデルを介して名前を分析することで、相関データを持つ列のペアを見つけることは可能でしょうか?
まず、この論文では、数千の Kaggle データ セットを分析して作成された (ダウンロード可能) データ相関分析の新しいベンチマークを紹介します。
次に、そのデータを使用して、列名に基づいて相関関係を予測する言語モデルの能力を研究します。
分析には、さまざまな言語モデル、さまざまな相関指標、および多数の精度指標が含まれます。
列名の長さや単語の比率など、予測の成功に寄与する要因を正確に特定します。
最後に、 \rev{この研究では、列の型が予測パフォーマンスに及ぼす影響を分析しています。} この結果は、スキーマ テキストが有用な情報源であり、NLP で強化されたデータベース チューニングとデータ プロファイリングを対象とした将来の研究活動に役立つことを示しています。

要約(オリジナル)

Recent publications suggest using natural language analysis on database schema elements to guide tuning and profiling efforts. The underlying hypothesis is that state-of-the-art language processing methods, so-called language models, are able to extract information on data properties from schema text. This paper examines that hypothesis in the context of data correlation analysis: is it possible to find column pairs with correlated data by analyzing their names via language models? First, the paper introduces a novel benchmark for data correlation analysis, created by analyzing thousands of Kaggle data sets (and available for download). Second, it uses that data to study the ability of language models to predict correlation, based on column names. The analysis covers different language models, various correlation metrics, and a multitude of accuracy metrics. It pinpoints factors that contribute to successful predictions, such as the length of column names as well as the ratio of words. Finally, \rev{the study analyzes the impact of column types on prediction performance.} The results show that schema text can be a useful source of information and inform future research efforts, targeted at NLP-enhanced database tuning and data profiling.

arxiv情報

著者 Immanuel Trummer
発行日 2023-09-11 15:37:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DB パーマリンク