Analytics Modelling over Multiple Datasets using Vector Embeddings

要約

アナリストのデータボリュームとデータセットの可用性の大幅な増加により、研究者はデータコンテンツに焦点を当て、高品質のデータセットを選択して分析オペレーターのパフォーマンスを強化することを強いられます。
高品質のデータを選択すると、分析の精度と効率が大幅に向上しますが、大規模なデータセットの可用性を考えると、正確なプロセスは非常に困難です。
この問題に対処するために、利用可能なデータセットからモデルを作成することにより、分析オペレーターの結果を推進する新しい方法論を提案します。
各データセットは、類似性検索が採用されている提案されたディープラーニングモデルNumtabData2VECによって生成されるベクトル埋め込み表現に変換されます。
実験的評価を通じて、フレームワークの予測パフォーマンスと実行時間を、別の最先端のモデリングオペレーターフレームワークと比較し、アプローチが分析の結果を正確に予測し、スピードアップを増加させることを示しています。
さらに、ベクトル化モデルは、異なる実際のシナリオをより低いベクトル埋め込み表現に正確に投影し、それらを区別できます。

要約(オリジナル)

The massive increase in the data volume and dataset availability for analysts compels researchers to focus on data content and select high-quality datasets to enhance the performance of analytics operators. While selecting high-quality data significantly boosts analytical accuracy and efficiency, the exact process is very challenging given large-scale dataset availability. To address this issue, we propose a novel methodology that infers the outcome of analytics operators by creating a model from the available datasets. Each dataset is transformed to a vector embedding representation generated by our proposed deep learning model NumTabData2Vec, where similarity search are employed. Through experimental evaluation, we compare the prediction performance and the execution time of our framework to another state-of-the-art modelling operator framework, illustrating that our approach predicts analytics outcomes accurately, and increases speedup. Furthermore, our vectorization model can project different real-world scenarios to a lower vector embedding representation accurately and distinguish them.

arxiv情報

著者 Andreas Loizou,Dimitrios Tsoumakos
発行日 2025-06-17 15:45:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク