Duet: efficient and scalable hybriD neUral rElation undersTanding

要約

確率分布推定に基づくカーディナリティ推定手法は、従来の手法と比較して高精度な推定結果を実現しています。
ただし、最も高度な方法では、範囲クエリを処理するときに使用するサンプリング方法により、推定コストが高くなります。
また、このようなサンプリング方法ではそれらを区別することが困難になるため、クエリ ワークロードからの監視信号を使用してモデルをトレーニングしてカーディナリティ推定の精度を向上させることが困難になります。
この論文では、以前のアプローチと比較して効率とスケーラビリティが優れた、カーディナリティ推定問題に対する新しいハイブリッドおよび決定論的モデリング アプローチ (Duet) を提案します。
Duet を使用すると、時間とメモリのコストを大幅に削減し、微分可能な形式で範囲クエリのカーディナリティを直接推定できます。
このアプローチの予測プロセスは微分可能であるため、より大きなモデル推定誤差を持つクエリをトレーニング プロセスに組み込んで、高次元テーブル上のモデル推定誤差のロングテール分布問題に対処できます。
従来のデータセットとベンチマークに基づいて Duet を評価し、その結果は Duet の有効性を証明しています。

要約(オリジナル)

Cardinality estimation methods based on probability distribution estimation have achieved high-precision estimation results compared to traditional methods. However, the most advanced methods suffer from high estimation costs due to the sampling method they use when dealing with range queries. Also, such a sampling method makes them difficult to differentiate, so the supervision signal from the query workload is difficult to train the model to improve the accuracy of cardinality estimation. In this paper, we propose a new hybrid and deterministic modeling approach (Duet) for the cardinality estimation problem which has better efficiency and scalability compared to previous approaches. Duet allows for direct cardinality estimation of range queries with significantly lower time and memory costs, as well as in a differentiable form. As the prediction process of this approach is differentiable, we can incorporate queries with larger model estimation errors into the training process to address the long-tail distribution problem of model estimation errors on high dimensional tables. We evaluate Duet on classical datasets and benchmarks, and the results prove the effectiveness of Duet.

arxiv情報

著者 Kaixin Zhang,Hongzhi Wang,Yabin Lu,Ziqi Li,Chang Shu,Yu Yan,Donghua Yang
発行日 2023-07-25 13:42:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB, cs.LG パーマリンク