要約
大規模な分析エンジンは、現代のデータ駆動型企業にとってビジネス上の洞察を導き出し、アクションを推進するための中核的な依存関係となっています。
これらのエンジンは、毎日膨大な量のデータを処理する多数の分析ジョブをサポートしており、複数のジョブにわたって重複する計算によってワークロードが殺到することがよくあります。
共通の計算を再利用することは、クラスター リソースを効率的に利用し、ジョブの実行時間を短縮するために重要です。
共通の計算を検出することは、この計算の冗長性を軽減するための最初の重要なステップです。
ただし、大規模な分析エンジンで同等性を検出するには、完全に自動化された効率的でスケーラブルなソリューションが必要です。
さらに、計算の再利用を最大化するには、構文レベルだけでなく意味レベルで等価性を検出する必要があります (つまり、一見異なるように見えるクエリの意味上の等価性を検出する機能)。
残念ながら、既存のソリューションはこれらの要件を満たすことができません。
この論文では、意味的に同等の計算を大規模に効率的に識別するためのポータブルで軽量な機械学習ベースのフレームワークである GEqO を提案することで、このギャップを埋めるための大きな一歩を踏み出します。
GEqO は、等価でない部分式を迅速に取り除く 2 つの機械学習ベースのフィルターを導入し、半教師あり学習フィードバック ループを採用して、インテリジェントなサンプリング メカニズムでモデルを反復的に改善します。
さらに、GEqO は、データベースに依存しない新しい特徴付け手法を使用して、あるワークロードとデータベースから別のワークロードとデータベースに学習を転送できます。
私たちの広範な実証的評価では、TPC-DS のようなクエリで、GEqO が大幅なパフォーマンス向上 (自動検証器よりも最大 200 倍高速) をもたらし、オプティマイザーやシグネチャベースの等価性検出アプローチよりも最大 2 倍多くの等価性を検出できることが示されています。
要約(オリジナル)
Large scale analytics engines have become a core dependency for modern data-driven enterprises to derive business insights and drive actions. These engines support a large number of analytic jobs processing huge volumes of data on a daily basis, and workloads are often inundated with overlapping computations across multiple jobs. Reusing common computation is crucial for efficient cluster resource utilization and reducing job execution time. Detecting common computation is the first and key step for reducing this computational redundancy. However, detecting equivalence on large-scale analytics engines requires efficient and scalable solutions that are fully automated. In addition, to maximize computation reuse, equivalence needs to be detected at the semantic level instead of just the syntactic level (i.e., the ability to detect semantic equivalence of seemingly different-looking queries). Unfortunately, existing solutions fall short of satisfying these requirements. In this paper, we take a major step towards filling this gap by proposing GEqO, a portable and lightweight machine-learning-based framework for efficiently identifying semantically equivalent computations at scale. GEqO introduces two machine-learning-based filters that quickly prune out nonequivalent subexpressions and employs a semi-supervised learning feedback loop to iteratively improve its model with an intelligent sampling mechanism. Further, with its novel database-agnostic featurization method, GEqO can transfer the learning from one workload and database to another. Our extensive empirical evaluation shows that, on TPC-DS-like queries, GEqO yields significant performance gains-up to 200x faster than automated verifiers-and finds up to 2x more equivalences than optimizer and signature-based equivalence detection approaches.
arxiv情報
著者 | Brandon Haynes,Rana Alotaibi,Anna Pavlenko,Jyoti Leeka,Alekh Jindal,Yuanyuan Tian |
発行日 | 2024-01-02 16:37:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google