Powering In-Database Dynamic Model Slicing for Structured Data Analytics

要約

リレーショナル データベース管理システム (RDBMS) は、構造化データの保存と取得に広く使用されています。
統計的な集計を超えて洞察を得るには、通常、従来のデータベース操作を使用してデータベースから特定のサブデータセットを抽出し、別の機械学習システムでこれらのそれぞれのサブデータセットに対してディープ ニューラル ネットワーク (DNN) トレーニングと推論を適用する必要があります。
このプロセスは、特にさまざまな分析目的で抽出されたサブデータセットの組み合わせが多数ある場合に、法外に高価になる可能性があります。
これには、高度な分析手法の効率的なデータベース内サポートが必要です。このホワイト ペーパーでは、SQL クエリで指定されたサブデータセットのモデルをカスタマイズする新しい SQL 対応の動的モデル スライシング手法である LEADS を紹介します。
LEADS は、専門家混合 (MoE) 技術によって構造化データの予測モデリングを改善し、SQL 対応のゲーティング ネットワークによって推論効率を維持します。
LEADS の中核は、データベース全体でトレーニングされた MoE を介した複数のエキスパート サブモデルを含む一般モデルの構築です。
この SQL 対応 MoE 手法は、推論中にゲート ネットワークを介して必要なエキスパートのみをアクティブにすることで、モデリング能力をスケールアップし、有効性を高め、効率を維持します。
さらに、有効性と効率性のバランスをとるために、LEADS のトレーニング プロセス中に 2 つの正則化用語を導入します。
また、INDICES と呼ばれるデータベース内推論システムも設計および構築し、LEADS を PostgreSQL に非侵入的に組み込むことでエンドツーエンドの高度な構造化データ分析をサポートします。
実世界のデータセットに対する広範な実験では、LEADS が常にベースライン モデルを上回るパフォーマンスを示し、INDICES が従来のソリューションと比較して推論レイテンシを大幅に削減して効果的なデータベース内分析を提供することを示しています。

要約(オリジナル)

Relational database management systems (RDBMS) are widely used for the storage and retrieval of structured data. To derive insights beyond statistical aggregation, we typically have to extract specific subdatasets from the database using conventional database operations, and then apply deep neural networks (DNN) training and inference on these respective subdatasets in a separate machine learning system. The process can be prohibitively expensive, especially when there are a combinatorial number of subdatasets extracted for different analytical purposes. This calls for efficient in-database support of advanced analytical methods In this paper, we introduce LEADS, a novel SQL-aware dynamic model slicing technique to customize models for subdatasets specified by SQL queries. LEADS improves the predictive modeling of structured data via the mixture of experts (MoE) technique and maintains inference efficiency by a SQL-aware gating network. At the core of LEADS is the construction of a general model with multiple expert sub-models via MoE trained over the entire database. This SQL-aware MoE technique scales up the modeling capacity, enhances effectiveness, and preserves efficiency by activating only necessary experts via the gating network during inference. Additionally, we introduce two regularization terms during the training process of LEADS to strike a balance between effectiveness and efficiency. We also design and build an in-database inference system, called INDICES, to support end-to-end advanced structured data analytics by non-intrusively incorporating LEADS onto PostgreSQL. Our extensive experiments on real-world datasets demonstrate that LEADS consistently outperforms baseline models, and INDICES delivers effective in-database analytics with a considerable reduction in inference latency compared to traditional solutions.

arxiv情報

著者 Lingze Zeng,Naili Xing,Shaofeng Cai,Gang Chen,Beng Chin Ooi,Jian Pei,Yuncheng Wu
発行日 2024-05-01 15:18:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB パーマリンク