RDBench: ML Benchmark for Relational Databases

要約

高品質のデータセットと標準化された評価指標の恩恵を受けて、機械学習 (ML) は持続的な進歩と幅広い応用を達成しました。
ただし、機械学習をリレーショナル データベース (RDB) に適用する際、十分に確立されたベンチマークの欠如が、依然として ML の開発に対する大きな障害となっています。
この問題に対処するために、複数のテーブルを含む RDB で再現可能な ML 研究を促進することを目的とした標準化されたベンチマークである ML Benchmark For Relational Databases (RDBench) を導入します。
RDBench は、4 つのレベルに編成された、さまざまな規模、ドメイン、リレーショナル構造の多様な RDB データセットを提供します。
特に、多様な ML ドメインでの RDBench の導入を簡素化するために、特定のデータベースに対して、RDBench は表形式データ、同種グラフ、異種グラフを含む 3 種類のインターフェイスを公開し、同じ基礎となるタスク定義を共有します。
RDBench により、RDB 予測タスクの下で、XGBoost からグラフ ニューラル ネットワークに至るまで、さまざまなドメインの ML メソッド間の有意義な比較が初めて可能になりました。
各 RDB データセットに対して複数の分類および回帰タスクを設計し、同じデータセットにわたる平均結果を報告することで、実験結果の堅牢性をさらに強化します。
RDBench は、データベース上の ML 研究とアプリケーションのための使いやすいプラットフォームである DBGym で実装されており、RDBench を使用して新しい ML メソッドのベンチマークを簡単に行うことができます。

要約(オリジナル)

Benefiting from high-quality datasets and standardized evaluation metrics, machine learning (ML) has achieved sustained progress and widespread applications. However, while applying machine learning to relational databases (RDBs), the absence of a well-established benchmark remains a significant obstacle to the development of ML. To address this issue, we introduce ML Benchmark For Relational Databases (RDBench), a standardized benchmark that aims to promote reproducible ML research on RDBs that include multiple tables. RDBench offers diverse RDB datasets of varying scales, domains, and relational structures, organized into 4 levels. Notably, to simplify the adoption of RDBench for diverse ML domains, for any given database, RDBench exposes three types of interfaces including tabular data, homogeneous graphs, and heterogeneous graphs, sharing the same underlying task definition. For the first time, RDBench enables meaningful comparisons between ML methods from diverse domains, ranging from XGBoost to Graph Neural Networks, under RDB prediction tasks. We design multiple classification and regression tasks for each RDB dataset and report averaged results over the same dataset, further enhancing the robustness of the experimental findings. RDBench is implemented with DBGym, a user-friendly platform for ML research and application on databases, enabling benchmarking new ML methods with RDBench at ease.

arxiv情報

著者 Zizhao Zhang,Yi Yang,Lutong Zou,He Wen,Tao Feng,Jiaxuan You
発行日 2023-10-25 17:59:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB, cs.LG, cs.SI パーマリンク