GFS: Graph-based Feature Synthesis for Prediction over Relational Databases

要約

リレーショナル・データベースは、現代の様々な情報システム・アプリケーションで広く利用されており、常に貴重なデータ・パターンを保持している。リレーショナルデータベース上で行われるデータマイニングや機械学習タスクは膨大な数にのぼる。しかし、注目すべきは、リレーショナルデータベース専用に設計された機械学習モデルは限られていることである。そのため、リレーショナルデータベースに格納されたデータで機械学習モデルを学習するための一般的なアプローチでは、複数のテーブルのデータを1つのテーブルに統合するフィーチャーエンジニアリングを行い、その後に単一テーブルモデルを適用する。このアプローチは、特徴エンジニアリングに多大な労力を要するだけでなく、データに内在する関係構造を破壊してしまう。このような課題に対処するために、我々はグラフベース特徴合成(GFS)と呼ばれる新しいフレームワークを提案する。GFSは関係データベースを異種グラフとして定式化し、データ内の関係構造を保持する。単一テーブルモデルからの帰納的バイアスを活用することで、GFSは各テーブルに内在する複雑な関係を効果的に捉える。さらに、このフレームワーク全体により、手作業によるフィーチャーエンジニアリングが不要になる。実世界の4つのマルチテーブルリレーショナルデータベースに対する広範な実験において、GFSはリレーショナルデータベース用に設計された従来の手法を凌駕し、その優れた性能を実証した。

要約(オリジナル)

Relational databases are extensively utilized in a variety of modern information system applications, and they always carry valuable data patterns. There are a huge number of data mining or machine learning tasks conducted on relational databases. However, it is worth noting that there are limited machine learning models specifically designed for relational databases, as most models are primarily tailored for single table settings. Consequently, the prevalent approach for training machine learning models on data stored in relational databases involves performing feature engineering to merge the data from multiple tables into a single table and subsequently applying single table models. This approach not only requires significant effort in feature engineering but also destroys the inherent relational structure present in the data. To address these challenges, we propose a novel framework called Graph-based Feature Synthesis (GFS). GFS formulates the relational database as a heterogeneous graph, thereby preserving the relational structure within the data. By leveraging the inductive bias from single table models, GFS effectively captures the intricate relationships inherent in each table. Additionally, the whole framework eliminates the need for manual feature engineering. In the extensive experiment over four real-world multi-table relational databases, GFS outperforms previous methods designed for relational databases, demonstrating its superior performance.

arxiv情報

著者 Han Zhang,Quan Gan,David Wipf,Weinan Zhang
発行日 2023-12-04 16:54:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.DB, cs.LG パーマリンク