Graph Conditional Flow Matching for Relational Data Generation

要約

データ統合は、プライバシーを向上させる技術として勢いを増しています。
単一テーブルの表形式データ生成にはかなりの進歩が見られますが、マルチテーブルデータの現在の方法には、複雑なリレーショナル構造をキャプチャするために必要な柔軟性と表現性が欠けていることがよくあります。
特に、彼らは、複数の親テーブルを備えたテーブルや、同じテーブル間の複数のタイプのリンクなど、長距離依存関係や複雑な外国人関係と格闘しています。
外部キー関係によって形成されたグラフを考慮して、リレーショナルデータセットのコンテンツを生成するリレーショナルデータの生成モデルを提案します。
これを行います。フローマッチングにより、リレーショナルデータベース全体のコンテンツの深い生成モデルを学習します。ここでは、Neural NetworkがDenoiseレコードにトレーニングし、接続されたレコードから情報を取得するためにグラフニューラルネットワークを活用します。
各レコードの生成は、同じ接続されたコンポーネント内の他のレコードの影響を受ける可能性があるため、複雑な構造でリレーショナルデータセットをサポートできるため、私たちの方法は柔軟です。
いくつかのベンチマークデータセットでの方法を評価し、合成データの忠実度の観点から最先端のパフォーマンスを達成することを示します。

要約(オリジナル)

Data synthesis is gaining momentum as a privacy-enhancing technology. While single-table tabular data generation has seen considerable progress, current methods for multi-table data often lack the flexibility and expressiveness needed to capture complex relational structures. In particular, they struggle with long-range dependencies and complex foreign-key relationships, such as tables with multiple parent tables or multiple types of links between the same pair of tables. We propose a generative model for relational data that generates the content of a relational dataset given the graph formed by the foreign-key relationships. We do this by learning a deep generative model of the content of the whole relational database by flow matching, where the neural network trained to denoise records leverages a graph neural network to obtain information from connected records. Our method is flexible, as it can support relational datasets with complex structures, and expressive, as the generation of each record can be influenced by any other record within the same connected component. We evaluate our method on several benchmark datasets and show that it achieves state-of-the-art performance in terms of synthetic data fidelity.

arxiv情報

著者 Davide Scassola,Sebastiano Saccani,Luca Bortolussi
発行日 2025-05-21 15:45:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.LG パーマリンク