Programmable Synthetic Tabular Data Generation

要約

プライバシー、データ品質、データ共有の制限により、大量の表形式データが十分に活用されていないままです。
元の分布に似た合成データを生成する生成モデルをトレーニングすると、これらの問題の一部が解決されますが、ほとんどのアプリケーションでは、生成されたデータから追加の制約が必要になります。
既存の合成データのアプローチは、通常、差分プライバシー (DP) や公平性の向上などの特定の制約のみを処理し、一般仕様を宣言するためのアクセス可能なインターフェイスが欠けているため、制限されています。
この研究では、生成されたデータの包括的なカスタマイズを可能にする初のプログラム可能な合成表形式データ生成アルゴリズムである ProgSyn を紹介します。
カスタム仕様を遵守しながら高いデータ品質を確保するために、ProgSyn は元のデータセットで生成モデルを事前トレーニングし、提供された仕様から自動的に導出される微分可能損失に基づいて微調整します。
これらは、統計的および論理的な式を使用してプログラムで宣言でき、幅広い要件 (例: DP や公平性など) をサポートします。
私たちは、多くの制約に関して ProgSyn の広範な実験評価を実施し、一般性を保ちながら、いくつかの制約については新しい最先端を実現しています。
たとえば、同じ公平性レベルで、成人データセットでの最先端の公平な合成データ生成よりも 2.3% 高いダウンストリーム精度を達成します。
全体として、ProgSyn は、制約付き合成表形式データを生成するための多用途でアクセス可能なフレームワークを提供し、以前の作業の能力を超えて一般化する仕様を可能にします。

要約(オリジナル)

Large amounts of tabular data remain underutilized due to privacy, data quality, and data sharing limitations. While training a generative model producing synthetic data resembling the original distribution addresses some of these issues, most applications require additional constraints from the generated data. Existing synthetic data approaches are limited as they typically only handle specific constraints, e.g., differential privacy (DP) or increased fairness, and lack an accessible interface for declaring general specifications. In this work, we introduce ProgSyn, the first programmable synthetic tabular data generation algorithm that allows for comprehensive customization over the generated data. To ensure high data quality while adhering to custom specifications, ProgSyn pre-trains a generative model on the original dataset and fine-tunes it on a differentiable loss automatically derived from the provided specifications. These can be programmatically declared using statistical and logical expressions, supporting a wide range of requirements (e.g., DP or fairness, among others). We conduct an extensive experimental evaluation of ProgSyn on a number of constraints, achieving a new state-of-the-art on some, while remaining general. For instance, at the same fairness level we achieve 2.3% higher downstream accuracy than the state-of-the-art in fair synthetic data generation on the Adult dataset. Overall, ProgSyn provides a versatile and accessible framework for generating constrained synthetic tabular data, allowing for specifications that generalize beyond the capabilities of prior work.

arxiv情報

著者 Mark Vero,Mislav Balunović,Martin Vechev
発行日 2023-07-07 13:10:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DB, cs.LG, cs.PL パーマリンク