要約
表形式のデータは一般的ですが、通常は不完全で、量が少なく、プライバシー上の懸念からアクセスが制限されています。
合成データの生成は、潜在的なソリューションを提供します。
合成表データの品質を評価するための指標が多数存在します。
しかし、私たちは多くの指標について客観的で一貫した解釈を欠いています。
この問題に対処するために、合成データは観測データと同じ分布から抽出されるべきであるという単一の数学的目的を備えた評価フレームワークを提案します。
このフレームワークは、目標のさまざまな構造的分解を通じて、あらゆるメトリクスのセットの完全性を初めて推論できるようにするだけでなく、忠実性の考慮事項、下流のアプリケーション、モデルベースのアプローチから生じるものを含む既存のメトリクスを統合することを可能にします。
さらに、このフレームワークはモデルフリーのベースラインと新しい範囲のメトリクスを促進します。
構造的に情報を与えられたシンセサイザーと深層学習を利用したシンセサイザーを評価します。
構造化フレームワークを使用して、表構造を明示的に表す合成データ ジェネレーターが、特に小規模なデータセットで他の方法よりも優れたパフォーマンスを発揮することを示します。
要約(オリジナル)
Tabular data is common yet typically incomplete, small in volume, and access-restricted due to privacy concerns. Synthetic data generation offers potential solutions. Many metrics exist for evaluating the quality of synthetic tabular data; however, we lack an objective, coherent interpretation of the many metrics. To address this issue, we propose an evaluation framework with a single, mathematical objective that posits that the synthetic data should be drawn from the same distribution as the observed data. Through various structural decomposition of the objective, this framework allows us to reason for the first time the completeness of any set of metrics, as well as unifies existing metrics, including those that stem from fidelity considerations, downstream application, and model-based approaches. Moreover, the framework motivates model-free baselines and a new spectrum of metrics. We evaluate structurally informed synthesizers and synthesizers powered by deep learning. Using our structured framework, we show that synthetic data generators that explicitly represent tabular structure outperform other methods, especially on smaller datasets.
arxiv情報
著者 | Scott Cheng-Hsin Yang,Baxter Eaves,Michael Schmidt,Ken Swanson,Patrick Shafto |
発行日 | 2024-03-15 15:58:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google