Benchmarking Synthetic Tabular Data: A Multi-Dimensional Evaluation Framework

要約

合成データの品質を評価することは、データ駆動型の研究におけるプライバシーとユーティリティを確保するための重要な課題です。
この作業では、合成データがプライバシーを確​​保しながら元の分布プロパティをどの程度複製するかを定量化する評価フレームワークを提示します。
提案されたアプローチでは、低次元および高次元の分布比較、埋め込みベースの類似性測定、および最近傍距離メトリックを通じて定量的評価を促進するホールドアウトベースのベンチマーク戦略を採用しています。
フレームワークは、シーケンシャルおよびコンテキスト情報を含むさまざまなデータ型と構造をサポートし、標準化されたメトリックのセットを通じて解釈可能な品質診断を可能にします。
これらの貢献は、合成データ生成技術のベンチマークにおける再現性と方法論的な一貫性をサポートすることを目的としています。
フレームワークのコードは、https://github.com/mostly-ai/mostlyai-qaで入手できます。

要約(オリジナル)

Evaluating the quality of synthetic data remains a key challenge for ensuring privacy and utility in data-driven research. In this work, we present an evaluation framework that quantifies how well synthetic data replicates original distributional properties while ensuring privacy. The proposed approach employs a holdout-based benchmarking strategy that facilitates quantitative assessment through low- and high-dimensional distribution comparisons, embedding-based similarity measures, and nearest-neighbor distance metrics. The framework supports various data types and structures, including sequential and contextual information, and enables interpretable quality diagnostics through a set of standardized metrics. These contributions aim to support reproducibility and methodological consistency in benchmarking of synthetic data generation techniques. The code of the framework is available at https://github.com/mostly-ai/mostlyai-qa.

arxiv情報

著者 Andrey Sidorenko,Michael Platzer,Mario Scriminaci,Paul Tiwald
発行日 2025-04-02 17:10:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク